Как работают персональные рекомендации
С развитием поисковых систем индустрия новостных печатных изданий пережила, возможно, наиболее сильную трaнcформацию за всю свою история. Представьте себе систему, которая агрегирует содержание нескольких тысяч новостных источников, сортирует их по темам и выдаёт пользователю только тот контент, который заинтересует его больше всего. Представили?
Этот пост позволит понять ту часть сложной работы Google, которая связана непосредственно с системой рекомендаций для пользователя. Этот пост будет по традиции содержать разные определения и формулы. :) Системы персональных рекомендаций играют важную роль в жизни крупных порталов и интернет-магазинов. Amazon заявляет, что более 40% продаж на их сайте происходит за счёт грамотной системы рекомендаций для пользователя. Существует несколько способов построения такой системы. Это и примитивные модели, и иерархическая кластеризация, и коллаборативная фильтрация, о которой далее пойдет речь. Строго говоря, проблема построения персональных рекомендаций выглядит так:
Для истории кликов N пользователей (U = {u1, u2, ..., uN}) над множеством статей S (S= {s1, s2, ..., sM}) и выбранного пользователя u с множеством истории кликов Cu {si1, ... si|Cu|} подобрать K статей, которые могут быть для него интересны.
Google решает эту проблему с помощью двух алгоритмов:
- MinHash-кластеризация
- Вероятностная латентно-семантическая индексация (PLSI)
MinHash работает достаточно просто - он делит всех пользователей системы по кластерам с вероятностью, соответствующей пересечению множеств интересов системы. В случае Google под интересом подразумевается клик пользователю ui на статью sj. Математически эту метрику \"схожести\" можно записать как
где ui - пользователи, Cui - множество интересов пользователя. Чтобы система работала корректно, метрика должна быть определена на множестве всех пользователей - Google применяет улучшения алгоритма Locality Sensitive Hashing и Map Reduce для проведения таких вычислений в реальном времени. Вероятностная латентно-семантическая индексация рассматривает пользователей и статьи как случайные величины и строит связь между этими множествами через смешанное распределение. Представьте огромный массив, состоящий из всех пользователей и статей. Прочтя ту или иную новость, в соответствующую ячейку матрицы заносится маркер. Размер массива очень большой и PLSI уменьшает его, позволяя спрогнозировать все комбинации пользователей и статей. Детальное описание модели опустим, оно достаточно сложное. :) После того, как кластеры пользователей сформированы, можно определить, насколько та или иная статья подходит для рекомендации:
- Взять кластеры, к которым относится пользователь.
- Для каждого кластера проверить, как часто его пользователи \"голосовали\" за статью (т.е. кликали на неё). Нормализовать величину.
- Посчитать ранг статьи.
Для более точной работы персональных рекомендаций Google также использует метрику, которая называется \"со-визиты\" (covisitation). Идея её в том, что со-визит между статьями s и s\\\' имеет место, если в течение заданного интервала времени пользователь сначала перешёл по статье s, а потом по s\\\' или наоборот. Хранить все со-визиты можно в виде графа, узлами которого являются статьи, а рёбрами - количество со-визитов.
Теперь, после определения всех методов построения рекомендаций, можно собрать все алгоритмы воедино и построить такую систему:
- Пользователь открывает Google.
- Система выбирает кандидатов на рекомендации, построив объединение двух множеств: множества статей, которые просматривались всеми пользователями кластера, и множества статей, которые имели со-визиты с историей пользователя.
- Сортировка кандидатов.
- Выдача данных пользователю.
Наиболее очевидный пример – это построение персональных рекомендаций товаров для интернет-магазина, используя технику со-визитов.
Персональные рекомендации для интернет-магазина
Алгоритм простой:
- Строим таблицу истории кликов для каждого пользователя, время жизни которой не превышает нескольких дней. Также строим таблицу для всех товаров, в каждой ячейке которой есть частота со-визитов между каждым товаром.
- При появлении нового клика забираем каждый элемент из истории кликов и обновляем коэффициенты по всем парам просмотренным товарам с новым товаром. Чем меньше времени прошло между просмотром «старого» и «нового» товара, тем выше можно сделать коэффициенты.
- При создании списка рекомендаций для конкретного товара нужно выбрать такие товары, которые имеют с текущим наибольший ранг. Интуитивно этот тип рекомендаций можно назвать как «Пользователи, которые смотрели этот товар, также смотрели».
Комментарии:
29 ноября в Киеве в UNIT.City — конференция по медицинскому маркетингу MeDiConf...
13 05 2025 21:13:22
После того, как мы разобрали виды мобильных версий сайтов, их плюсы и минусы — стоит поговорить о сервисах, которые облегчают аудит....
12 05 2025 16:33:16
Айти эксперт Женя Розинский о том, почему нацию айти развивают продуктовые бизнесы, а не outsourcing сервисы...
11 05 2025 20:31:21
Денис Бигус, Bihus.info: с 13 до 457 000 подписчиков на YouTube за четыре года....
10 05 2025 12:19:17
Исправление ошибок в тексте возможно с помощью онлайн-инструментов и стационарных программ...
09 05 2025 14:58:34
Осторожно: очень страшно. Про теневой бан, гифки, цену клика, рекламный бюджет, ответы подписчикам, ошибки, наличие интернета подробно и в драматических деталях. Читайте в статье!...
08 05 2025 23:12:57
2 любопытные истории и 8 успешных стартапов, которые вас удивят....
07 05 2025 15:19:56
Исправляем ошибки в рекламных кампаниях, аналитике и бюджете...
06 05 2025 18:54:33
Те самые проблемы, если бизнес пришел к вам за услугой, но ему не нужен маркетинг в интернете. Мнения экспертов интернет-маркетинга....
05 05 2025 20:25:50
Как снизить цену за привлечение клиента на 50%, развивая только кампании для пользователей десктопов....
04 05 2025 10:24:57
Не только netpeak spider. Главные детали о новой версии инструмента Netpeak Checker 3.0: парсер гугла, массовый анализ сайтов, антибан-алгоритм для прокси, шаблоны параметров и фильтров...
03 05 2025 0:55:16
И чем этот тип отслеживания событий отличается от Client-side. Узнать!...
02 05 2025 18:36:58
История о предсказательной аналитике системы автоматизации маркетинга, онлайн-магазине и ненужных письмах....
01 05 2025 5:49:37
Тема поста — исследование электронной коммерции в Украине: рынки, статистика, объем продаж, поисковый потенциал....
30 04 2025 12:54:28
Seznam.cz — одна из пяти поисковых систем в мире, сумевших в отдельно взятой стране стать популярнее Google...
29 04 2025 23:33:34
В 2019 году в цикл зрелости вошли 28 технологий и инструментов...
28 04 2025 23:53:20
Стратегия контекстной рекламы для лендинга турагенства: увеличение количества онлайн-бронирований на 100%...
27 04 2025 8:27:36
Заработок в четверть миллиона. Как многофункциональная SEO-платформа Serpstat из Netpeak Group стала самым продаваемым продуктом на AppSumo — пошаговая история-инструкция...
26 04 2025 1:18:50
Покажем, как продвигать сайты, продающие детскую обувь...
25 04 2025 13:34:37
Как мы с помощью Call Tracking узнали настоящую рентабельность контекстной рекламы для магазина мебели...
24 04 2025 18:49:52
Особенности продвижения в нише аренды автомобилей по материалам кейсов наших коллег...
23 04 2025 8:33:39
Разбор типичных ошибок в рекламе Google Shopping как обязательного инструмента рекламы в Google. О минус-словах, геолокации, структуре сайта и обновлении объявлений. Что именно важно? Читайте дальше!...
22 04 2025 23:53:46
Эти данные пригодятся в составлении медиапланов по продвижению в интернете. Понимания стоимость конверсии и необходимое количество конверсий, вы можете прогнозировать, сколько денег на рекламу нужно выделить. Читать!...
21 04 2025 16:53:58
Как с помощью Google Tag Manager отслеживать исходящие ссылки на сайте и загрузки файлов с него...
20 04 2025 0:32:13
Советы бизнесу от зрителей Big Money и Артема Бородатюка. Предлагаем 11 универсальных, но простых и понятных идей....
19 04 2025 7:20:18
Создатель scrum model Джефф Сазерленд написал книгу о том, как использовать методику разработки программного обеспечения для развития бизнеса....
18 04 2025 22:20:52
Почему сайт упал в выдаче и какой апдейт алгоритма поисковика на это повлиял...
17 04 2025 18:42:44
SEO для цветочных магазинов с оплатой за трафик и полученные результаты...
16 04 2025 9:59:24
Что такое контекстная реклама? Настраиваем рекламу в поиске Google...
15 04 2025 8:41:55
Анализ данных о 7,6 миллионах поисковых запросов в французском Google...
14 04 2025 23:43:57
Увлекательные истории от специалиста по контекстной рекламе....
13 04 2025 11:42:53
От того, что такое оффер до лучших стратегий и избежания ошибок...
12 04 2025 11:59:25
Изначально необходимо планировать продолжительное сотрудничество с агентством для достижения поставленных целей. В своей стратегии мы использовали сезонность, чтобы достичь максимальных результатов для клиента...
11 04 2025 16:35:59
Устанавливаем тег конверсий: самостоятельно и с помощью Google Tag Manager....
10 04 2025 15:32:45
SEO-dashboard для сбора данных в Google-таблицы и отправка отчетов по email. Решение, которое поможет заметить глобальные изменения в потоках трафика. Узнать больше!...
09 04 2025 1:45:46
Небольшой набор секретов по работе с Планировщиком ключевых слов гугла...
08 04 2025 1:55:39
Идеи для интернет-маркетологов, как получить дополнительные каналы трафика и сделать заметным сниппет в поисковой выдаче....
07 04 2025 16:48:50
Инструкция для новичков по одновременной работе с кампаниями, а также объявлениями и группами в Яндекс.Директ...
06 04 2025 19:49:36
Почему в рекламе недвижимости стоит запускать динамический ремаркетинг...
05 04 2025 17:42:50
Краш-тест сервиса визуализации данных: выбираем задачу, источники, создаём отчет с помощью DataDeck. Бонус в конце — лаконичные списки преимуществ и недостатков этого инструмента и приятный подарок для дочитавших...
04 04 2025 6:40:12
Как эффективно распределять бюджет и ресурсы на обучение сотрудников. Статья будет полезной для собственников бизнеса и HR-специалистов....
03 04 2025 9:40:21
Наш обзор кинофильма «Социальная сеть» про Facebook и Марка Цукерберга....
02 04 2025 10:18:14
Как специалисту сэкономить время для создания и оптимизации кампаний, проверки орфографии и другие фишки. Советы из пpaктики....
01 04 2025 12:47:45
Тошнота и процент воды в тексте не должны превышать допустимую норму, иначе не только пользователи уйдут с сайта, поисковые роботы понизят сайт в рейтинге. Узнать больше!...
31 03 2025 20:42:31
Пока вы не осознаете причины, почему вам выгодно не хвалить, забудьте про качественную обратную связь и максимальную включенность комaнды. Фишки управления собой, людьми и проектами....
30 03 2025 19:58:56
У каждого сайта в топе есть страница, о существовании которой знают только роботы и... SEO-специалисты. Это robots.txt или индексный файл....
29 03 2025 16:27:48
О промдизайне, инсайтах, испытаниях для дизайнеров по мотивам BBC-шоу «Дизайн для жизни» с Филиппом Старком....
28 03 2025 12:29:34
Стандартный образец для новичков. Форматы объявлений в РСЯ, чтобы начинающие специалисты по контекстной рекламе смогли быстро и эффективно запустить рекламные кампании. Интересно? Читайте дальше!...
27 03 2025 22:19:48
79% владельцев смартфонов, если верить Google, используют их для покупок или заказов услуг. Это более двух миллиардов человек. Ничего удивительного, что даже Google запустил собственный сервис Call Tracking. Кому и зачем жизненно важно отслеживать звонки...
26 03 2025 19:55:24
До понижения в органической выдачи Гугл у сайта есть около 15 дней с момента появления сообщения о вредоносном контенте....
25 03 2025 14:51:37
Еще:
понять и запомнить -1 :: понять и запомнить -2 :: понять и запомнить -3 :: понять и запомнить -4 :: понять и запомнить -5 :: понять и запомнить -6 :: понять и запомнить -7 ::