Как работают персональные рекомендации
С развитием поисковых систем индустрия новостных печатных изданий пережила, возможно, наиболее сильную трaнcформацию за всю свою история. Представьте себе систему, которая агрегирует содержание нескольких тысяч новостных источников, сортирует их по темам и выдаёт пользователю только тот контент, который заинтересует его больше всего. Представили?
Этот пост позволит понять ту часть сложной работы Google, которая связана непосредственно с системой рекомендаций для пользователя. Этот пост будет по традиции содержать разные определения и формулы. :) Системы персональных рекомендаций играют важную роль в жизни крупных порталов и интернет-магазинов. Amazon заявляет, что более 40% продаж на их сайте происходит за счёт грамотной системы рекомендаций для пользователя. Существует несколько способов построения такой системы. Это и примитивные модели, и иерархическая кластеризация, и коллаборативная фильтрация, о которой далее пойдет речь. Строго говоря, проблема построения персональных рекомендаций выглядит так:
Для истории кликов N пользователей (U = {u1, u2, ..., uN}) над множеством статей S (S= {s1, s2, ..., sM}) и выбранного пользователя u с множеством истории кликов Cu {si1, ... si|Cu|} подобрать K статей, которые могут быть для него интересны.
Google решает эту проблему с помощью двух алгоритмов:
- MinHash-кластеризация
- Вероятностная латентно-семантическая индексация (PLSI)
MinHash работает достаточно просто - он делит всех пользователей системы по кластерам с вероятностью, соответствующей пересечению множеств интересов системы. В случае Google под интересом подразумевается клик пользователю ui на статью sj. Математически эту метрику \"схожести\" можно записать как
где ui - пользователи, Cui - множество интересов пользователя. Чтобы система работала корректно, метрика должна быть определена на множестве всех пользователей - Google применяет улучшения алгоритма Locality Sensitive Hashing и Map Reduce для проведения таких вычислений в реальном времени. Вероятностная латентно-семантическая индексация рассматривает пользователей и статьи как случайные величины и строит связь между этими множествами через смешанное распределение. Представьте огромный массив, состоящий из всех пользователей и статей. Прочтя ту или иную новость, в соответствующую ячейку матрицы заносится маркер. Размер массива очень большой и PLSI уменьшает его, позволяя спрогнозировать все комбинации пользователей и статей. Детальное описание модели опустим, оно достаточно сложное. :) После того, как кластеры пользователей сформированы, можно определить, насколько та или иная статья подходит для рекомендации:
- Взять кластеры, к которым относится пользователь.
- Для каждого кластера проверить, как часто его пользователи \"голосовали\" за статью (т.е. кликали на неё). Нормализовать величину.
- Посчитать ранг статьи.
Для более точной работы персональных рекомендаций Google также использует метрику, которая называется \"со-визиты\" (covisitation). Идея её в том, что со-визит между статьями s и s\\\' имеет место, если в течение заданного интервала времени пользователь сначала перешёл по статье s, а потом по s\\\' или наоборот. Хранить все со-визиты можно в виде графа, узлами которого являются статьи, а рёбрами - количество со-визитов.
Теперь, после определения всех методов построения рекомендаций, можно собрать все алгоритмы воедино и построить такую систему:
- Пользователь открывает Google.
- Система выбирает кандидатов на рекомендации, построив объединение двух множеств: множества статей, которые просматривались всеми пользователями кластера, и множества статей, которые имели со-визиты с историей пользователя.
- Сортировка кандидатов.
- Выдача данных пользователю.
Наиболее очевидный пример – это построение персональных рекомендаций товаров для интернет-магазина, используя технику со-визитов.
Персональные рекомендации для интернет-магазина
Алгоритм простой:
- Строим таблицу истории кликов для каждого пользователя, время жизни которой не превышает нескольких дней. Также строим таблицу для всех товаров, в каждой ячейке которой есть частота со-визитов между каждым товаром.
- При появлении нового клика забираем каждый элемент из истории кликов и обновляем коэффициенты по всем парам просмотренным товарам с новым товаром. Чем меньше времени прошло между просмотром «старого» и «нового» товара, тем выше можно сделать коэффициенты.
- При создании списка рекомендаций для конкретного товара нужно выбрать такие товары, которые имеют с текущим наибольший ранг. Интуитивно этот тип рекомендаций можно назвать как «Пользователи, которые смотрели этот товар, также смотрели».
Комментарии:
Самые точные данные статистики, которые вы получите с помощью Google Tag Manager....
04 10 2024 1:33:26
SEO-dashboard для сбора данных в Google-таблицы и отправка отчетов по email. Решение, которое поможет заметить глобальные изменения в потоках трафика. Узнать больше!...
03 10 2024 17:56:11
Примеры креативного авторского стиля копирайтеров, которые старались обыграть УТП продукта, услуги, стремились необычно подать обычное. Узнать больше!...
02 10 2024 6:18:12
Кейс: новинки в продвижении рекламы интернет-магазина в контекстно-медийной сети Google...
01 10 2024 21:48:46
Последствия удаленки на уровне крупного бизнеса. Как сотрудники и топ-менеджмент не могут договориться. Спopные вопросы, ответы на которые ещё предстоит найти. Узнать больше....
30 09 2024 21:14:10
Специалистам часто приходится проводить вебинары и для этого нужна адекватная площадка. В инсайдерском посте мы рассказываем, как выбирали подходящую платформу для проведения вебинаров и что из этого вышло....
29 09 2024 0:54:33
Красивое креативное описание страницы «о нас» — важная составляющая коммуникации с потенциальным клиентом. Покажите свою комaнду, опишите ценности и миссию. Сделайте эту страницу продающей. Узнать больше!...
28 09 2024 13:38:25
Про работу мозга и запоминание из книги Торкеля Клинберга «Информационный поток и пределы рабочей памяти» и обзор игр Lumosity....
27 09 2024 23:37:17
Как с помощью элементов микро UX в дизайне сделать сайт интернет-магазина незабываемым...
26 09 2024 4:18:35
Что, если бы покупка в супермаркете происходила так же, как в онлайн-магазине?...
25 09 2024 14:47:20
Давайте больше не будем сливать бюджет, выбирая неправильный параметр....
24 09 2024 14:24:35
Атрибут rel="canonical" помогает бороться с дублированием контента и обезопасить сайт от дублирования и копирования...
23 09 2024 21:28:32
Делаем первые шаги к созданию системы email-коммуникаций бренда....
22 09 2024 7:48:15
Иконки отличаются между собой размером, формой, весом, количеством оттенков и объемом. Наиболее популярными считаются векторные пиктограммы...
21 09 2024 21:17:39
Простой и понятный разбор двух формул для расчета коэффициента вовлеченности...
20 09 2024 13:59:18
Мы решили определить и раскрыть самые популярные вопросы по работе нового алгоритма Google Колибри...
19 09 2024 11:53:40
Новая инструкция, которую можно применять к любым задачам в Google Таблицах....
18 09 2024 20:32:37
SMM от Netpeak — это разработки стратегий продвижения, механики конкурсов, медиапланирование и постоянная интеpaктивная связь с клиентом с помощью «Личного кабинета»....
17 09 2024 11:54:24
Личный опыт экс-главреда экс-блога Netpeak (сейчас — Netpeak Journal): о работе с информацией, мотивации написания, редактуре черновика, подаче информации по степени важности, выделении главного и составлении окончательной версии текста. Как сделать текст логичным и полезным? Узнайте!...
16 09 2024 10:51:53
Успех рекламы во многом зависит от сезонности, популярности тематики и умения оперативно среагировать на тренд. Для этого и существует сервис Google Trends....
15 09 2024 14:47:35
Что делать, если вы специально или нет попали под фильтр: руководство от выявления до спасения...
14 09 2024 0:23:12
С каждым годом китайские маркетплейсы увеличивают свое влияние, и покупатели всё активней заказывают товары из Поднебесной. Но не всё скидки да покупки — обладатели интернет-аудитории и маркетологи могут еще и хорошо заработать на этих площадках....
13 09 2024 8:59:53
Словосочетания и аббревиатуры, которыми пользуются на рынке игрового маркетинга....
12 09 2024 15:44:22
Что учитывать при продвижении недвижимости, клиник красоты, магазинов косметики, сайтов по продаже семян, шин?...
11 09 2024 12:33:26
Полем битвы стала тематика кроваток, игрушек и прочих детских товаров, основным оружием в бою — контекстная реклама....
10 09 2024 23:56:47
Как делать мгновенный мониторинг изменений на сайтах? Марина Демьяненко предложила простое решение вопроса с помощью Kimono и таблиц Google....
09 09 2024 20:52:48
Сотрудник Google расскажет о том, как присоединиться к протесту, не навредив сайту....
08 09 2024 6:22:31
Формула изменения поведения Фогга и два красочных примера инсайде....
07 09 2024 21:15:17
Тренды, рекомендации, уроки, инструкции, а также вакансии, идеи, кейсы и всё, что поможет оставаться в теме, находить интересные проекты и вдохновляться. Читать дальше....
06 09 2024 10:53:24
Краш-тест сервиса визуализации данных: выбираем задачу, источники, создаём отчет с помощью DataDeck. Бонус в конце — лаконичные списки преимуществ и недостатков этого инструмента и приятный подарок для дочитавших...
05 09 2024 6:42:43
Относящиеся к низкочастотным long-tail запросы при правильном подходе могут стать эффективным инструментом для увеличения трафика. Рассказываем почему, а главное — как....
04 09 2024 23:30:14
Правила, законы, платное и бесплатное продвижение в Telegram...
03 09 2024 15:19:50
О том, как добавить статью в Википедию и о правилах, которые нужно выполнить, чтобы ее не удалили: от добавления Интервики до ссылок на другие статьи, специальных терминов, добавления страниц в категории и выбора источников. Узнать больше!...
02 09 2024 4:52:33
160 символов — размер рекламного сообщения, 2 млн евро — минимальный бюджет для запуска. Уже интересно?...
01 09 2024 6:39:20
Рассказываем про маркетинговые техники продающих email рассылок...
31 08 2024 20:40:40
Расчет прогноза по LTV позволит более точно задать параметры рекламной кампании в Apple Search Ads на начальном этапе. Как это делают в RadASO, читайте в статье....
30 08 2024 0:56:45
Инсайты от специалистов агентства Netpeak о популярных тематиках, тенденциях, особенностях продвижения в карантин и кризис, новых правилах для контекстной рекламы и других способов продвижения. Чтобы узнать больше, читайте далее!...
29 08 2024 12:41:58
Наука перехода — понятие краулинга (crawling, сканирование) сайта и принципа его работы. Виды поисковых роботов и способы их управления и другие полезные фишки в рубрике Азбука SEO на Netpeak Blog...
28 08 2024 13:26:40
Чтобы понять, как работает Роскомнадзор, пришлось разбираться в деталях и делать опрос по топовым хостингам. Ответы и выводы читайте в статье....
27 08 2024 23:11:11
Чем радовала, смущала и шокировала реклама в социальных сетях в марте 2021-го...
26 08 2024 10:20:28
Не все события удобно отслеживать в Google ***ytics, иногда удобнее сделать связку с таблицами Google. А поможет в этом Google Tag Manager...
25 08 2024 17:37:16
Узнаем расширенную информацию о посещениях сайта с помощью языка R — кейс Netpeak...
24 08 2024 13:29:20
Как регулярно мониторить перспективные товары, по которым можно запускать контекстную рекламу...
23 08 2024 23:21:53
Советы специалистам по контекстной рекламе. Технические сложности, которые возникают при работе с Google ***ytics: от ограничений интерфейса до ошибок настройки отслеживания и последующей недостоверности полученных данных, и решения для них...
22 08 2024 20:26:44
Netpeak подводит итоги 2016 года и делится планами на будущее....
21 08 2024 1:40:39
Лучшая работа по перехвату инициативы у конкурентов в аналитике продаж...
20 08 2024 17:37:48
Это исследование для тех, кто хочет выяснить, эффективно ли работать с лидами, если им год и больше...
19 08 2024 20:53:11
Создание даже короткого ролика может стоить дорого. Поэтому можно использовать бесплатный инструмент Bumper Machine от Google....
18 08 2024 4:51:47
Словарь, которым пользуются SEO-специалисты агентства Netpeak...
17 08 2024 18:42:55
За что, по мнению рекламодателей, готовы платить пользователи в России и Украине? Рейтинг самых дорогих ключевых слов Google Рекламы по версии Serpstat....
16 08 2024 19:47:52
Еще:
понять и запомнить -1 :: понять и запомнить -2 :: понять и запомнить -3 :: понять и запомнить -4 :: понять и запомнить -5 :: понять и запомнить -6 :: понять и запомнить -7 ::