Как работают персональные рекомендации
С развитием поисковых систем индустрия новостных печатных изданий пережила, возможно, наиболее сильную трaнcформацию за всю свою история. Представьте себе систему, которая агрегирует содержание нескольких тысяч новостных источников, сортирует их по темам и выдаёт пользователю только тот контент, который заинтересует его больше всего. Представили?
Этот пост позволит понять ту часть сложной работы Google, которая связана непосредственно с системой рекомендаций для пользователя. Этот пост будет по традиции содержать разные определения и формулы. :) Системы персональных рекомендаций играют важную роль в жизни крупных порталов и интернет-магазинов. Amazon заявляет, что более 40% продаж на их сайте происходит за счёт грамотной системы рекомендаций для пользователя. Существует несколько способов построения такой системы. Это и примитивные модели, и иерархическая кластеризация, и коллаборативная фильтрация, о которой далее пойдет речь. Строго говоря, проблема построения персональных рекомендаций выглядит так:
Для истории кликов N пользователей (U = {u1, u2, ..., uN}) над множеством статей S (S= {s1, s2, ..., sM}) и выбранного пользователя u с множеством истории кликов Cu {si1, ... si|Cu|} подобрать K статей, которые могут быть для него интересны.
Google решает эту проблему с помощью двух алгоритмов:
- MinHash-кластеризация
- Вероятностная латентно-семантическая индексация (PLSI)
MinHash работает достаточно просто - он делит всех пользователей системы по кластерам с вероятностью, соответствующей пересечению множеств интересов системы. В случае Google под интересом подразумевается клик пользователю ui на статью sj. Математически эту метрику \"схожести\" можно записать как
где ui - пользователи, Cui - множество интересов пользователя. Чтобы система работала корректно, метрика должна быть определена на множестве всех пользователей - Google применяет улучшения алгоритма Locality Sensitive Hashing и Map Reduce для проведения таких вычислений в реальном времени. Вероятностная латентно-семантическая индексация рассматривает пользователей и статьи как случайные величины и строит связь между этими множествами через смешанное распределение. Представьте огромный массив, состоящий из всех пользователей и статей. Прочтя ту или иную новость, в соответствующую ячейку матрицы заносится маркер. Размер массива очень большой и PLSI уменьшает его, позволяя спрогнозировать все комбинации пользователей и статей. Детальное описание модели опустим, оно достаточно сложное. :) После того, как кластеры пользователей сформированы, можно определить, насколько та или иная статья подходит для рекомендации:
- Взять кластеры, к которым относится пользователь.
- Для каждого кластера проверить, как часто его пользователи \"голосовали\" за статью (т.е. кликали на неё). Нормализовать величину.
- Посчитать ранг статьи.
Для более точной работы персональных рекомендаций Google также использует метрику, которая называется \"со-визиты\" (covisitation). Идея её в том, что со-визит между статьями s и s\\\' имеет место, если в течение заданного интервала времени пользователь сначала перешёл по статье s, а потом по s\\\' или наоборот. Хранить все со-визиты можно в виде графа, узлами которого являются статьи, а рёбрами - количество со-визитов.
Теперь, после определения всех методов построения рекомендаций, можно собрать все алгоритмы воедино и построить такую систему:
- Пользователь открывает Google.
- Система выбирает кандидатов на рекомендации, построив объединение двух множеств: множества статей, которые просматривались всеми пользователями кластера, и множества статей, которые имели со-визиты с историей пользователя.
- Сортировка кандидатов.
- Выдача данных пользователю.
Наиболее очевидный пример – это построение персональных рекомендаций товаров для интернет-магазина, используя технику со-визитов.
Персональные рекомендации для интернет-магазина
Алгоритм простой:
- Строим таблицу истории кликов для каждого пользователя, время жизни которой не превышает нескольких дней. Также строим таблицу для всех товаров, в каждой ячейке которой есть частота со-визитов между каждым товаром.
- При появлении нового клика забираем каждый элемент из истории кликов и обновляем коэффициенты по всем парам просмотренным товарам с новым товаром. Чем меньше времени прошло между просмотром «старого» и «нового» товара, тем выше можно сделать коэффициенты.
- При создании списка рекомендаций для конкретного товара нужно выбрать такие товары, которые имеют с текущим наибольший ранг. Интуитивно этот тип рекомендаций можно назвать как «Пользователи, которые смотрели этот товар, также смотрели».
Комментарии:
Как упростить работу со скриптами на языке R? Программирование удобного интерфейса с помощью пакета «gWidgets»...
24 04 2024 14:15:22
Лидеров определили открытым голосованием. В ТОП-списки вошли CPA-сети, которые набрали больше всего голосов суммарно и по отдельным критериям....
23 04 2024 7:20:45
Как использовать автостратегии для экономии рекламного бюджета...
22 04 2024 5:10:11
SMM от Netpeak — это разработки стратегий продвижения, механики конкурсов, медиапланирование и постоянная интеpaктивная связь с клиентом с помощью «Личного кабинета»....
21 04 2024 1:21:21
Сайту нужны внешние ссылки на сторонних ресурсах. Они могут повлиять на ранжирование вашего ресурса и трафик, а один из методов их получить — аутрич....
20 04 2024 15:19:28
Понадобится всего пару минут, чтобы создать отчет о тратах, количестве конверсий или любых других важных показателях. Понятная инструкция для PPC-специалистов и про возможности и ограничения бесплатной версии расширения. Читайте дальше!...
19 04 2024 6:26:39
Подобрать нужные слова поможет проверка Google Рекламы....
18 04 2024 3:38:57
Как работают SEO-специалисты, что нужно знать о принципах работы алгоритмов Гугл, как продвигать мобильные приложения и каким образом может монетизироваться Телеграм. Узнать больше!...
17 04 2024 21:37:30
Рекомендации от Google для бизнеса о поведении в период распространения коронавируса....
16 04 2024 22:48:38
Продвижение сервисного центра техники Total Apple в Москве....
15 04 2024 18:14:20
Кто ведет соцсети Netpeak и заказывает мерч для всего агентства...
14 04 2024 0:10:11
Клиникка использует лазеры и нуждается в продвижении. В специфических сферах привлечь потребителя впервые бывает сложнее и дороже, чем удержать его. Этот кейс о том, как повысить количество обращений новых клиентов с помощью видеорекламы...
13 04 2024 22:33:27
Совет Константина Леоновича (Sape.ru), 4 наших + 2 бонусных...
12 04 2024 12:56:15
82% малых бизнесов тонут как раз из-за проблем с денежными потоками (по данным исследований U.S. Bank, 2020). Как предприниматели попадают в кассовые разрывы и что делать в таких ситуациях, разберем в этой статье....
11 04 2024 17:13:28
Альтернатива классическому SQL — обработка запросов из множества таблиц с помощью функций подстановки в Google BigQuery....
10 04 2024 14:45:56
Адаптивный линкбилдинг: будьте полезны людям, а не поисковикам....
09 04 2024 1:33:23
Как найти продавцов для маркетплейса с помощью рекламы в Google, Facebook, TikTok и Viber....
08 04 2024 20:59:55
Как визуализировать данные Google BigQuery в Power BI? Пошаговая инструкция от руководителя отдела веб-аналитики Netpeak Алексея Селезнева...
07 04 2024 0:18:50
Как не облажаться при выборе подрядчика для SEO-аудита....
06 04 2024 18:59:48
Какой эффективный способ использовать для проверки бизнес-возможностей новых проектов ecommerce?...
05 04 2024 3:17:53
Мы сменили CMS, не просев в трафике, и превратили каталог товаров в полноценный интернет-магазин....
04 04 2024 23:25:26
Создание, установка и оптимизация title и мета-тегов keywords, description у сайта, построенного на системе Drupal...
03 04 2024 8:39:39
Какую тактику выбрать, чтобы написать внятный доклад. Хедлайнеры интернет-маркетинговых конференций делятся опытом...
02 04 2024 13:20:17
В 2019 году в цикл зрелости вошли 28 технологий и инструментов...
01 04 2024 3:43:12
Ликбез по важным понятиям, без которых нельзя начинать бизнес в интернете. Что такое домены второго и третьего уровня, чем они отличаются. Узнать больше!...
31 03 2024 7:50:33
Дизайн макета сайта должен полностью соответствовать представлениям о готовом ресурсе. Создать его можно с помощью онлайн-сервисов, стационарных программ либо через HTML-код...
30 03 2024 16:44:41
Когорта в google ***ytics позволяет снять любые претензии в духе «прошел уже целый месяц, где результаты»....
29 03 2024 6:16:29
Определяем, кто из mail подписчиков предан вашему бренду по-настоящему....
28 03 2024 21:16:57
Больше пятисот человек из Украины, России, Болгарии и Казахстана. Я зашел в зал и увидел толпу каких-то гопарей и воровайок родом из 90-х, а само помещение было оформлено под свадьбу. Выпьем за молодых!...
27 03 2024 11:23:26
Чтобы проставить 301 редиректы, вначале надо выгрузить весь список топовых страниц по обратным ссылкам...
26 03 2024 18:43:34
Темная сторона лайков или правда о продвижении постов в Facebook...
25 03 2024 15:15:38
И помните: плохих названий нет, если у вас есть большие деньги....
24 03 2024 3:13:48
В аккаунте ***ytics появилась возможность подключения ремаркетинга в поисковой сети Google. Расскажем о результатах применения инструмента на примере кейса крупного проекта ecommerce....
23 03 2024 6:30:28
Опыт сотрудника отдела маркетинга Netpeak. Дочке Маше — 10 лет, сыну Егору — почти 4 года. Мы по-прежнему не очень продуктивны в таких условиях, но все же накопили больше опыта, чем те люди, которые сейчас внезапно столкнулись с удаленной работой...
22 03 2024 13:33:59
Данные о стоимости клика в наиболее популярных рекламных интернет-площадках страны....
21 03 2024 21:13:45
Что такое ускоренные мобильные страницы и как их посмотреть в Google ***ytics...
20 03 2024 5:25:43
Как считать конверсии из Facebook, когда они происходят в Jivosite и Битрикс24....
19 03 2024 22:19:32
Начинаем работать с облачным сервисом хранения Google BigQuery...
18 03 2024 21:21:12
Как правильно группировать ключевые фразы для релевантности рекламных кампаний...
17 03 2024 5:26:15
Пиксель Facebook — инструмент аналитики рекламной системы, который можно использовать и для Instagram....
16 03 2024 17:41:14
Рекламируем онлайн-уроки к 1 сентября. Именно сочетание Facebook и Google Ads помогло нам сначала обратиться к родителям (которые, например, листают соцсеть по пути домой) и потом уже напомнить о себе с помощью Google Рекламы...
15 03 2024 15:39:11
Satel является одним из топовых игроков онлайн-маркета, но на старте интернет в качестве канала продаж не рассматривался. Когда онлайн запустили на полную? Узнать!...
14 03 2024 22:12:40
Ексель для чайникiв. Как импортировать всю необходимую информацию из Google ***ytics с помощью простого интерфейса Excellent ***ytics....
13 03 2024 15:48:55
Данные, приведенные в исследовании, помогут в составлении медиапланов по продвижению в интернете. Понимания стоимость конверсии и необходимое количество конверсий, вы можете прогнозировать, сколько денег на рекламу нужно выделить....
12 03 2024 23:36:12
Как установить счетчик Метрики, грамотно настроить цели, сегменты и запустить рекламную кампанию по ретаргетингу в Яндекс.Директ...
11 03 2024 10:35:47
Продвижение монобренда: особенности, трудности, подводные камни. Ниша здоровья и красоты....
10 03 2024 10:13:47
Рассказываем в подробностях, что полезного сделал Netpeak для своих клиентов с января по апрель 2017 года...
09 03 2024 5:56:11
Подборка онлайн-платформ и программ для работы с текстом и изображениями....
08 03 2024 5:15:58
Шаги, которые необходимо выполнить для правильного сбора и анализа данных сайта...
07 03 2024 11:59:49
Объясняем по пунктам, как создать и правильно настроить DSA c таргетингом на фид и содержание сайта...
06 03 2024 17:43:11
Еще:
понять и запомнить -1 :: понять и запомнить -2 :: понять и запомнить -3 :: понять и запомнить -4 :: понять и запомнить -5 :: понять и запомнить -6 :: понять и запомнить -7 ::