Как работают персональные рекомендации > NetPeak - Независимость и осознанность
NetPeak Biz Tech    


Как работают персональные рекомендации

Как работают персональные рекомендации

< >

С развитием поисковых систем индустрия новостных печатных изданий пережила, возможно, наиболее сильную трaнcформацию за всю свою история. Представьте себе систему, которая агрегирует содержание нескольких тысяч новостных источников, сортирует их по темам и выдаёт пользователю только тот контент, который заинтересует его больше всего. Представили?

Этот пост позволит понять ту часть сложной работы Google, которая связана непосредственно с системой рекомендаций для пользователя. Этот пост будет по традиции содержать разные определения и формулы. :) Системы персональных рекомендаций играют важную роль в жизни крупных порталов и интернет-магазинов. Amazon заявляет, что более 40% продаж на их сайте происходит за счёт грамотной системы рекомендаций для пользователя. Существует несколько способов построения такой системы. Это и примитивные модели, и иерархическая кластеризация, и коллаборативная фильтрация, о которой далее пойдет речь. Строго говоря, проблема построения персональных рекомендаций выглядит так:

Для истории кликов N пользователей (U = {u1, u2, ..., uN}) над множеством статей S (S= {s1, s2, ..., sM}) и выбранного пользователя u с множеством истории кликов Cu {si1, ... si|Cu|} подобрать K статей, которые могут быть для него интересны.

Google решает эту проблему с помощью двух алгоритмов:

  • MinHash-кластеризация
  • Вероятностная латентно-семантическая индексация (PLSI)

MinHash работает достаточно просто - он делит всех пользователей системы по кластерам с вероятностью, соответствующей пересечению множеств интересов системы. В случае Google под интересом подразумевается клик пользователю ui на статью sj. Математически эту метрику \"схожести\" можно записать как

где ui - пользователи, Cui - множество интересов пользователя. Чтобы система работала корректно, метрика должна быть определена на множестве всех пользователей - Google применяет улучшения алгоритма Locality Sensitive Hashing и Map Reduce для проведения таких вычислений в реальном времени. Вероятностная латентно-семантическая индексация рассматривает пользователей и статьи как случайные величины и строит связь между этими множествами через смешанное распределение. Представьте огромный массив, состоящий из всех пользователей и статей. Прочтя ту или иную новость, в соответствующую ячейку матрицы заносится маркер. Размер массива очень большой и PLSI уменьшает его, позволяя спрогнозировать все комбинации пользователей и статей. Детальное описание модели опустим, оно достаточно сложное. :) После того, как кластеры пользователей сформированы, можно определить, насколько та или иная статья подходит для рекомендации:

  • Взять кластеры, к которым относится пользователь.
  • Для каждого кластера проверить, как часто его пользователи \"голосовали\" за статью (т.е. кликали на неё). Нормализовать величину.
  • Посчитать ранг статьи.

Для более точной работы персональных рекомендаций Google также использует метрику, которая называется \"со-визиты\" (covisitation). Идея её в том, что со-визит между статьями s и s\\\' имеет место, если в течение заданного интервала времени пользователь сначала перешёл по статье s, а потом по s\\\' или наоборот. Хранить все со-визиты можно в виде графа, узлами которого являются статьи, а рёбрами - количество со-визитов.

Теперь, после определения всех методов построения рекомендаций, можно собрать все алгоритмы воедино и построить такую систему:

  1. Пользователь открывает Google.
  2. Система выбирает кандидатов на рекомендации, построив объединение двух множеств: множества статей, которые просматривались всеми пользователями кластера, и множества статей, которые имели со-визиты с историей пользователя.
  3. Сортировка кандидатов.
  4. Выдача данных пользователю.

Наиболее очевидный пример – это построение персональных рекомендаций товаров для интернет-магазина, используя технику со-визитов.

Персональные рекомендации для интернет-магазина

Алгоритм простой:

  1. Строим таблицу истории кликов для каждого пользователя, время жизни которой не превышает нескольких дней. Также строим таблицу для всех товаров, в каждой ячейке которой есть частота со-визитов между каждым товаром.
  2. При появлении нового клика забираем каждый элемент из истории кликов и обновляем коэффициенты по всем парам просмотренным товарам с новым товаром. Чем меньше времени прошло между просмотром «старого» и «нового» товара, тем выше можно сделать коэффициенты.
  3. При создании списка рекомендаций для конкретного товара нужно выбрать такие товары, которые имеют с текущим наибольший ранг. Интуитивно этот тип рекомендаций можно назвать как «Пользователи, которые смотрели этот товар, также смотрели».



Комментарии:

Как собрать аудиторию подписчиков YouTube с 0 до 10 000 за год — кейс канала магазина для любителей рыбалки

Как собрать аудиторию подписчиков YouTube с 0 до 10 000 за год — кейс канала магазина для любителей рыбалки Кейс продвижения YouTube-канала магазина товаров для рыбалки...

26 04 2024 21:11:58

Топ CRM-систем для бизнеса в США

Топ CRM-систем для бизнеса в США Исследование Ringostat о самых востребованных CRM-системах в США...

25 04 2024 18:59:29

Бизнес и война: как выжить и не потерять всех сотрудников

Бизнес и война: как выжить и не потерять всех сотрудников Часто руководители, которые прекрасно справляются с работой в мирное время, в период войны перестают быть эффективными. У них нет навыков кризис-менеджмента. Чтобы удержать ситуацию на плаву, кризис-менеджером должен стать главный руководитель компании....

24 04 2024 19:54:40

Ringostat — это коллтрекинг, телефония и сквозная аналитика

Современные платформы телефонии и коллтрекинга — это не только про звонки. С Ringostat вы узнаете, откуда пришел клиент, как менеджер ему ответил и какая реклама «принесла» деньги....

23 04 2024 4:51:12

Путь магазина «Модна Каста» от Андрея Логвина

CEO магазина «Модна Каста» Андрей Логвин — сделал отличный доклад на 8P о пути к успеху своего бизнеса и будущем Ecommerce. Детальнее об ощущении deal и «первом дне» для интернета читайте в новом посте....

22 04 2024 7:34:22

Почему не стоит покупать в Черную пятницу

Почему не стоит покупать в Черную пятницу Ежегодно в конце ноября начинается ажиотаж вокруг «огромных» скидок на Черную пятницу. Во всем мире этого дня ждут и готовятся покупать выгоднее. Но так ли это на самом деле?...

21 04 2024 0:21:19

Как получить контакты клиентов в Facebook с помощью чат-бота ManyChat

Инструкция по интеграции рекламной кампании с чат-ботом...

20 04 2024 16:28:55

SEO на этапе разработки сайта: как увеличить ROMI до запуска площадки

SEO на этапе разработки сайта: как увеличить ROMI до запуска площадки Время, потраченное на исправление ошибок, допущенных на этапе подготовки и создания сайта, убивает потенциал роста видимости ресурса....

19 04 2024 11:59:28

Как B2B-стартап с помощью партнерской программы увеличил доход на 1983% за 6 месяцев

Как B2B-стартап с помощью партнерской программы увеличил доход на 1983% за 6 месяцев Создание успешного стартапа в нише телемедицины. Без дополнительных трат увеличил за 6 месяцев доход на 1983%, а клиентскую базу — более чем на 1000%....

18 04 2024 17:53:12

200 лучших минус-слов в Google Рекламе

200 лучших минус-слов в Google Рекламе Список минус-слов для Google Рекламы для B2B сайтов....

17 04 2024 22:35:42

Как исключить спам в Google ***ytics, или Кто портит ваши данные

Как исключить спам в Google ***ytics, или Кто портит ваши данные Что делать, если вы столкнулись со спамом в отчетах Google ***ytics? Значит ли это, что кто-то имеет доступ к вашему аккаунту, или что кто-то специально влияет на данные сайта в GA? Как они это делают? И как исключить подобные данные из отчетов?...

16 04 2024 4:37:53

Как быстрее создавать рекламные кампании для Google Ads и Директ с помощью API Serpstat

Как быстрее создавать рекламные кампании для Google Ads и Директ с помощью API Serpstat Как автоматически формировать и выгружать готовые рекламные кампании для Яндекс.Директ и Google Ads со структурой «одна группа объявлений — один key»...

15 04 2024 20:32:53

Как получить данные из Google ***ytics в R и загрузить в Power BI

Как получить данные из Google ***ytics в R и загрузить в Power BI Расширяем возможности визуализации данных из Google ***ytics c помощью пакета RGA и Power BI...

14 04 2024 11:14:55

Двенадцать веселых докладов TED Talks на различные темы

Двенадцать веселых докладов TED Talks на различные темы Идеи, достойные распространения. Какие доклады TED Talks повлияли на нетпиковцев....

13 04 2024 9:34:19

Антикейс: продвижение Endorphone.com.ua с помощью видеоблогеров

Как избежать ошибок при продвижении интернет-магазина с помощью видеоблогеров....

12 04 2024 1:27:27

Кейс по продвижению женской одежды в Яндекс.Директе: ROMI 186%

Кейс по продвижению женской одежды в Яндекс.Директе: ROMI 186% Используя для продвижения контекстную рекламу, большинство рекламодателей в Украине отдают предпочтение системе Google Ads. Директ однозначно не стоит недооценивать. Почему? Читайте в статье!...

11 04 2024 22:46:14

На что ориентироваться при составлении бюджета на рекламу

На что ориентироваться при составлении бюджета на рекламу Что делать перед составлением рекламного бюджета — инструкция для предпринимателей...

10 04 2024 16:29:29

Как работать с закладками в Power BI — подробное руководство

Как работать с закладками в Power BI — подробное руководство В этой статье я покажу пример визуальной работы с закладкой и пошагово разберу процесс их создания и применения для удобства визуализации данных...

09 04 2024 8:16:39

«Озарение. Сила мгновенных решений» Малкольма Гладуэлла

«Озарение. Сила мгновенных решений» Малкольма Гладуэлла Много интересных фактов о работе мозга и новейших исследованиях социологии и психологии....

08 04 2024 11:22:11

Как настроить Google Shopping — руководство для новичков

Как настроить Google Shopping — руководство для новичков Как создать аккаунт в Google Merchant Center, загрузить и изменить фид с информацией о товарах, — делимся тонкостями настройки кампаний шопинга...

07 04 2024 15:13:39

Основные виды контента и правила оформления в зависимости от вида

Контент может информировать, вовлекать и продавать, при этом для каждой цели нужен свой тип контента...

05 04 2024 9:40:24

Как я работаю: рассказ PPC-специалиста

Как я работаю: рассказ PPC-специалиста Как специалисту с нуля обучиться контекстной рекламе и совмещать работу с хобби...

04 04 2024 0:43:36

Как продвигать каршеринг — обзор кейсов

Как продвигать каршеринг — обзор кейсов Особенности продвижения в нише аренды автомобилей по материалам кейсов наших коллег...

03 04 2024 5:21:18

Как проходила первая интернатура в Serpstat: опыт отдела Quality Assurance

Как проходила первая интернатура в Serpstat: опыт отдела Quality Assurance HR-советы компаниям, которым нужно найти больше трех джунов в проект...

02 04 2024 0:26:59

Как работать с аудиториями Google Ads в наблюдении

Давайте больше не будем сливать бюджет, выбирая неправильный параметр....

01 04 2024 19:15:17

Как добавить время работы в объявления Google Ads

Как добавить время работы в объявления Google Ads Google внедрил новую возможность выделить объявление — автоматическое добавление часов работы. Давайте разберемся, как добавить эту полезную информацию в расширения объявлений...

31 03 2024 22:41:20

Как использовать видео для увеличения онлайн-продаж

Как использовать видео для увеличения онлайн-продаж 12 идей для видеоконтента и расскажем, где их лучше размещать, чтобы зрители стали клиентами. Как использовать видео для повышения продаж? Длинный, но все равно неполный список форматов. Читайте дальше и предлагайте свои варианты!...

30 03 2024 23:50:20

Пасхалки Google — интересные и полезные возможности поисковика, о которых вы не знали

Пасхалки Google — интересные и полезные возможности поисковика, о которых вы не знали Забавные и полезные штуки от Google и как их найти...

29 03 2024 12:55:49

Facebook ***ytics — подробное руководство по настройке

Как работать с Facebook ***ytics — бесплатным инструментом с богатым инструментарием и лучшей из всех существующих решений интеграцией с платформой Facebook...

28 03 2024 2:47:31

Импорт данных из Google ***ytics в Excel с помощью ***ytics Edge — подробное руководство

Импорт из Google ***ytics в Excel — manual по ***ytics Edge....

27 03 2024 21:38:47

Как перестать платить за мусор в ссылочном индексе — исследование Serpstat

Как перестать платить за мусор в ссылочном индексе — исследование Serpstat При выборе SEO сервиса принято ориентироваться на объем ссылочной массы, но надежен ли такой подход? Большая база не всегда значит качество содержащихся в ней данных, а количество нередко обеспечивают спамные ссылки в отчетах....

26 03 2024 1:55:30

Сколько стоил клик Google Ads и Facebook в Украине во втором квартале 2018 года

Сколько стоил клик Google Ads и Facebook в Украине во втором квартале 2018 года Ежеквартальное исследование Netpeak по стоимости клика...

25 03 2024 8:36:55

Алексей Гулый о правильных людях, новых идеях и бизнесе без потерь

Алексей Гулый о правильных людях, новых идеях и бизнесе без потерь Как начать бизнес в институте и масштабировать его до международной группы компаний. Собрали все самое интересное из интервью фаундера «Техно Ёж» Алексея Гулыя на конференции 8P....

24 03 2024 19:43:34

Как следить за позициями сайта в мобильной выдаче

Как следить за позициями сайта в мобильной выдаче Регулярный мониторинг позиций необходим для отслеживания истории их изменений после внедрения новых ключевых слов и других работ над сайтом...

23 03 2024 2:44:11

Что такое триггер в маркетинге

Что такое триггер в маркетинге Триггер — способ ненавязчивого воздействия на потенциального клиента путем использования психологических приемов в текстах, заголовках и остальном контенте...

22 03 2024 7:33:28

Правила группировки фраз для семантического ядра сайта

Правила группировки фраз для семантического ядра сайта Грамотная группировка поисковых запросов позволяет максимально увеличить поисковой трафик....

21 03 2024 14:58:51

Скелеты в шкафу РСЯ: как эффективно построить рекламную кампанию?

Как создавать результативные кампании в Рекламной сети Яндекса...

20 03 2024 12:33:27

Главные инструменты увеличения продаж в интернет-магазине

Главные инструменты увеличения продаж в интернет-магазине Знания основных принципов конверсионности сайта, этапов воронки продаж важны для того, чтобы наладить процессы, рост продаж в любом бизнесе. Узнать больше!...

19 03 2024 15:17:38

Главные секреты планировщика ключевых слов Google

Главные секреты планировщика ключевых слов Google Небольшой набор секретов по работе с Планировщиком ключевых слов гугла...

18 03 2024 17:50:23

Как отфильтровать внутренний трафик в Google ***ytics

Как отфильтровать внутренний трафик в Google ***ytics Фильтруем свой трафик от сотрудников в Google ***ytics...

17 03 2024 19:38:35

Что такое Server-side tracking

Что такое Server-side tracking И чем этот тип отслеживания событий отличается от Client-side. Узнать!...

16 03 2024 23:24:54

Наука быть счастливым: бесплатный онлайн-курс от профессора из Йеля

Профессор психологии Йельского университета разработала курс по обретению счастья. Его прошли уже 3,5 млн человек...

15 03 2024 4:35:28

От хорошего к великому

От хорошего к великому Большой проект Джима Коллинза и его комaнды. Одна из лучших книг в нашей библиотеке. Всем рекомендуется к прочтению!...

14 03 2024 6:27:24

Краткий курс машинного обучения, или Как создать нейронную сеть для решения задачи по скорингу

Краткий курс машинного обучения, или Как создать нейронную сеть для решения задачи по скорингу Нейронные сети, нейросети онлайн, сверхточные нейронные сети. Я рассажу, как они устроены, как написать свою нейронную сеть с нуля, как правильно обучить нейронную сеть на имеющихся данных...

13 03 2024 19:50:59

10 рабочих способов повторного использования контента

10 рабочих способов повторного использования контента В помощь контент-маркетологам, редакторам, авторам и бизнесу: идеи, которые учитывают фактор SEO. Переупакуйте статьи, заметки, любые другие посты — угодите читателям и поисковикам. Узнать больше!...

12 03 2024 19:26:12

Кейс Office-Expert.kz. Как дополнительно стимулировать покупки на 50 млн тенге в месяц

Кейс Office-Expert.kz. Как дополнительно стимулировать покупки на 50 млн тенге в месяц Мы решили внедрить товарные рекомендации на сайте. Они приносят дополнительно до 10% дохода....

11 03 2024 12:23:13

Как линкбилдер работает с поиском Яндекс

Как линкбилдер работает с поиском Яндекс SEO-специалист Константин Гайдук поделился с читателями блога постом о фишках работы линкбилдера с поиском Яндекс....

10 03 2024 22:32:35

8 сервисов автопроверки on-page ошибок

Платные и бесплатные способы ускорить оптимизацию....

09 03 2024 0:50:17

О чем снять первое видео начинающему видеоблогеру

О чем снять первое видео начинающему видеоблогеру Для максимальной прибыли с YouTube-канала нужно выбрать одну из наиболее посещаемых ниш. Не всегда прибыльная тема соответствует личным предпочтениям владельца канала...

08 03 2024 11:36:10

Еще:
понять и запомнить -1 :: понять и запомнить -2 :: понять и запомнить -3 :: понять и запомнить -4 :: понять и запомнить -5 :: понять и запомнить -6 :: понять и запомнить -7 ::