Как работают персональные рекомендации

С развитием поисковых систем индустрия новостных печатных изданий пережила, возможно, наиболее сильную трaнcформацию за всю свою история. Представьте себе систему, которая агрегирует содержание нескольких тысяч новостных источников, сортирует их по темам и выдаёт пользователю только тот контент, который заинтересует его больше всего. Представили?
Этот пост позволит понять ту часть сложной работы Google, которая связана непосредственно с системой рекомендаций для пользователя. Этот пост будет по традиции содержать разные определения и формулы. :) Системы персональных рекомендаций играют важную роль в жизни крупных порталов и интернет-магазинов. Amazon заявляет, что более 40% продаж на их сайте происходит за счёт грамотной системы рекомендаций для пользователя. Существует несколько способов построения такой системы. Это и примитивные модели, и иерархическая кластеризация, и коллаборативная фильтрация, о которой далее пойдет речь. Строго говоря, проблема построения персональных рекомендаций выглядит так:
Для истории кликов N пользователей (U = {u1, u2, ..., uN}) над множеством статей S (S= {s1, s2, ..., sM}) и выбранного пользователя u с множеством истории кликов Cu {si1, ... si|Cu|} подобрать K статей, которые могут быть для него интересны.
Google решает эту проблему с помощью двух алгоритмов:
- MinHash-кластеризация
- Вероятностная латентно-семантическая индексация (PLSI)
MinHash работает достаточно просто - он делит всех пользователей системы по кластерам с вероятностью, соответствующей пересечению множеств интересов системы. В случае Google под интересом подразумевается клик пользователю ui на статью sj. Математически эту метрику \"схожести\" можно записать как
где ui - пользователи, Cui - множество интересов пользователя. Чтобы система работала корректно, метрика должна быть определена на множестве всех пользователей - Google применяет улучшения алгоритма Locality Sensitive Hashing и Map Reduce для проведения таких вычислений в реальном времени. Вероятностная латентно-семантическая индексация рассматривает пользователей и статьи как случайные величины и строит связь между этими множествами через смешанное распределение. Представьте огромный массив, состоящий из всех пользователей и статей. Прочтя ту или иную новость, в соответствующую ячейку матрицы заносится маркер. Размер массива очень большой и PLSI уменьшает его, позволяя спрогнозировать все комбинации пользователей и статей. Детальное описание модели опустим, оно достаточно сложное. :) После того, как кластеры пользователей сформированы, можно определить, насколько та или иная статья подходит для рекомендации:
- Взять кластеры, к которым относится пользователь.
- Для каждого кластера проверить, как часто его пользователи \"голосовали\" за статью (т.е. кликали на неё). Нормализовать величину.
- Посчитать ранг статьи.
Для более точной работы персональных рекомендаций Google также использует метрику, которая называется \"со-визиты\" (covisitation). Идея её в том, что со-визит между статьями s и s\\\' имеет место, если в течение заданного интервала времени пользователь сначала перешёл по статье s, а потом по s\\\' или наоборот. Хранить все со-визиты можно в виде графа, узлами которого являются статьи, а рёбрами - количество со-визитов.
Теперь, после определения всех методов построения рекомендаций, можно собрать все алгоритмы воедино и построить такую систему:
- Пользователь открывает Google.
- Система выбирает кандидатов на рекомендации, построив объединение двух множеств: множества статей, которые просматривались всеми пользователями кластера, и множества статей, которые имели со-визиты с историей пользователя.
- Сортировка кандидатов.
- Выдача данных пользователю.
Наиболее очевидный пример – это построение персональных рекомендаций товаров для интернет-магазина, используя технику со-визитов.
Персональные рекомендации для интернет-магазина
Алгоритм простой:
- Строим таблицу истории кликов для каждого пользователя, время жизни которой не превышает нескольких дней. Также строим таблицу для всех товаров, в каждой ячейке которой есть частота со-визитов между каждым товаром.
- При появлении нового клика забираем каждый элемент из истории кликов и обновляем коэффициенты по всем парам просмотренным товарам с новым товаром. Чем меньше времени прошло между просмотром «старого» и «нового» товара, тем выше можно сделать коэффициенты.
- При создании списка рекомендаций для конкретного товара нужно выбрать такие товары, которые имеют с текущим наибольший ранг. Интуитивно этот тип рекомендаций можно назвать как «Пользователи, которые смотрели этот товар, также смотрели».
Комментарии:
Заработок в четверть миллиона. Как многофункциональная SEO-платформа Serpstat из Netpeak Group стала самым продаваемым продуктом на AppSumo — пошаговая история-инструкция...
13 01 2026 18:47:51
Пишите стоимость товара под постами. Но это не универсальный совет. Если ваша ниша с длинным циклом продаж, можно сделать исключение. Что ещё нужно знать про ответ в директ? Узнать!...
12 01 2026 16:10:56
Эти советы будут полезны вебмастерам, которые хотят сделать шаблон сайта самостоятельно...
11 01 2026 18:13:33
Структура обзора, правила написания и важные хаpaктеристики этого формата. Подача информации в обзоре и запрещенные методы, которые отпугнут клиентов. Узнать больше!...
10 01 2026 12:21:29
Простой и понятный разбор двух формул для расчета коэффициента вовлеченности...
09 01 2026 6:48:31
Вам нужно приложение или мобильная версия сайта? Как вы собираетесь монетизировать приложение? И другие важные вопросы, на которые нужно ответить до разработки....
08 01 2026 9:47:43
Подробно о преимуществах и особенностях двух сервисов контекстной рекламы....
07 01 2026 1:21:17
Что нужно знать о целевой аудитории, как грамотно воровать у других и что нужно сделать, чтобы настроить идеальную рекламную кампанию....
06 01 2026 19:47:22
Как использовать расширенное семантическое ядро для увеличения целевого трафика....
05 01 2026 8:50:15
Читайте простой мануал о том, как перейти на Universal ***ytics и не поломать весь сбор данных...
04 01 2026 8:15:58
Публикуем рецензию на новое издание Брайана Клифтона. Несмотря на узкую специализацию, эта книга стала бестселлером на Amazon и уже переведена на 5 разных языков. Стоит отметить, что две предыдущие редакции «Google ***ytics для профессионалов» успешно ис...
03 01 2026 23:33:37
Разбираем на примерах коллабораций, подрядчиков из регионов и тендендерных площадок...
02 01 2026 4:43:10
За что, по мнению рекламодателей, готовы платить пользователи в России и Украине? Рейтинг самых дорогих ключевых слов Google Рекламы по версии Serpstat....
01 01 2026 13:28:10
Шаблон по настройке и оптимизации динамических поисковых объявлений...
31 12 2025 16:51:58
Чем радовала, удивляла и шокировала таргетированная реклама в социальных сетях...
30 12 2025 12:20:41
Список курсов, книг, каналов и пабликов для работы с данными...
29 12 2025 16:23:12
Как эффективно выйти из карантина с помощью контекстной рекламы...
28 12 2025 2:58:22
Новый способ автоматизации процессов при настройке аналитики больших объемов данных....
27 12 2025 22:24:10
Комaнда Serpstat провела исследование среди интернет-маркетологов и создала виджет, который рассчитывает среднюю зарплату на основе опыта, навыков и знаний специалистов. Что из этого получилось, читаем в статье....
26 12 2025 20:55:21
Кейс: как золотой корпоративный линкбилдинг помог в SEO-продвижении интернет-магазина, в котором можно заказать и купить чехлы и виниловые наклейки для смартфонов...
25 12 2025 7:12:38
Иногда удержать пользователя сложнее, чем мотивировать загрузить приложение. Семь инструментов для анализа Uninstall Rate....
24 12 2025 3:51:51
Тонкости настройки предпраздничной рекламной промо кампании на примере Citrus.ua....
23 12 2025 7:40:44
Как мы создаем BI-решение для департамента поискового продвижения — первые шаги...
22 12 2025 1:45:17
Значит так, делаем из лимонов лимонад — «выжимаем» максимум из ошибки 404...
21 12 2025 6:49:17
Где искать информацию, как составить контент-план, писать тексты быстро и легко, а затем продвигать их. Собрали для вас подборку постов о разных этапах работы с контентом....
20 12 2025 9:27:45
Какая интересная и трэшовая реклама встречалась в соцсетях в январе 2021-го? Давайте смотреть...
19 12 2025 2:46:51
Современные платформы телефонии и коллтрекинга — это не только про звонки. С Ringostat вы узнаете, откуда пришел клиент, как менеджер ему ответил и какая реклама «принесла» деньги....
18 12 2025 12:53:38
Facebook раскрывает алгоритм формирования новостной ленты...
17 12 2025 4:18:11
Пpaктика в режиме «рейтинг онлайн». Новинка Google Рекламы — отчет «Статистика аукционов»....
16 12 2025 9:51:45
Цель — трафик facebook. Делимся кейсом проекта «Мой город»....
15 12 2025 10:23:48
Есть восхитительная возможность продвинуть видео на YouTube с минимальными финансовыми потерями!...
14 12 2025 13:54:21
Как нарисовать круговую или столбчатую диаграмму. Избавляемся от популярных ошибок при оформлении...
13 12 2025 2:17:53
Примеры странной, классной и непонятной рекламы в соцсетях из моей ленты за февраль 2021 года...
12 12 2025 15:48:28
Чтобы обезопасить себя и своих клиентов, используйте технологию 3D Secure. Больше рекомендаций — в статье....
11 12 2025 3:42:52
Продвижение музыкальной библиотеки. Со старта сотрудничества, трафик и основной ключ сайта клиента вырос в 10 раз. Регион продвижения — США....
10 12 2025 10:27:54
Десктопная версия, совместная работа (collabs), сбор средств и новые эффекты в Reels. Рассказываем, что дают новые функции. Узнать больше....
09 12 2025 3:15:21
Настройка аналитики для пустого поиска, а также поиска по методам GET и POST...
08 12 2025 23:40:35
О том, какие результаты дает эта технология, рассказал Александр Иванов, Head of Product в ЛУН.ua в рамках прошлогодней самой летней конференции 8P. Читайте, как его комaнде удалось разогнать загрузку страниц сервиса Flatfy до 0,2 секунды...
07 12 2025 16:31:10
Подборка для застройщиков, маркетологов и менеджеров по продажам...
06 12 2025 6:24:17
Что такое обратная связь, почему фидбек от клиентов важен и как его правильно собирать. Все, что нужно знать, чтобы получить отзыв от клиента....
05 12 2025 22:57:59
Как жить с налогом на Google, Facebook и другие международные сервисы — объясняем детали....
04 12 2025 23:19:12
Цели у личных сайтов могут быть разные, но в первую очередь они помогают рассказать историю о специалисте...
03 12 2025 10:51:36
При использовании похожих инструментов важно не переборщить с количеством рекламы...
02 12 2025 22:25:55
Отслеживаем эффективность приложения в Search Console на примере OLX.KZ...
01 12 2025 21:17:16
Фишка, которую можно позволить себе даже когда портал продает всего несколько товаров или услуг...
30 11 2025 17:50:12
Количество обращений выросло на 43,27%, а рынок перегрет — десятки компаний предлагают свою продукцию, услуги. Что делать, чтобы люди выбрали вас среди других игроков рынка (помимо качественного выполнения своей работы)? Читайте дальше!...
29 11 2025 18:26:55
Лучшие идеи круглого стола о SEO с участием Тараса Гущи, Сергея Карпенко, Алексея Чекушина, Дмитрия Шахова и других экспертов...
28 11 2025 1:56:54
Как продвинуть бренд в конкурентной тематике? Читаем новый кейс по видеорекламе....
27 11 2025 22:19:36
Интересные факты про Google Рекламу перевел Сергeй Бахарь для читателей нашего блога....
26 11 2025 10:59:24
Твиты, реплаи, ретвиты - как сделать правильные выводы из активности в Twitter? Об этом читайте в нашем посте....
25 11 2025 3:55:59
Еще:
понять и запомнить -1 :: понять и запомнить -2 :: понять и запомнить -3 :: понять и запомнить -4 :: понять и запомнить -5 :: понять и запомнить -6 :: понять и запомнить -7 ::