Как новостная лента Facebook предсказывает то, что вы хотите увидеть?
Алгоритм новостной ленты Facebook окружает множество мифов и догадок. До недавнего времени об особенностях ее работы знали немногие. И вот теперь компания решила показать, как устроена персонализация контента. Подробности — читайте дальше в посте.
Учитываются не только «лайки» и «шейры»
Алгоритм Facebook — чрезвычайно сложная и разветвленная система ранжирования на основе машинного обучения (machine learning, ML). Этой системе нужно показывать релевантный и полезный контент всякий раз, когда пользователь заходит на сайт или в приложение Facebook. А значит, анализировать огромный объем контента.
Страницы в Facebook есть более чем у 2 миллиардов человек. И для каждого система отбирает тысячи возможных постов, которые потенциально могут появиться в ленте.Речь идет о триллионах публикаций и по тысячам сигналов ранжирования нужно понять, что именно отдельно взятый пользователь хотел бы увидеть. Когда кто-то заходит в Facebook, весь этот процесс происходит в фоновом режиме, а новостная лента загружается за нескольких секунд.
К тому же, кроме «лайков», шеров, добавленных в сохраненное и другого, нужно учитывать все новые и новые факторы, такие как кликбейт и фейк-ньюз, для чего Facebook приходится находить другие решения.
Новостная лента — это не один алгоритм, а многоуровневая система. В ее основе несколько моделей машинного обучения для определения наиболее релевантного контента. Определяя, что заинтересует пользователя с большей вероятностью, система отсеивает тысячи постов, и в итоге пул возможных публикаций сужается до нескольких сотен. Они и появляются в новостной ленте.
Что интересно Хуану?
Чтобы понять, как это все происходит на пpaктике, рассмотрим конкретный пример.
Допустим, день назад некий пользователь, назовем его Хуаном, заходил в Facebook. За это время:
- его друг Вей выложил фото своего кокер-спаниеля;
- подруга Саанви разместила видео, снятое во время утренней пробежки;
- одна из страниц, на которые Хуан подписан, опубликовала статью о том, как лучше всего рассмотреть Млечный путь ночью;
- а в группе, посвященной кулинарии, появилось четыре рецепта дрожжевого теста.
Весь этот контент, скорее всего, заинтересует Хуана, потому что он подписан на соответствующие страницы и пользователей.
Чтобы определить, какой контент в новостной ленте Хуана должен быть выше, нужно выяснить, что для него важнее. В математических терминах, необходимо определить критерий выбора для Хуана и провести однокритериальную оптимизацию.
Чтобы понять, понравится ли конкретный пост Хуану, система анализирует данные о публикациях: дата или отмеченные на фото пользователи, «лайки» и прочее.
Например, если Хуан часто комментирует посты Саанви или делится ими, а Саанви недавно выложила видео, записанное во время пробежки, высока вероятность, что Хуану понравится ее новый пост. Если в прошлом Хуан больше взаимодействовал с видеоконтентом, вряд ли ему понравится фото кокер-спаниеля от Вея. В таком случае алгоритм ранжирования разместит видео пробежки выше, чем фото собаки.Но «лайки» не единственный способ выразить свои предпочтения. Люди ежедневно делятся статьями, просматривают видео на страницах селебрити или оставляют комментарии к постам друзей. С точки зрения математики задача усложняется тем, что нужна оптимизация по нескольким критериям, каждый из которых помогает сформировать список релевантного контента для ленты.
Множество ML-моделей выдают уйму прогнозов для Хуана: вероятность взаимодействия с фото Вея, видео Саанви, статьей о Млечном пути или рецептах теста. Каждая из моделей предлагает свой список контента для пользователя. Иногда бывают расхождения.
Например, может быть выше вероятность того, что Хуану понравится видеоролик о пробежке Саанви, а не статья о Млечном пути. Но при этом он с большей вероятностью прокомментирует статью, а не видео. Поэтому нужно объединить все предположения в общий рейтинг, оптимизированный для конечной цели: показать пользователю содержательный и релевантный контент.
При формировании ленты учитывается мнение аудитории — Facebook регулярно проводит опросы. Пользователей спрашивают, насколько ценным они считают взаимодействие с контентом друзей, стоят ли публикации потраченного времени.
Алгоритм ранжирования
Нужен эффективный механизм, чтобы ежедневно в реальном времени сортировать больше тысячи постов для каждого из 2 миллиардов пользователей. Такая задача выполняется в несколько этапов, стратегически разработанных так, чтобы делать все быстро и уменьшить объем требуемых вычислительных ресурсов.
Вначале система собирает все возможные публикации для ленты Хуана: фото кокер-спаниеля, видео пробежки и прочее. Список потенциального контента включает в себя любые посты, которыми с Хуаном поделились друзья, группы и страницы, начиная с того момента, как он в последний раз открывал приложение или сайт Facebook.
Но как быть с публикациями, которые размещены до предыдущего посещения соцсети и которые Хуан не видел? Такие посты, если они соответствуют интересам Хуана, могут появиться в текущей ленте. Логика формирования ленты также учитывает действия друзей. То есть посты, которые Хуан уже видел, но спровоцировавшие в дальнейшем активное обсуждение, тоже могут оказаться в ленте.
Затем система оценивает каждый пост по ряду критериев:
- тип контента;
- сходство с другими постами;
- соответствие тому, с чем Хуан обычно взаимодействует.
Чтобы все это рассчитать для двух миллиардов человек в реальном времени, ML-модели параллельно запускаются на нескольких машинах — предикторах.
Но прежде чем объединить все прогнозы в единый рейтинг, применяются дополнительные правила. Система ожидает первых прогнозов, а затем сужает список возможных постов. Делается это в несколько подходов, чтобы сэкономить вычислительные ресурсы.
- Вначале соцсеть применяет к каждому посту определенные интегральные процессы, чтобы определить, нужны ли методы поиска последовательности и какие именно.
- На следующем этапе упрощенная модель сужает список примерно до 500 наиболее релевантных постов для Хуана. Ранжирование меньшего количества постов позволяет использовать более мощные модели нейросетей в дальнейшем.
- Затем идет основной этап подсчета рейтинга, на котором происходит большая часть персонализации. Для каждого поста рассчитывается индивидуальный рейтинг. И каждый из 500 постов получает свое место в этом списке.
- Довершает все подсчеты контекстный этап, на котором система учитывает такие хаpaктеристики, как разнообразие типов контента. Поэтому в ленте условного Хуана видеоролики не идут один за другим.
Все эти сложные вычисления происходят за время, пока вы открываете приложение Facebook. То есть за несколько секунд люди получают готовую ленту, которую можно с интересом просматривать.
Выводы
Алгоритм новостной ленты Facebook — многоуровневая и разветвленная система ранжирования на основе машинного обучения.
Система работает в несколько этапов:
- Собирает все возможные публикации для ленты пользователя (с учетом действий его друзей и подписок).
- На основе собственных прогнозов сужает список примерно до 500 наиболее релевантных постов.
- Затем максимально персонализирует этот список. То есть размещает 500 постов в ленте согласно рейтингу, присваивая «очки интересности» каждой из публикаций на основе предыдущего опыта пользователя (что он «лайкал», какими публикациями делился и так далее)
- Добавляет элемент разнообразия, чтобы однотипные посты не шли друг за другом.
Все это происходит за считанные секунды, пока загружается лента новостей в Facebook. Соцсетью пользуются 2 миллиарда человек по всему миру, то есть речь идет о ранжировании триллионов постов каждый день.
Спасибо за помощь в подготовке перевода статьи партнерам Netpeak Сluster — Центру международных экзаменов по английскому языку Grade.ru и Cambridge.ru.
Комментарии:
Мы попросили спикеров ответить на острые для многих онлайн-проектов вопросы о развитии мобайла как канала, программатике и строительстве инхаус комaнд...
18 09 2024 15:15:54
Многие расширения Google Chrome предназначены для изучения иностранных языков, позволяют сохранять историю переводов и отдельные слова в словарь для дальнейшего запоминания....
17 09 2024 20:32:55
Заработок в четверть миллиона. Как многофункциональная SEO-платформа Serpstat из Netpeak Group стала самым продаваемым продуктом на AppSumo — пошаговая история-инструкция...
16 09 2024 7:43:18
Результаты рейтинга зарплат интернет-маркетологов....
15 09 2024 10:14:32
Терялись ли вы некогда в лабиринте Википедии из внутренних ссылок и побочных статей? Представьте, насколько непредсказуемым он может стать через несколько десятилетий....
14 09 2024 9:43:59
Что нужно делать на старте работ с интернет-магазином и как минимизировать риски для бизнеса онлайн, используя такие инструмента как SEO, PPC и Email-маркетинг — советы от эксперта. Читать дальше!...
13 09 2024 17:52:18
Выдержка из интервью Дэнни Салливаном с представителями компаний Google и Bing...
12 09 2024 19:51:36
Определяем, кто из mail подписчиков предан вашему бренду по-настоящему....
11 09 2024 2:20:45
Обзор ресурса по подбору ключевых запросов www.SEMRUSH.com на Netpeak.ua...
10 09 2024 23:33:58
Продвигаем медицинский проект. Кроме цифр рассказываем, что и как делали...
09 09 2024 13:47:45
От создания аккаунта до выбора пикселя — просто и понятно про TikTok....
08 09 2024 16:10:51
Как настроить многокaнaльную модель атрибуции для своего бизнеса....
07 09 2024 20:48:28
Поиск крутых авторов и качественные тексты для блога об email-рассылке...
06 09 2024 23:21:20
Звук телефонного звонка важен и для пользователя интернета. Как точно рассчитать полученную прибыль и рентабельность инвестиций в рекламу...
05 09 2024 7:26:25
Инструкция для трудоголиков для тех, кто старается выполнить как можно больше заданий, а заметного прогресса при этом нет. Работать много и эффективно не всегда полезно. Если бы эффективная работа была залогом успеха, каждому хомяку воздвигли бы памятник...
04 09 2024 0:55:29
Главные вопросы при запуске и настройке любых кампаний: «чего я хочу достичь?», «помогает ли текущая кампания достичь желаемых результатов?», «влияет ли кампания на эффективность других кампаний и источников?». Узнать больше....
03 09 2024 14:23:27
Как избежать ошибок при продвижении интернет-магазина с помощью видеоблогеров....
02 09 2024 16:54:54
В 2019 году в цикл зрелости вошли 28 технологий и инструментов...
01 09 2024 8:46:15
Несложные рекомендации, как увеличить продажи с сайта и его мобильной версии с помощью инструментов Google: ***ytics, Tag Manager, Optimizer и форм-опросов. UX-специалисты Турум-бурум рекомендуют их для проверки сайта и используют в своей работе....
31 08 2024 12:58:19
4 кейса с шагами, рекомендациями и результатами, которые помогут грамотно распределить средства на рекламу....
30 08 2024 7:56:47
Почему лендинги на Тильде выгодны бизнесу, какие задачи он решает, о форматах работы по услуге, детально о ее составе и спецпредложениях от Netpeak и наших партнеров по настройке контекстной рекламы, сервисов на лендинге и даже промокод на скидку Yagla...
29 08 2024 4:14:51
Сезонность — повторяющиеся колебания трафика сайта в зависимости от различных внешних факторов....
28 08 2024 1:26:30
Как работать с новой функцией, чтобы набирать подписчиков и делать продажи. Подробное и актуальное руководство в 2021 году....
27 08 2024 18:53:53
О тенденциях на рынке ecommerce и переходе Хорошоп на удалёнку....
26 08 2024 19:38:43
Оценить эффективность рекламной кампании с учетом специфики и целей конкретного клиента помогут персональные сводки...
25 08 2024 9:15:37
Кейс: новинки в продвижении рекламы интернет-магазина в контекстно-медийной сети Google...
24 08 2024 14:26:33
Рассылка ежемecячно занимает второе место среди источников реферального трафика BuzzFeed. Уроки увеличения базы подписчиков от BuzzFeed от базы до метрик оценки. Принцип BuzzFeed — как можно быстрее внедрять в рассылку то, что нравится читателям....
23 08 2024 9:53:55
Процесс привлечения сторонних ресурсов отнимает основную часть времени у большинства основателей стартапов. Читайте руководство, которое поможет сделать этот процесс во время серии А более эффективным....
22 08 2024 10:49:52
Пост постоянно обновляется актуальными данными о размерах картинок...
21 08 2024 22:37:21
Как эффективно выйти из карантина с помощью контекстной рекламы...
20 08 2024 2:49:46
Разбираем на примерах коллабораций, подрядчиков из регионов и тендендерных площадок...
19 08 2024 0:10:30
Как визуализировать данные Google BigQuery в Power BI? Пошаговая инструкция от руководителя отдела веб-аналитики Netpeak Алексея Селезнева...
18 08 2024 10:43:55
Создать BI-систему собственного кошелька. Для ввода и хранения данных выбор стоял между Google Forms и Google Sheets или Airtable.Читайте дальше, что выбрал автор, чтобы оптимизировать расход, планировать траты на месяц и контролировать результаты в PowerBI....
17 08 2024 1:26:33
Какую тактику выбрать, чтобы написать внятный доклад. Хедлайнеры интернет-маркетинговых конференций делятся опытом...
16 08 2024 5:31:20
Как составить список, работа с которым займет меньше времени, чем обычно. На примере обработки запросов в ювелирной тематике....
15 08 2024 23:58:23
Кликбейтинг в опасности. Если хочешь узнать методы работы антикликбейт-комaнды Facebook, просто нажми на этот заголовок...
14 08 2024 20:11:33
Seznam.cz — одна из пяти поисковых систем в мире, сумевших в отдельно взятой стране стать популярнее Google...
13 08 2024 1:19:37
Пройдем вместе путь вебмастера от первых шагов и до вершины ТОПа :)...
12 08 2024 21:49:53
Доля органического трафика увеличилась с 14% до 44%, а небрендового — на 184%....
11 08 2024 9:54:36
С помощью этой шпаргалки вы легко распределите акценты и начнете последовательно внедрять маркетинговую стратегию по продвижению мобильного приложения...
10 08 2024 4:41:18
Публикуем рецензию на новое издание Брайана Клифтона. Несмотря на узкую специализацию, эта книга стала бестселлером на Amazon и уже переведена на 5 разных языков. Стоит отметить, что две предыдущие редакции «Google ***ytics для профессионалов» успешно ис...
09 08 2024 8:41:21
Портал-каталог организаций и его продвижение. В этом кейсе мы детальнее остановимся на выгодах для проекта от синергии усилий клиента и агентских специалистов по контекстной рекламе...
08 08 2024 14:11:34
Мы решили организовать серию вебинаров по SEO и предоставить их бесплатно. История о том, как с нуля при минимуме затрат создать успешный онлайн-курс...
07 08 2024 12:43:57
Дизайн макета сайта должен полностью соответствовать представлениям о готовом ресурсе. Создать его можно с помощью онлайн-сервисов, стационарных программ либо через HTML-код...
06 08 2024 20:16:40
Достаточно настроить соответствующим способом триггеры и теги. Мануал здесь....
05 08 2024 2:42:59
Твиты, реплаи, ретвиты - как сделать правильные выводы из активности в Twitter? Об этом читайте в нашем посте....
04 08 2024 14:15:20
Почему контент-план — не тетка, или о том, в какой последовательности выкладывать статьи...
03 08 2024 14:31:47
2013, 2014, 2015 — годы, когда конференция 8p радовала все сео-сообщество СНГ. Прошла она и в 2016 году. Мы собрали лучшие советы интернет-магазинам от экспертов и участников круглого стола на конференции 8P 2016....
02 08 2024 15:52:22
зеркальные нейроны и сознание. как они влияют на наше поведение?...
01 08 2024 2:31:18
Книга про пять полезных фишек + стратегия продвижения интернет-магазина...
31 07 2024 6:47:18
Еще:
понять и запомнить -1 :: понять и запомнить -2 :: понять и запомнить -3 :: понять и запомнить -4 :: понять и запомнить -5 :: понять и запомнить -6 :: понять и запомнить -7 ::