Плотность ключевых слов — как определить релевантность документа ключевому запросу

< >

Этот пост был опубликован в 2018 году и до сих пор пользуется популярностью (если верить Google ***ytics). Напомню, материал — адаптация перевода и в то же время пересказ статьи с www.SEOmoz.org. В посте есть пояснения из Википедии, потому что хоть пост и более узкоспециализированный, не хотим заставлять вас бесконечно гуглить.

Суть вопроса в том, что СЕОмоз создал систему, которая определяет ключевые слова в тексте. Но не просто подсчитывает все и выдает плотность ключевых слов, нет. Такой способ определения плотности ключей уже давным давно устарел и мир шагнул далеко вперед. Сегодня мы рассмотрим несколько вариантов определения релевантности документа ключевому запросу. Итак, готовьтесь встречать искусственный интеллект и семантический поиск по смыслу написанного к 2020 году.

А пока рассмотрим, какие же алгоритмы используются для определения релевантности различных документов (часть информации взята из Википедии).

Еще в незапамятном XX веке началось развитие метода TF-IDF (от англ. TF — term frequency, IDF — inverse document frequency) — статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов. Мера TF-IDF часто используется в задачах анализа текстов и информационного поиска, например, как один из критериев релевантности документа поисковому запросу, при расчёте меры схожести документов при кластеризации (выделение групп документов, похожих по смыслу).

TF (term frequency — частота слова) — отношение числа вхождения некоторого слова к общему количеству слов документа. Таким образом, оценивается важность слова в пределах отдельного документа.

IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в других документах. Учёт IDF уменьшает вес часто и широко употрeбляемых слов. Таким образом, мера TF-IDF - произведение двух сомножителей: TF и IDF.

TF-IDF вес для слова «заяц»

Если документ содержит 100 слов и слово «заяц» встречается в нём 3 раза, то частота слова (TF) для слова «заяц» в документе будет 0,03 (3/100). Один из вариантов вычисления частоты документа (DF) определяется как количество документов содержащих слово «заяц», разделенное на количество всех документов. Таким образом, если слово «заяц» содержится в 1000 документов из 10 000 000 документов, то частота документа (DF) будет равной 0,0001 (1000/10 000 000). Для расчета окончательного значения веса слова необходимо разделить TF на DF (или умножить на IDF). В данном примере, TF-IDF вес для слова «заяц» в выбранном документе будет 300 (0,03/0,0001).

По наблюдениям Рэнда Фишкина за результатами выдачи Гугла, влияние on-page факторов вроде использования ключевых слов или TF-IDF довольно мало. Даже в низкоконкурентных запросах не наблюдается такого, чтобы кто-то мог просто написать больше раз свой ключевой запрос (или использовать синонимы), чем конкурент и улучшить позиции в выдаче. И этот опыт, который подкрепился разговорами с сеошниками, заставил Фишкина верить в то, что поисковые машины ранжируют более сложно, учитывая связи между словами и фразами. Поэтому, СЕОмоз начал работу над крупным проектом, который назвали — LDA (Latent Dirichlet Allocation).

Кому интересно распределение Дирихле из теории вероятностей, которое использовалось в данной системе, может почитать о нем вот тут — Распределение Дирихле. В двух словах скажу, что оно описывает связь между словами. То есть, какое слово чаще всего используется с каким-нибудь другим, какие слова вообще вместе не используются и т.д. Все это подводит нас к тематическим моделям.

Почему поисковым машинам необходимо тематическое моделирование?

Некоторые запросы довольно простые. Поиск по запросу «Википедия» не слишком сложный и результат по такому поиску может вернуть даже простая поисковая машина. Но некоторые другие запросы не являются такими же простыми. Давайте посмотрим как поисковые системы могут упорядочивать два результата — простая проблема, которая, в большинстве случаев, может быть комплексно решена несколькими методами, в зависимости от ситуации. Запросы привожу на английском языке, как есть в оригинале.

Так как Контент А содержит слово «Batman», а контент В — нет, то ПС может легко выбрать, какой же запрос поставить выше в выдаче.

ПС может использовать TF*IDF для определения того, что слово «Wiggum» имеет меньшую частоту употрeбления, чем «chief» и поэтому, Контент А будет считаться более релевантным запросу. Обратите внимание, что этот пример ясно показывает недостаток такой метрики, как плотность ключевого слова.

Используя знания о совместном использовании слов, ПС определит, что «Daily Planet» и «Clark Kent» появляются чаще со словом «Superman» и поэтому, Контент В будет более релевантен, чем Контент А, в котором есть точное вхождения ключа в текст!

Прочитав оба предложения, мы можем сделать однозначный вывод, что Контент В описывает музыкальный инструмент — пианино — и женщина играет на нем. Но, поисковая машина, вооруженная методами, которые мы описывали раньше, будет бороться с этими предложениями, т.к. оба они используют слова «keys» и «notes», которые являются только ключами к головоломке. СЕОмоз рад, что их система LDA поставила Контент В выше, чем А. Значит, их алгоритмы на правильном пути.

Для более комплексных запросов или когда большое влияние на результат могут оказать множество связей в контенте, ПС необходимы пути, для определения цели данной страницы. То, что на странице повторяется 4 или 5 раз ключевое слово, совсем не означает, что страница действительно релевантна запросу пользователя.

Исторически сложилось так, что много сеошников прикладывали очень много усилий в этом направлении, поэтому то, что делает СЕОмоз — это не революционное тематическое моделирование, которое включает в себя LDA, всегда было вокруг да около. Но, никто из тех, кто развивается в данном направлении, не делал такую систему общедоступной или сравнимой с результатами выдачи Гугла, чтобы показать, как могут влиять на позиции данные сигналы. Итак, суть ясна, я думаю.

Плотность ключевых слов была хороша раньше, сегодня мир шагнул далеко вперед в данном направлении.

Так давайте же заглянем внутрь и посмотрим на сердце данного метода.

Векторное прострaнcтво терминов и Тематическое моделирование

Упрощенная модель векторного прострaнcтва

Представим себе, что в данный момент существуют только две темы — «Собака» и «Кошка», а все остальные слова в разной степени связаны с этими двумя тематиками. К примеру, слово «клык» чаще всего используется со словом «Собака», а «Вискас» — с «Кошка». В действительности так и есть, любые два слова связаны между собой более или менее сильно. Эта модель просто представляет эти связи математически. К сожалению, изобразить больше, чем три тематики (три измерения), мне очень сложно, но вы должны помнить, что таких тематик много. Соответственно и измерений много. И каждое слово можно отнести частично к этой тематике, частично к другой. И получаются вектора в многомерном прострaнcтве. Кому интересно углубиться в векторное прострaнcтво, вот вам материалы Стэндфордского Университета по этому повод.

К сожалению, у LDA пока что очень много ограничений. Он работает только для англоязычных сайтов и не отражает полной и стопроцентной картины. Так как это, все-таки, не Гугл. Также, LDA не использует пока что фразы и очки в % по LDA являются относительными, так как это только что запущенная версия и в ней есть свои недочеты. И следует запомнить, что увеличение количества ключевых слов может помочь получить больше очков в LDA, но вряд ли поможет улучшить позиции.

Прошу всех не упускать из головы то, что система делалась 10 месяцев двумя математиками-программистами, а в Гугле работают не двое.

Думаю, что обещания Гугла по поводу семантического поиска имеют под собой серьезную основу. Роботы прогрессируют и готовятся захватить человечество. Поэтому нам нужно внимательно за ними следить, чтобы не упустить тот момент, когда начнется восстание машин. Очень надеюсь, что эти материалы помогут в написании тематических текстов копирайтерам. Да и сеошникам они полезны.

Кстати, если вам нужен не просто оптимизированный с точки зрения SEO пост, но и продающий полезный материал, который поможет привлечь трафик, получить заявки, повысить узнаваемость бренда и так далее... Обращайтесь, редакция Netpeak Journal создаст качественный контент и разместит его в журнале.

Оставить заявку можно, заполнив форму:

{\"0\":{\"lid\":\"1531306243545\",\"ls\":\"10\",\"loff\":\"\",\"li_type\":\"nm\",\"li_name\":\"name\",\"li_ph\":\"Имя\",\"li_req\":\"y\",\"li_nm\":\"name\"},\"1\":{\"lid\":\"1573230091466\",\"ls\":\"20\",\"loff\":\"\",\"li_type\":\"ph\",\"li_name\":\"phone\",\"li_req\":\"y\",\"li_masktype\":\"a\",\"li_maskcountry\":\"UA\",\"li_nm\":\"phone\"},\"2\":{\"lid\":\"1573567927671\",\"ls\":\"30\",\"loff\":\"y\",\"li_type\":\"in\",\"li_name\":\"surname\",\"li_ph\":\"Фамилия\",\"li_req\":\"y\",\"li_nm\":\"surname\"},\"3\":{\"lid\":\"1531306540094\",\"ls\":\"40\",\"loff\":\"\",\"li_type\":\"in\",\"li_name\":\"domains\",\"li_ph\":\"Адрес сайта\",\"li_rule\":\"url\",\"li_req\":\"y\",\"li_nm\":\"domains\"},\"4\":{\"lid\":\"1573230077755\",\"ls\":\"50\",\"loff\":\"\",\"li_type\":\"em\",\"li_name\":\"email\",\"li_ph\":\"Email\",\"li_req\":\"y\",\"li_nm\":\"email\"},\"5\":{\"lid\":\"1575903646714\",\"ls\":\"60\",\"loff\":\"\",\"li_type\":\"hd\",\"li_name\":\"comment\",\"li_value\":\"Автоматический коммент: заявка из блога, без пользовательского комментария\",\"li_nm\":\"comment\"},\"6\":{\"lid\":\"1575903664523\",\"ls\":\"70\",\"loff\":\"\",\"li_type\":\"hd\",\"li_name\":\"lead_channel_id\",\"li_value\":\"24\",\"li_nm\":\"lead_channel_id\"},\"7\":{\"lid\":\"1584374224865\",\"ls\":\"80\",\"loff\":\"\",\"li_type\":\"hd\",\"li_name\":\"ip\",\"li_nm\":\"ip\"},\"8\":{\"lid\":\"1609939359940\",\"ls\":\"90\",\"loff\":\"\",\"li_type\":\"hd\",\"li_name\":\"post_id\",\"li_nm\":\"post_id\"}}

Хочу быстро найти клиентов онлайн

Комментарии:

Редизайн писем в email-маркетинге — на что обратить внимание

Иногда даже замена блока с промокодом или обновление хедера и футера способны освежить рассылки и принести продажи, заявки, повысить лояльность клиентов. Узнать больше!...

16 07 2026 19:30:55

Кейс по SMM в тематике «ресторанный бизнес»: «Угощение — каждому!»

Cafe case. Знакомство аудитории с только что открывшимся заведением: online + offline....

15 07 2026 21:45:27

Сколько стоил клик в Google Ads в первом квартале 2017

Анализ цены за клик в 25 тематиках и 852 городах Украины, России, Казахстана, Болгарии...

14 07 2026 0:16:32

IOS 14: Что это значит для рекламодателей Facebook

Реклама будет не настолько персонализирована, как сейчас....

13 07 2026 8:30:41

Что такое вечные ссылки и как продвигать сайт с их помощью

Ссылки называются вечными, потому что их внедряют один раз и навсегда, но это не значит, что такие ссылки однажды не удалят (что поведет к потере трафика). Узнать больше!...

12 07 2026 8:17:16

Как мы одолели «Баден-Баден» и подняли трафик из поиска на 55% — кейс MirCli

Продвижение крупного интернет-магазина в перегретой нише...

11 07 2026 23:38:16

Библиотеки JavaScript для Google ***ytics: в чем разница между ***ytics.js, gtag.js и ga.js

Почему стоит внимательно относиться к выбору библиотеки JavaScript....

10 07 2026 14:33:36

Как установить пиксель Facebook и Instagram — отслеживаем целевые действия

Пиксель Facebook — инструмент аналитики рекламной системы, который можно использовать и для Instagram....

09 07 2026 8:29:42

«Покажи свою работу»: рассказ сооснователя и управляющего партнера агентства Netpeak

Андрей Чумаченко про будни топ-менеджера, постановку, декомпозицию, помощь и контроль выполнения задач сотрудниками комaнд, которые входят в состав департамента маркетинга, а также о регулярных встречах и тонкостях работы. Узнать больше!...

08 07 2026 14:25:55

Зачем рассказывать о своем бизнесе в интернете. Рассуждения скромного предпринимателя

Если вы до сих пор сомневаетесь — прекратите это и делитесь своим опытом с читателями, потенциальными клиентами, инвесторами и партнерами. Узнать больше!...

07 07 2026 10:16:13

Чем http отличается от https

Чем отличается протокол HTTPS от HTTP — криптошифрованием, обеспечивающим безопасность ресурса...

06 07 2026 6:15:13

На что обратить внимание при выборе движка для сайта

Готовые коробочные решения — отличная идея, которая решает много задач, а ещё это относительно недорого. Но такой вариант подойдет далеко не всем. Узнать больше!...

05 07 2026 13:34:52

Карантин и удаленная работа — опыт Netpeak

Как настроить эффективную удаленную работу: комментарии топ-менеджмента Netpeak с плюсами и минусами, личными инсайтами и рекомендациями. А также перспективы развития удаленки в комапнии. Читать дальше!...

04 07 2026 4:15:49

Как не терять звонки даже с двумя сотрудниками в call-центре

Минимизация пропущенных звонков и ускорение обработки заявок с наглядными примерами из сервиса...

03 07 2026 8:50:19

Как перевести свой аккаунт с Google ***ytics на Universal ***ytics

Читайте простой мануал о том, как перейти на Universal ***ytics и не поломать весь сбор данных...

02 07 2026 13:13:52

NPS: что такое Net Promoter Score и как начать его считать

Цель этой статьи — предупредить от опасной ошибки в маркетинге: бездумного и неправильного внедрения NPS-опросника....

01 07 2026 1:21:48

Белое и черное SEO, алгоритм Google и будущее интернета — простые ответы от Артема Бородатюка

Как работают SEO-специалисты, что нужно знать о принципах работы алгоритмов Гугл, как продвигать мобильные приложения и каким образом может монетизироваться Телеграм. Узнать больше!...

30 06 2026 20:35:21

Семь улучшений Netpeak: новые предложения по контекстной рекламе для Казахстана, SEO для СМИ и Академия блога

Новости для наших существующих и потенциальных клиентов....

29 06 2026 12:49:23

Влияют ли негативные комментарии на эффективность рекламы в Facebook? Тест на $1000

Помогают ли комментарии повысить эффективность рекламных постов? Единственный способ выяснить наверняка — провести A/B-тестирование в Facebook. Спойлер: тональность комментария также имеет значение в Facebook...

28 06 2026 23:39:54

Покажи свою работу: рассказ SMM-специалиста

Кто ведет соцсети Netpeak и заказывает мерч для всего агентства...

27 06 2026 5:13:50

Как проверить сайт на бан в поисковых системах

При наложении санкций на сайт его страницы заметно понижаются в выдаче. При наличии бана ресурс полностью исчезает из поиска, включая брендовые запросы...

26 06 2026 7:23:47

Стратегия email-маркетинга: кому и зачем мы шлем письма

Старт любых активностей в сфере email-маркетинга — разработка стратегии...

25 06 2026 15:13:43

Лучшие персональные сайты маркетологов

Цели у личных сайтов могут быть разные, но в первую очередь они помогают рассказать историю о специалисте...

24 06 2026 9:30:38

Как качественно масштабировать кампании и увеличить конверсию сайта на 32% за три месяца — кейс Outpost Club

95% заполняемости коливингов для сервиса аренды жилья....

23 06 2026 5:17:22

Правильный выбор площадки для продвижения бренда в социальных сетях

Правильно выбранная соц. площадка поможет раскрутить бизнес эффективно....

22 06 2026 21:10:24

Ringostat — это коллтрекинг, телефония и сквозная аналитика

Современные платформы телефонии и коллтрекинга — это не только про звонки. С Ringostat вы узнаете, откуда пришел клиент, как менеджер ему ответил и какая реклама «принесла» деньги....

21 06 2026 18:11:40

Социальный арбуз или самые популярные тематики в Facebook в Украине

Охват и средняя цена за клик в самых популярных тематиках....

20 06 2026 21:22:39

Цистерны и насосы — задача по теории ограничений систем Голдратта

Используйте методы Элияху Голдратта для оптимизации процессов в жизни и на работе...

19 06 2026 22:25:26

Как динамическая подмена заголовка влияет на конверсии

Можно ли получить больше заявок, используя динамическую подмену заголовка? Кейсы в разных тематиках...

18 06 2026 11:58:21

Как выучить английский: советы специалистов Netpeak Group

6 лайфхаков из опыта специалистов Netpeak Group: пpaктические советы о том, как погрузиться в англоязычную среду в комфортном для себя ритме и объеме. Читайте далее....

17 06 2026 15:37:46

LinkedIn Ads: как настроить первую рекламную кампанию

LinkedIn хороший инструмент для достижения B2B целей. Пока его редко используют в СНГ, что делает LinkedIn еще привлекательней. В этой социальной сети возможности рекламных форматов и таргетингов почти безграничны. Узнать больше....

16 06 2026 7:48:24

Как настроить код динамического ремаркетинга Google Ads без программиста

Часто в распоряжении клиента только интерфейс конструктора сайтов, весьма ограниченный в функциональности. Тогда на помощь интернет-маркетологу приходит сервис Tag Manager, благодаря которому можно настроить необходимый код расширенной электронной торговли....

15 06 2026 17:31:26

Как открыть магазин на Etsy

Магазин вязанных вещей хенд мейд. Как за два месяца увеличить посещаемость в 20 раз....

14 06 2026 18:12:22

Как работать с перформанс-рекламой

И зачем топ-менеджерам разбираться в настройках кампаний, повышать свою техническую грамотность? Показываем на примерах и раскладываем по полочкам....

13 06 2026 14:26:45

Странные сайты — 40 диких, симпатичных и очень талантливых ресурсов

И уж если бумага стерпит все, интернет — тем более, а значит онлайн-исповедальне быть! И не только ей......

12 06 2026 5:42:35

Анализ ссылочной массы с помощью Ahrefs и Serpstat

Краткое сравнение двух инструментов и третьего на закуску....

11 06 2026 12:49:42

Микроразметка: что нужно знать SEO-специалисту о словарях и синтаксисе

Проверка структурированных данных поисковыми роботами нуждается в нашей поддержке...

10 06 2026 4:32:49

Партнерские программы SaaS — как на них заработать, какими бывают партнерки

Партнерская программа — это когда сервис дает партнеру вознаграждение за приведенных клиентов. Получить деньги и/или другие плюшки можно также по реферальной программе. Как это работает? Разбираемся на примерах....

09 06 2026 10:58:14

Что нужно понимать в SEO-отчетах, чтобы оценить эффективность продвижения

Всё об оценке эффективности SEO-продвижения с инструментами и рекомендациями...

08 06 2026 18:39:17

Что такое Netpeak Friends Day и почему его стоит посетить

А сейчас про конференцию Netpeak Friends Day для друзей Netpeak Group...

07 06 2026 20:31:49

Что нужно понять перед запуском онлайн-рекламы — девять самых важных вопросов к себе и PPC-специалисту

Читайте, если не хотите «слить» бюджет. Определите конкретные цели и УТП, соберите аналитику, идите к специалисту без опыта работы в конкретной нише и другие рекомендации эксперта. Читайте подробнее в статье!...

06 06 2026 9:45:40

Сколько стоил клик в Google Ads в четвертом квартале 2016 — исследование Netpeak

Алексей Селезнев проанализировал 29 млн кликов, и в этой статье вы прочитаете, как дорого обходятся рекламодателям клики в Google Ads....

05 06 2026 5:23:39

Интернет-торговля в Украине: 15 слайдов о ecommerce

Тема поста — исследование электронной коммерции в Украине: рынки, статистика, объем продаж, поисковый потенциал....

04 06 2026 6:37:15

Как стать хорошим SMM-специалистом

SMM — сфера с доступным обучением и большими деньгами, а хороших специалистов разбирают, как горячие пирожки. SMMщики работают с крупными брендами и создают свой бизнес всего через пару лет после старта....

03 06 2026 1:17:42

Serpstat 2.0: как внутренняя разработка выросла в All-in-One SEO Platform

Короткая история Serpstat — от сервиса «для своих» до международной SEO-платформы....

02 06 2026 19:23:31

Лучшие примеры ошибки 404

Ошибка на странице 404 может выглядеть креативно. Страница не найдена и не может быть найдена, потому что она в розыске, утеряна, украдена ниндзей, путь заснежен и дороги дальше нет, а принцесса находится в другом замке. О чем это?...

01 06 2026 19:54:33

Как увеличить базу подписчиков на 100% за год — кейс domcomfort.ua

Почти 50 тыс. контактов за год принесли формы подписки и регистрации....

31 05 2026 15:15:43

Настраиваем особые правила в AdWords Editor

Функционал для специалистов и новичков: как настраивать особые правила. Знания, которые помогают предотвратить грубые ошибки в рекламе товаров и услуг. Читать дальше!...

30 05 2026 12:56:20

Рэнд Фишкин: о трендах SEO и работе волшебника страны Moz

Экс-CEO, а теперь просто сотрудник и «волшебник страны Moz» Рэнд Фишкин поделился с читателями блога рассказом о своем видении будущего SEO, перспективах анонимизации сети и причудах американских клиентов....

29 05 2026 8:25:57

Как быстро написать текст — девять хитростей

Что делать, когда не получается заставить себя написать статью или кейс...

28 05 2026 23:45:40

Еще:
понять и запомнить -1 :: понять и запомнить -2 :: понять и запомнить -3 :: понять и запомнить -4 :: понять и запомнить -5 :: понять и запомнить -6 :: понять и запомнить -7 ::