NetPeak Biz Tech    


Плотность ключевых слов — как определить релевантность документа ключевому запросу

Плотность ключевых слов — как определить релевантность документа ключевому запросу

< >

Этот пост был опубликован в 2018 году и до сих пор пользуется популярностью (если верить Google ***ytics). Напомню, материал — адаптация перевода и в то же время пересказ статьи с www.SEOmoz.org. В посте есть пояснения из Википедии, потому что хоть пост и более узкоспециализированный, не хотим заставлять вас бесконечно гуглить.

Суть вопроса в том, что СЕОмоз создал систему, которая определяет ключевые слова в тексте. Но не просто подсчитывает все и выдает плотность ключевых слов, нет. Такой способ определения плотности ключей уже давным давно устарел и мир шагнул далеко вперед. Сегодня мы рассмотрим несколько вариантов определения релевантности документа ключевому запросу. Итак, готовьтесь встречать искусственный интеллект и семантический поиск по смыслу написанного к 2020 году.

А пока рассмотрим, какие же алгоритмы используются для определения релевантности различных документов (часть информации взята из Википедии).

Еще в незапамятном XX веке началось развитие метода TF-IDF (от англ. TF — term frequency, IDF — inverse document frequency) — статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов. Мера TF-IDF часто используется в задачах анализа текстов и информационного поиска, например, как один из критериев релевантности документа поисковому запросу, при расчёте меры схожести документов при кластеризации (выделение групп документов, похожих по смыслу).

TF (term frequency — частота слова) — отношение числа вхождения некоторого слова к общему количеству слов документа. Таким образом, оценивается важность слова в пределах отдельного документа.

IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в других документах. Учёт IDF уменьшает вес часто и  широко употрeбляемых слов. Таким образом, мера TF-IDF - произведение двух сомножителей: TF и IDF.

TF-IDF вес для слова «заяц»

Если документ содержит 100 слов и слово «заяц» встречается в нём 3 раза, то частота слова (TF) для слова «заяц» в документе будет 0,03 (3/100). Один из вариантов вычисления частоты документа (DF) определяется как количество документов содержащих слово «заяц», разделенное на количество всех документов. Таким образом, если слово «заяц» содержится в 1000 документов из 10 000 000 документов, то частота документа (DF) будет равной 0,0001 (1000/10 000 000). Для расчета окончательного значения веса слова необходимо разделить TF на DF (или умножить на IDF). В данном примере, TF-IDF вес для слова «заяц» в выбранном документе будет 300 (0,03/0,0001).

По наблюдениям Рэнда Фишкина за результатами выдачи Гугла, влияние on-page факторов вроде использования ключевых слов или TF-IDF довольно мало. Даже в низкоконкурентных запросах не наблюдается такого, чтобы кто-то мог просто написать больше раз свой ключевой запрос (или использовать синонимы), чем конкурент и улучшить позиции в выдаче. И этот опыт, который подкрепился разговорами с сеошниками, заставил Фишкина верить в то, что поисковые машины ранжируют более сложно, учитывая связи между словами и фразами. Поэтому, СЕОмоз начал работу над крупным проектом, который назвали — LDA (Latent Dirichlet Allocation).

Кому интересно распределение Дирихле из теории вероятностей, которое использовалось в данной системе, может почитать о нем вот тут — Распределение Дирихле. В двух словах скажу, что оно описывает связь между словами. То есть, какое слово чаще всего используется с каким-нибудь другим, какие слова вообще вместе не используются и т.д. Все это подводит нас к тематическим моделям.

Почему поисковым машинам необходимо тематическое моделирование?

Некоторые запросы довольно простые. Поиск по запросу «Википедия» не слишком сложный и результат по такому поиску может вернуть даже простая поисковая машина. Но некоторые другие запросы не являются такими же простыми. Давайте посмотрим как поисковые системы могут упорядочивать два результата — простая проблема, которая, в большинстве случаев, может быть комплексно решена несколькими методами, в зависимости от ситуации. Запросы привожу на английском языке, как есть в оригинале.

Так как Контент А содержит слово «Batman», а контент В — нет, то ПС может легко выбрать, какой же запрос поставить выше в выдаче.

ПС может использовать TF*IDF для определения того, что слово «Wiggum» имеет меньшую частоту употрeбления, чем «chief» и поэтому, Контент А будет считаться более релевантным запросу. Обратите внимание, что этот пример ясно показывает недостаток такой метрики, как плотность ключевого слова.

Используя знания о совместном использовании слов, ПС определит, что «Daily Planet» и «Clark Kent» появляются чаще со словом «Superman» и поэтому, Контент В будет более релевантен, чем Контент А, в котором есть точное вхождения ключа в текст!

Прочитав оба предложения, мы можем сделать однозначный вывод, что Контент В описывает музыкальный инструмент — пианино — и женщина играет на нем. Но, поисковая машина, вооруженная методами, которые мы описывали раньше, будет бороться с этими предложениями, т.к. оба они используют слова «keys» и «notes», которые являются только ключами к головоломке. СЕОмоз рад, что их система LDA поставила Контент В выше, чем А. Значит, их алгоритмы на правильном пути.

Для более комплексных запросов или когда большое влияние на результат могут оказать множество связей в контенте, ПС необходимы пути, для определения цели данной страницы. То, что на странице повторяется 4 или 5 раз ключевое слово, совсем не означает, что страница действительно релевантна запросу пользователя.

Исторически сложилось так, что много сеошников прикладывали очень много усилий в этом направлении, поэтому то, что делает СЕОмоз — это не революционное тематическое моделирование, которое включает в себя LDA, всегда было вокруг да около. Но, никто из тех, кто развивается в данном направлении, не делал такую систему общедоступной или сравнимой с результатами выдачи Гугла, чтобы показать, как могут влиять на позиции данные сигналы. Итак, суть ясна, я думаю.

Плотность ключевых слов была хороша раньше, сегодня мир шагнул далеко вперед в данном направлении.

Так давайте же заглянем внутрь и посмотрим на сердце данного метода.

Векторное прострaнcтво терминов и Тематическое моделирование

Упрощенная модель векторного прострaнcтва

Представим себе, что в данный момент существуют только две темы — «Собака» и «Кошка», а все остальные слова в разной степени связаны с этими двумя тематиками. К примеру, слово «клык» чаще всего используется со словом «Собака», а «Вискас» — с «Кошка». В действительности так и есть, любые два слова связаны между собой более или менее сильно. Эта модель просто представляет эти связи математически. К сожалению, изобразить больше, чем три тематики (три измерения), мне очень сложно, но вы должны помнить, что таких тематик много. Соответственно и измерений много. И каждое слово можно отнести частично к этой тематике, частично к другой. И получаются вектора в многомерном прострaнcтве. Кому интересно углубиться в векторное прострaнcтво, вот вам материалы Стэндфордского Университета по этому повод.

К сожалению, у LDA пока что очень много ограничений. Он работает только для англоязычных сайтов и не отражает полной и стопроцентной картины. Так как это, все-таки, не Гугл. Также, LDA не использует пока что фразы и очки в % по LDA являются относительными, так как это только что запущенная версия и в ней есть свои недочеты. И следует запомнить, что увеличение количества ключевых слов может помочь получить больше очков в LDA, но вряд ли поможет улучшить позиции.

Прошу всех не упускать из головы то, что система делалась 10 месяцев двумя математиками-программистами, а в Гугле работают не двое.

Думаю, что обещания Гугла по поводу семантического поиска имеют под собой серьезную основу. Роботы прогрессируют и готовятся захватить человечество. Поэтому нам нужно внимательно за ними следить, чтобы не упустить тот момент, когда начнется восстание машин. Очень надеюсь, что эти материалы помогут в написании тематических текстов копирайтерам. Да и сеошникам они полезны.

Кстати, если вам нужен не просто оптимизированный с точки зрения SEO пост, но и продающий полезный материал, который поможет привлечь трафик, получить заявки, повысить узнаваемость бренда и так далее... Обращайтесь, редакция Netpeak Journal создаст качественный контент и разместит его в журнале.

Оставить заявку можно, заполнив форму:

Хочу быстро найти клиентов онлайн



Комментарии:

+247% кликов из органического поиска за год — SEO для Bosch Siemens Hausgerate

Со старта сотрудничества, рост видимости сайтов клиента вырос в 15 раз....

01 06 2026 22:12:30

Как нанять маркетолога и не уволить через месяц

Как нанять маркетолога и не уволить через месяц Краткая инструкция по поиску идеального кандидата, потому что (как видим) многим на рынке все еще сложно найти хорошего маркетолога. Да и понять, стоит ли вкладывать в сотрудника силы, время, средства с первой встречи достаточно сложно....

31 05 2026 13:43:24

Звуковые уведомления в Facebook основаны на аккорде Fmaj7, ноты которого — FACE

Звуковые уведомления в Facebook основаны на аккорде Fmaj7, ноты которого — FACE История от первого лица про звуковые сигналы в Facebook....

30 05 2026 13:20:26

Кейс по SMM в тематике «ресторанный бизнес»: «Угощение — каждому!»

Кейс по SMM в тематике «ресторанный бизнес»: «Угощение — каждому!» Cafe case. Знакомство аудитории с только что открывшимся заведением: online + offline....

29 05 2026 17:45:40

Как я работаю — рассказ заместителя руководителя SEO-департамента Netpeak

Как я работаю — рассказ заместителя руководителя SEO-департамента Netpeak Как и кто создает новые услуги в Netpeak и что нужно знать, уметь, чтобы это делать? Рассказывает Елена Воскобойник, специалист, которая иногда разpaбатывает их почти с нуля. Читать!...

28 05 2026 22:54:28

Как выбрать шрифт — инструкция для маркетологов

Как выбрать шрифт — инструкция для маркетологов Какие шрифты бывают, для чего они предназначены, где найти самый подходящий шрифт и как его правильно использовать?...

27 05 2026 23:11:29

Риски при продвижении сайта — на что обратить внимание

Риски при продвижении сайта — на что обратить внимание На скорость и полноту результатов продвижения влияют конкретные риски. И некоторые из них можно выделить еще до начала сотрудничества. Рассказываем, какие именно....

26 05 2026 15:38:34

О чем снять первое видео начинающему видеоблогеру

О чем снять первое видео начинающему видеоблогеру Для максимальной прибыли с YouTube-канала нужно выбрать одну из наиболее посещаемых ниш. Не всегда прибыльная тема соответствует личным предпочтениям владельца канала...

25 05 2026 3:59:19

Вебмастера заработают более $2 млн на Всемирном дне шопинга в 2021

Вебмастера заработают более $2 млн на Всемирном дне шопинга в 2021 С каждым годом китайские маркетплейсы увеличивают свое влияние, и покупатели всё активней заказывают товары из Поднебесной. Но не всё скидки да покупки — обладатели интернет-аудитории и маркетологи могут еще и хорошо заработать на этих площадках....

24 05 2026 16:44:17

Как Netpeak продвигает бизнес-страницы на OLX — первая часть

Как Netpeak продвигает бизнес-страницы на OLX — первая часть Как найти продавцов для маркетплейса с помощью рекламы в Google, Facebook, TikTok и Viber....

23 05 2026 3:32:47

Почему SEO-аудит сайта должен делать специалист

Почему SEO-аудит сайта должен делать специалист Как не облажаться при выборе подрядчика для SEO-аудита....

22 05 2026 17:28:21

Что такое логическая структура сайта и зачем она нужна

Что такое логическая структура сайта и зачем она нужна Базовые знания, которые нужны, чтобы ресурс понравился поисковикам и пользователям....

21 05 2026 4:50:12

Как сделать динамический ремаркетинг для корпоративного сайта

Как сделать динамический ремаркетинг для корпоративного сайта Фишка, которую можно позволить себе даже когда портал продает всего несколько товаров или услуг...

20 05 2026 6:59:48

Как отслеживать эффективность email-рассылки: главные метрики, которые нужно фиксировать

Как отслеживать эффективность email-рассылки: главные метрики, которые нужно фиксировать За какими метриками следует пристально следить в email-рассылках...

19 05 2026 19:17:13

DMCA-алгоритм Google: закон об авторском праве в цифровую эпоху

DMCA-алгоритм Google: закон об авторском праве в цифровую эпоху Что значит всемирное обновление DMCA-алгоритма и приведет ли оно к полноценной защите авторских прав?...

18 05 2026 10:54:29

Управление временем в условиях удаленной работы

Управление временем в условиях удаленной работы Советы для фрилансеров и удаленных сотрудников: как строить рабочий процесс так, чтобы он вел к максимальной эффективности. О работе со временем, перерывами, необходимости выключать уведомления, статусе задач, празднованиях побед и организации рабочей среды...

17 05 2026 5:40:28

5 способов повысить продажи с помощью социальных доказательств

5 способов повысить продажи с помощью социальных доказательств Чтобы увеличить продажи и улучшить их эффективность в новых условиях необходимо применять «социальные доказательства»....

16 05 2026 21:24:27

Кейс по контекстной рекламе в тематике «трудоустройство»

Кейс по контекстной рекламе в тематике «трудоустройство» Конкректная цель — конкретные результаты трудоустройства...

15 05 2026 19:24:32

Как провести тендер и выбрать подрядчика в сфере интернет-маркетинга — чек-лист

Как провести тендер и выбрать подрядчика в сфере интернет-маркетинга — чек-лист Один из лучших способов выбрать подрядчика — провести брифинг для компаний. При этом важно предоставить максимум информации: откройте доступ к реальным данным по проекту. Узнать больше!...

14 05 2026 18:49:26

Как использовать аналитику, чтобы не расходовать рекламный бюджет впустую

4 кейса с шагами, рекомендациями и результатами, которые помогут грамотно распределить средства на рекламу....

13 05 2026 21:24:35

Как руководителю построить сильную комaнду и не сойти с ума

Как руководителю построить сильную комaнду и не сойти с ума Есть 3 качества грамотного руководителя: самоорганизованность, скорость. четкость. А еще — уйма фишек организации рабочих процессов, которые применяют в Netpeak. Узнать!...

12 05 2026 21:12:57

Как получить данные из Google ***ytics в R и загрузить в Power BI

Как получить данные из Google ***ytics в R и загрузить в Power BI Расширяем возможности визуализации данных из Google ***ytics c помощью пакета RGA и Power BI...

11 05 2026 23:20:51

История успеха office-expert.kz: перенесли email-рассылки на новый сервис и получили ROMI 440%

История успеха office-expert.kz: перенесли email-рассылки на новый сервис и получили ROMI 440% В течение месяца нам удалось наладить рассылку с новой платформы....

09 05 2026 1:30:11

Эксцентричный и скромный Дарвин Смит

Эксцентричный и скромный Дарвин Смит Короткая история про одного из руководителей корпорации «Kimberly Clark». Альтернативная Википедия для тех, кто любит сторителлинг. Читать дальше!...

08 05 2026 2:14:33

Где лучше догонять пользователей: в Facebook или Google Рекламе — кейс интернет-магазина

Где лучше догонять пользователей: в Facebook или Google Рекламе — кейс интернет-магазина При использовании похожих инструментов важно не переборщить с количеством рекламы...

07 05 2026 7:47:35

Реклама для интернет-магазина техники — запуск видеокампаний TrueView for Shopping и TrueView for Action

Реклама для интернет-магазина техники — запуск видеокампаний TrueView for Shopping и TrueView for Action Как рекламировать смартфоны в YouTube — советы крупному бизнесу по настройке и запуску эффективной рекламы. Важно: корректный анализ результатов. Узнайте как его сделать!...

06 05 2026 17:42:53

Как я работаю дома с двумя детьми — хроники безумного папы

Как я работаю дома с двумя детьми — хроники безумного папы Опыт сотрудника отдела маркетинга Netpeak. Дочке Маше — 10 лет, сыну Егору — почти 4 года. Мы по-прежнему не очень продуктивны в таких условиях, но все же накопили больше опыта, чем те люди, которые сейчас внезапно столкнулись с удаленной работой...

05 05 2026 5:14:18

Как упростить анализ поисковых запросов — работа с шаблоном на примере модерации минус-слов

Как упростить анализ поисковых запросов — работа с шаблоном на примере модерации минус-слов Понятный алгоритм анализа поисковых запросов с экономией времени на чистку по специальному шаблону модерации...

04 05 2026 10:51:42

Инфографика: как именно рулит контент

Инфографика: как именно рулит контент Консультант по маркетингу в зоне ru Екатерина Решетило написала пост о том, как правильно настроить стратегический контент-маркетинг для долгосрочных продаж...

03 05 2026 20:28:23

Кейс по SEO-продвижению сайта в тематике «эко-товары и натуральная косметика»: ROMI 129%

SEO-продвижение сайта, торгующего натуральной косметикой...

02 05 2026 14:26:15

Global Tag Site — обзор фреймворка от Google

Global Tag Site — обзор фреймворка от Google Почему имеет смысл выбрать его, а не Google Tag Manager?...

01 05 2026 9:43:33

Стратегия ведения контекстной рекламы по воронке продаж на примере SaaS: шаблон и инструкция

Стратегия ведения контекстной рекламы по воронке продаж на примере SaaS: шаблон и инструкция Как найти индивидуальный подход к аудитории на каждом этапе воронки продаж? В этом вам поможет правильно составленная стратегия контекстной рекламы....

30 04 2026 8:48:50

Как анализировать внешнюю ссылочную массу: обзор сервисов и программ

Как анализировать внешнюю ссылочную массу: обзор сервисов и программ Делайте анализ ссылочной массы хотя бы раз в месяц — и будет вам счастье....

29 04 2026 23:26:44

MVP в разработке позиционирования стартапа — на примере Serpstat

MVP в разработке позиционирования стартапа — на примере Serpstat Метод бoмжа в маркетинге. Как разработать позиционирование стартапа при ограниченных ресурсах...

28 04 2026 8:51:34

Как перейти на HTTPS и не остаться невидимкой в Google ***ytics

Почему Google ***ytics не видит ссылки на HTTP-сайт с сайта на HTTPS?...

27 04 2026 2:46:19

Работа с автоматическими типами кампаний на Facebook

Работа с автоматическими типами кампаний на Facebook Как вести рекламные кампании и что делать на разных этапах настройки. Делимся опытом: примерами, кейсами и рекомендациями. Узнать больше и настроить свои РК, как боженька!...

26 04 2026 18:45:29

Пользователи удаляют приложение — когда mobile-маркетологу не стоит волноваться

Пользователи удаляют приложение — когда mobile-маркетологу не стоит волноваться Почему соотношение данных об использовании приложения важнее, чем количество установок и удалений...

25 04 2026 17:30:45

Outreach — что это такое и как наладить процесс продвижения

Кратко об аутрич-продвижении? Размещайте полезный контент с ссылками на ваш сайт на качественных ресурсах. Хотите подробности — читайте новую статью....

24 04 2026 12:59:53

Как составить техзадание и донести суть исполнителю

Как составить техзадание и донести суть исполнителю Если вы не можете разработать технические задания для себя в виде структурированного текста, вы, скорее всего, плохо понимаете, что хотите от исполнителя...

23 04 2026 11:16:14

Как долго живет лид в базе email-рассылки?

Как долго живет лид в базе email-рассылки? Это исследование для тех, кто хочет выяснить, эффективно ли работать с лидами, если им год и больше...

22 04 2026 6:50:47

Контент-маркетинг для блога UniSender — что мы сделали для развития сайта

Контент-маркетинг для блога UniSender — что мы сделали для развития сайта Поиск крутых авторов и качественные тексты для блога об email-рассылке...

21 04 2026 8:23:32

Как получить больше от рекламы в Facebook — семь новых фишек

Как получить больше от рекламы в Facebook — семь новых фишек Баннерная реклама в фейсбуке. Обзор семи новых рекламных инструментов...

20 04 2026 9:43:35

Трендовые инструменты в диджитал-маркетинге и рекламе — новое исследование Gartner

Трендовые инструменты в диджитал-маркетинге и рекламе — новое исследование Gartner В 2019 году в цикл зрелости вошли 28 технологий и инструментов...

19 04 2026 5:54:49

Дэн Ариэли про пятничную усталость от правильных решений

Дэн Ариэли про пятничную усталость от правильных решений Вместо легкой пятничной темы, представляю вольный перевод статьи автора книги «Позитивная иррациональность»....

18 04 2026 21:57:11

Зачем нужна декомпозиция?

Зачем нужна декомпозиция? Или как не слить свой бюджет на рекламу....

17 04 2026 17:26:49

Успокоить нельзя продать. Инструкция по ведению переговоров для B2B-сейлзов в период кризиса. Опыт Netpeak Group

Успокоить нельзя продать. Инструкция по ведению переговоров для B2B-сейлзов в период кризиса. Опыт Netpeak Group Рекомендации по ведению переговоров в непростых условиях....

16 04 2026 10:40:26

SEO-продвижение для сайта сети кинотеатров в Украине — как за год увеличить приток органического трафика на 630%

SEO-продвижение для сайта сети кинотеатров в Украине — как за год увеличить приток органического трафика на 630% Перед нами стояла цель увеличить поисковый трафик и видимость, не охватывая новые города. Через 8 месяцев после старта сотрудничества сайт переносили на новый front-end. Узнать больше!...

15 04 2026 0:56:26

Форматы рекламных объявлений в Facebook и Instagram

Форматы рекламных объявлений в Facebook и Instagram Гайд по рекламе для SMM-, PPC-специалистов, блогеров и владельцев бизнеса...

14 04 2026 9:37:38

Как стать специалистом по контекстной рекламе

Как стать специалистом по контекстной рекламе Менеджер, маркетолог, дизайнер программист? Делимся секретами нетпик, каким должен быть специалист по рекламе...

13 04 2026 2:31:16

Еще:
понять и запомнить -1 :: понять и запомнить -2 :: понять и запомнить -3 :: понять и запомнить -4 :: понять и запомнить -5 :: понять и запомнить -6 :: понять и запомнить -7 ::