Плотность ключевых слов — как определить релевантность документа ключевому запросу > NetPeak - Независимость и осознанность
NetPeak Biz Tech    


Плотность ключевых слов — как определить релевантность документа ключевому запросу

Плотность ключевых слов — как определить релевантность документа ключевому запросу

< >

Этот пост был опубликован в 2018 году и до сих пор пользуется популярностью (если верить Google ***ytics). Напомню, материал — адаптация перевода и в то же время пересказ статьи с www.SEOmoz.org. В посте есть пояснения из Википедии, потому что хоть пост и более узкоспециализированный, не хотим заставлять вас бесконечно гуглить.

Суть вопроса в том, что СЕОмоз создал систему, которая определяет ключевые слова в тексте. Но не просто подсчитывает все и выдает плотность ключевых слов, нет. Такой способ определения плотности ключей уже давным давно устарел и мир шагнул далеко вперед. Сегодня мы рассмотрим несколько вариантов определения релевантности документа ключевому запросу. Итак, готовьтесь встречать искусственный интеллект и семантический поиск по смыслу написанного к 2020 году.

А пока рассмотрим, какие же алгоритмы используются для определения релевантности различных документов (часть информации взята из Википедии).

Еще в незапамятном XX веке началось развитие метода TF-IDF (от англ. TF — term frequency, IDF — inverse document frequency) — статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов. Мера TF-IDF часто используется в задачах анализа текстов и информационного поиска, например, как один из критериев релевантности документа поисковому запросу, при расчёте меры схожести документов при кластеризации (выделение групп документов, похожих по смыслу).

TF (term frequency — частота слова) — отношение числа вхождения некоторого слова к общему количеству слов документа. Таким образом, оценивается важность слова в пределах отдельного документа.

IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в других документах. Учёт IDF уменьшает вес часто и  широко употрeбляемых слов. Таким образом, мера TF-IDF - произведение двух сомножителей: TF и IDF.

TF-IDF вес для слова «заяц»

Если документ содержит 100 слов и слово «заяц» встречается в нём 3 раза, то частота слова (TF) для слова «заяц» в документе будет 0,03 (3/100). Один из вариантов вычисления частоты документа (DF) определяется как количество документов содержащих слово «заяц», разделенное на количество всех документов. Таким образом, если слово «заяц» содержится в 1000 документов из 10 000 000 документов, то частота документа (DF) будет равной 0,0001 (1000/10 000 000). Для расчета окончательного значения веса слова необходимо разделить TF на DF (или умножить на IDF). В данном примере, TF-IDF вес для слова «заяц» в выбранном документе будет 300 (0,03/0,0001).

По наблюдениям Рэнда Фишкина за результатами выдачи Гугла, влияние on-page факторов вроде использования ключевых слов или TF-IDF довольно мало. Даже в низкоконкурентных запросах не наблюдается такого, чтобы кто-то мог просто написать больше раз свой ключевой запрос (или использовать синонимы), чем конкурент и улучшить позиции в выдаче. И этот опыт, который подкрепился разговорами с сеошниками, заставил Фишкина верить в то, что поисковые машины ранжируют более сложно, учитывая связи между словами и фразами. Поэтому, СЕОмоз начал работу над крупным проектом, который назвали — LDA (Latent Dirichlet Allocation).

Кому интересно распределение Дирихле из теории вероятностей, которое использовалось в данной системе, может почитать о нем вот тут — Распределение Дирихле. В двух словах скажу, что оно описывает связь между словами. То есть, какое слово чаще всего используется с каким-нибудь другим, какие слова вообще вместе не используются и т.д. Все это подводит нас к тематическим моделям.

Почему поисковым машинам необходимо тематическое моделирование?

Некоторые запросы довольно простые. Поиск по запросу «Википедия» не слишком сложный и результат по такому поиску может вернуть даже простая поисковая машина. Но некоторые другие запросы не являются такими же простыми. Давайте посмотрим как поисковые системы могут упорядочивать два результата — простая проблема, которая, в большинстве случаев, может быть комплексно решена несколькими методами, в зависимости от ситуации. Запросы привожу на английском языке, как есть в оригинале.

Так как Контент А содержит слово «Batman», а контент В — нет, то ПС может легко выбрать, какой же запрос поставить выше в выдаче.

ПС может использовать TF*IDF для определения того, что слово «Wiggum» имеет меньшую частоту употрeбления, чем «chief» и поэтому, Контент А будет считаться более релевантным запросу. Обратите внимание, что этот пример ясно показывает недостаток такой метрики, как плотность ключевого слова.

Используя знания о совместном использовании слов, ПС определит, что «Daily Planet» и «Clark Kent» появляются чаще со словом «Superman» и поэтому, Контент В будет более релевантен, чем Контент А, в котором есть точное вхождения ключа в текст!

Прочитав оба предложения, мы можем сделать однозначный вывод, что Контент В описывает музыкальный инструмент — пианино — и женщина играет на нем. Но, поисковая машина, вооруженная методами, которые мы описывали раньше, будет бороться с этими предложениями, т.к. оба они используют слова «keys» и «notes», которые являются только ключами к головоломке. СЕОмоз рад, что их система LDA поставила Контент В выше, чем А. Значит, их алгоритмы на правильном пути.

Для более комплексных запросов или когда большое влияние на результат могут оказать множество связей в контенте, ПС необходимы пути, для определения цели данной страницы. То, что на странице повторяется 4 или 5 раз ключевое слово, совсем не означает, что страница действительно релевантна запросу пользователя.

Исторически сложилось так, что много сеошников прикладывали очень много усилий в этом направлении, поэтому то, что делает СЕОмоз — это не революционное тематическое моделирование, которое включает в себя LDA, всегда было вокруг да около. Но, никто из тех, кто развивается в данном направлении, не делал такую систему общедоступной или сравнимой с результатами выдачи Гугла, чтобы показать, как могут влиять на позиции данные сигналы. Итак, суть ясна, я думаю.

Плотность ключевых слов была хороша раньше, сегодня мир шагнул далеко вперед в данном направлении.

Так давайте же заглянем внутрь и посмотрим на сердце данного метода.

Векторное прострaнcтво терминов и Тематическое моделирование

Упрощенная модель векторного прострaнcтва

Представим себе, что в данный момент существуют только две темы — «Собака» и «Кошка», а все остальные слова в разной степени связаны с этими двумя тематиками. К примеру, слово «клык» чаще всего используется со словом «Собака», а «Вискас» — с «Кошка». В действительности так и есть, любые два слова связаны между собой более или менее сильно. Эта модель просто представляет эти связи математически. К сожалению, изобразить больше, чем три тематики (три измерения), мне очень сложно, но вы должны помнить, что таких тематик много. Соответственно и измерений много. И каждое слово можно отнести частично к этой тематике, частично к другой. И получаются вектора в многомерном прострaнcтве. Кому интересно углубиться в векторное прострaнcтво, вот вам материалы Стэндфордского Университета по этому повод.

К сожалению, у LDA пока что очень много ограничений. Он работает только для англоязычных сайтов и не отражает полной и стопроцентной картины. Так как это, все-таки, не Гугл. Также, LDA не использует пока что фразы и очки в % по LDA являются относительными, так как это только что запущенная версия и в ней есть свои недочеты. И следует запомнить, что увеличение количества ключевых слов может помочь получить больше очков в LDA, но вряд ли поможет улучшить позиции.

Прошу всех не упускать из головы то, что система делалась 10 месяцев двумя математиками-программистами, а в Гугле работают не двое.

Думаю, что обещания Гугла по поводу семантического поиска имеют под собой серьезную основу. Роботы прогрессируют и готовятся захватить человечество. Поэтому нам нужно внимательно за ними следить, чтобы не упустить тот момент, когда начнется восстание машин. Очень надеюсь, что эти материалы помогут в написании тематических текстов копирайтерам. Да и сеошникам они полезны.

Кстати, если вам нужен не просто оптимизированный с точки зрения SEO пост, но и продающий полезный материал, который поможет привлечь трафик, получить заявки, повысить узнаваемость бренда и так далее... Обращайтесь, редакция Netpeak Journal создаст качественный контент и разместит его в журнале.

Оставить заявку можно, заполнив форму:

Хочу быстро найти клиентов онлайн



Комментарии:

10 SEO-требований к сайту

Советы и даже требования SEO-специалистов к разработчикам сайтов....

30 05 2023 21:53:19

11 функций Google Таблиц в помощь SEO-специалистам

11 функций Google Таблиц в помощь SEO-специалистам Нужно разбить ячейку или составить график? Если вы знаете функции, таблицы гугл могут пpaктически заменить отдельные сервисы или дополнения...

29 05 2023 15:56:34

Кто такой аккаунт-менеджер Netpeak

Кто такой аккаунт-менеджер Netpeak Аккаунт менеджеры это... Быть лицом компании, проводником между заказчиком и комaндой агентства, ментором для коллег и суперменом, готовым прийти на помощь клиенту в любой час дня и ночи… Эти задачи по плечу аккаунт-менеджерам Netpeak...

28 05 2023 23:25:15

Корпоративный блог. Каким он должен быть и примеры для подражания

Корпоративный блог. Каким он должен быть и примеры для подражания Подборка корпоративных медиа, попав на страницы которых, не хочется их покидать....

27 05 2023 8:58:39

Как за месяц получить 60 тысяч подписчиков для мобильной аудитории сайта: сотрудничество Gravitec.net и F.ua

Как за месяц получить 60 тысяч подписчиков для мобильной аудитории сайта: сотрудничество Gravitec.net и F.ua «Случайный» посетитель потому, что может уйти (не сделав покупку) и не вернуться, не стать клиентом. Пуш-уведомления позволяют посетителю сразу стать подписчиком: ему предлагают подписаться на рассылку. Как это использовать? Читайте!...

26 05 2023 17:34:56

Как приводить трафик на молодой сайт: результаты обсуждения темы на Quora

Как приводить трафик на молодой сайт: результаты обсуждения темы на Quora Повышение посещаемости на сайте: контент, seo, ppc и многое другое...

25 05 2023 0:16:28

Как реклама в Facebook и Google Ads принесла образовательному центру на 98% больше регистраций

Как реклама в Facebook и Google Ads принесла образовательному центру на 98% больше регистраций Рекламируем онлайн-уроки к 1 сентября. Именно сочетание Facebook и Google Ads помогло нам сначала обратиться к родителям (которые, например, листают соцсеть по пути домой) и потом уже напомнить о себе с помощью Google Рекламы...

24 05 2023 11:36:37

8 идей для видео в Instagram

8 идей для видео в Instagram Короткий интересный клип в Instagram — фишка маркетингового сезона 2015...

23 05 2023 12:18:30

Как COVID-19 повлиял на результаты рекламы в Google для 21 отрасли

Выборка из 15 759 учетных записей клиентов WordStream в США по всем вертикалям, которые до размещали рекламу в поиске Google в 2020 году...

22 05 2023 6:16:57

Как ищут во Франции: исследование кликабельности в органическом поиске Google

Анализ данных о 7,6 миллионах поисковых запросов в французском Google...

21 05 2023 8:18:14

AMP Google: что нужно знать об ускоренных мобильных страницах

Обновление от Google, запущенный в октябре 2015 года. Это просто веб-страницы, но в их основе находится AMP HTML, формат для максимального ускорения загрузки на телефонах...

20 05 2023 19:33:14

Что такое метавселенная и когда она станет реальной

Что такое метавселенная и когда она станет реальной Microsoft, Facebook и другие технологические компании заявляют, что метавселенная — это будущее интернета. Или настоящее? Давайте разберемся...

19 05 2023 19:27:49

Продвинутые способы аналитики кампаний на Facebook — Инспектор и внутренние диаграммы

Узнайте, как пользоваться Инспектором и внутренними диаграммами Facebook, чтобы быть в лидерах своей ниши!...

18 05 2023 5:49:21

SEO-продвижение магазина мебели, под Болгарию — кейс с ROMI 420%

SEO-продвижение магазина мебели, под Болгарию — кейс с ROMI 420% Лучшие результаты в SEO дает заранее спланированное сотрудничество клиента с агентством на всех этапах работ с сайтом....

17 05 2023 6:29:48

Какие ошибки возникают при работе с Google ***ytics и как с ними бороться

Какие ошибки возникают при работе с Google ***ytics и как с ними бороться Советы специалистам по контекстной рекламе. Технические сложности, которые возникают при работе с Google ***ytics: от ограничений интерфейса до ошибок настройки отслеживания и последующей недостоверности полученных данных, и решения для них...

16 05 2023 10:30:16

Как быстро увеличить продажи — мнения руководителей отделов продаж

Как быстро увеличить продажи — мнения руководителей отделов продаж Как повысить результаты продаж в режиме цейтнота. Советы новому руководителю от специалистов Netpeak Group. Больше подробностей — в посте...

15 05 2023 11:35:58

Странные сайты — 40 диких, симпатичных и очень талантливых ресурсов

Странные сайты — 40 диких, симпатичных и очень талантливых ресурсов И уж если бумага стерпит все, интернет — тем более, а значит онлайн-исповедальне быть! И не только ей......

14 05 2023 5:22:30

Как найти лидеров мнений в Twitter с помощью NodeXL

Как найти лидеров мнений в Twitter с помощью NodeXL Как найти в Twitter лидеров мнений и сети ботов с помощью надстройки для Excel...

13 05 2023 9:33:21

Как использовать футпринты в SEO-продвижении

Как использовать футпринты в SEO-продвижении Футпринт — это признак, по которому можно спалить PBN-сетку сайтов. Это как родинки. Если взять двух парней с родинкой на щеке, то не факт, что они братья. Но если родинки совпадают на щеке, локте и колене, то тут что-то подозрительное...

12 05 2023 7:44:46

Как с помощью Google Earth собрать контакты для email-рассылок и холодных звонков

Как с помощью Google Earth собрать контакты для email-рассылок и холодных звонков Проверенный способ для сбора базы данных. Метод, с помощью которого можно извлечь контактные данные, а именно: название точки, телефон, адрес, сайт., а потом высылать своё КП, промокоды для акции, сообщить о выходе товара, сделать спецпредложение...

11 05 2023 4:36:50

Самые распространенные SEO-ошибки

Самые распространенные SEO-ошибки В ТОПе ошибок — метатеги, разметка, заголовки h1-h6 и внутренние ссылочные факторы....

10 05 2023 2:58:56

Как повысить ROMI email-маркетинга на 63%, сократив базу контактов на 40%

Как повысить ROMI email-маркетинга на 63%, сократив базу контактов на 40% История о предсказательной аналитике системы автоматизации маркетинга, онлайн-магазине и ненужных письмах....

09 05 2023 16:34:58

DMCA-алгоритм Google: закон об авторском праве в цифровую эпоху

DMCA-алгоритм Google: закон об авторском праве в цифровую эпоху Что значит всемирное обновление DMCA-алгоритма и приведет ли оно к полноценной защите авторских прав?...

08 05 2023 6:42:56

Таргетированная реклама — что это, принцип работы и как настроить правильно

Таргетированная реклама — что это, принцип работы и как настроить правильно Почти 4,5 млрд людей имеют аккаунты в соцсетях. Огромная и активная аудитория. Но как среди нее найти своего клиента? Поможет таргетированная реклама....

07 05 2023 23:47:44

Семь улучшений Netpeak: новые стратегии email-маркетинга, антикризисная PPC-стратегия Start и продвижение недвижимости

Семь улучшений Netpeak: новые стратегии email-маркетинга, антикризисная PPC-стратегия Start и продвижение недвижимости Что нового, Netpeak? Новые стратегии контекстной рекламы и email-маркетинга, новая рубрика в блоге, а также о специфике работы отдела продаж Netpeak в карантин и о законах построения партнерской программы — всё читайте в материале!...

06 05 2023 1:36:56

Как увеличить конверсию интернет-магазина — 10 кейсов Prom.ua

Как увеличить конверсию интернет-магазина — 10 кейсов Prom.ua О методах поднять и расширить трафик рассказал руководитель internet-проекта Prom.ua Иван Портной....

05 05 2023 15:14:25

Цистерны и насосы — задача по теории ограничений систем Голдратта

Цистерны и насосы — задача по теории ограничений систем Голдратта Используйте методы Элияху Голдратта для оптимизации процессов в жизни и на работе...

04 05 2023 22:18:36

Кросс-минусовка ключевых слов в Google Ads: обзор сервисов и скриптов

Кросс-минусовка ключевых слов в Google Ads: обзор сервисов и скриптов Минусовки это не только про эстраду. Какой метод кросс-минусовки ключевых слов лучше?...

03 05 2023 19:16:59

Как настроить ретаргетинг в Яндекс.Директ — подробное руководство для новичков

Как настроить ретаргетинг в Яндекс.Директ — подробное руководство для новичков Как установить счетчик Метрики, грамотно настроить цели, сегменты и запустить рекламную кампанию по ретаргетингу в Яндекс.Директ...

02 05 2023 11:28:25

История успеха компании Innocent drinks

История успеха компании Innocent drinks В основе каждой великой компании – хорошо рассказанная история....

01 05 2023 20:26:52

Как найти тему для срача — на примере vc.ru

Как найти тему для срача — на примере vc.ru Как найти тему для поста, который и в онлайн поиске будет хорошо ранжироваться, и по социалкам разойдется, и комментарии в треде обеспечит...

30 04 2023 9:58:59

Как грамотно работать с Директ Коммaндер

Как грамотно работать с Директ Коммaндер Директ Коммaндер от Яндекса позволяет легко работать с большими кампаниями...

29 04 2023 7:31:52

Кейс по продвижению интернет-магазина детской одежды, обуви и товаров: ROMI 319%

Кейс по продвижению интернет-магазина детской одежды, обуви и товаров: ROMI 319% Виктория Игнатьева опубликовала новый кейс по продвижению интернет-магазина детской одежды, обуви и товаров: ROMI (возврат маркетинговых инвестиций) 319%....

28 04 2023 0:46:34

Декрет, развод, разочарование в научной карьере — три истории специалистов, которые нашли себя в диджитале

Декрет, развод, разочарование в научной карьере — три истории специалистов, которые нашли себя в диджитале Менять карьеру страшно, особенно после тридцати. Поэтому мы спросили людей, у которых это получилось — через какие трудности им пришлось пройти....

27 04 2023 18:18:57

Как привлечь трафик на сайт: 15+ эффективных способов

Как привлечь трафик на сайт: 15+ эффективных способов Наконец-то вы создали сайт. Вы потратили усилия на дизайн, разработку, его наполнение. Но этого оказалось недостаточно, чтобы о вашем интернет- ресурсе узнали. Как же привлечь посетителей на сайт?...

26 04 2023 12:35:18

Гeймификация: игровые сценарии для развития бизнеса

Гeймификация: игровые сценарии для развития бизнеса О том, как сделать сайты интереснее и эффективнее. Гeймификация — применение игровых сценариев и элементов вне игровых контекстов. Это не про создание игр, это про поиск решений, которые помогут сделать любую работу интереснее. Читайте дальше!...

25 04 2023 8:34:41

Макс Бурцев (Arriba) про большие идеи для брендов

Суть бренда на одном дыхании: о рекламе с любовью. Изначально под большой идеей мы пониманием ту пользу, которую несет бренд в окружающий его мир. Помимо этого, большая идея — это те «рельсы», по которым будут ехать все коммуникации бренда в течение нескольких лет...

24 04 2023 4:22:37

Как повысить органический трафик на 124% при полумиллионой аудитории — кейс тендерной площадки SmartTender

Как повысить органический трафик на 124% при полумиллионой аудитории — кейс тендерной площадки SmartTender Рассказываем, как комaнда Netpeak работала над ростом органики и повышением видимости приоритетных страниц сайта по релевантной семантике....

23 04 2023 19:10:25

Социальный арбуз или самые популярные тематики в Facebook в Украине

Охват и средняя цена за клик в самых популярных тематиках....

22 04 2023 9:15:11

Кейс по контекстной рекламе в тематике «языковые курсы»

Кейс по контекстной рекламе в тематике «языковые курсы» Филиалы курсов в Таллине, Москве, Днепропетровске. Оказывается, нельзя так просто взять и посчитать ROMI (возврат маркетинговых инвестиций) в этой тематике....

21 04 2023 16:14:37

Рекламные кампании для масштабирования бизнеса в интернете

Рекламные кампании для масштабирования бизнеса в интернете Главные вопросы при запуске и настройке любых кампаний: «чего я хочу достичь?», «помогает ли текущая кампания достичь желаемых результатов?», «влияет ли кампания на эффективность других кампаний и источников?». Узнать больше....

20 04 2023 19:13:56

Как работать с Google Trends — подробное руководство для новичков

Как работать с Google Trends — подробное руководство для новичков Успех рекламы во многом зависит от сезонности, популярности тематики и умения оперативно среагировать на тренд. Для этого и существует сервис Google Trends....

19 04 2023 20:35:52

Как обpaбатывать данные из множества таблиц в Google BigQuery

Как обpaбатывать данные из множества таблиц в Google BigQuery Альтернатива классическому SQL — обработка запросов из множества таблиц с помощью функций подстановки в Google BigQuery....

18 04 2023 9:49:39

Запросы not provided — как получить больше информации

Запросы not provided — как получить больше информации Отслеживаем в статистике Google ***ytics посетителей пришедших через защищенное соединение в поиске Google....

17 04 2023 4:54:50

Главред блога Netpeak про управление задачами и собой

Главред блога Netpeak про управление задачами и собой Неля Серебро рассказывает про внутреннюю кухню блога Netpeak...

16 04 2023 21:49:38

Как сделать email-рассылку в MailChimp

Как сделать email-рассылку в MailChimp Инструкция для новичков: как быстро отправить почтовую рассылку клиентам...

15 04 2023 19:22:59

Как получать деньги из YouTube

Какие шаги стоит сделать, чтобы обойти ямы профессионального влогинга и как заработать на его вершинах...

14 04 2023 7:13:54

Apple тайно рекламирует приложения в гугле? Что это значит.

Apple тайно рекламирует приложения в гугле? Что это значит. Давайте разбираться, в чем именно обвиняют техногиганта разработчики и действительно ли такую рекламу считают циничной....

13 04 2023 23:54:16

Массовые изменения в Google Ads Editor

При работе с рекламным аккаунтом приходится вносить много однотипных изменений. Рассказываем, как сделать это быстро....

12 04 2023 7:32:14

Алексей Гулый о правильных людях, новых идеях и бизнесе без потерь

Алексей Гулый о правильных людях, новых идеях и бизнесе без потерь Как начать бизнес в институте и масштабировать его до международной группы компаний. Собрали все самое интересное из интервью фаундера «Техно Ёж» Алексея Гулыя на конференции 8P....

11 04 2023 21:58:26

Еще:
понять и запомнить -1 :: понять и запомнить -2 :: понять и запомнить -3 :: понять и запомнить -4 :: понять и запомнить -5 :: понять и запомнить -6 :: понять и запомнить -7 ::