Как поисковые системы индексируют сайт
Что такое краулинг и как управлять роботами Перед показом страницы в выдаче её основательно обpaбатывают роботы поисковых систем. Вначале роботы сканируют страницу, затем вносят контент в индекс и предоставляют результаты в выдаче. Мы уже детально раскрыли процесс
Индексирование — объединение и систематизация всей собранной на этапе сканирования информации о страницах с помощью создания специальной базы, индекса.
Не все просканированные страницы попадают в индекс. При сканировании робот вносит в свою базу все страницы, которые может обнаружить, но в индекс войдут только те, которые робот сочтет полезными для пользователя.
Также не стоит путать индексирование с ранжированием. На данном этапе ранг документу не присваивается, так как база постоянно пополняется новыми страницами и определить релевантность документа однозначно нельзя — через секунду может появится более релевантная страница. Поэтому ранг странице присваивается непосредственно в момент поиска.
Как формируется индекс?
Индекс содержит данные о словах на странице, о их местоположении, данные из основных тегов и атрибутов, например, тегов title и атрибутов alt. Построив индекс, роботы поисковых систем легко проводят поиск нужных документов.
Большинство роботов используют «инвертированный индекс» — для каждого термина создается список документов, которые содержат этот запрос.
Например:
Термин | Документ |
Термин 1 | Документ 1, Документ 3, Документ 5, Документ 7 |
Термин 1 | Документ 3, Документ 5, Документ 4 |
Термин 1 | Документ 3, Документ 6 |
Если посмотреть на создание инвертированного индекса глазами робота, то выглядит это примерно так:
- Конверсия в чистый текст — робот удаляет нетекстовые элементы (разметка, графика).
- Токенизация — робот создает выборку слов для выделения лексем (семантических единиц для обработки).
- Лингвистическая обработка лексем. Собранные лексемы всех слов со всех текстов упорядочиваются по алфавиту и для каждой из них добавляется номер вхождения и информация о номере страницы, откуда лексема была взята.
- Собственно составление индекса.
Сама запись в индексе выглядит примерно так, но для экономии места роботы могут усложнять ее структуру:
Лексема / номер страницы + номер вхождения / номер страницы + номер вхождения / номер страницы + номер вхождения /
Как управлять индексированием?
Как стимулировать роботов внести страницы в индекс:
1. Открыть закрытые для индексирования страницы.
Как найти приоритетные запросы для продвижения и избавиться от проблемных страниц — нанокейсы SEMPRO 2016 2. Проследить, чтобы страницы просканировались, добавляя ссылки для сканирования в очередь с помощью вебмастера. Также можно использовать
3. Размещать релевантный контент, метатеги, оптимизировать изображения, следить, чтобы рекламные блоки занимали максимум 30% первого экрана сайта.
Как ограничить доступ роботов к индексированию контента:
1. Добавить специальный метатег в верхней части HTML-страниц: .
2. Добавить специальный HTTP-заголовок: X-Robots-Tag: noindex.
Как проверить, попала ли страница в индекс?
1. Вручную, через строку поиска.
1.2. С помощью оператора поиска site:domen.com проверить индексацию всего сайта:
1.3. С помощью оператора site:domen.com/page1, где domen.com/page1 — url проверяемой страницы:
1.4. С помощью оператора поиска cache:domen.com/page1, где domen.com/page1 — url проверяемой страницы :
2. С помощью вебмастера Google:
3. С помощью плагина RDS Bar:
Как быстро проверить индексацию сайта в Google и Яндекс Больше
Почему страница выпадает из индекса?
Что такое robots.txt и зачем вообще нужен индексный файл 1. Установлен запрет на сканирование в
Канонический URL: как повысить рейтинг одинакового контента 2. На странице существует атрибут
3. Ответ сервера содержит HTTP-статус 4XX или 5XX, это препятствует обработке страницы роботом.
4. Сайт находится под фильтрами поисковых систем (из-за неуникального контента, манипулирования ссылочными факторами и так далее).
5. На странице присутствуют дубли контента.
Ответы сервера — подробная инструкция 6. Страница перенаправляет робота — отображается
Выводы
- Во время индексирования роботы поисковых систем систематизируют собранные в процессе сканирования данные о страницах сайта.
- SEO-специалист может влиять на индексирование контента сайта (но нет стопроцентной гарантии, что роботы поисковых систем к нему прислушаются).
- Сканирование страницы не гарантирует того, что контент будет проиндексирован, а индексация контента не означает, что он будет ранжироваться.
Остались вопросы? Пишите в комментариях, или ищите ответы в других выпусках рубрики «Азбука SEO».
Комментарии:
Как использовать расширенное семантическое ядро для увеличения целевого трафика....
26 04 2024 6:27:31
Данные по 24 миллионам кликов в 24 тематиках и 391 городу...
25 04 2024 15:47:19
Чат-боты упрощают процесс покупки продуктов онлайн. Netflix, Adidas, British Airways и другие крупные компании уже внедрили ботов в свои маркетинговые системы. Так ли это эффективно, если компании начинают отказываться от операторов в пользу ботов?...
24 04 2024 7:36:29
Как найти, нарастить и проанализировать ссылочную массу...
23 04 2024 2:53:17
Как считать конверсии из Facebook, когда они происходят в Jivosite и Битрикс24....
22 04 2024 16:35:45
Обзор полезных сервисов и программ, которые увеличат эффективность работы из дома и улучшат организацию бизнес-комaнды...
21 04 2024 23:32:31
Как говорят легенды, на создание дизайна этих носочков Sammy Icon вдохновили рисунки на стенах храма Темпло Майор в древнем городе Теночтитлан. К сожалению, город сейчас разобрали перуанские строители, но память о нем осталась в киевских носках...
20 04 2024 11:37:18
Старт любых активностей в сфере email-маркетинга — разработка стратегии...
19 04 2024 21:31:27
Не существует универсальных решений - есть эффективные инструменты и удачные их сочетания....
18 04 2024 18:37:30
Какие возможности дает Chrome DevTools для SEO-оптимизации...
17 04 2024 0:39:42
Как правильно группировать ключевые фразы для релевантности рекламных кампаний...
16 04 2024 17:11:17
Десять вопросов, которые чаще всего задают люди, столкнувшиеся с необходимостью создания landing page....
15 04 2024 17:51:51
В продажах лучше визуализировать путь потребителя в виде нейронных сетей....
14 04 2024 13:46:59
Как узнать слабые места ваших рекламных кампаний с помощью бесплатного скрипта....
13 04 2024 23:56:45
Рост дохода в шесть раз, ROMI +500% за пять месяцев....
12 04 2024 10:49:36
Всё об оценке эффективности SEO-продвижения с инструментами и рекомендациями...
11 04 2024 11:38:42
Чтобы перенаправить рекламу не на свой домен, арбитражники используют редирект в Яндексе при работе с партнерскими ссылками...
10 04 2024 16:46:56
То, как мы разговариваем, важно не только в жизни, но и в соцсетях. Зачем нужен tone of voice и как сделать, чтобы ваш голос отличался от других и был эффективен? Читайте наш гайд....
09 04 2024 4:26:37
Как раскрутить виртуальный магазин женской одежды. Подробно рассказываем, что делали и чего достигли...
08 04 2024 12:22:35
Начинали с SEO на этапе разработки нового сайта. Узнать больше!...
07 04 2024 4:42:34
На что обращает внимание система и менеджеры Google при проверке сайта и аккаунта....
06 04 2024 1:38:51
Фильтруем свой трафик от сотрудников в Google ***ytics...
05 04 2024 3:36:34
Эта книга рекомендована к прочтению решительно всем :)...
04 04 2024 14:29:36
Понятные людям и роботам URL. Это уникальный набор символов, который дает возможность идентифицировать всевозможные ресурсы в интернете (страницы сайтов, файлы, изображения, видео и так далее). Чтобы узнать больше, читайте далее!...
03 04 2024 21:55:51
Деловой этикет в переписке с бизнес-партнерами, сотрудниками, клиентами. Как заручиться доверием, укрепить деловые отношение и мотивировать подчиненных. Узнать!...
02 04 2024 13:19:43
Данные по 22,4 миллионам кликов в 46 тематиках и 392 населенных пунктах страны — собрана статистика исключительно по проектам агентства Netpeak. Узнать больше!...
01 04 2024 16:51:41
Контент может информировать, вовлекать и продавать, при этом для каждой цели нужен свой тип контента...
31 03 2024 13:52:42
Проверенный способ для сбора базы данных. Метод, с помощью которого можно извлечь контактные данные, а именно: название точки, телефон, адрес, сайт., а потом высылать своё КП, промокоды для акции, сообщить о выходе товара, сделать спецпредложение...
30 03 2024 0:22:41
Профессиональная лексика SEO-специалистов в буржунете и в рунете формируется в одном поле: Google-то общий. Но когда специалисты Востока и Запада встречаются, им сложно понять друг друга. Это неудивительно, так как язык отражает само восприятие SEO. А под...
29 03 2024 23:46:35
Сортировка мусора, использование велосипедов вместо автомобилей, озеленение города... В Украине, как правило, так представляют экофрендли бизнес. Зарубежные компании идут дальше....
28 03 2024 2:33:21
95% заполняемости коливингов для сервиса аренды жилья....
27 03 2024 17:48:38
Исправляем ошибки в рекламных кампаниях, аналитике и бюджете...
26 03 2024 17:46:26
Как сократить время на создание собственных отчетов, если вы работаете с большими рекламными аккаунтами...
25 03 2024 5:22:18
Продвижение музыкальной библиотеки. Со старта сотрудничества, трафик и основной ключ сайта клиента вырос в 10 раз. Регион продвижения — США....
24 03 2024 6:45:15
Объявление или кабинет блокируют из-за эмоджи. Что делать?...
23 03 2024 18:18:53
Настройка целей в Google ***ytics, а также отслеживание событий....
22 03 2024 5:15:53
Дэн Гридин, ненавистник холодных звонков и эксперт в области системного B2B маркетинга для сложных рынков, рассказал читателям блога о принципах работы на рынке во время шторма....
21 03 2024 22:51:59
Блиц-инструкция и рекомендации по созданию эффективных описаний для мобильных приложений...
20 03 2024 22:33:14
К чему стоит относиться с особенным вниманием при отправке рассылок. Грамматические ошибки, тема, прехедер и другие стратегически важные составляющие письма. Узнать больше!...
19 03 2024 10:14:37
Рекламные кампании для брендинга, роста вовлечения пользователей, продаж, лояльности. Какой формат выбрать, чтобы получить необходимое целевое действие. Узнать!...
18 03 2024 20:51:26
Как достучаться до сердца блогера, или Автору звонят дважды...
17 03 2024 21:33:27
Украинские реалии того, в каких тематиках трафик из Yandex.Direct дороже Google Ads. Новое исследование Алексея Селезнева....
16 03 2024 14:56:42
При наложении санкций на сайт его страницы заметно понижаются в выдаче. При наличии бана ресурс полностью исчезает из поиска, включая брендовые запросы...
15 03 2024 18:47:34
Самопомощь по тревоге во время карантина и экономического кризиса...
14 03 2024 8:45:29
Директ Коммaндер от Яндекса позволяет легко работать с большими кампаниями...
13 03 2024 5:59:26
Нескучный инструктаж на примере @netpeak_ua о том, зачем компании корпоративный Twitter для продвижения контента, компании или персоны. А еще про хештеги, поиск читателей, аналитику, стиль ведения вашего микроблога, создание сообщества и акции...
12 03 2024 21:26:12
Скрипт для распределения бюджета на отстающую семантику, чтобы получать больше трафика по меньшей цене...
11 03 2024 7:58:18
Обо всех способах передачи данных из несвязанных с сайтом источников, а также о ручной передаче данных...
10 03 2024 15:36:51
Цель этой статьи — предупредить от опасной ошибки в маркетинге: бездумного и неправильного внедрения NPS-опросника....
09 03 2024 10:19:57
Примеры странной, классной и непонятной рекламы в соцсетях из моей ленты за февраль 2021 года...
08 03 2024 18:55:36
Еще:
понять и запомнить -1 :: понять и запомнить -2 :: понять и запомнить -3 :: понять и запомнить -4 :: понять и запомнить -5 :: понять и запомнить -6 :: понять и запомнить -7 ::