Как поисковые системы индексируют сайт
Что такое краулинг и как управлять роботами Перед показом страницы в выдаче её основательно обpaбатывают роботы поисковых систем. Вначале роботы сканируют страницу, затем вносят контент в индекс и предоставляют результаты в выдаче. Мы уже детально раскрыли процесс
Индексирование — объединение и систематизация всей собранной на этапе сканирования информации о страницах с помощью создания специальной базы, индекса.
Не все просканированные страницы попадают в индекс. При сканировании робот вносит в свою базу все страницы, которые может обнаружить, но в индекс войдут только те, которые робот сочтет полезными для пользователя.
Также не стоит путать индексирование с ранжированием. На данном этапе ранг документу не присваивается, так как база постоянно пополняется новыми страницами и определить релевантность документа однозначно нельзя — через секунду может появится более релевантная страница. Поэтому ранг странице присваивается непосредственно в момент поиска.
Как формируется индекс?
Индекс содержит данные о словах на странице, о их местоположении, данные из основных тегов и атрибутов, например, тегов title и атрибутов alt. Построив индекс, роботы поисковых систем легко проводят поиск нужных документов.
Большинство роботов используют «инвертированный индекс» — для каждого термина создается список документов, которые содержат этот запрос.
Например:
Термин | Документ |
Термин 1 | Документ 1, Документ 3, Документ 5, Документ 7 |
Термин 1 | Документ 3, Документ 5, Документ 4 |
Термин 1 | Документ 3, Документ 6 |
Если посмотреть на создание инвертированного индекса глазами робота, то выглядит это примерно так:
- Конверсия в чистый текст — робот удаляет нетекстовые элементы (разметка, графика).
- Токенизация — робот создает выборку слов для выделения лексем (семантических единиц для обработки).
- Лингвистическая обработка лексем. Собранные лексемы всех слов со всех текстов упорядочиваются по алфавиту и для каждой из них добавляется номер вхождения и информация о номере страницы, откуда лексема была взята.
- Собственно составление индекса.
Сама запись в индексе выглядит примерно так, но для экономии места роботы могут усложнять ее структуру:
Лексема / номер страницы + номер вхождения / номер страницы + номер вхождения / номер страницы + номер вхождения /
Как управлять индексированием?
Как стимулировать роботов внести страницы в индекс:
1. Открыть закрытые для индексирования страницы.
Как найти приоритетные запросы для продвижения и избавиться от проблемных страниц — нанокейсы SEMPRO 2016 2. Проследить, чтобы страницы просканировались, добавляя ссылки для сканирования в очередь с помощью вебмастера. Также можно использовать
3. Размещать релевантный контент, метатеги, оптимизировать изображения, следить, чтобы рекламные блоки занимали максимум 30% первого экрана сайта.
Как ограничить доступ роботов к индексированию контента:
1. Добавить специальный метатег в верхней части HTML-страниц: .
2. Добавить специальный HTTP-заголовок: X-Robots-Tag: noindex.
Как проверить, попала ли страница в индекс?
1. Вручную, через строку поиска.
1.2. С помощью оператора поиска site:domen.com проверить индексацию всего сайта:
1.3. С помощью оператора site:domen.com/page1, где domen.com/page1 — url проверяемой страницы:
1.4. С помощью оператора поиска cache:domen.com/page1, где domen.com/page1 — url проверяемой страницы :
2. С помощью вебмастера Google:
3. С помощью плагина RDS Bar:
Как быстро проверить индексацию сайта в Google и Яндекс Больше
Почему страница выпадает из индекса?
Что такое robots.txt и зачем вообще нужен индексный файл 1. Установлен запрет на сканирование в
Канонический URL: как повысить рейтинг одинакового контента 2. На странице существует атрибут
3. Ответ сервера содержит HTTP-статус 4XX или 5XX, это препятствует обработке страницы роботом.
4. Сайт находится под фильтрами поисковых систем (из-за неуникального контента, манипулирования ссылочными факторами и так далее).
5. На странице присутствуют дубли контента.
Ответы сервера — подробная инструкция 6. Страница перенаправляет робота — отображается
Выводы
- Во время индексирования роботы поисковых систем систематизируют собранные в процессе сканирования данные о страницах сайта.
- SEO-специалист может влиять на индексирование контента сайта (но нет стопроцентной гарантии, что роботы поисковых систем к нему прислушаются).
- Сканирование страницы не гарантирует того, что контент будет проиндексирован, а индексация контента не означает, что он будет ранжироваться.
Остались вопросы? Пишите в комментариях, или ищите ответы в других выпусках рубрики «Азбука SEO».
Комментарии:
Как регулярно мониторить перспективные товары, по которым можно запускать контекстную рекламу...
07 11 2024 6:59:12
Как подготовить фиды в Яндекс.Директ для разных тематик...
06 11 2024 22:22:54
Есть офлайн-точка продаж и нужно привлечь сюда больше клиентов. Что делать? Настраиваем локальные кампании. Показываем и рассказываем, как это делать....
05 11 2024 0:47:42
Почему сайт упал в выдаче и какой апдейт алгоритма поисковика на это повлиял...
04 11 2024 2:11:49
Чем полезна вкладка Network в DevTools для SEO-специалиста...
03 11 2024 15:58:18
Отмена видео-сниппетов в выдаче Google, удаление страницы с тегами и инструмента подсказки ключевых слов в YouTube — все события последних месяцев свидетельствуют: Google всерьёз взялся за видеохостинги и решил изменить правила игры для видеомаркетинга в...
02 11 2024 6:18:20
Участники Netpeak Cluster поделились своими инсайтами....
01 11 2024 6:24:13
Подборка ненаучных наблюдений и ситуаций, в которых бывал каждый из нас...
31 10 2024 2:11:52
Результаты кампании динамического ремаркетинга для соцсетей...
30 10 2024 15:38:51
Ещё один проект, который продвигался во время карантина....
29 10 2024 20:37:31
Перед внедрением ремаркетинга следует хорошенько поработать над составлением базовых портретов аудитории сайта...
28 10 2024 12:21:14
SEO для цветочных магазинов с оплатой за трафик и полученные результаты...
27 10 2024 0:52:53
Клиникка использует лазеры и нуждается в продвижении. В специфических сферах привлечь потребителя впервые бывает сложнее и дороже, чем удержать его. Этот кейс о том, как повысить количество обращений новых клиентов с помощью видеорекламы...
26 10 2024 8:27:25
Если вы не можете разработать технические задания для себя в виде структурированного текста, вы, скорее всего, плохо понимаете, что хотите от исполнителя...
25 10 2024 2:28:42
Проверенный способ для сбора базы данных. Метод, с помощью которого можно извлечь контактные данные, а именно: название точки, телефон, адрес, сайт., а потом высылать своё КП, промокоды для акции, сообщить о выходе товара, сделать спецпредложение...
24 10 2024 8:33:36
Как заинтересовать инвесторов, сколько времени это займет, а также стратегии поиска....
23 10 2024 3:22:18
Кейс SEO-продвижения в США: рост трафика сайта с помощью низкочастотных запросов....
22 10 2024 13:24:35
Новая инструкция, которую можно применять к любым задачам в Google Таблицах....
21 10 2024 9:17:50
Контекстная реклама и ее эффективность: как долго длится, как измерить, что бывает, как заканчиваются деньги....
20 10 2024 8:57:17
Можно ли получить больше заявок, используя динамическую подмену заголовка? Кейсы в разных тематиках...
19 10 2024 18:43:35
Как с помощью ботов ControllerBot и BotFather упростить управление каналами и разнообразить контент....
18 10 2024 4:28:35
О чем стоит задуматься владельцам бизнеса и пользователям больших сайтов и почему Марку Цукербергу надо брать пример с телефонных сетей...
17 10 2024 9:31:27
Узнайте, как пользоваться Инспектором и внутренними диаграммами Facebook, чтобы быть в лидерах своей ниши!...
16 10 2024 17:17:53
Пример того, как составить маркетинговый контент-план, анализируя успешных конкурентов...
15 10 2024 3:41:23
Сколько стоил клик в Google Ads и Яндекс.Директ в Казахстане — цифры за первый квартал 2019 года...
14 10 2024 12:57:10
Мануал по Microsoft Power BI — мощному инструменту для бизнес-аналитики. Освоив эту платформу, вы сможете с легкостью создавать понятные отчеты и обновлять их в режиме реального времени....
13 10 2024 9:39:31
Персональный чек-лист автора десятков рассылок: три года опыта и регулярное общение с техподдержкой почтовых сервисов. Всё о том, как не попасть в спам и как из него спасаться. А может и не всё. Можете дополнить этот пост своими фишками? Делитесь!...
12 10 2024 1:28:29
Мы запустили email с нуля и стали получать стабильный ежемecячный доход....
11 10 2024 18:54:47
Digital-маркетинг развивается и модернизируется: новые методы работы, инструменты и технологии. И стабильно растут требования к digital-специалистам. Чтобы оставаться в профессии, нужно мониторить тренды, отслеживать тенденции и повышать знания....
10 10 2024 16:26:30
Как найти и быстро исправить причины падения трафика? Совет номер один — не паниковать....
09 10 2024 8:19:43
Попасть в топ 3 — ваш предел мечтаний? Почему и когда это не принесет ожидаемых результатов, плюс другие не актуальные убеждения о PPC. Узнать больше!...
08 10 2024 0:17:14
Мы хотим найти и купить локальную комaнду SEO или PPC-специалистов. Как обычно, делаем предложение нестандартно — в блоге...
07 10 2024 23:50:53
95% заполняемости коливингов для сервиса аренды жилья....
06 10 2024 22:12:42
Полем битвы стала тематика кроваток, игрушек и прочих детских товаров, основным оружием в бою — контекстная реклама....
05 10 2024 12:46:12
Как понять, что проект нуждается в новых текстах и сделать читателя счастливым...
04 10 2024 1:20:10
Сегодня стоит озвучить особенности страниц и групп в социальной сети Фейсбук...
03 10 2024 21:18:26
Чтобы раскрутить себя в Твиттер иногда нужно чистить списки фолловеров и это намного проще, чем кажется :)...
02 10 2024 4:12:39
Междугородние перевозки и их реклама. Кейс Павла Верлана...
01 10 2024 5:40:52
Как за один час собрать самые популярные темы для информационных статей с помощью Serpstat и Key Collector?...
30 09 2024 12:46:41
За какими метриками следует пристально следить в email-рассылках...
29 09 2024 15:19:16
Безопасное соединение, которое положительно оценивают не только поисковые роботы, но и пользователи. Особенно, если на сайте предстоит оставить личные данные. Читать!...
28 09 2024 16:41:42
Инструмент позволяет создавать ролики длительностью от 6 до 16 секунд. Созданные видеоматериалы можно размещать не только в рекламных кампаниях, но и на сайте или в email-рассылке. ...
27 09 2024 23:59:52
Какими бывают формы подписки и как их используют бренды...
26 09 2024 17:19:46
Как подготовиться и сделать из интервью полноценную историю, которая будет интересна аудитории...
25 09 2024 2:13:29
Откуда берутся установки и стоит ли тратить деньги на покупку мотивов...
24 09 2024 10:39:48
Покажем, как продвигать сайты, продающие детскую обувь...
23 09 2024 5:41:32
Лучшие результаты в SEO дает заранее спланированное сотрудничество клиента с агентством на всех этапах работ с сайтом....
22 09 2024 7:52:47
HR-советы компаниям, которым нужно найти больше трех джунов в проект...
21 09 2024 5:21:39
Как настроить работу удаленной комaнды сотрудников и успевать выполнить все задачи...
20 09 2024 21:46:58
Создание даже короткого ролика может стоить дорого. Поэтому можно использовать бесплатный инструмент Bumper Machine от Google....
19 09 2024 3:59:31
Еще:
понять и запомнить -1 :: понять и запомнить -2 :: понять и запомнить -3 :: понять и запомнить -4 :: понять и запомнить -5 :: понять и запомнить -6 :: понять и запомнить -7 ::