NetPeak Biz Tech    


Что такое краулинг и как управлять роботами

Что такое краулинг и как управлять роботами

< >

Выдача ответов на поисковый запрос на странице поиска за долю секунды только верхушка айсберга. В «черном ящике» поисковых систем — просканированные и занесенные в специальную базу данных миллиарды страниц, которые отбираются для представления с учетом множества факторов.

Страница с результатами поиска формируется в результате трех процессов:

  • сканирования;
  • индексирования;
  • предоставления результатов (состоит из поиска по индексу и ранжирования страниц).

В этом выпуске «Азбуки SEO» речь пойдет о сканировании или краулинге страниц сайта.

Как работает сканирование (краулинг) сайта?

Если кратко, краулинг (сканирование, crawling) — процесс обнаружения и сбора поисковым роботом (краулером) новых и обновленные страницы для добавления в индекс поисковых систем. Сканирование — начальный этап, данные собираются только для дальнейшей внутренней обработки (построения индекса) и не отображаются в результатах поиска. Просканированная страница не всегда оказывается проиндексированной.

Поисковый робот (он же crawler, краулер, паук, бот) — программа для сбора контента в интернете. Краулер состоит из множества компьютеров, запрашивающих и выбирающих страницы намного быстрее, чем пользователь с помощью своего веб-браузера. Фактически он может запрашивать тысячи разных страниц одновременно.

Что еще делает робот-краулер:

  1. Постоянно проверяет и сравнивает список URL-адресов для сканирования с URL-адресами, которые уже находятся в индексе Google.
  2. Убирает дубликаты в очереди, чтобы предотвратить повторное скачивание одной и той же страницы.
  3. Добавляет на переиндексацию измененные страницы для предоставления обновленных результатов.

При сканировании пауки просматривают страницы и выполняют переход по содержащимся на них ссылкам так же, как и обычные пользователи. При этом разный контент исследуется ботами в разной последовательности. Это позволяет одновременно обpaбатывать огромные массивы данных.

Например, в Google существуют роботы для обработки разного типа контента:

  • Googlebot — основной поисковый робот;
  • Googlebot News — робот для сканирования новостей;
  • Googlebot Images — робот для сканирования изображений;
  • Googlebot Video — робот для сканирования видео.

Что такое robots.txt и зачем вообще нужен индексный файл В статье о robots.txt мы собрали полный перечень роботов-пауков. Знакомьтесь :)

Кстати, именно с robots.txt и начинается процесс сканирования сайта — краулер пытается обнаружить ограничения доступа к контенту и ссылку на карту сайта (Sitemap). В карте сайта должны находиться ссылки на важные страницы сайта. В некоторых случаях поисковый робот может проигнорировать этот документ и страницы попадут в индекс, поэтому конфиденциальную информацию нужно закрывать паролем непосредственно на сервере.

Просматривая сайты, бот находит на каждой странице ссылки и добавляет их в свою базу. Робот может обнаружить ваш сайт даже без размещения ссылок на него на сторонних ресурсах. Для этого нужно осуществить переход по ссылке с вашего сервера на другой. Заголовок HTTP-запроса клиента «referer» будет содержать URL источника запроса и, скорее всего, сохранится в журнале источников ссылок на целевом сервере. Следовательно, станет доступным для робота.

Истории бизнеса и полезные фишки

Как краулер видит сайт

Если хотите проверить, как робот-краулер видит страницу сайта, отключите обработку JavaScript при включенном отладчике в браузере. Рассмотрим на примере Google Chrome:

1. Нажимаем F12 — вызываем окно отладчика, переходим в настройки.

2. Отключаем JavaScript и перезагружаем страницу.

Если в целом на странице сохранилась основная информация, ссылки на другие страницы сайта и выглядит она примерно так же, как и с включенным JavaScript, проблем со сканированием не должно возникнуть.

Второй способ — использовать инструмент Google «Просмотреть как Googlebot» в Search Console.

Если краулер видит вашу страницу так же, как и вы, проблем со сканированием не возникнет.

Третий метод — специальное программное обеспечение. Например https://pr-cy.ru/simulator/ отображает программный код, который робот видит на странице, а Netpeak Spider показывает более 50 разных видов ошибок, найденных при сканировании, и разделяет их по степени важности.

Если страница не отображается так, как вы ожидали, стоит проверить, доступна ли она для сканирования: не заблокирована ли она в robots.txt, в файле .htaccess.

Сайт на Ajax: как отдельным страницам попасть в выдачу Проблемы со сканированием могут возникать, если сайт создан с помощью технологий Javascript и Ajax, так как поисковые системы пока с трудом сканируют подобный контент.

Как управлять сканированием страниц

Запуск и оптимизация сканирования сайта

Существует несколько методов пригласить робота-паука к себе на сайт:

  1. Разрешить сканирование сайта, если он был запаролен на сервере, и передать информацию об URL c помощью HTTP-заголовка «referer» при переходе на другой ресурс.
  2. Разместить ссылку на ваш сайт на другом ресурсе, например, в соцсетях.
  3. Зарегистрироваться в панелях вебмастеров Google и Яндекс.
  4. Сообщить о сайте поисковой системе напрямую через кабинеты вебмастеров поисковых систем:
  1. Использовать внутреннюю перелинковку страниц для улучшения навигации и сканирования ресурса, например, хлебные крошки.
  2. Создать карту сайта с нужным списком страниц и разместить ссылку на карту в robots.txt.

Запрет сканирования сайта

  1. Для ограничения сканирования контента следует защитить каталогов сервера паролем. Это простой и эффективный способ защиты конфиденциальной информации от ботов.
  2. Ставить ограничения в robots.txt.
  3. Использовать метатег . С помощью директивы “nofollow” стоит запретить переход по ссылкам на другие страницы.
  4. Использовать HTTP-заголовок X-Robots tag. Запрет на сканирование со стороны сервера осуществляется с помощью HTTP заголовка X-Robots-tag: nofollow. Директивы, которые применяются для robots.txt, подходят и для X-Robots tag.

Больше информации о использовании http-заголовка в справке для разработчиков.

Управление частотой сканирования сайта

Googlebot использует алгоритмический процесс для определения, какие сайты сканировать, как часто и сколько страниц извлекать. Вебмастер может предоставить вспомогательную информацию краулеру с помощью файла sitemap, то есть с помощью атрибутов:

  • — дата последнего изменения файла;
  • — вероятная частота изменений страницы;
  • — приоритетность.

К сожалению, значения этих атрибутов рассматриваются роботами как подсказка, а не как комaнда, поэтому в Google Search Console и существует инструмент для ручной отправки запроса на сканирование.

Выводы

  1. Разный контент обpaбатывается ботами в разной последовательности. Это позволяет одновременно обpaбатывать огромные массивы данных.
  2. Для улучшения процесса сканирования нужно создавать карты сайтов и делать внутреннюю перелинковку — чтобы бот смог найти все важные страницы.
  3. Закрывать информацию от индексирования лучше с помощью метатега   или http-заголовка X-Robot tag, так как файл robots.txt содержит лишь рекомендации по сканированию, а не прямые комaнды к действию.

Инструменты для парсинга в работе SEO-специалиста Читайте больше об инструментах для парсинга сайта, необходимых SEO-специалисту в рутинной работе.



Комментарии:

Как ищут во Франции: исследование кликабельности в органическом поиске Google

Анализ данных о 7,6 миллионах поисковых запросов в французском Google...

01 06 2026 11:41:50

Успокоить нельзя продать. Инструкция по ведению переговоров для B2B-сейлзов в период кризиса. Опыт Netpeak Group

Успокоить нельзя продать. Инструкция по ведению переговоров для B2B-сейлзов в период кризиса. Опыт Netpeak Group Рекомендации по ведению переговоров в непростых условиях....

31 05 2026 2:38:14

Исследование — сколько стоил клик в Google Ads в Казахстане во втором квартале 2021 года

Исследование — сколько стоил клик в Google Ads в Казахстане во втором квартале 2021 года Информация поможет вам в составлении медиапланов. Зная стоимость клика в вашей тематике или регионе, и коэффициент конверсии на вашем сайте, можно оценить объем необходимых инвестиций в рекламу и прогнозировать стоимость конверсии. Узнать больше!...

30 05 2026 19:22:51

«Цена? Ответили в direct». Почему магазины в Instagram скрывают цены?

«Цена? Ответили в direct». Почему магазины в Instagram скрывают цены? Пишите стоимость товара под постами. Но это не универсальный совет. Если ваша ниша с длинным циклом продаж, можно сделать исключение. Что ещё нужно знать про ответ в директ? Узнать!...

29 05 2026 9:42:28

SEO для магазина лакокрасочных и строительных материалов — как мы увеличили объем бесплатного трафика на 463%

SEO для магазина лакокрасочных и строительных материалов — как мы увеличили объем бесплатного трафика на 463% Эта история о том, как за два года комплексный подход к поисковому продвижению (SEO на этапе разработке сайта и дальнейшие действия по оптимизации) помог увеличить рост бесплатного трафика на 463% или Что делать, если SEO не приносит результаты сразу...

28 05 2026 21:43:45

Кейс по SEO-продвижению магазина сантехники, садовой техники, электроинструментов: ROMI 4157%

Изначально необходимо планировать продолжительное сотрудничество с агентством для достижения поставленных целей. В своей стратегии мы использовали сезонность, чтобы достичь максимальных результатов для клиента...

27 05 2026 1:28:58

Кейс по продвижению интернет-магазина медицинских товаров: ROMI 32%

Кейс по продвижению интернет-магазина медицинских товаров: ROMI 32% Продвигаем медицинский проект. Кроме цифр рассказываем, что и как делали...

26 05 2026 19:16:53

Как перенести интернет-магазин с российских платформ

Как перенести интернет-магазин с российских платформ На украинском рынке услуг велик выбор качественных платформ. Главное понимать, как правильно проводить миграцию....

25 05 2026 10:24:10

Семь улучшений Netpeak: #напальцах и Netpeak Cloud. Выпуск четвертый

Семь улучшений Netpeak: #напальцах и Netpeak Cloud. Выпуск четвертый Как изменилось агентство Netpeak c августа по октябрь? Читайте о семи главных нововведениях и улучшениях в работе с клиентами....

24 05 2026 2:51:28

Как работать с API Яндекс.Метрики с помощью языка R

Как работать с API Яндекс.Метрики с помощью языка R Интерфейс прикладного программирования для работы с аккаунтами десятка сайтов....

23 05 2026 8:31:36

10 ошибок молодого бизнеса в Instagram

10 ошибок молодого бизнеса в Instagram Как не нужно делать, запуская свой профиль и таргетированную рекламу в Instagram...

22 05 2026 17:58:56

Интервью с Юлией Куриловой

Интервью с Юлией Куриловой Увлекательные истории от специалиста по контекстной рекламе....

21 05 2026 21:27:18

Какие фишки я беру у конкурентов — дневник оптимизатора

Какие фишки я беру у конкурентов — дневник оптимизатора Заимствуете лучшее, коллекционируйте идеи и не откладывайте тестирование фишек в долгий ящик...

20 05 2026 16:51:29

Кукла с протезом, кальвадос Ремарка и страхование дворца: чем радовала и шокировала реклама соцсетей в январе 2021-го

Кукла с протезом, кальвадос Ремарка и страхование дворца: чем радовала и шокировала реклама соцсетей в январе 2021-го Какая интересная и трэшовая реклама встречалась в соцсетях в январе 2021-го? Давайте смотреть...

19 05 2026 22:11:51

Как отслеживать работу PBN и оперативно реагировать на изменения

Как отслеживать работу PBN и оперативно реагировать на изменения Как контролировать множество сайтов — полезные сервисы и советы для вебмастеров. Одно дело — несколько десятков сайтов, а что если сотни или тысячи? Как раз это подробно и разберем....

18 05 2026 13:24:35

Конкурент Shazam: искусственный интеллект распознает песни по насвистываниям и мычаниям

Конкурент Shazam: искусственный интеллект распознает песни по насвистываниям и мычаниям Как в Google Search можно найти мелодию по примерному напеву...

17 05 2026 11:53:14

Турбо-страницы Яндекса — что это и как внедрить

Турбо-страницы Яндекса — что это и как внедрить Создаём страницы, которые быстро загружаются на мобильных устройствах....

16 05 2026 11:47:36

Как не терять звонки даже с двумя сотрудниками в call-центре

Как не терять звонки даже с двумя сотрудниками в call-центре Минимизация пропущенных звонков и ускорение обработки заявок с наглядными примерами из сервиса...

15 05 2026 15:40:17

Как SaaS-у заработать $250 000 за неделю, или Четкая инструкция от Serpstat, как провести успешную кампанию на AppSumo

Как SaaS-у заработать $250 000 за неделю, или Четкая инструкция от Serpstat, как провести успешную кампанию на AppSumo Заработок в четверть миллиона. Как многофункциональная SEO-платформа Serpstat из Netpeak Group стала самым продаваемым продуктом на AppSumo — пошаговая история-инструкция...

14 05 2026 18:11:52

Инсайты Google Business Profile: от настройки до оптимизации

Инсайты Google Business Profile: от настройки до оптимизации Как зарегистрироваться и пользоваться аккаунтом в Google Business Profile: руководство для интернет-маркетологов и владельцев бизнеса...

13 05 2026 3:11:57

Веб-студии vs конструкторы сайтов: что выбрать для интернет-магазина?

Веб-студии vs конструкторы сайтов: что выбрать для интернет-магазина? Чем работа веб-студий отличается от конструкторов сайтов, как выбрать веб-студию и пять базовых понятий, которые должен знать каждый, кто решил создать сайт....

12 05 2026 6:52:45

Какие элементы продающего текста нужно тестировать

Какие элементы продающего текста нужно тестировать 89% предпринимателей не тестируют свои продающие тексты. О том, что и как нужно тестировать, рассказал в гостевом посте директор Студии эффективных текстов Владимир Руков....

11 05 2026 0:32:59

Блог Netpeak 2.0 — мы всё поменяли, и вот почему

Блог Netpeak 2.0 — мы всё поменяли, и вот почему Блог на новом движке и с новым дизайном, перетянувший в себя огромное количество постов и комментариев за Х лет своей работы...

10 05 2026 0:59:39

16 отчетов Яндекс.Метрики для анализа сайта и аудитории

16 отчетов Яндекс.Метрики для анализа сайта и аудитории Многие специалисты недооценивают эффективность отчетов Яндекс.Метрики. Очень зря. Вот чем они могут быть полезны....

09 05 2026 15:55:27

Результаты тестирования похожих аудиторий в торговых кампаниях (Google Shopping)

Результаты тестирования похожих аудиторий в торговых кампаниях (Google Shopping) Обновление от Google: похожие аудитории можно использовать не только для медийных, но и для поисковых и торговых кампаний...

08 05 2026 20:40:20

Интеграция Google BigQuery c BI-платформами и электронными таблицами

Интеграция Google BigQuery c BI-платформами и электронными таблицами Подробная инструкция по интеграции с облачной базой данных и сравнение BI-платформ....

07 05 2026 18:13:13

Правила хорошего тона при создании Google Презентаций

Правила хорошего тона при создании Google Презентаций Как сделать красиво. Алгоритм подготовки красивых и понятных презентаций, рекомендации и полезные ссылки, а также простые правила хорошего тона в дизайне Google Презентаций. Узнать больше и сделать свою презентацию эффективнее!...

06 05 2026 17:24:54

Продвижение с PBN - кейсы и антикейсы. Без успешного успеха

Продвижение с PBN - кейсы и антикейсы. Без успешного успеха Private Blog Network для ниши безопасности, доставки цветов, товаров сантехники, туризма и выпекания. Сетки сайтов работают не всегда и это нормально. Узнать больше!...

05 05 2026 16:25:46

Как оценить потерянный доход в Google Ads с помощью языка R

Как оценить потерянный доход в Google Ads с помощью языка R Сколько прибыли вы не получили в Google Ads из-за нехватки бюджета или низкого рейтинга ключевых слов. Метод покажется сложным, но в дальнейшем вы сможете бесплатно обновлять данные и контролировать потери показов и дохода по всем рекламным кампаниям...

04 05 2026 23:50:25

Где бесплатно скачать иконки для сайта (пиктограммы)

Где бесплатно скачать иконки для сайта (пиктограммы) Иконки отличаются между собой размером, формой, весом, количеством оттенков и объемом. Наиболее популярными считаются векторные пиктограммы...

03 05 2026 3:51:46

Как покорить Бразилию — советы Depositphotos

Как покорить Бразилию — советы Depositphotos Идем в Бразилию: опыт Depositphotos + полезные факты....

02 05 2026 4:24:41

13 фишек маркетинга и продвижения проектов за рубежом — круглый стол 8P 2017

13 фишек маркетинга и продвижения проектов за рубежом — круглый стол 8P 2017 «Нет, нам нужна раскрутка и точка!» Список маркетинговых пpaктически применимых фишек....

01 05 2026 18:28:42

Как найти приоритетные запросы для продвижения и избавиться от проблемных страниц — нанокейсы SEMPRO 2016

Как найти приоритетные запросы для продвижения и избавиться от проблемных страниц — нанокейсы SEMPRO 2016 Дмитрий Шахов, Алексей Чекушин и другие эксперты поделились своим опытом решения сложных вопросов SEO на примере больших проектов....

30 04 2026 0:14:59

Как построить диаграмму и не облажаться

Как построить диаграмму и не облажаться Как нарисовать круговую или столбчатую диаграмму. Избавляемся от популярных ошибок при оформлении...

29 04 2026 10:54:18

Малкольм Гладуэлл о гениях и аутсайдерах

Малкольм Гладуэлл о гениях и аутсайдерах Миллионы решили купить книгу гении и аутсайдеры на Amazon: удивительное исследование канадского журналиста...

28 04 2026 1:49:40

Полезные сервисы для оптимизации удаленной работы

Полезные сервисы для оптимизации удаленной работы Обзор полезных сервисов и программ, которые увеличат эффективность работы из дома и улучшат организацию бизнес-комaнды...

27 04 2026 1:11:40

Сравнение Ringostat и Binotel. Комментируют PPC-специалисты

Сравнение Ringostat и Binotel. Комментируют PPC-специалисты Ringostat и Binotel. Сравнение главных сервисов для коллтрекинга в Украине...

26 04 2026 22:43:48

Как мы нашли модель аналитики для SaaS-проекта UniSender.com

Как мы нашли модель аналитики для SaaS-проекта UniSender.com Что делать, если нет четкой модели оценки эффективности контекстной рекламы?...

25 04 2026 5:13:25

Как начать работу с BigData — загружаем данные в Google BigQuery

Как начать работу с BigData — загружаем данные в Google BigQuery Начинаем работать с облачным сервисом хранения Google BigQuery...

24 04 2026 19:14:21

Интересные Telegram-каналы о бизнесе

Интересные Telegram-каналы о бизнесе От идеи для стартапа до плана развития и масштабирования бизнеса. Познавательные, полезные каналы, которые помогут реализовать смелые бизнес-цели. Узнать больше!...

23 04 2026 2:54:18

Топ 5 лучших вебинаров для онлайн-предпринимателей

Топ 5 лучших вебинаров для онлайн-предпринимателей Бесплатный образовательный проект для предпринимателей Netpeak Cluster предлагает пять своих лучших вебинаров о нюансах онлайн-продвижения...

22 04 2026 12:53:52

Как продвигаться в Instagram, если у вас B2B-бизнес

Как продвигаться в Instagram, если у вас B2B-бизнес Распространенные ошибки продвижения B2B-компаний + стратегии того, как наращивать число активных подписчиков и потенциальных клиентов....

21 04 2026 20:57:23

Как построить сводные таблицы в Excel, LibreOffice, OpenOffice и таблицах Google

Как построить сводные таблицы в Excel, LibreOffice, OpenOffice и таблицах Google Аналитик Netpeak Алексей Селезнев рассказал, как составить и пользоваться сводными таблицами онлайн в excel и за считанные секунды выделить нужные для анализа данные из десятков тысяч строк в отчетах Google ***ytics...

20 04 2026 23:57:18

Как перестать суетиться и начать контролировать свою продуктивность

Как перестать суетиться и начать контролировать свою продуктивность Инструкция для трудоголиков для тех, кто старается выполнить как можно больше заданий, а заметного прогресса при этом нет. Работать много и эффективно не всегда полезно. Если бы эффективная работа была залогом успеха, каждому хомяку воздвигли бы памятник...

19 04 2026 5:35:19

Once upon a time… 22 правила сторителлинга от Pixar

Как рассказывать истории...

18 04 2026 7:45:15

Как написать кейс — руководство для технарей на примере кейса Citrus и Netpeak в блоге Google

Как написать кейс — руководство для технарей на примере кейса Citrus и Netpeak в блоге Google Как написать годный кейс и победить страх чистого листа...

17 04 2026 19:30:31

Как создать чат-бот для Telegram-канала — инструкция для администраторов

Как создать чат-бот для Telegram-канала — инструкция для администраторов Как с помощью ботов ControllerBot и BotFather упростить управление каналами и разнообразить контент....

16 04 2026 8:23:59

Портрет украинского фрилансера — исследование Freelancehunt.

Портрет украинского фрилансера — исследование Freelancehunt. Ежегодный прирост рынка фриланса в Украине составляет в среднем 35%. В прошлом году зарегистрировано более 200 тысяч проектов на общую сумму 385 млн гривен....

15 04 2026 4:27:11

Как мы вошли в топ Product Hunt — четкая инструкция от Serpstat

Подробный алгоритм успешного питча на Product Hunt на примере Serpstat...

14 04 2026 10:12:43

Самые популярные домены и доменные зоны — исследование Serpstat

Самые популярные домены и доменные зоны — исследование Serpstat Знаете, как доменная зона Германии связана с криптовалютой, или почему в доменной зоне маленького острова площадью 10 квадратных километров зарегистрировано 20 млн доменов? Сейчас расскажем!...

13 04 2026 7:47:29

Еще:
понять и запомнить -1 :: понять и запомнить -2 :: понять и запомнить -3 :: понять и запомнить -4 :: понять и запомнить -5 :: понять и запомнить -6 :: понять и запомнить -7 ::