Что такое краулинг и как управлять роботами
Выдача ответов на поисковый запрос на странице поиска за долю секунды только верхушка айсберга. В «черном ящике» поисковых систем — просканированные и занесенные в специальную базу данных миллиарды страниц, которые отбираются для представления с учетом множества факторов.
Страница с результатами поиска формируется в результате трех процессов:
- сканирования;
- индексирования;
- предоставления результатов (состоит из поиска по индексу и ранжирования страниц).
В этом выпуске «Азбуки SEO» речь пойдет о сканировании или краулинге страниц сайта.
Как работает сканирование (краулинг) сайта?
Если кратко, краулинг (сканирование, crawling) — процесс обнаружения и сбора поисковым роботом (краулером) новых и обновленные страницы для добавления в индекс поисковых систем. Сканирование — начальный этап, данные собираются только для дальнейшей внутренней обработки (построения индекса) и не отображаются в результатах поиска. Просканированная страница не всегда оказывается проиндексированной.
Поисковый робот (он же crawler, краулер, паук, бот) — программа для сбора контента в интернете. Краулер состоит из множества компьютеров, запрашивающих и выбирающих страницы намного быстрее, чем пользователь с помощью своего веб-браузера. Фактически он может запрашивать тысячи разных страниц одновременно.
Что еще делает робот-краулер:
- Постоянно проверяет и сравнивает список URL-адресов для сканирования с URL-адресами, которые уже находятся в индексе Google.
- Убирает дубликаты в очереди, чтобы предотвратить повторное скачивание одной и той же страницы.
- Добавляет на переиндексацию измененные страницы для предоставления обновленных результатов.
При сканировании пауки просматривают страницы и выполняют переход по содержащимся на них ссылкам так же, как и обычные пользователи. При этом разный контент исследуется ботами в разной последовательности. Это позволяет одновременно обpaбатывать огромные массивы данных.
Например, в Google существуют роботы для обработки разного типа контента:
- Googlebot — основной поисковый робот;
- Googlebot News — робот для сканирования новостей;
- Googlebot Images — робот для сканирования изображений;
- Googlebot Video — робот для сканирования видео.
Что такое robots.txt и зачем вообще нужен индексный файл В
Кстати, именно с robots.txt и начинается процесс сканирования сайта — краулер пытается обнаружить ограничения доступа к контенту и ссылку на карту сайта (Sitemap). В карте сайта должны находиться ссылки на важные страницы сайта. В некоторых случаях поисковый робот может проигнорировать этот документ и страницы попадут в индекс, поэтому конфиденциальную информацию нужно закрывать паролем непосредственно на сервере.
Просматривая сайты, бот находит на каждой странице ссылки и добавляет их в свою базу. Робот может обнаружить ваш сайт даже без размещения ссылок на него на сторонних ресурсах. Для этого нужно осуществить переход по ссылке с вашего сервера на другой. Заголовок HTTP-запроса клиента «referer» будет содержать URL источника запроса и, скорее всего, сохранится в журнале источников ссылок на целевом сервере. Следовательно, станет доступным для робота.
Истории бизнеса и полезные фишки
Как краулер видит сайт
Если хотите проверить, как робот-краулер видит страницу сайта, отключите обработку JavaScript при включенном отладчике в браузере. Рассмотрим на примере Google Chrome:
1. Нажимаем F12 — вызываем окно отладчика, переходим в настройки.
2. Отключаем JavaScript и перезагружаем страницу.
Если в целом на странице сохранилась основная информация, ссылки на другие страницы сайта и выглядит она примерно так же, как и с включенным JavaScript, проблем со сканированием не должно возникнуть.
Второй способ — использовать инструмент Google «Просмотреть как Googlebot» в Search Console.
Если краулер видит вашу страницу так же, как и вы, проблем со сканированием не возникнет.
Третий метод — специальное программное обеспечение. Например https://pr-cy.ru/simulator/ отображает программный код, который робот видит на странице, а Netpeak Spider показывает более 50 разных видов ошибок, найденных при сканировании, и разделяет их по степени важности.
Если страница не отображается так, как вы ожидали, стоит проверить, доступна ли она для сканирования: не заблокирована ли она в robots.txt, в файле .htaccess.
Сайт на Ajax: как отдельным страницам попасть в выдачу Проблемы со сканированием могут возникать, если сайт создан с помощью технологий
Как управлять сканированием страниц
Запуск и оптимизация сканирования сайта
Существует несколько методов пригласить робота-паука к себе на сайт:
- Разрешить сканирование сайта, если он был запаролен на сервере, и передать информацию об URL c помощью HTTP-заголовка «referer» при переходе на другой ресурс.
- Разместить ссылку на ваш сайт на другом ресурсе, например, в соцсетях.
- Зарегистрироваться в панелях вебмастеров Google и Яндекс.
- Сообщить о сайте поисковой системе напрямую через кабинеты вебмастеров поисковых систем:
- Использовать внутреннюю перелинковку страниц для улучшения навигации и сканирования ресурса, например, хлебные крошки.
- Создать карту сайта с нужным списком страниц и разместить ссылку на карту в robots.txt.
Запрет сканирования сайта
- Для ограничения сканирования контента следует защитить каталогов сервера паролем. Это простой и эффективный способ защиты конфиденциальной информации от ботов.
- Ставить ограничения в robots.txt.
- Использовать метатег . С помощью директивы “nofollow” стоит запретить переход по ссылкам на другие страницы.
- Использовать HTTP-заголовок X-Robots tag. Запрет на сканирование со стороны сервера осуществляется с помощью HTTP заголовка X-Robots-tag: nofollow. Директивы, которые применяются для robots.txt, подходят и для X-Robots tag.
Больше информации о использовании http-заголовка в справке для разработчиков.
Управление частотой сканирования сайта
Googlebot использует алгоритмический процесс для определения, какие сайты сканировать, как часто и сколько страниц извлекать. Вебмастер может предоставить вспомогательную информацию краулеру с помощью файла sitemap, то есть с помощью атрибутов:
— дата последнего изменения файла; — вероятная частота изменений страницы; — приоритетность.
К сожалению, значения этих атрибутов рассматриваются роботами как подсказка, а не как комaнда, поэтому в Google Search Console и существует инструмент для ручной отправки запроса на сканирование.
Выводы
- Разный контент обpaбатывается ботами в разной последовательности. Это позволяет одновременно обpaбатывать огромные массивы данных.
- Для улучшения процесса сканирования нужно создавать карты сайтов и делать внутреннюю перелинковку — чтобы бот смог найти все важные страницы.
- Закрывать информацию от индексирования лучше с помощью метатега или http-заголовка X-Robot tag, так как файл robots.txt содержит лишь рекомендации по сканированию, а не прямые комaнды к действию.
Инструменты для парсинга в работе SEO-специалиста Читайте больше
Комментарии:
Выдержка из интервью Дэнни Салливаном с представителями компаний Google и Bing...
22 03 2023 9:34:35
Как Netpeak работал с сайтом филиала крупного бренда и добился результатов, несмотря на то, что сервера проекта находятся в другой стране....
21 03 2023 6:45:38
Кейсы, фишки и советы, опыт крупных брендов, маркетологов....
20 03 2023 1:54:27
Последствия удаленки на уровне крупного бизнеса. Как сотрудники и топ-менеджмент не могут договориться. Спopные вопросы, ответы на которые ещё предстоит найти. Узнать больше....
19 03 2023 16:16:13
Распределение бюджета на кампании в Google Рекламе. Обозревает Григорий Крутий....
18 03 2023 17:55:45
Объясняем по пунктам, как создать и правильно настроить DSA c таргетингом на фид и содержание сайта...
17 03 2023 13:31:48
Зная стоимость клика в вашей тематике или регионе, коэффициент конверсии на сайте, вы можете оценить объем необходимых в рекламу инвестиций и прогнозировать стоимость конверсии. Узнать больше!...
16 03 2023 2:20:35
Как обойти «Зал ожидания» и другие неочевидные фишки...
15 03 2023 10:45:50
Наши сотрудники смогли составить разбор непростых вещей, дать им определение и рассказать о них простым языком....
14 03 2023 16:34:16
Рост дохода в шесть раз, ROMI +500% за пять месяцев....
13 03 2023 12:39:47
Академия — набор структурированного контента, интеpaктивных заданий и обучающих курсов, посвященных конкретному продукту или индустрии в целом...
12 03 2023 0:23:55
Идеи, достойные распространения. Какие доклады TED Talks повлияли на нетпиковцев....
11 03 2023 16:27:13
Дайджест-путеводитель по серии постов о работе с редакторами электронных таблиц для PPC-специалистов....
10 03 2023 9:50:38
То, чего нет в справке — подробный обзор отчетов Google ***ytics: в режиме реального времени, по аудитории, источникам трафика, поведению, конверсии. Узнать больше!...
09 03 2023 17:23:59
Цели у личных сайтов могут быть разные, но в первую очередь они помогают рассказать историю о специалисте...
08 03 2023 19:47:25
Как проверить качество текста от копирайтера. Составляем техническое задания для копирайтера, проверяем уникальность, наличие ключевых слов, использование LSI, проводим семантический анализ текста....
07 03 2023 13:35:45
Дмитрий Шахов, Алексей Чекушин и другие эксперты поделились своим опытом решения сложных вопросов SEO на примере больших проектов....
06 03 2023 6:17:27
Особенности продвижения в нише аренды автомобилей по материалам кейсов наших коллег...
05 03 2023 15:35:33
Низкочастотные, низкоконкурентные, Long Tail и другие термины, которые нужно знать и понимать....
04 03 2023 8:54:29
Директ Коммaндер от Яндекса позволяет легко работать с большими кампаниями...
03 03 2023 3:24:24
Информация поможет вам в составлении медиапланов. Зная стоимость клика в вашей тематике или регионе, и коэффициент конверсии на вашем сайте, можно оценить объем необходимых инвестиций в рекламу и прогнозировать стоимость конверсии. Узнать больше!...
02 03 2023 9:17:12
Как сформировать правильную стратегию продвижения и сфокусировать внимание на получении прибыли...
01 03 2023 10:15:46
7 советов для оптимизации вашего профиля в Google Мой Бизнес....
28 02 2023 0:35:40
Кейс: SEO для сайта эpoтического массажа — ROMI 980% за 10 месяцев...
27 02 2023 16:15:53
Результаты четвертого опроса среди IT-специалистов по уровню зарплат интернет-маркетологов с интересными итогами от количества участников до самой высокооплачиваемой должности и среднего опыта в рынке. Узнайте больше!...
26 02 2023 12:48:57
Почему в высококонкурентных тематиках важно оптимизировать поведенческие показатели...
25 02 2023 9:15:11
Платные и бесплатные способы ускорить оптимизацию....
24 02 2023 15:37:14
Рост количества транзакций на 417%, дохода на 560%, среднего чека на 28%....
23 02 2023 20:47:36
Как автоматизировать рутину в Google Таблицах с помощью Google Apps Script...
22 02 2023 15:55:31
Интересные факты про Google Рекламу перевел Сергeй Бахарь для читателей нашего блога....
21 02 2023 21:11:57
Обидно терять сохраненные достижения. Почему падает трафик из поисковых систем и как это исправить...
20 02 2023 18:16:46
Ошибка, которая может привести к полной потере контроля над вашим сайтом. Рассказываем, что это такое, какие могут быть причины поломки и как исправить. Узнать больше!...
19 02 2023 15:40:41
Веб-архив сайтов позволяет вернуться на месяцы или годы назад, чтобы увидеть, как выглядел сайт....
18 02 2023 12:30:51
Почти 50 тыс. контактов за год принесли формы подписки и регистрации....
17 02 2023 7:22:16
Как специалисту оптимизировать рабочее время, качественно развивать проекты и меньше нервничать...
16 02 2023 7:38:31
Всем, кто собирается перейти на Single Page Application, но переживает, что они поссорятся с поисковыми системами. Правильно переживаете!...
15 02 2023 2:21:19
Как снизить цену за привлечение клиента на 50%, развивая только кампании для пользователей десктопов....
14 02 2023 18:26:49
Используем маску ввода для оптимизации сбора телефонных номеров в формах на сайте: кейсы агентства Netpeak...
13 02 2023 5:32:55
Читайте, если не хотите «слить» бюджет. Определите конкретные цели и УТП, соберите аналитику, идите к специалисту без опыта работы в конкретной нише и другие рекомендации эксперта. Читайте подробнее в статье!...
12 02 2023 5:30:35
Чтобы перенаправить рекламу не на свой домен, арбитражники используют редирект в Яндексе при работе с партнерскими ссылками...
11 02 2023 3:46:25
Создаем фид товаров, настравиваем код и списки динамического ремаркетинга для интернет-магазинов в странах, где отсутствует Google Merchant Center....
10 02 2023 15:41:30
На что обратить внимание при покупке интернет-ресурса, какие факторы влияют на цену и что помогает определить качество сайта? Ответы на все эти вопросы в статье. Читать!...
09 02 2023 0:46:50
Пять простых фишек для повышения привлекательности карточки товара....
08 02 2023 7:41:50
Насколько классно продается женская одежда в интернете....
07 02 2023 1:58:21
Гайд по рекламе для SMM-, PPC-специалистов, блогеров и владельцев бизнеса...
06 02 2023 15:33:59
Гарантии результата в SEO: миф или реальность. Спрос рождает предложение, поэтому не удивительно, что существует большое количество SEO-студий. Сразу возникает резонный вопрос, как могут существовать те компании, которые не дают гарантии вообще?...
05 02 2023 2:31:41
Почему соотношение данных об использовании приложения важнее, чем количество установок и удалений...
04 02 2023 0:26:25
Структура того, чем обладают сотрудники департаментов работы с клиентами лучших компаний....
03 02 2023 10:40:25
Менять карьеру страшно, особенно после тридцати. Поэтому мы спросили людей, у которых это получилось — через какие трудности им пришлось пройти....
02 02 2023 5:43:50
Иногда удержать пользователя сложнее, чем мотивировать загрузить приложение. Семь инструментов для анализа Uninstall Rate....
01 02 2023 10:10:36
Еще:
понять и запомнить -1 :: понять и запомнить -2 :: понять и запомнить -3 :: понять и запомнить -4 :: понять и запомнить -5 :: понять и запомнить -6 :: понять и запомнить -7 ::