Инструменты для парсинга в работе SEO-специалиста

Многие задачи поисковой оптимизации сайта можно и нужно автоматизировать. Например, сбор информации, составление списка товаров, анализ цен конкурентов, скорость внедрения рекомендаций. Автоматизировать эти процессы позволяет парсер сайтов.
Парсинг сайтов (или скрапинг) — процесс автоматического сбора и извлечения информации из онлайн-ресурсов.
Должен предупредить: обучение и грамотная настройка инструментов для парсинга займут много времени — дольше, чем если бы вы все делали вручную. Впрочем, так обстоят дела со всеми инструментами, с которыми работаешь впервые. Главное — начать.
За два года в агентстве Netpeak я познакомился со множеством методов парсинга данных. Расскажу, какие парсеры и для каких целей я использую при оптимизации сайта. Буду идти от простых решений к сложным.
1. Google Spreadsheet
С помощью таблиц Google можно вытянуть из сайта простые элементы для сравнения и компонирования малых объемов. Это title, description, h1, keywords, заголовки, артикулы, цены, тексты, таблицы данных. Этот бесплатный инструмент подходит для точечных, малообъемных задач. Например, создать файл с отслеживанием текста и заголовков страницы.
Существуют две простые функции:
1. =importhtml — для импорта данных из таблиц или списков.
2. =importxml — для импорта данных из документов в форматах XML, HTML, CSV, TSV, RSS, ATOM XML.
Для работы с функцией =importxml потребуется знание XPath. Но если не хотите тратить время на изучение документации, используйте отладчик браузера.
Чтобы запустить отладчик, кликните на нужном элементе страницы правой кнопкой мышки и выберите «Посмотреть код», или нажмите F12.
В отладчике пройдите по пути: Copy — Copy XPath. Скопированный XPath вставляйте в функцию =importxml.
Минусы
С каждым месяцем все хуже и хуже обpaбатывается функция =importxml. Раньше можно было без проблем парсить данные сразу же для ~500 URL-адресов, сейчас с трудом обpaбатываются 50 URL.
Плюсы
- автоматическое обновление при входе;
- можно настроить автоматическое обновление по времени (минута, час, день) ;
- при парсинге данных прямо в таблицу можно осуществлять преобразование данных и сразу же делать готовые отчеты, примеры, визуализации.
Какие задачи решает?
С помощью функции =importxml можно собирать в режиме реального времени данные о мета тегах и, например, о количестве комментариев к интересующим статьям.
В колонке A — ячейки с ссылкой на страницу. Тег title для ячейки A2 подтягивается с помощью запроса =IMPORTXML(A2;\"//title\").
Метатег description: =IMPORTXML(A2;\"//meta[@name=\\\'description\\\']/attribute::content\").
Тег H1 — с помощью запроса: =IMPORTXML(A2;\"//h1\").
Автор поста: =IMPORTXML(A2;\"//a[@class=\\\'author-name\\\']\").
Дата публикации: =IMPORTXML(A2;\"//div[@class=\\\'footer\\\']/span\").
Количество комментариев к посту: =IMPORTXML(A2;\"//span[@class=\\\'regular\\\']\").
С помощью функции =importhtml также можно подтянуть много интересных данных, например, основную информацию из Википедии об интересующих объектах.
2. Netpeak Spider
Десктопная программа для сканирования сайта, которая направлена на поиск SEO-ошибок, и включает возможности парсинга данных из HTML-страниц.
SEO-специалисту при обычном сканировании сайта иногда не хватает данных для анализа. С помощью Netpeak Spider можно, например, найти на сайте страницы с 404 ошибкой, страницы без тега Title и дополнительно спарсить цены на страницах товаров.
Таким образом можно обнаружить товары без цены и далее уже принять адекватное решение — оставить, убрать, закрыть их для сканирования/индексации.
Также можно вытянуть все тексты, которые размещены на страницах, задав определенный CSS-селектор или класс, в рамках которого они размещаются.
Стоимость программы — $14 в месяц или $117 в год (со скидкой 30%).
Минусы
- нет привязки по API;
- нет возможности обновлять данные по сценарию.
Плюсы
- существует возможность как добавить готовый список URL для парсинга данных, так и удобно просканировать весь сайт;
- одновременно можно запускать до 15 парсеров с уникальными настройками;
- можно отфильтровать страницы, на которых не были найдены искомые данные;
- показываются все уникальные вхождения, их количество и длина;
- кроме парсера данных, получаем также инструмент для комплексного SEO-анализа сайта.
Какие задачи решает?
Парсинг цен
Задача: необходимо узнать стоимость ноутбуков.
Список URL:
https://rozetka.com.ru/asus_x555lj_xx1465d/p11201236/
https://rozetka.com.ru/asus_x555sj_xo001d/p6596109/
https://rozetka.com.ru/asus_n551jb_xo127d/p10727833/
https://rozetka.com.ru/asus_e502sa_xo014d/p9155171/
https://rozetka.com.ru/asus_e502sa_xo001d/p10677881/
Решение. Для начала необходимо определить, какой элемент нужно вытянуть — в данном случае будем вытаскивать метатег «itemprop» со значением «price»:
Далее переходим в настройки сканирования Netpeak Spider на вкладку «Поиск» и включаем галочку «Использовать пользовательский поиск»:
Теперь необходимо задать настройки поиска — в качестве примера будем использовать XPath: //meta[@itemprop=\"price\"]
А в дополнительных настройках поиска выберем «Извлечение данных» — «Значение атрибута» — «content»:
Что в результате?
1. На четырёх страницах Spider нашел цены — отчёт открывается при выборе нужного поиска и нажатии на кнопку «Результаты извлечения»:
2. На одной странице не была найдена цена — на этой странице (https://rozetka.com.ru/asus_e502sa_xo001d/p10677881/) мы видим сообщение, что товар снят с производства:
Проверка внедрения GTM
Задача: проверить интеграцию кода GTM на страницах и ответить на два вопроса.
- Установлен ли код в принципе?
- Код установлен с правильным идентификатором?
Список URL:
https://netpeak.net/ru/blog/category/seo/
https://netpeak.net/ru/blog/category/ppc/
https://netpeak.net/ru/blog/category/web-***ytics/
https://netpeak.net/ru/blog/category/marketing/
Как новичку разобраться в регулярных выражениях Решение. Аналогично, сначала нужно определить, какой элемент отвечает за код GTM, — в данном случае будем вытягивать GTM ID с помощью
В Netpeak Spider переходим в «Аналогичные настройки сканирования» и задаём поиск по регулярному выражению: [\\\'\"](GTM-\w+)[\\\'\"]
Что в результате?
Видим, что код установлен и идентификатор правильный.
Чтобы узнать больше примеров использования Netpeak Spider, читайте подробный обзор этой функции в блоге Netpeak Software.
3. Web Scraper
Web Scraper — бесплатное браузерное расширение для Chrome. Вы можете настроить план обхода сайтов, то есть задать логику для перемещения краулера и указать данные, которые будут извлечены. Web Scraper будет проходить через сайт в соответствии с настройкой и извлекать соответствующие данные. Это позволяет экспортировать извлеченные данные в CSV.
Минусы
- нет возможности интеграции по API, то есть для обновления данных Web Scraper нужно запускать самостоятельно и ждать, пока завершится сканирование. Благо, проекты сохраняются в браузере, существует возможность сохранить проект в формате Json.
- также есть ограничение в один поток. 2 000 страниц парсятся больше часа.
- работает только в Chrome.
Плюсы
- удобный, простой и интуитивно понятный инструмент.
- может извлекать данные из динамических страниц, которые используют Javascript и Ajax.
Какие задачи решает?
Спарсить информацию о карточке товара
План обхода сайта показывает логику парсинга:
Элементы для парсинга:
После завершения парсинга информация будет отображена в таком виде:
Обучающие материалы:
4. Google Spreadsheet + Google Apps Script
Google Apps Script — язык программирования, основанный на JavaScript. Позволяет создавать новые функции и приложения для работы с Google Docs, Google Sheets и Google Forms. Настроить связку можно бесплатно.
Минусы
Нужно знание языка программирования JavaScript.
Плюсы
Потратив определенное время на настройку отчетов, можно оперативно реагировать на изменения данных.
Какие задачи решает?
С помощью связки Google Spreadsheet и Google Apps Script можно получать и обновлять данные в режиме реального времени, а это полезно, чтобы следить за конкурентами и настраивать оповещение при изменениях, например, тегов title. Также можно настроить мониторинг цен и получать уведомления при изменении показателей.
Пример скрипта для отслеживания цен.
Выводы
Для гибкого и эффективного использования бесплатных инструментов парсинга сайтов необходимо как минимум знать, что такое XPath, а оптимально — еще и владеть основами JavaScript. Да и платные решения, вроде Netpeak Spider, предлагают все более интересные возможности, вроде одновременной настройки 15 потоков парсинга.
Многие вопросы, связанные с автоматизацией, раньше решал Kimono, но с момента закрытия облачного сервиса он перестал быть таким уж привлекательным для SEO-специалиста.
Пишите в комментариях, какие инструменты вы используете для парсинга, и какие задачи решаете с их помощью.
Комментарии:
Часто копирайтеры пишут для поисковых роботов, не заботясь о качестве контента и читабельности. Рассмотрим метрики для оценки ридабилити....
09 05 2026 22:12:24
Услуга уровня элит-класса в конкурентной нише и не в самом простом для продвижения регионе. Рассказываем, как привели целевой трафик по минимальной цене. Узнать!...
08 05 2026 23:28:39
О чем следует позаботиться перед созданием интернет-магазина...
07 05 2026 2:53:46
За что, по мнению рекламодателей, готовы платить пользователи в России и Украине? Рейтинг самых дорогих ключевых слов Google Рекламы по версии Serpstat....
06 05 2026 16:17:41
Публикуем рецензию на новое издание Брайана Клифтона. Несмотря на узкую специализацию, эта книга стала бестселлером на Amazon и уже переведена на 5 разных языков. Стоит отметить, что две предыдущие редакции «Google ***ytics для профессионалов» успешно ис...
05 05 2026 19:28:32
О неправильных тpaктовках отчета по времени загрузки страниц сайта в ***ytics...
04 05 2026 17:56:41
Руководство по переносу кампаний в новый аккаунт Рекламы...
03 05 2026 11:22:30
Как распредляются зарплаты по грейдам и специализации: ежегодное исследование Serpstat....
02 05 2026 13:21:48
Стоит установить и освоить Google Tag Manager для расширения представления сайта в выдаче...
01 05 2026 2:45:55
Часто руководители, которые прекрасно справляются с работой в мирное время, в период войны перестают быть эффективными. У них нет навыков кризис-менеджмента. Чтобы удержать ситуацию на плаву, кризис-менеджером должен стать главный руководитель компании....
30 04 2026 6:26:59
Как связываться с клиентами и что делать, чтобы качество обслуживания не просело. Менеджер, который обpaбатывает звонки со своего мобильного, остается без контроля, поэтому АТС оказывается идеальным решением. Разбираемся в статье!...
29 04 2026 13:34:49
Не можете найти нужны отчёт в Google ***ytics? Или хотите ускорить поиск нужных данных и отчётов. В помощь ⏩ Обзор к Google ***ytics Intelligence....
28 04 2026 20:22:44
Опыт удаленки стартапа lemlist. Как сотрудники работали онлайн в доковидные времена и совмещали профессиональную деятельность с тимбилдингом. Читайте в коротком посте Владимира Поло, основателя AcademyOcean....
27 04 2026 5:31:15
Расширяем возможности визуализации данных из Google ***ytics c помощью пакета RGA и Power BI...
26 04 2026 11:57:47
Раскрутка музыки онлайн: способы, методы, нюансы и примеры...
25 04 2026 23:23:13
О том, как работают, празднуют, танцуют и в какой корпоративной культуре живут сотрудники корпорации Google. Этот пост развеет кое-какие мифы....
24 04 2026 12:30:21
Тест, который проходят все соискатели. Никому не показывайте!...
23 04 2026 23:48:14
Фубольный клуб. Как увеличить ROMI (возврат маркетинговых инвестиций) в рекламных кампаниях — рассказываем на примере киевского интернет-магазина «Динамо»...
22 04 2026 15:54:13
Как использовать расширенное семантическое ядро для увеличения целевого трафика....
21 04 2026 2:55:27
Мы уже писали о Google Shopping, в каких странах он доступен и как его настроить. В этом посте я покажу один из способов создания и загрузки фида данных. Это важный этап подготовки к запуску Google Shopping...
20 04 2026 15:31:50
Наш результат ведения рекламных кампаний в Facebook показывает, что при правильно подобранной стратегии можно даже за короткий период в авральном режиме попасть точно в цель...
19 04 2026 20:57:37
Как настроить программу Obsidian для удобной и быстрой работы по системе Zettelkasten....
18 04 2026 21:12:11
Психологический бестселлер. Как достичь гармонии во всех делах и начать получать удовольствие от жизни, — об этом читайте в новой рецензии Константина Рябенко на книгу Михая Чиксентмихайи «Поток»....
17 04 2026 17:49:53
Перво-наперво для мониторинга ошибок SEO-специалист открывает вебмастерку с подсказками Google — она же панель вебмастеров, она же Google Search Console...
16 04 2026 21:17:23
Новая услуга от Netpeak по ведению Instagram и Facebook...
15 04 2026 6:45:10
Проверка структурированных данных поисковыми роботами нуждается в нашей поддержке...
14 04 2026 7:56:27
Устраняем причины, по которым пользователи покидают сайт без покупки....
13 04 2026 7:49:44
Зачем амбициозным онлайн-проектам индивидуальные инструменты веб-аналитики....
12 04 2026 11:29:39
Обидно терять сохраненные достижения. Почему падает трафик из поисковых систем и как это исправить...
11 04 2026 7:26:25
Миллионы решили купить книгу гении и аутсайдеры на Amazon: удивительное исследование канадского журналиста...
10 04 2026 21:18:42
Алгоритм E-A-T теперь следит за экспертностью, авторитетностью и достоверностью контента. Что это значит?...
09 04 2026 7:45:26
Как работать с негативом и что делать, чтобы его было меньше/не было вовсе....
08 04 2026 5:30:18
Как говорится, люди делятся на тех, кто делит других на типы и тех, кто не делит. В этом посте — про желтых, синих, красных и зеленых людей....
07 04 2026 9:56:56
Дейли — ежедневный комaндный митинг, на котором комaнда синхронизируется по ключевым моментам работы и по текущим задачам. Делимся чек-листом агентства Netpeak по организации дейли на удалёнке....
06 04 2026 3:34:55
Сколько страниц на самом деле показывает и может перевести поисковик Google?...
05 04 2026 1:46:37
Создание репутации крутого специалиста — дело рук крутого специалиста....
04 04 2026 16:30:18
Как с помощью Google Tag Manager отслеживать исходящие ссылки на сайте и загрузки файлов с него...
03 04 2026 6:41:27
Недавно у нас появился свой генератор мемов :) Во многих компаниях смешные слова и фразы стараются запомнить и передать следующим поколениям сотрудников. В Netpeak же долго работали над секретным проектом и... Читайте!...
02 04 2026 9:29:20
Лайфхаки, как упростить работу с соцсетями от специалиста агентства Netpeak и ежедневной работы SMM-специалиста. Телеграм-боты, которые облегчат рутину и сэкономят время. Узнать больше!...
01 04 2026 22:32:51
Как помешать фейковым 404 страницам испортить статистику вашего сайта?...
31 03 2026 4:12:45
Проверенный способ для сбора базы данных. Метод, с помощью которого можно извлечь контактные данные, а именно: название точки, телефон, адрес, сайт., а потом высылать своё КП, промокоды для акции, сообщить о выходе товара, сделать спецпредложение...
30 03 2026 15:30:20
Зеркалами считаются сайты с разными доменными именами, но идентичным контентом...
29 03 2026 10:44:30
Важно: понимания стоимость конверсии и необходимое количество конверсий, вы можете прогнозировать, сколько денег на рекламу нужно выделить. Вот почему вам может быть полезно это исследование. Читать....
28 03 2026 19:33:57
Настройка в четыре шага и другие отличия AdWords Express от Adwords...
27 03 2026 18:26:43
Как тратить на ставки меньше денег и почему вырастает цена за клик, а также о том, как ее сделать ниже. Плюс список факторов, которые влияют на ставку для первой страницы для ключевого слова...
26 03 2026 11:53:22
Как начать бизнес в институте и масштабировать его до международной группы компаний. Собрали все самое интересное из интервью фаундера «Техно Ёж» Алексея Гулыя на конференции 8P....
25 03 2026 8:16:40
Старт любых активностей в сфере email-маркетинга — разработка стратегии...
24 03 2026 20:49:15
Чтобы создавать удобные отчеты, импортируйте данные из Яндекс.Директ в Microsoft Power BI с помощью язык R...
23 03 2026 2:27:37
Нейронные сети, нейросети онлайн, сверхточные нейронные сети. Я рассажу, как они устроены, как написать свою нейронную сеть с нуля, как правильно обучить нейронную сеть на имеющихся данных...
22 03 2026 4:55:44
Ежегодно в конце ноября начинается ажиотаж вокруг «огромных» скидок на Черную пятницу. Во всем мире этого дня ждут и готовятся покупать выгоднее. Но так ли это на самом деле?...
21 03 2026 5:45:48
Еще:
понять и запомнить -1 :: понять и запомнить -2 :: понять и запомнить -3 :: понять и запомнить -4 :: понять и запомнить -5 :: понять и запомнить -6 :: понять и запомнить -7 ::