NetPeak Biz Tech    


Инструменты для парсинга в работе SEO-специалиста

Инструменты для парсинга в работе SEO-специалиста

< >

Многие задачи поисковой оптимизации сайта можно и нужно автоматизировать. Например, сбор информации, составление списка товаров, анализ цен конкурентов, скорость внедрения рекомендаций. Автоматизировать эти процессы позволяет парсер сайтов.

Парсинг сайтов (или скрапинг) — процесс автоматического сбора и извлечения информации из онлайн-ресурсов.

Должен предупредить: обучение и грамотная настройка инструментов для парсинга займут много времени — дольше, чем если бы вы все делали вручную. Впрочем, так обстоят дела со всеми инструментами, с которыми работаешь впервые. Главное — начать.

За два года в агентстве Netpeak я познакомился со множеством методов парсинга данных. Расскажу, какие парсеры и для каких целей я использую при оптимизации сайта. Буду идти от простых решений к сложным.

1. Google Spreadsheet

С помощью таблиц Google можно вытянуть из сайта простые элементы для сравнения и компонирования малых объемов. Это title, description, h1, keywords, заголовки, артикулы, цены, тексты, таблицы данных. Этот бесплатный инструмент подходит для точечных, малообъемных задач. Например, создать файл с отслеживанием текста и заголовков страницы.

Существуют две простые функции:

1. =importhtml — для импорта данных из таблиц или списков.
2. =importxml — для импорта данных из документов в форматах XML, HTML, CSV, TSV, RSS, ATOM XML.

Для работы с функцией =importxml потребуется знание XPath. Но если не хотите тратить время на изучение документации, используйте отладчик браузера.

Чтобы запустить отладчик, кликните на нужном элементе страницы правой кнопкой мышки и выберите «Посмотреть код», или нажмите F12.

В отладчике пройдите по пути: Copy — Copy XPath. Скопированный XPath вставляйте в функцию =importxml.

Минусы

С каждым месяцем все хуже и хуже обpaбатывается функция =importxml. Раньше можно было без проблем парсить данные сразу же для ~500 URL-адресов, сейчас с трудом обpaбатываются 50 URL.

Плюсы

  • автоматическое обновление при входе;
  • можно настроить автоматическое обновление по времени (минута, час, день) ;
  • при парсинге данных прямо в таблицу можно осуществлять преобразование данных и сразу же делать готовые отчеты, примеры, визуализации.

Какие задачи решает?

С помощью функции =importxml можно собирать в режиме реального времени данные о мета тегах и, например, о количестве комментариев к интересующим статьям.

В колонке A — ячейки с ссылкой на страницу. Тег title для ячейки A2 подтягивается с помощью запроса =IMPORTXML(A2;\"//title\").

Метатег description: =IMPORTXML(A2;\"//meta[@name=\\\'description\\\']/attribute::content\").

Тег H1 — с помощью запроса: =IMPORTXML(A2;\"//h1\").

Автор поста: =IMPORTXML(A2;\"//a[@class=\\\'author-name\\\']\").

Дата публикации: =IMPORTXML(A2;\"//div[@class=\\\'footer\\\']/span\").

Количество комментариев к посту: =IMPORTXML(A2;\"//span[@class=\\\'regular\\\']\").

С помощью функции =importhtml также можно подтянуть много интересных данных, например, основную информацию из Википедии об интересующих объектах.

2. Netpeak Spider

Десктопная программа для сканирования сайта, которая направлена на поиск SEO-ошибок, и включает возможности парсинга данных из HTML-страниц.

SEO-специалисту при обычном сканировании сайта иногда не хватает данных для анализа. С помощью Netpeak Spider можно, например, найти на сайте страницы с 404 ошибкой, страницы без тега Title и дополнительно спарсить цены на страницах товаров.

Таким образом можно обнаружить товары без цены и далее уже принять адекватное решение — оставить, убрать, закрыть их для сканирования/индексации.

Также можно вытянуть все тексты, которые размещены на страницах, задав определенный CSS-селектор или класс, в рамках которого они размещаются.

Стоимость программы — $14 в месяц или $117 в год (со скидкой 30%).

Минусы

  • нет привязки по API;
  • нет возможности обновлять данные по сценарию.

Плюсы

  • существует возможность как добавить готовый список URL для парсинга данных, так и удобно просканировать весь сайт;
  • одновременно можно запускать до 15 парсеров с уникальными настройками;
  • можно отфильтровать страницы, на которых не были найдены искомые данные;
  • показываются все уникальные вхождения, их количество и длина;
  • кроме парсера данных, получаем также инструмент для комплексного SEO-анализа сайта.

Какие задачи решает?

Парсинг цен

Задача: необходимо узнать стоимость ноутбуков.

Список URL:

https://rozetka.com.ru/asus_x555lj_xx1465d/p11201236/
https://rozetka.com.ru/asus_x555sj_xo001d/p6596109/
https://rozetka.com.ru/asus_n551jb_xo127d/p10727833/
https://rozetka.com.ru/asus_e502sa_xo014d/p9155171/
https://rozetka.com.ru/asus_e502sa_xo001d/p10677881/

Решение. Для начала необходимо определить, какой элемент нужно вытянуть — в данном случае будем вытаскивать метатег «itemprop» со значением «price»:



Далее переходим в настройки сканирования Netpeak Spider на вкладку «Поиск» и включаем галочку «Использовать пользовательский поиск»:

Теперь необходимо задать настройки поиска — в качестве примера будем использовать XPath: //meta[@itemprop=\"price\"]

А в дополнительных настройках поиска выберем «Извлечение данных» — «Значение атрибута» — «content»:

Что в результате?

1. На четырёх страницах Spider нашел цены — отчёт открывается при выборе нужного поиска и нажатии на кнопку «Результаты извлечения»:

2. На одной странице не была найдена цена — на этой странице (https://rozetka.com.ru/asus_e502sa_xo001d/p10677881/) мы видим сообщение, что товар снят с производства:

Проверка внедрения GTM

Задача: проверить интеграцию кода GTM на страницах и ответить на два вопроса.

  1. Установлен ли код в принципе?
  2. Код установлен с правильным идентификатором?

Список URL:

https://netpeak.net/ru/blog/category/seo/
https://netpeak.net/ru/blog/category/ppc/
https://netpeak.net/ru/blog/category/web-***ytics/
https://netpeak.net/ru/blog/category/marketing/

Как новичку разобраться в регулярных выражениях Решение. Аналогично, сначала нужно определить, какой элемент отвечает за код GTM, — в данном случае будем вытягивать GTM ID с помощью регулярного выражения.

В Netpeak Spider переходим в «Аналогичные настройки сканирования» и задаём поиск по регулярному выражению: [\\\'\"](GTM-\w+)[\\\'\"]

Что в результате?

Видим, что код установлен и идентификатор правильный.

Чтобы узнать больше примеров использования Netpeak Spider, читайте подробный обзор этой функции в блоге Netpeak Software.

3. Web Scraper

Web Scraper — бесплатное браузерное расширение для Chrome. Вы можете настроить план обхода сайтов, то есть задать логику для перемещения краулера и указать данные, которые будут извлечены. Web Scraper будет проходить через сайт в соответствии с настройкой и извлекать соответствующие данные. Это позволяет экспортировать извлеченные данные в CSV.

Минусы

  • нет возможности интеграции по API, то есть для обновления данных Web Scraper нужно запускать самостоятельно и ждать, пока завершится сканирование. Благо, проекты сохраняются в браузере, существует возможность сохранить проект в формате Json.
  • также есть ограничение в один поток. 2 000 страниц парсятся больше часа.
  • работает только в Chrome.

Плюсы

  • удобный, простой и интуитивно понятный инструмент.
  • может извлекать данные из динамических страниц, которые используют Javascript и Ajax.

Какие задачи решает?

Спарсить информацию о карточке товара

План обхода сайта показывает логику парсинга:

Элементы для парсинга:

После завершения парсинга информация будет отображена в таком виде:

Обучающие материалы:

4. Google Spreadsheet + Google Apps Script

Google Apps Script — язык программирования, основанный на JavaScript. Позволяет создавать новые функции и приложения для работы с Google Docs, Google Sheets и Google Forms. Настроить связку можно бесплатно.

Минусы

Нужно знание языка программирования JavaScript.

Плюсы

Потратив определенное время на настройку отчетов, можно оперативно реагировать на изменения данных.

Какие задачи решает?

С помощью связки Google Spreadsheet и Google Apps Script можно получать и обновлять данные в  режиме реального времени, а это полезно, чтобы следить за конкурентами и настраивать оповещение при изменениях, например, тегов title. Также можно настроить мониторинг цен и получать уведомления при изменении показателей.

Пример скрипта для отслеживания цен.

Выводы

Для гибкого и эффективного использования бесплатных инструментов парсинга сайтов необходимо как минимум знать, что такое XPath, а оптимально — еще и владеть основами JavaScript. Да и платные решения, вроде Netpeak Spider, предлагают все более интересные возможности, вроде одновременной настройки 15 потоков парсинга.

Многие вопросы, связанные с автоматизацией, раньше решал Kimono, но с момента закрытия облачного сервиса он перестал быть таким уж привлекательным для SEO-специалиста.

Пишите в комментариях, какие инструменты вы используете для парсинга, и какие задачи решаете с их помощью.



Комментарии:

Индекс ридабилити и SEO

Индекс ридабилити и SEO Часто копирайтеры пишут для поисковых роботов, не заботясь о качестве контента и читабельности. Рассмотрим метрики для оценки ридабилити....

09 05 2026 22:12:24

Как мы снизили стоимость лида для клининга ковров в Эмиратах на 60%

Как мы снизили стоимость лида для клининга ковров в Эмиратах на 60% Услуга уровня элит-класса в конкурентной нише и не в самом простом для продвижения регионе. Рассказываем, как привели целевой трафик по минимальной цене. Узнать!...

08 05 2026 23:28:39

Как открыть интернет-магазин

Как открыть интернет-магазин О чем следует позаботиться перед созданием интернет-магазина...

07 05 2026 2:53:46

Топ-50 самых дорогих ключевых слов Google Рекламы в России и Украине

Топ-50 самых дорогих ключевых слов Google Рекламы в России и Украине За что, по мнению рекламодателей, готовы платить пользователи в России и Украине? Рейтинг самых дорогих ключевых слов Google Рекламы по версии Serpstat....

06 05 2026 16:17:41

Рецензия на третье издание «Google ***ytics для профессионалов» Брайана Клифтона

Рецензия на третье издание «Google ***ytics для профессионалов» Брайана Клифтона Публикуем рецензию на новое издание Брайана Клифтона. Несмотря на узкую специализацию, эта книга стала бестселлером на Amazon и уже переведена на 5 разных языков. Стоит отметить, что две предыдущие редакции «Google ***ytics для профессионалов» успешно ис...

05 05 2026 19:28:32

Сайт загружается медленно: когда не нужно паниковать

О неправильных тpaктовках отчета по времени загрузки страниц сайта в ***ytics...

04 05 2026 17:56:41

Сколько заpaбатывают маркетологи — ежегодное исследование Serpstat

Сколько заpaбатывают маркетологи — ежегодное исследование Serpstat Как распредляются зарплаты по грейдам и специализации: ежегодное исследование Serpstat....

02 05 2026 13:21:48

Как добавить микроразметку с помощью Google Tag Manager

Как добавить микроразметку с помощью Google Tag Manager Стоит установить и освоить Google Tag Manager для расширения представления сайта в выдаче...

01 05 2026 2:45:55

Бизнес и война: как выжить и не потерять всех сотрудников

Бизнес и война: как выжить и не потерять всех сотрудников Часто руководители, которые прекрасно справляются с работой в мирное время, в период войны перестают быть эффективными. У них нет навыков кризис-менеджмента. Чтобы удержать ситуацию на плаву, кризис-менеджером должен стать главный руководитель компании....

30 04 2026 6:26:59

10 фишек облачной телефонии для удаленной работы отдела продаж и колл-центра

10 фишек облачной телефонии для удаленной работы отдела продаж и колл-центра Как связываться с клиентами и что делать, чтобы качество обслуживания не просело. Менеджер, который обpaбатывает звонки со своего мобильного, остается без контроля, поэтому АТС оказывается идеальным решением. Разбираемся в статье!...

29 04 2026 13:34:49

Инструкция по работе с ***ytics Intelligence: как найти общий язык с Google ***ytics

Инструкция по работе с ***ytics Intelligence: как найти общий язык с Google ***ytics Не можете найти нужны отчёт в Google ***ytics? Или хотите ускорить поиск нужных данных и отчётов. В помощь ⏩ Обзор к Google ***ytics Intelligence....

28 04 2026 20:22:44

Как создать виртуальный офис

Как создать виртуальный офис Опыт удаленки стартапа lemlist. Как сотрудники работали онлайн в доковидные времена и совмещали профессиональную деятельность с тимбилдингом. Читайте в коротком посте Владимира Поло, основателя AcademyOcean....

27 04 2026 5:31:15

Как получить данные из Google ***ytics в R и загрузить в Power BI

Как получить данные из Google ***ytics в R и загрузить в Power BI Расширяем возможности визуализации данных из Google ***ytics c помощью пакета RGA и Power BI...

26 04 2026 11:57:47

Продвижение музыки в интернете

Продвижение музыки в интернете Раскрутка музыки онлайн: способы, методы, нюансы и примеры...

25 04 2026 23:23:13

Каково это — работать в Google

Каково это — работать в Google О том, как работают, празднуют, танцуют и в какой корпоративной культуре живут сотрудники корпорации Google. Этот пост развеет кое-какие мифы....

24 04 2026 12:30:21

Собеседование в рекламное агентство Ogilvy

Собеседование в рекламное агентство Ogilvy Тест, который проходят все соискатели. Никому не показывайте!...

23 04 2026 23:48:14

Как мы увеличили ROMI на 433% в рентабельных рекламных кампаниях: кейс интернет-магазина ФК «Динамо» (Киев)

Как мы увеличили ROMI на 433% в рентабельных рекламных кампаниях: кейс интернет-магазина ФК «Динамо» (Киев) Фубольный клуб. Как увеличить ROMI (возврат маркетинговых инвестиций) в рекламных кампаниях — рассказываем на примере киевского интернет-магазина «Динамо»...

22 04 2026 15:54:13

Как привлечь целевой трафик на сайт: кейсы по подбору ключевых фраз с помощью Serpstat (ex. Prodvigator)

Как привлечь целевой трафик на сайт: кейсы по подбору ключевых фраз с помощью Serpstat (ex. Prodvigator) Как использовать расширенное семантическое ядро для увеличения целевого трафика....

21 04 2026 2:55:27

Как настроить фид данных в обновленном Google Merchant Center

Как настроить фид данных в обновленном Google Merchant Center Мы уже писали о Google Shopping, в каких странах он доступен и как его настроить. В этом посте я покажу один из способов создания и загрузки фида данных. Это важный этап подготовки к запуску Google Shopping...

20 04 2026 15:31:50

Кейс онлайн-продвижения мероприятия — как продать билеты за 4 дня до конференции ***yze

Кейс онлайн-продвижения мероприятия — как продать билеты за 4 дня до конференции ***yze Наш результат ведения рекламных кампаний в Facebook показывает, что при правильно подобранной стратегии можно даже за короткий период в авральном режиме попасть точно в цель...

19 04 2026 20:57:37

Гайд по системе умных заметок Zettelkasten — настройка, воркфлоу, лайфхаки

Гайд по системе умных заметок Zettelkasten — настройка, воркфлоу, лайфхаки Как настроить программу Obsidian для удобной и быстрой работы по системе Zettelkasten....

18 04 2026 21:12:11

Как получать удовольствие от жизни. Советы из книги «Поток»

Как получать удовольствие от жизни. Советы из книги «Поток» Психологический бестселлер. Как достичь гармонии во всех делах и начать получать удовольствие от жизни, — об этом читайте в новой рецензии Константина Рябенко на книгу Михая Чиксентмихайи «Поток»....

17 04 2026 17:49:53

Google Search Console: регистрация и обзор полезных для SEO-специалиста разделов и функций

Google Search Console: регистрация и обзор полезных для SEO-специалиста разделов и функций Перво-наперво для мониторинга ошибок SEO-специалист открывает вебмастерку с подсказками Google — она же панель вебмастеров, она же Google Search Console...

16 04 2026 21:17:23

Перформанс так перформанс: мы запускаем SMM

Перформанс так перформанс: мы запускаем SMM Новая услуга от Netpeak по ведению Instagram и Facebook...

15 04 2026 6:45:10

Микроразметка: что нужно знать SEO-специалисту о словарях и синтаксисе

Микроразметка: что нужно знать SEO-специалисту о словарях и синтаксисе Проверка структурированных данных поисковыми роботами нуждается в нашей поддержке...

14 04 2026 7:56:27

Как настроить воронку продаж через Google Tag Manager

Как настроить воронку продаж через Google Tag Manager Устраняем причины, по которым пользователи покидают сайт без покупки....

13 04 2026 7:49:44

Как мы сделали инструмент веб-аналитики для сайта Ecommerce

Как мы сделали инструмент веб-аналитики для сайта Ecommerce Зачем амбициозным онлайн-проектам индивидуальные инструменты веб-аналитики....

12 04 2026 11:29:39

Как вернуть органический трафик после неправильного переноса сайта

Как вернуть органический трафик после неправильного переноса сайта Обидно терять сохраненные достижения. Почему падает трафик из поисковых систем и как это исправить...

11 04 2026 7:26:25

Малкольм Гладуэлл о гениях и аутсайдерах

Малкольм Гладуэлл о гениях и аутсайдерах Миллионы решили купить книгу гении и аутсайдеры на Amazon: удивительное исследование канадского журналиста...

10 04 2026 21:18:42

Алгоритм EAT — за квалифицированный контент. Что это значит для SEO

Алгоритм E-A-T теперь следит за экспертностью, авторитетностью и достоверностью контента. Что это значит?...

09 04 2026 7:45:26

Как работать с репутацией медицинского бренда в интернете — кейс Synevo

Как работать с репутацией медицинского бренда в интернете — кейс Synevo Как работать с негативом и что делать, чтобы его было меньше/не было вовсе....

08 04 2026 5:30:18

Типы людей: желтые, красные, синие и зеленые

Типы людей: желтые, красные, синие и зеленые Как говорится, люди делятся на тех, кто делит других на типы и тех, кто не делит. В этом посте — про желтых, синих, красных и зеленых людей....

07 04 2026 9:56:56

Как проводить ежедневные встречи в режиме WFH — чек-лист Netpeak

Дейли — ежедневный комaндный митинг, на котором комaнда синхронизируется по ключевым моментам работы и по текущим задачам. Делимся чек-листом агентства Netpeak по организации дейли на удалёнке....

06 04 2026 3:34:55

Google показывает не все результаты поиска

Google показывает не все результаты поиска Сколько страниц на самом деле показывает и может перевести поисковик Google?...

05 04 2026 1:46:37

Как создать личный бренд в компании — кейс Алексея Селезнёва, руководителя отдела аналитики Netpeak

Как создать личный бренд в компании — кейс Алексея Селезнёва, руководителя отдела аналитики Netpeak Создание репутации крутого специалиста — дело рук крутого специалиста....

04 04 2026 16:30:18

Google Tag Manager: актуальные и неочевидные фишки (вторая часть)

Google Tag Manager: актуальные и неочевидные фишки (вторая часть) Как с помощью Google Tag Manager отслеживать исходящие ссылки на сайте и загрузки файлов с него...

03 04 2026 6:41:27

Коллекция шуток Netpeak или Генератор мемов

Коллекция шуток Netpeak или Генератор мемов Недавно у нас появился свой генератор мемов :) Во многих компаниях смешные слова и фразы стараются запомнить и передать следующим поколениям сотрудников. В Netpeak же долго работали над секретным проектом и... Читайте!...

02 04 2026 9:29:20

Список Telegram-ботов для SMM-специалиста

Список Telegram-ботов для SMM-специалиста Лайфхаки, как упростить работу с соцсетями от специалиста агентства Netpeak и ежедневной работы SMM-специалиста. Телеграм-боты, которые облегчат рутину и сэкономят время. Узнать больше!...

01 04 2026 22:32:51

Как найти фейковые 404 страницы с помощью Google Tag Manager

Как найти фейковые 404 страницы с помощью Google Tag Manager Как помешать фейковым 404 страницам испортить статистику вашего сайта?...

31 03 2026 4:12:45

Как с помощью Google Earth собрать контакты для email-рассылок и холодных звонков

Как с помощью Google Earth собрать контакты для email-рассылок и холодных звонков Проверенный способ для сбора базы данных. Метод, с помощью которого можно извлечь контактные данные, а именно: название точки, телефон, адрес, сайт., а потом высылать своё КП, промокоды для акции, сообщить о выходе товара, сделать спецпредложение...

30 03 2026 15:30:20

Как сделать зеркало сайта

Как сделать зеркало сайта Зеркалами считаются сайты с разными доменными именами, но идентичным контентом...

29 03 2026 10:44:30

Сколько стоил клик в Google Ads в Казахстане в первом квартале 2020 года — исследование Netpeak

Сколько стоил клик в Google Ads в Казахстане в первом квартале 2020 года — исследование Netpeak Важно: понимания стоимость конверсии и необходимое количество конверсий, вы можете прогнозировать, сколько денег на рекламу нужно выделить. Вот почему вам может быть полезно это исследование. Читать....

28 03 2026 19:33:57

Как настроить AdWords Express в 4 шага и в чем секрет этой системы

Как настроить AdWords Express в 4 шага и в чем секрет этой системы Настройка в четыре шага и другие отличия AdWords Express от Adwords...

27 03 2026 18:26:43

Высокие ставки в Google Рекламе — почему и как их уменьшить?

Высокие ставки в Google Рекламе — почему и как их уменьшить? Как тратить на ставки меньше денег и почему вырастает цена за клик, а также о том, как ее сделать ниже. Плюс список факторов, которые влияют на ставку для первой страницы для ключевого слова...

26 03 2026 11:53:22

Алексей Гулый о правильных людях, новых идеях и бизнесе без потерь

Алексей Гулый о правильных людях, новых идеях и бизнесе без потерь Как начать бизнес в институте и масштабировать его до международной группы компаний. Собрали все самое интересное из интервью фаундера «Техно Ёж» Алексея Гулыя на конференции 8P....

25 03 2026 8:16:40

Стратегия email-маркетинга: кому и зачем мы шлем письма

Стратегия email-маркетинга: кому и зачем мы шлем письма Старт любых активностей в сфере email-маркетинга — разработка стратегии...

24 03 2026 20:49:15

Как связать Яндекс.Директ с Microsoft Power BI

Чтобы создавать удобные отчеты, импортируйте данные из Яндекс.Директ в Microsoft Power BI с помощью язык R...

23 03 2026 2:27:37

Краткий курс машинного обучения, или Как создать нейронную сеть для решения задачи по скорингу

Краткий курс машинного обучения, или Как создать нейронную сеть для решения задачи по скорингу Нейронные сети, нейросети онлайн, сверхточные нейронные сети. Я рассажу, как они устроены, как написать свою нейронную сеть с нуля, как правильно обучить нейронную сеть на имеющихся данных...

22 03 2026 4:55:44

Почему не стоит покупать в Черную пятницу

Почему не стоит покупать в Черную пятницу Ежегодно в конце ноября начинается ажиотаж вокруг «огромных» скидок на Черную пятницу. Во всем мире этого дня ждут и готовятся покупать выгоднее. Но так ли это на самом деле?...

21 03 2026 5:45:48

Еще:
понять и запомнить -1 :: понять и запомнить -2 :: понять и запомнить -3 :: понять и запомнить -4 :: понять и запомнить -5 :: понять и запомнить -6 :: понять и запомнить -7 ::