NetPeak Biz Tech    


Инструменты для парсинга в работе SEO-специалиста

Инструменты для парсинга в работе SEO-специалиста

< >

Многие задачи поисковой оптимизации сайта можно и нужно автоматизировать. Например, сбор информации, составление списка товаров, анализ цен конкурентов, скорость внедрения рекомендаций. Автоматизировать эти процессы позволяет парсер сайтов.

Парсинг сайтов (или скрапинг) — процесс автоматического сбора и извлечения информации из онлайн-ресурсов.

Должен предупредить: обучение и грамотная настройка инструментов для парсинга займут много времени — дольше, чем если бы вы все делали вручную. Впрочем, так обстоят дела со всеми инструментами, с которыми работаешь впервые. Главное — начать.

За два года в агентстве Netpeak я познакомился со множеством методов парсинга данных. Расскажу, какие парсеры и для каких целей я использую при оптимизации сайта. Буду идти от простых решений к сложным.

1. Google Spreadsheet

С помощью таблиц Google можно вытянуть из сайта простые элементы для сравнения и компонирования малых объемов. Это title, description, h1, keywords, заголовки, артикулы, цены, тексты, таблицы данных. Этот бесплатный инструмент подходит для точечных, малообъемных задач. Например, создать файл с отслеживанием текста и заголовков страницы.

Существуют две простые функции:

1. =importhtml — для импорта данных из таблиц или списков.
2. =importxml — для импорта данных из документов в форматах XML, HTML, CSV, TSV, RSS, ATOM XML.

Для работы с функцией =importxml потребуется знание XPath. Но если не хотите тратить время на изучение документации, используйте отладчик браузера.

Чтобы запустить отладчик, кликните на нужном элементе страницы правой кнопкой мышки и выберите «Посмотреть код», или нажмите F12.

В отладчике пройдите по пути: Copy — Copy XPath. Скопированный XPath вставляйте в функцию =importxml.

Минусы

С каждым месяцем все хуже и хуже обpaбатывается функция =importxml. Раньше можно было без проблем парсить данные сразу же для ~500 URL-адресов, сейчас с трудом обpaбатываются 50 URL.

Плюсы

  • автоматическое обновление при входе;
  • можно настроить автоматическое обновление по времени (минута, час, день) ;
  • при парсинге данных прямо в таблицу можно осуществлять преобразование данных и сразу же делать готовые отчеты, примеры, визуализации.

Какие задачи решает?

С помощью функции =importxml можно собирать в режиме реального времени данные о мета тегах и, например, о количестве комментариев к интересующим статьям.

В колонке A — ячейки с ссылкой на страницу. Тег title для ячейки A2 подтягивается с помощью запроса =IMPORTXML(A2;\"//title\").

Метатег description: =IMPORTXML(A2;\"//meta[@name=\\\'description\\\']/attribute::content\").

Тег H1 — с помощью запроса: =IMPORTXML(A2;\"//h1\").

Автор поста: =IMPORTXML(A2;\"//a[@class=\\\'author-name\\\']\").

Дата публикации: =IMPORTXML(A2;\"//div[@class=\\\'footer\\\']/span\").

Количество комментариев к посту: =IMPORTXML(A2;\"//span[@class=\\\'regular\\\']\").

С помощью функции =importhtml также можно подтянуть много интересных данных, например, основную информацию из Википедии об интересующих объектах.

2. Netpeak Spider

Десктопная программа для сканирования сайта, которая направлена на поиск SEO-ошибок, и включает возможности парсинга данных из HTML-страниц.

SEO-специалисту при обычном сканировании сайта иногда не хватает данных для анализа. С помощью Netpeak Spider можно, например, найти на сайте страницы с 404 ошибкой, страницы без тега Title и дополнительно спарсить цены на страницах товаров.

Таким образом можно обнаружить товары без цены и далее уже принять адекватное решение — оставить, убрать, закрыть их для сканирования/индексации.

Также можно вытянуть все тексты, которые размещены на страницах, задав определенный CSS-селектор или класс, в рамках которого они размещаются.

Стоимость программы — $14 в месяц или $117 в год (со скидкой 30%).

Минусы

  • нет привязки по API;
  • нет возможности обновлять данные по сценарию.

Плюсы

  • существует возможность как добавить готовый список URL для парсинга данных, так и удобно просканировать весь сайт;
  • одновременно можно запускать до 15 парсеров с уникальными настройками;
  • можно отфильтровать страницы, на которых не были найдены искомые данные;
  • показываются все уникальные вхождения, их количество и длина;
  • кроме парсера данных, получаем также инструмент для комплексного SEO-анализа сайта.

Какие задачи решает?

Парсинг цен

Задача: необходимо узнать стоимость ноутбуков.

Список URL:

https://rozetka.com.ru/asus_x555lj_xx1465d/p11201236/
https://rozetka.com.ru/asus_x555sj_xo001d/p6596109/
https://rozetka.com.ru/asus_n551jb_xo127d/p10727833/
https://rozetka.com.ru/asus_e502sa_xo014d/p9155171/
https://rozetka.com.ru/asus_e502sa_xo001d/p10677881/

Решение. Для начала необходимо определить, какой элемент нужно вытянуть — в данном случае будем вытаскивать метатег «itemprop» со значением «price»:



Далее переходим в настройки сканирования Netpeak Spider на вкладку «Поиск» и включаем галочку «Использовать пользовательский поиск»:

Теперь необходимо задать настройки поиска — в качестве примера будем использовать XPath: //meta[@itemprop=\"price\"]

А в дополнительных настройках поиска выберем «Извлечение данных» — «Значение атрибута» — «content»:

Что в результате?

1. На четырёх страницах Spider нашел цены — отчёт открывается при выборе нужного поиска и нажатии на кнопку «Результаты извлечения»:

2. На одной странице не была найдена цена — на этой странице (https://rozetka.com.ru/asus_e502sa_xo001d/p10677881/) мы видим сообщение, что товар снят с производства:

Проверка внедрения GTM

Задача: проверить интеграцию кода GTM на страницах и ответить на два вопроса.

  1. Установлен ли код в принципе?
  2. Код установлен с правильным идентификатором?

Список URL:

https://netpeak.net/ru/blog/category/seo/
https://netpeak.net/ru/blog/category/ppc/
https://netpeak.net/ru/blog/category/web-***ytics/
https://netpeak.net/ru/blog/category/marketing/

Как новичку разобраться в регулярных выражениях Решение. Аналогично, сначала нужно определить, какой элемент отвечает за код GTM, — в данном случае будем вытягивать GTM ID с помощью регулярного выражения.

В Netpeak Spider переходим в «Аналогичные настройки сканирования» и задаём поиск по регулярному выражению: [\\\'\"](GTM-\w+)[\\\'\"]

Что в результате?

Видим, что код установлен и идентификатор правильный.

Чтобы узнать больше примеров использования Netpeak Spider, читайте подробный обзор этой функции в блоге Netpeak Software.

3. Web Scraper

Web Scraper — бесплатное браузерное расширение для Chrome. Вы можете настроить план обхода сайтов, то есть задать логику для перемещения краулера и указать данные, которые будут извлечены. Web Scraper будет проходить через сайт в соответствии с настройкой и извлекать соответствующие данные. Это позволяет экспортировать извлеченные данные в CSV.

Минусы

  • нет возможности интеграции по API, то есть для обновления данных Web Scraper нужно запускать самостоятельно и ждать, пока завершится сканирование. Благо, проекты сохраняются в браузере, существует возможность сохранить проект в формате Json.
  • также есть ограничение в один поток. 2 000 страниц парсятся больше часа.
  • работает только в Chrome.

Плюсы

  • удобный, простой и интуитивно понятный инструмент.
  • может извлекать данные из динамических страниц, которые используют Javascript и Ajax.

Какие задачи решает?

Спарсить информацию о карточке товара

План обхода сайта показывает логику парсинга:

Элементы для парсинга:

После завершения парсинга информация будет отображена в таком виде:

Обучающие материалы:

4. Google Spreadsheet + Google Apps Script

Google Apps Script — язык программирования, основанный на JavaScript. Позволяет создавать новые функции и приложения для работы с Google Docs, Google Sheets и Google Forms. Настроить связку можно бесплатно.

Минусы

Нужно знание языка программирования JavaScript.

Плюсы

Потратив определенное время на настройку отчетов, можно оперативно реагировать на изменения данных.

Какие задачи решает?

С помощью связки Google Spreadsheet и Google Apps Script можно получать и обновлять данные в  режиме реального времени, а это полезно, чтобы следить за конкурентами и настраивать оповещение при изменениях, например, тегов title. Также можно настроить мониторинг цен и получать уведомления при изменении показателей.

Пример скрипта для отслеживания цен.

Выводы

Для гибкого и эффективного использования бесплатных инструментов парсинга сайтов необходимо как минимум знать, что такое XPath, а оптимально — еще и владеть основами JavaScript. Да и платные решения, вроде Netpeak Spider, предлагают все более интересные возможности, вроде одновременной настройки 15 потоков парсинга.

Многие вопросы, связанные с автоматизацией, раньше решал Kimono, но с момента закрытия облачного сервиса он перестал быть таким уж привлекательным для SEO-специалиста.

Пишите в комментариях, какие инструменты вы используете для парсинга, и какие задачи решаете с их помощью.



Комментарии:

Блоги, каналы и паблики об интернет-маркетинге — читательский рейтинг

Блоги, каналы и паблики об интернет-маркетинге — читательский рейтинг Думаете, что почитать об онлайн-продвижении и диджитал-маркетинге? Вам сюда. Мы собрали топ интересных сайтов, блогов, каналов и пабликов...

08 06 2026 9:52:17

Отслеживание поведения пользователей на разных устройствах при помощи User-ID

Отслеживание поведения пользователей на разных устройствах при помощи User-ID Одно из фундаментальных обновлений Universal ***ytics...

07 06 2026 7:19:40

Сeкc и эpoтика, магия, тренер-олень, и даже ребус! Апрельская реклама с блоком 18+

Чем шокировала, радовала и удивляла реклама в социальных сетях и контекстная в Google в апреле 2021 года...

06 06 2026 5:11:55

8 идей для видео в Instagram

8 идей для видео в Instagram Короткий интересный клип в Instagram — фишка маркетингового сезона 2015...

05 06 2026 11:10:46

Long-tail SEO — как продвигаться по низкочастотным запросам и зачем это нужно

Long-tail SEO — как продвигаться по низкочастотным запросам и зачем это нужно Относящиеся к низкочастотным long-tail запросы при правильном подходе могут стать эффективным инструментом для увеличения трафика. Рассказываем почему, а главное — как....

04 06 2026 9:48:32

8 сервисов автопроверки on-page ошибок

Платные и бесплатные способы ускорить оптимизацию....

03 06 2026 23:23:26

Кейс «Секунда»: как получить больше 13 000 обращений в офлайн-магазины с помощью локальных кампаний Google

Кейс «Секунда»: как получить больше 13 000 обращений в офлайн-магазины с помощью локальных кампаний Google Как настроить и получить эффективную отдачу от Google Local Campaigns...

01 06 2026 3:14:25

Как собрать данные из Google Search Console и построить отчетность с помощью Python и Google BigQuery

Как сохранить статистику переходов из органики Google, а также автоматизировать отчетность: подробное руководство для технического специалиста....

31 05 2026 17:21:18

Кейс: снижение (not set) трафика в Google ***ytics на 59,35%

Кейс: снижение (not set) трафика в Google ***ytics на 59,35% Сет по контекстной рекламе в тематике «разработка программного обеспечения»: снижение стоимости клика на 89%....

30 05 2026 18:22:15

Как автоматизировать заботу о сотрудниках

Как автоматизировать заботу о сотрудниках 9 тревожных признаков того, что ваши подчиненные могут выгореть и уволиться. Обратите внимание и, возможно, не придется терять ценных для компании людей....

29 05 2026 17:24:39

Семь улучшений Netpeak: итоги года и цели на 2017

Netpeak подводит итоги 2016 года и делится планами на будущее....

28 05 2026 21:44:59

Кейс по контекстной рекламе портала-каталога организаций: как оптимизация целевых страниц повлияла на поведенческие факторы

Кейс по контекстной рекламе портала-каталога организаций: как оптимизация целевых страниц повлияла на поведенческие факторы Портал-каталог организаций и его продвижение. В этом кейсе мы детальнее остановимся на выгодах для проекта от синергии усилий клиента и агентских специалистов по контекстной рекламе...

27 05 2026 4:17:16

Размеры картинок для социальных сетей: Facebook, ВК, Twitter, Instagram, YouTube, Pinterest, LinkedIn, Tumblr, OK

Пост постоянно обновляется актуальными данными о размерах картинок...

26 05 2026 23:40:25

Как быстро собрать данные из блока People also ask в Google

Мануал для SEO-специалистов, как автоматизировать сбор данных из блока People also ask (Пользователи также ищут). Это блок, который показывается в верхней части страницы результатов поиска. Он нужен, чтобы уточнить запрос пользователя....

25 05 2026 8:42:14

Как увеличить продажи с помощью местных экспертов от Google — советы локальному бизнесу

Как увеличить продажи с помощью местных экспертов от Google — советы локальному бизнесу Информация для SEO- и PPC-специалистов, маркетологов и предпринимателей малого бизнеса...

24 05 2026 0:32:45

Бесплатные обратные звонки — модель freemium в действии

Бесплатные обратные звонки — модель freemium в действии Бесплатные продукты для онлайн-бизнеса — история внедрения freemium модели в сфере виджетов обратных звонков....

23 05 2026 5:37:27

Линкбилдинг для элитной клиники в США: плюс 528% к количеству звонков за два года

Линкбилдинг для элитной клиники в США: плюс 528% к количеству звонков за два года Адаптивный линкбилдинг: будьте полезны людям, а не поисковикам....

22 05 2026 8:43:38

Кейс по контекстной рекламе образовательных курсов в Казахстане: рост продаж с 0 до 12 мест за 1,5 месяца

Кейс по контекстной рекламе образовательных курсов в Казахстане: рост продаж с 0 до 12 мест за 1,5 месяца Тренинг по контекстной рекламе образовательных курсов в Google Ads, Яндекс.Директ, Target@mail...

21 05 2026 11:30:35

Как работой гореть, но не сгорать — личный опыт

Как работой гореть, но не сгорать — личный опыт Первая реакция на перегорание — послать все к чертям собачьим. Очень заманчиво, но правильно ли убегать от всех проблем?...

20 05 2026 8:26:45

Владимир Меркушев о фишках Казнета и рецепте успеха в сети

Об особенностях реализации интернет-проектов в Великобритании, России и Казахстане и фишках успешного ведения бизнеса онлайн мы побеседовали с Владимиром Меркушевым — руководителем интернет-проектов успешной казахстанской компании Kolesa.kz....

19 05 2026 3:45:41

Интернет-торговля в Украине: 15 слайдов о ecommerce

Интернет-торговля в Украине: 15 слайдов о ecommerce Тема поста — исследование электронной коммерции в Украине: рынки, статистика, объем продаж, поисковый потенциал....

18 05 2026 6:22:13

Как составить поисковые объявления для Google Ads и Яндекс.Директ

Как составить поисковые объявления для Google Ads и Яндекс.Директ Правила, требования, особенности. А ещё примеры, которые помогут создать правильную, с точки зрения поисковиков, рекламу. Читать!...

17 05 2026 1:29:35

Обновление Firebase ***ytics: настраиваем аналитику мобильных приложений и применяем новые фишки

Обновление Firebase ***ytics: настраиваем аналитику мобильных приложений и применяем новые фишки Мониторинг мобильных просмотр статистики Firebase в отчетах Google ***ytics и связь Firebase ***ytics с Google Рекламой...

16 05 2026 16:17:49

Что такое макет сайта и для чего он нужен

Что такое макет сайта и для чего он нужен Дизайн макета сайта должен полностью соответствовать представлениям о готовом ресурсе. Создать его можно с помощью онлайн-сервисов, стационарных программ либо через HTML-код...

15 05 2026 17:56:40

Как достичь роста дохода на 172% за 10 месяцев, когда среди конкурентов — аптеки. SEO для Amrita

Как достичь роста дохода на 172% за 10 месяцев, когда среди конкурентов — аптеки. SEO для Amrita Продвижение монобренда: особенности, трудности, подводные камни. Ниша здоровья и красоты....

14 05 2026 3:49:27

Увольнение сотрудника. Алгоритм действий от Netpeak

Сотрудник не справляется? Значит с ним пора прощаться. Эмоции в сторону, действуем по алгоритму....

13 05 2026 22:13:19

Кейс по SMM в тематике «алкогольные напитки»: «Пригласи 10 друзей — получи бутылку шампанского»

Кейс по SMM в тематике «алкогольные напитки»: «Пригласи 10 друзей — получи бутылку шампанского» Оживший бар. О том, как один украинский бренд за полтора месяца получил более 4 000 фанов!...

12 05 2026 14:49:26

Как наполнять контент-план — мнения редакторов

Как наполнять контент-план — мнения редакторов Почему контент-план — не тетка, или о том, в какой последовательности выкладывать статьи...

11 05 2026 20:49:24

Как научиться читать скрипты Google Рекламы

Как научиться читать скрипты Google Рекламы Популярные скрипты Google Рекламы позволяют автоматизировать рутинные и монотонные процессы. Каждый скрипт состоит из функций, переменных, объектов, сущностей, селекторов, итераторов...

10 05 2026 15:40:24

MVP в разработке позиционирования стартапа — на примере Serpstat

MVP в разработке позиционирования стартапа — на примере Serpstat Метод бoмжа в маркетинге. Как разработать позиционирование стартапа при ограниченных ресурсах...

09 05 2026 17:56:50

Стратегия ведения контекстной рекламы по воронке продаж на примере SaaS: шаблон и инструкция

Стратегия ведения контекстной рекламы по воронке продаж на примере SaaS: шаблон и инструкция Как найти индивидуальный подход к аудитории на каждом этапе воронки продаж? В этом вам поможет правильно составленная стратегия контекстной рекламы....

08 05 2026 13:53:28

Авторские права на веб-сайт — как защитить свой ресурс

Авторские права на веб-сайт — как защитить свой ресурс Надежный сайт позволит вести успешную деятельность, защитить плоды собственного труда и результаты работы исполнителей, с которыми вы сотрудничали. Для реализации задумки вам понадобятся авторские права....

07 05 2026 3:35:32

11 этапов SEO-продвижения сайта

11 этапов SEO-продвижения сайта Не знаешь как раскрутить сайт? Мы подготовили 11 этапов SEO-продвижения сайтов в поисковых системах....

06 05 2026 14:38:28

Длинные заголовки в Google Рекламе

Длинные заголовки в Google Рекламе После нехитрых манипуляций с текстом вторая строка оказывается в заголовке....

05 05 2026 20:20:32

Как передать данные из Google ***ytics в таблицы с помощью GTM

Как передать данные из Google ***ytics в таблицы с помощью GTM Не все события удобно отслеживать в Google ***ytics, иногда удобнее сделать связку с таблицами Google. А поможет в этом Google Tag Manager...

04 05 2026 8:41:50

Управление временем в условиях удаленной работы

Управление временем в условиях удаленной работы Советы для фрилансеров и удаленных сотрудников: как строить рабочий процесс так, чтобы он вел к максимальной эффективности. О работе со временем, перерывами, необходимости выключать уведомления, статусе задач, празднованиях побед и организации рабочей среды...

03 05 2026 4:44:34

Как стать менеджером проектов в Netpeak

Программа знаний и умений, чтобы стать Project Manager в агентстве интернет-маркетинга...

02 05 2026 9:55:52

Как использовать социальное доказательство в email-маркетинге

Как использовать социальное доказательство в email-маркетинге Рассказываем о приемах, которые помогут вам заинтересовать читателей рассылки....

01 05 2026 8:28:11

Сколько стоил клик в Google Ads в Казахстане во втором квартале 2020 года — исследование Netpeak

Сколько стоил клик в Google Ads в Казахстане во втором квартале 2020 года — исследование Netpeak Зная стоимость клика в вашей тематике или регионе, коэффициент конверсии на сайте, вы можете оценить объем необходимых в рекламу инвестиций и прогнозировать стоимость конверсии. Узнать больше!...

30 04 2026 3:16:15

Кассовый разрыв в бизнесе. Что это, почему возникает и как избежать

Кассовый разрыв в бизнесе. Что это, почему возникает и как избежать 82% малых бизнесов тонут как раз из-за проблем с денежными потоками (по данным исследований U.S. Bank, 2020). Как предприниматели попадают в кассовые разрывы и что делать в таких ситуациях, разберем в этой статье....

29 04 2026 19:27:18

Размеры баннеров в Google Ads — какие форматы самые популярные

Размеры баннеров в Google Ads — какие форматы самые популярные Популярные размеры баннеров. Найти самый топовый из джентльменского набора! Мы провели свое исследование....

28 04 2026 7:32:42

Почему SEO в агентстве стоит дорого — развернутый ответ для клиентов

Почему SEO в агентстве стоит дорого — развернутый ответ для клиентов Как формируется цена на услугу SEO, как достигается результат и почему поисковое продвижение выгодно только в долгосрочной перспективе от руководителя отдела продаж агентства Netpeak. Узнайте больше!...

27 04 2026 19:20:33

Группировка ключевых фраз для рекламных кампаний — подробный обзор методов

Группировка ключевых фраз для рекламных кампаний — подробный обзор методов Как правильно группировать ключевые фразы для релевантности рекламных кампаний...

26 04 2026 6:21:46

«Металл профиль» — как мы запустили кастомный коннектор для загрузки данных из API Google ***ytics в Microsoft SQL Server

«Металл профиль» — как мы запустили кастомный коннектор для загрузки данных из API Google ***ytics в Microsoft SQL Server Узнаем расширенную информацию о посещениях сайта с помощью языка R — кейс Netpeak...

25 04 2026 3:31:52

«В» — значит… Кейс digital-продвижения интернет-магазина «Таврия В»

«В» — значит… Кейс digital-продвижения интернет-магазина «Таврия В» Работа велась с конца августа прошлого года до конца декабря и включила в себя анализ рынка, конкурентов, целевой аудитории, поиск инсайта, разработку стратегии, подготовку медиаплана, создание промо-сайта и само проведение рекламной кампании, в котором б...

24 04 2026 8:54:37

CEO fuckups. Три ошибки опытных руководителей

И как с ними справиться. Рабочие инструкции для Chief Executive Office и менеджеров в целом. Давайте управлять комaндой и собой более эффективно и без выгорания. Узнать больше!...

23 04 2026 20:13:55

Семь улучшений Netpeak: пять стратегий по контекстной рекламе, три по SEO и три новых курса Академии блога

Семь улучшений Netpeak: пять стратегий по контекстной рекламе, три по SEO и три новых курса Академии блога Информация для бизнесменов, интернет-маркетологов и всех, кто интересуется продвижением бизнеса в интернете....

22 04 2026 20:40:17

Как SaaS-у заработать $250 000 за неделю, или Четкая инструкция от Serpstat, как провести успешную кампанию на AppSumo

Как SaaS-у заработать $250 000 за неделю, или Четкая инструкция от Serpstat, как провести успешную кампанию на AppSumo Заработок в четверть миллиона. Как многофункциональная SEO-платформа Serpstat из Netpeak Group стала самым продаваемым продуктом на AppSumo — пошаговая история-инструкция...

21 04 2026 20:18:55

Алгоритм Google Panda 4.2 — 10 советов от SEO-экспертов

Алгоритм Google Panda 4.2 — 10 советов от SEO-экспертов Как диагностировать Google Panda, понять, что нужно изменить на своем сайте и сделать пользователей счастливыми....

20 04 2026 8:13:19

Еще:
понять и запомнить -1 :: понять и запомнить -2 :: понять и запомнить -3 :: понять и запомнить -4 :: понять и запомнить -5 :: понять и запомнить -6 :: понять и запомнить -7 ::