Инструменты для парсинга в работе SEO-специалиста

Многие задачи поисковой оптимизации сайта можно и нужно автоматизировать. Например, сбор информации, составление списка товаров, анализ цен конкурентов, скорость внедрения рекомендаций. Автоматизировать эти процессы позволяет парсер сайтов.
Парсинг сайтов (или скрапинг) — процесс автоматического сбора и извлечения информации из онлайн-ресурсов.
Должен предупредить: обучение и грамотная настройка инструментов для парсинга займут много времени — дольше, чем если бы вы все делали вручную. Впрочем, так обстоят дела со всеми инструментами, с которыми работаешь впервые. Главное — начать.
За два года в агентстве Netpeak я познакомился со множеством методов парсинга данных. Расскажу, какие парсеры и для каких целей я использую при оптимизации сайта. Буду идти от простых решений к сложным.
1. Google Spreadsheet
С помощью таблиц Google можно вытянуть из сайта простые элементы для сравнения и компонирования малых объемов. Это title, description, h1, keywords, заголовки, артикулы, цены, тексты, таблицы данных. Этот бесплатный инструмент подходит для точечных, малообъемных задач. Например, создать файл с отслеживанием текста и заголовков страницы.
Существуют две простые функции:
1. =importhtml — для импорта данных из таблиц или списков.
2. =importxml — для импорта данных из документов в форматах XML, HTML, CSV, TSV, RSS, ATOM XML.
Для работы с функцией =importxml потребуется знание XPath. Но если не хотите тратить время на изучение документации, используйте отладчик браузера.
Чтобы запустить отладчик, кликните на нужном элементе страницы правой кнопкой мышки и выберите «Посмотреть код», или нажмите F12.
В отладчике пройдите по пути: Copy — Copy XPath. Скопированный XPath вставляйте в функцию =importxml.
Минусы
С каждым месяцем все хуже и хуже обpaбатывается функция =importxml. Раньше можно было без проблем парсить данные сразу же для ~500 URL-адресов, сейчас с трудом обpaбатываются 50 URL.
Плюсы
- автоматическое обновление при входе;
- можно настроить автоматическое обновление по времени (минута, час, день) ;
- при парсинге данных прямо в таблицу можно осуществлять преобразование данных и сразу же делать готовые отчеты, примеры, визуализации.
Какие задачи решает?
С помощью функции =importxml можно собирать в режиме реального времени данные о мета тегах и, например, о количестве комментариев к интересующим статьям.
В колонке A — ячейки с ссылкой на страницу. Тег title для ячейки A2 подтягивается с помощью запроса =IMPORTXML(A2;\"//title\").
Метатег description: =IMPORTXML(A2;\"//meta[@name=\\\'description\\\']/attribute::content\").
Тег H1 — с помощью запроса: =IMPORTXML(A2;\"//h1\").
Автор поста: =IMPORTXML(A2;\"//a[@class=\\\'author-name\\\']\").
Дата публикации: =IMPORTXML(A2;\"//div[@class=\\\'footer\\\']/span\").
Количество комментариев к посту: =IMPORTXML(A2;\"//span[@class=\\\'regular\\\']\").
С помощью функции =importhtml также можно подтянуть много интересных данных, например, основную информацию из Википедии об интересующих объектах.
2. Netpeak Spider
Десктопная программа для сканирования сайта, которая направлена на поиск SEO-ошибок, и включает возможности парсинга данных из HTML-страниц.
SEO-специалисту при обычном сканировании сайта иногда не хватает данных для анализа. С помощью Netpeak Spider можно, например, найти на сайте страницы с 404 ошибкой, страницы без тега Title и дополнительно спарсить цены на страницах товаров.
Таким образом можно обнаружить товары без цены и далее уже принять адекватное решение — оставить, убрать, закрыть их для сканирования/индексации.
Также можно вытянуть все тексты, которые размещены на страницах, задав определенный CSS-селектор или класс, в рамках которого они размещаются.
Стоимость программы — $14 в месяц или $117 в год (со скидкой 30%).
Минусы
- нет привязки по API;
- нет возможности обновлять данные по сценарию.
Плюсы
- существует возможность как добавить готовый список URL для парсинга данных, так и удобно просканировать весь сайт;
- одновременно можно запускать до 15 парсеров с уникальными настройками;
- можно отфильтровать страницы, на которых не были найдены искомые данные;
- показываются все уникальные вхождения, их количество и длина;
- кроме парсера данных, получаем также инструмент для комплексного SEO-анализа сайта.
Какие задачи решает?
Парсинг цен
Задача: необходимо узнать стоимость ноутбуков.
Список URL:
https://rozetka.com.ru/asus_x555lj_xx1465d/p11201236/
https://rozetka.com.ru/asus_x555sj_xo001d/p6596109/
https://rozetka.com.ru/asus_n551jb_xo127d/p10727833/
https://rozetka.com.ru/asus_e502sa_xo014d/p9155171/
https://rozetka.com.ru/asus_e502sa_xo001d/p10677881/
Решение. Для начала необходимо определить, какой элемент нужно вытянуть — в данном случае будем вытаскивать метатег «itemprop» со значением «price»:
Далее переходим в настройки сканирования Netpeak Spider на вкладку «Поиск» и включаем галочку «Использовать пользовательский поиск»:
Теперь необходимо задать настройки поиска — в качестве примера будем использовать XPath: //meta[@itemprop=\"price\"]
А в дополнительных настройках поиска выберем «Извлечение данных» — «Значение атрибута» — «content»:
Что в результате?
1. На четырёх страницах Spider нашел цены — отчёт открывается при выборе нужного поиска и нажатии на кнопку «Результаты извлечения»:
2. На одной странице не была найдена цена — на этой странице (https://rozetka.com.ru/asus_e502sa_xo001d/p10677881/) мы видим сообщение, что товар снят с производства:
Проверка внедрения GTM
Задача: проверить интеграцию кода GTM на страницах и ответить на два вопроса.
- Установлен ли код в принципе?
- Код установлен с правильным идентификатором?
Список URL:
https://netpeak.net/ru/blog/category/seo/
https://netpeak.net/ru/blog/category/ppc/
https://netpeak.net/ru/blog/category/web-***ytics/
https://netpeak.net/ru/blog/category/marketing/
Как новичку разобраться в регулярных выражениях Решение. Аналогично, сначала нужно определить, какой элемент отвечает за код GTM, — в данном случае будем вытягивать GTM ID с помощью
В Netpeak Spider переходим в «Аналогичные настройки сканирования» и задаём поиск по регулярному выражению: [\\\'\"](GTM-\w+)[\\\'\"]
Что в результате?
Видим, что код установлен и идентификатор правильный.
Чтобы узнать больше примеров использования Netpeak Spider, читайте подробный обзор этой функции в блоге Netpeak Software.
3. Web Scraper
Web Scraper — бесплатное браузерное расширение для Chrome. Вы можете настроить план обхода сайтов, то есть задать логику для перемещения краулера и указать данные, которые будут извлечены. Web Scraper будет проходить через сайт в соответствии с настройкой и извлекать соответствующие данные. Это позволяет экспортировать извлеченные данные в CSV.
Минусы
- нет возможности интеграции по API, то есть для обновления данных Web Scraper нужно запускать самостоятельно и ждать, пока завершится сканирование. Благо, проекты сохраняются в браузере, существует возможность сохранить проект в формате Json.
- также есть ограничение в один поток. 2 000 страниц парсятся больше часа.
- работает только в Chrome.
Плюсы
- удобный, простой и интуитивно понятный инструмент.
- может извлекать данные из динамических страниц, которые используют Javascript и Ajax.
Какие задачи решает?
Спарсить информацию о карточке товара
План обхода сайта показывает логику парсинга:
Элементы для парсинга:
После завершения парсинга информация будет отображена в таком виде:
Обучающие материалы:
4. Google Spreadsheet + Google Apps Script
Google Apps Script — язык программирования, основанный на JavaScript. Позволяет создавать новые функции и приложения для работы с Google Docs, Google Sheets и Google Forms. Настроить связку можно бесплатно.
Минусы
Нужно знание языка программирования JavaScript.
Плюсы
Потратив определенное время на настройку отчетов, можно оперативно реагировать на изменения данных.
Какие задачи решает?
С помощью связки Google Spreadsheet и Google Apps Script можно получать и обновлять данные в режиме реального времени, а это полезно, чтобы следить за конкурентами и настраивать оповещение при изменениях, например, тегов title. Также можно настроить мониторинг цен и получать уведомления при изменении показателей.
Пример скрипта для отслеживания цен.
Выводы
Для гибкого и эффективного использования бесплатных инструментов парсинга сайтов необходимо как минимум знать, что такое XPath, а оптимально — еще и владеть основами JavaScript. Да и платные решения, вроде Netpeak Spider, предлагают все более интересные возможности, вроде одновременной настройки 15 потоков парсинга.
Многие вопросы, связанные с автоматизацией, раньше решал Kimono, но с момента закрытия облачного сервиса он перестал быть таким уж привлекательным для SEO-специалиста.
Пишите в комментариях, какие инструменты вы используете для парсинга, и какие задачи решаете с их помощью.
Комментарии:
У вас фирма с филиалами по всей стране? Короткий инструктаж по массовой загрузке адресов...
08 06 2026 23:23:46
Как улучшить конверсию сайта: идеи для маркетологов...
07 06 2026 0:19:39
Как исключить показы на нецелевых площадках в новом интерфейсе Google Ads. В конце статьи 30 000 минус-площадок, каналов YouTube, сайтов, приложений...
06 06 2026 22:30:42
Как прокачать email, когда рассылки уже работают....
05 06 2026 8:55:26
Можно ли повысить оценку качества целевой страницы , если проставить конечные URL на уровне ключевого слова? Результаты исследования....
04 06 2026 16:44:18
Все дело в формате объявлений Instant Experience с подключенным каталогом товаров. Нет, не только в нем. Узнать больше!...
03 06 2026 13:16:28
В статье коротко о способах объединения данных из разных источников для создания отчётов...
02 06 2026 20:59:46
29 ноября в Киеве в UNIT.City — конференция по медицинскому маркетингу MeDiConf...
01 06 2026 1:29:54
Кейс: контент-маркетинг сервиса в США, или как SerpStat покорил англоязычный мир...
31 05 2026 11:40:53
Метод не для всех, но увлеченным веб-аналитикой точно понравится!...
30 05 2026 22:12:25
Твиттереть нужно правильно. Интересная аналитики и планирование твитов по времени...
29 05 2026 17:30:19
Женский и мужской таргет отличаются друг от друга. Кейс магазина обуви, одежды и аксессуаров....
28 05 2026 18:32:47
Идея, напечатанная в 3Д? Уже сегодня маркетологи могут это делать с успехом. Главное — поменять свой стиль мышления....
27 05 2026 15:49:14
Не путайте с контент-менеджером, пожалуйста....
26 05 2026 3:26:50
Для одной компании смена description это что-то пустяковое. Здесь же — настоящий бренд-менеджмент....
25 05 2026 4:54:28
Как сэкономить на рекламе мобильных приложений в Facebook...
24 05 2026 20:41:32
Мы собрали топ обидных промахов в сборе семантики, влияющих на качество и эффективность продвижения проекта...
23 05 2026 21:18:23
Используйте методы Элияху Голдратта для оптимизации процессов в жизни и на работе...
22 05 2026 18:43:34
Как сэкономить время, ресурсы, и сделать онлайн-маркетинг эффективнее с помощью языка R...
21 05 2026 3:38:37
Аналитики из SalesForce уже в четвертый раз опубликовали исследование о приоритетах, составе комaнд и распределении бюджетов ведущими маркетологами мира...
20 05 2026 11:17:19
2013, 2014, 2015 — годы, когда конференция 8p радовала все сео-сообщество СНГ. Прошла она и в 2016 году. Мы собрали лучшие советы интернет-магазинам от экспертов и участников круглого стола на конференции 8P 2016....
19 05 2026 3:18:45
Дайджест-путеводитель по серии постов о работе с редакторами электронных таблиц для PPC-специалистов....
18 05 2026 9:14:36
Как построить html-карту. Верстка карт New York Times, IMDb и Daily Mail в качестве примера...
17 05 2026 2:12:19
Как жить с налогом на Google, Facebook и другие международные сервисы — объясняем детали....
16 05 2026 6:24:15
Apple, Google и Samsung — давайте вспомним новинки месяца....
15 05 2026 16:35:58
Исследование Ringostat о самых востребованных CRM-системах в США...
14 05 2026 2:52:44
Узнай, как бэкофис группы помогает развиваться компаниям, и выиграй iPhone — подбери крутое название для нашей группы....
13 05 2026 11:48:39
В Twitter удобно собрать список потенциальных клиентов, чтобы время от времени посматривать за их новостями...
12 05 2026 14:20:59
Что такое обратная связь, почему фидбек от клиентов важен и как его правильно собирать. Все, что нужно знать, чтобы получить отзыв от клиента....
11 05 2026 9:55:12
Настройка аналитики для пустого поиска, а также поиска по методам GET и POST...
10 05 2026 20:53:15
Как создать популярный и удобный магазин в интернете, какой должна быть его раскрутка и многое другое, прозвучавшее на круглом столе 8P 2017...
09 05 2026 0:44:17
Как рекламировать смартфоны в YouTube — советы крупному бизнесу по настройке и запуску эффективной рекламы. Важно: корректный анализ результатов. Узнайте как его сделать!...
08 05 2026 22:57:52
Субъективный рейтинг новых функций мессенджера от Head of Telegram Network в Netpeak....
07 05 2026 14:42:17
Как вывести в индекс страницы сайта на Ajax: от необходимости их создания, роли SEO, ускорении индексации и реальные рекомендации всего в трех пунктах, чтобы основное преимущество таких сайтов работало безотказно...
06 05 2026 4:33:59
Пять простых фишек для повышения привлекательности карточки товара....
05 05 2026 10:58:35
Почему имеет смысл выбрать его, а не Google Tag Manager?...
04 05 2026 0:38:55
5 кейсов отлично иллюстрируют правила юзабилити и находки веб-аналитиков....
03 05 2026 22:46:17
Продвижение крупного интернет-магазина в перегретой нише...
02 05 2026 9:43:34
Лафхаки для маркетологов и владельцев сайтов на Prom...
01 05 2026 19:53:31
Как снизить стоимость лидов путём использования новых технологий...
30 04 2026 16:14:50
Цель — трафик facebook. Делимся кейсом проекта «Мой город»....
29 04 2026 3:19:17
Как создать Apple ID и настроить поисковую рекламу в App Store...
28 04 2026 9:54:23
Как стать лидером ниши не на словах, а на деле. Пошаговый алгоритм....
27 04 2026 18:40:51
Что нужно делать на старте работ с интернет-магазином и как минимизировать риски для бизнеса онлайн, используя такие инструмента как SEO, PPC и Email-маркетинг — советы от эксперта. Читать дальше!...
26 04 2026 21:57:44
Анализ содержимого сайта показывает: Url разные, а контент страниц одинаковый. Думаете, ничего страшного? Но одинаковый контент может попасть под фильтры поисковых систем. Чтобы этого не произошло, надо знать, как избавляться от внутренних дублей...
25 04 2026 13:11:53
Сбор ключевых запросов с помощью программы Кей Коллектор: показываем и рассказываем пошагово с демонстрацией процесса настройки с сервисом Яндекс.Вордстат. Читать дальше!...
24 04 2026 22:22:27
Уроки, написанные понятным и доступным языком экспертами по контекстной рекламе, поисковому продвижению, SMM....
23 04 2026 19:35:48
Что значит всемирное обновление DMCA-алгоритма и приведет ли оно к полноценной защите авторских прав?...
22 04 2026 8:49:27
При создании рекламы на украинском мы завоевываем большую долю рынка без повышения цены за клик....
21 04 2026 0:40:25
Пришло такое время — обновить данные, тем более что в начале сентября появилось исследование Google....
20 04 2026 2:13:20
Еще:
понять и запомнить -1 :: понять и запомнить -2 :: понять и запомнить -3 :: понять и запомнить -4 :: понять и запомнить -5 :: понять и запомнить -6 :: понять и запомнить -7 ::