Инструменты для парсинга в работе SEO-специалиста

Многие задачи поисковой оптимизации сайта можно и нужно автоматизировать. Например, сбор информации, составление списка товаров, анализ цен конкурентов, скорость внедрения рекомендаций. Автоматизировать эти процессы позволяет парсер сайтов.
Парсинг сайтов (или скрапинг) — процесс автоматического сбора и извлечения информации из онлайн-ресурсов.
Должен предупредить: обучение и грамотная настройка инструментов для парсинга займут много времени — дольше, чем если бы вы все делали вручную. Впрочем, так обстоят дела со всеми инструментами, с которыми работаешь впервые. Главное — начать.
За два года в агентстве Netpeak я познакомился со множеством методов парсинга данных. Расскажу, какие парсеры и для каких целей я использую при оптимизации сайта. Буду идти от простых решений к сложным.
1. Google Spreadsheet
С помощью таблиц Google можно вытянуть из сайта простые элементы для сравнения и компонирования малых объемов. Это title, description, h1, keywords, заголовки, артикулы, цены, тексты, таблицы данных. Этот бесплатный инструмент подходит для точечных, малообъемных задач. Например, создать файл с отслеживанием текста и заголовков страницы.
Существуют две простые функции:
1. =importhtml — для импорта данных из таблиц или списков.
2. =importxml — для импорта данных из документов в форматах XML, HTML, CSV, TSV, RSS, ATOM XML.
Для работы с функцией =importxml потребуется знание XPath. Но если не хотите тратить время на изучение документации, используйте отладчик браузера.
Чтобы запустить отладчик, кликните на нужном элементе страницы правой кнопкой мышки и выберите «Посмотреть код», или нажмите F12.
В отладчике пройдите по пути: Copy — Copy XPath. Скопированный XPath вставляйте в функцию =importxml.
Минусы
С каждым месяцем все хуже и хуже обpaбатывается функция =importxml. Раньше можно было без проблем парсить данные сразу же для ~500 URL-адресов, сейчас с трудом обpaбатываются 50 URL.
Плюсы
- автоматическое обновление при входе;
- можно настроить автоматическое обновление по времени (минута, час, день) ;
- при парсинге данных прямо в таблицу можно осуществлять преобразование данных и сразу же делать готовые отчеты, примеры, визуализации.
Какие задачи решает?
С помощью функции =importxml можно собирать в режиме реального времени данные о мета тегах и, например, о количестве комментариев к интересующим статьям.
В колонке A — ячейки с ссылкой на страницу. Тег title для ячейки A2 подтягивается с помощью запроса =IMPORTXML(A2;\"//title\").
Метатег description: =IMPORTXML(A2;\"//meta[@name=\\\'description\\\']/attribute::content\").
Тег H1 — с помощью запроса: =IMPORTXML(A2;\"//h1\").
Автор поста: =IMPORTXML(A2;\"//a[@class=\\\'author-name\\\']\").
Дата публикации: =IMPORTXML(A2;\"//div[@class=\\\'footer\\\']/span\").
Количество комментариев к посту: =IMPORTXML(A2;\"//span[@class=\\\'regular\\\']\").
С помощью функции =importhtml также можно подтянуть много интересных данных, например, основную информацию из Википедии об интересующих объектах.
2. Netpeak Spider
Десктопная программа для сканирования сайта, которая направлена на поиск SEO-ошибок, и включает возможности парсинга данных из HTML-страниц.
SEO-специалисту при обычном сканировании сайта иногда не хватает данных для анализа. С помощью Netpeak Spider можно, например, найти на сайте страницы с 404 ошибкой, страницы без тега Title и дополнительно спарсить цены на страницах товаров.
Таким образом можно обнаружить товары без цены и далее уже принять адекватное решение — оставить, убрать, закрыть их для сканирования/индексации.
Также можно вытянуть все тексты, которые размещены на страницах, задав определенный CSS-селектор или класс, в рамках которого они размещаются.
Стоимость программы — $14 в месяц или $117 в год (со скидкой 30%).
Минусы
- нет привязки по API;
- нет возможности обновлять данные по сценарию.
Плюсы
- существует возможность как добавить готовый список URL для парсинга данных, так и удобно просканировать весь сайт;
- одновременно можно запускать до 15 парсеров с уникальными настройками;
- можно отфильтровать страницы, на которых не были найдены искомые данные;
- показываются все уникальные вхождения, их количество и длина;
- кроме парсера данных, получаем также инструмент для комплексного SEO-анализа сайта.
Какие задачи решает?
Парсинг цен
Задача: необходимо узнать стоимость ноутбуков.
Список URL:
https://rozetka.com.ru/asus_x555lj_xx1465d/p11201236/
https://rozetka.com.ru/asus_x555sj_xo001d/p6596109/
https://rozetka.com.ru/asus_n551jb_xo127d/p10727833/
https://rozetka.com.ru/asus_e502sa_xo014d/p9155171/
https://rozetka.com.ru/asus_e502sa_xo001d/p10677881/
Решение. Для начала необходимо определить, какой элемент нужно вытянуть — в данном случае будем вытаскивать метатег «itemprop» со значением «price»:
Далее переходим в настройки сканирования Netpeak Spider на вкладку «Поиск» и включаем галочку «Использовать пользовательский поиск»:
Теперь необходимо задать настройки поиска — в качестве примера будем использовать XPath: //meta[@itemprop=\"price\"]
А в дополнительных настройках поиска выберем «Извлечение данных» — «Значение атрибута» — «content»:
Что в результате?
1. На четырёх страницах Spider нашел цены — отчёт открывается при выборе нужного поиска и нажатии на кнопку «Результаты извлечения»:
2. На одной странице не была найдена цена — на этой странице (https://rozetka.com.ru/asus_e502sa_xo001d/p10677881/) мы видим сообщение, что товар снят с производства:
Проверка внедрения GTM
Задача: проверить интеграцию кода GTM на страницах и ответить на два вопроса.
- Установлен ли код в принципе?
- Код установлен с правильным идентификатором?
Список URL:
https://netpeak.net/ru/blog/category/seo/
https://netpeak.net/ru/blog/category/ppc/
https://netpeak.net/ru/blog/category/web-***ytics/
https://netpeak.net/ru/blog/category/marketing/
Как новичку разобраться в регулярных выражениях Решение. Аналогично, сначала нужно определить, какой элемент отвечает за код GTM, — в данном случае будем вытягивать GTM ID с помощью
В Netpeak Spider переходим в «Аналогичные настройки сканирования» и задаём поиск по регулярному выражению: [\\\'\"](GTM-\w+)[\\\'\"]
Что в результате?
Видим, что код установлен и идентификатор правильный.
Чтобы узнать больше примеров использования Netpeak Spider, читайте подробный обзор этой функции в блоге Netpeak Software.
3. Web Scraper
Web Scraper — бесплатное браузерное расширение для Chrome. Вы можете настроить план обхода сайтов, то есть задать логику для перемещения краулера и указать данные, которые будут извлечены. Web Scraper будет проходить через сайт в соответствии с настройкой и извлекать соответствующие данные. Это позволяет экспортировать извлеченные данные в CSV.
Минусы
- нет возможности интеграции по API, то есть для обновления данных Web Scraper нужно запускать самостоятельно и ждать, пока завершится сканирование. Благо, проекты сохраняются в браузере, существует возможность сохранить проект в формате Json.
- также есть ограничение в один поток. 2 000 страниц парсятся больше часа.
- работает только в Chrome.
Плюсы
- удобный, простой и интуитивно понятный инструмент.
- может извлекать данные из динамических страниц, которые используют Javascript и Ajax.
Какие задачи решает?
Спарсить информацию о карточке товара
План обхода сайта показывает логику парсинга:
Элементы для парсинга:
После завершения парсинга информация будет отображена в таком виде:
Обучающие материалы:
4. Google Spreadsheet + Google Apps Script
Google Apps Script — язык программирования, основанный на JavaScript. Позволяет создавать новые функции и приложения для работы с Google Docs, Google Sheets и Google Forms. Настроить связку можно бесплатно.
Минусы
Нужно знание языка программирования JavaScript.
Плюсы
Потратив определенное время на настройку отчетов, можно оперативно реагировать на изменения данных.
Какие задачи решает?
С помощью связки Google Spreadsheet и Google Apps Script можно получать и обновлять данные в режиме реального времени, а это полезно, чтобы следить за конкурентами и настраивать оповещение при изменениях, например, тегов title. Также можно настроить мониторинг цен и получать уведомления при изменении показателей.
Пример скрипта для отслеживания цен.
Выводы
Для гибкого и эффективного использования бесплатных инструментов парсинга сайтов необходимо как минимум знать, что такое XPath, а оптимально — еще и владеть основами JavaScript. Да и платные решения, вроде Netpeak Spider, предлагают все более интересные возможности, вроде одновременной настройки 15 потоков парсинга.
Многие вопросы, связанные с автоматизацией, раньше решал Kimono, но с момента закрытия облачного сервиса он перестал быть таким уж привлекательным для SEO-специалиста.
Пишите в комментариях, какие инструменты вы используете для парсинга, и какие задачи решаете с их помощью.
Комментарии:
C какими сложностями пришлось столкнуться при создании интернет-магазина....
01 04 2026 17:54:42
Несложные рекомендации, как увеличить продажи с сайта и его мобильной версии с помощью инструментов Google: ***ytics, Tag Manager, Optimizer и форм-опросов. UX-специалисты Турум-бурум рекомендуют их для проверки сайта и используют в своей работе....
31 03 2026 22:27:22
Как вернуть на сайт как можно больше пользователей...
30 03 2026 16:40:58
Чтобы раскрутить себя в Твиттер иногда нужно чистить списки фолловеров и это намного проще, чем кажется :)...
29 03 2026 4:13:45
Объявление в тематике автошин — отличная тема для рекламы в интернете....
28 03 2026 3:38:13
Можно ли повысить оценку качества целевой страницы , если проставить конечные URL на уровне ключевого слова? Результаты исследования....
27 03 2026 9:28:55
Звук телефонного звонка важен и для пользователя интернета. Как точно рассчитать полученную прибыль и рентабельность инвестиций в рекламу...
26 03 2026 3:46:39
Определяем, кто из mail подписчиков предан вашему бренду по-настоящему....
25 03 2026 2:43:34
Какой рекламный инструмент использовать, чтобы получить максимальный результат...
24 03 2026 11:31:17
Как правильно оформлять свое портфолио, писать сопроводительные письма и делать посты в соцсетях. С помощью простой человеческой адекватности можно выигрывать у 90% других подрядчиков. Как это использовать? Читайте дальше!...
23 03 2026 13:46:37
Рассказываем о перспективном формате рекламы, который привлекает внимание потребителя даже в эпоху повсеместной «баннерной слепоты»....
22 03 2026 23:55:11
Кейс: SEO для сайта эpoтического массажа — ROMI 980% за 10 месяцев...
21 03 2026 20:51:12
Мнение Сергея Петренко, CEO компании Odesseya....
20 03 2026 18:12:44
Ещё один проект, который продвигался во время карантина....
19 03 2026 6:41:17
Как поможет Regex Engines в работе с Google ***ytics и преимущества использования Regex в Диспетчере тегов Google. Узнать больше....
18 03 2026 16:26:50
Каждый владелец знает, что залог успеха эффективного продвижения кампаний — качественная ежедневная оптимизация, а эксперименты — путь к новым горизонтам и еще более качественным результатам...
17 03 2026 18:23:42
Одно из фундаментальных обновлений Universal ***ytics...
16 03 2026 16:16:55
Со старта сотрудничества, рост видимости сайтов клиента вырос в 15 раз....
15 03 2026 7:24:11
Все, что нужно знать об UTM-метках: зачем использовать, как правильно сгенерить и анализировать....
14 03 2026 22:51:16
Собирательный опыт сотрудников Netpeak. Мы изучали много всего в стиле «купить парковку в аэропорту Гатвика в Лондоне» и тому подобное. Но все, кроме описанного ниже, показалось сложным и ненадежным. Поэтому рассказываем про спокойные варианты....
13 03 2026 8:58:42
Грамотно оформленные метатеги презентуют сайт, помогают пользователям быстро найти нужную информацию, а поисковым системам — повысить ресурс в выдаче...
12 03 2026 17:21:58
Проведение краудфандинговых кампаний — это бизнес. Это отдельный и вполне серьёзный рынок с уймой заточенных под ваши нужды услуг. Раньше нужно было ждать, пока проект пройдет обязательную проверку сотрудником Kickstarter, сейчас можно запускать кампанию...
11 03 2026 7:21:40
Продолжаем разговор о том, почему функция «Совмещение данных» в Google Data Studio может работать не так, как вы ожидаете....
10 03 2026 11:58:18
К чему стоит относиться с особенным вниманием при отправке рассылок. Грамматические ошибки, тема, прехедер и другие стратегически важные составляющие письма. Узнать больше!...
09 03 2026 11:45:55
О важных для разметки сайта тегах — alternate, hreflang, media, — и как их грамотно использовать при продвижении....
08 03 2026 8:59:32
Netpeak подводит итоги 2016 года и делится планами на будущее....
07 03 2026 2:15:50
Как эффективно выйти из карантина с помощью контекстной рекламы...
06 03 2026 18:42:30
Тошнота и процент воды в тексте не должны превышать допустимую норму, иначе не только пользователи уйдут с сайта, поисковые роботы понизят сайт в рейтинге. Узнать больше!...
05 03 2026 0:56:28
Обзор полезных сервисов и программ, которые увеличат эффективность работы из дома и улучшат организацию бизнес-комaнды...
04 03 2026 7:54:18
Как трафик CDN повлиял на систему интернет-магазина — палим кейсы...
03 03 2026 16:16:21
Специалисты, занимающиеся seo копирайтингом, рассказывают об использовании LSI: определение текста, кол во символов, подсчет слов онлайн...
02 03 2026 3:23:49
Советы специалистов Netpeak: виды фильтров Google, что с этим делать и как снять ручные санкции Google....
01 03 2026 2:12:58
Есть 3 качества грамотного руководителя: самоорганизованность, скорость. четкость. А еще — уйма фишек организации рабочих процессов, которые применяют в Netpeak. Узнать!...
28 02 2026 19:48:26
Причины, по которым имеет смысл работать в офисе хотя бы несколько дней в неделю, а может и больше. Конечно, только если эпидемиологическая ситуация не заставляет оставаться дома. Берегите себя....
27 02 2026 14:54:23
Сначала учитесь, а потом идите в бизнес и предпринимательство. Бизнес — это игра, в которую играют пару тысяч лет, и здесь не нужно придумывать велосипеды. Научитесь сначала просто ездить, потом уже будете думать про кастомы....
26 02 2026 17:52:46
Точность и полезность — главные фишки нашего сервиса для расчета показателя LTV (Customer Lifetime Value)....
25 02 2026 3:42:41
Минимизация пропущенных звонков и ускорение обработки заявок с наглядными примерами из сервиса...
24 02 2026 6:36:31
Сервисы для сбора поисковых фраз позволяют регулярно расширять семантическое ядро, обеспечивая сайту высокую видимость и увеличение трафика по тематическим запросам...
23 02 2026 20:53:55
Пиксель Facebook — инструмент аналитики рекламной системы, который можно использовать и для Instagram....
22 02 2026 4:27:24
SEO-продвижение онлайн-сервиса доставки еды с новым сайтом. Цели продвижения, составление семантического ядра, формирование URL, поддомены, карточки товаров, тексты, внешняя оптимизация, дополнительные работы, а также полученные результаты...
21 02 2026 16:14:35
Подкаст — это аудиозапись в повествовательном, музыкальном, юмористическом формате. Создается с целью рекламы, увеличения потока посетителей на сайт и роста почитателей определенного продукта...
20 02 2026 19:33:15
С каждым годом китайские маркетплейсы увеличивают свое влияние, и покупатели всё активней заказывают товары из Поднебесной. Но не всё скидки да покупки — обладатели интернет-аудитории и маркетологи могут еще и хорошо заработать на этих площадках....
19 02 2026 23:34:20
Всё, что вы хотели знать о функциях вычисляемых полей, но боялись спросить....
18 02 2026 22:31:30
Метод настройки с помощью Google Tag Manager. Мануал с подробным описанием каждого шага — показываем на примере, как отслеживать веб-конверсии в рекламных кампаниях LinkedIn. Узнать больше!...
17 02 2026 20:23:48
Чтобы создать позитивный образ компании, бренда, персоны или работодателя в поисковых системах, нужно приложить много усилий. Но, поверьте, результат того стоит. И начать стоит с репутационного аудита....
16 02 2026 6:10:41
Благодаря внедрению интеpaктивной формы подписки увеличили количество ежемecячных подписок на 100%, доход — на 51%, а коэффициент транзакций — на 71%....
15 02 2026 14:42:38
Определение частотности запросов — задача первоочередной важности для составления адекватного семантического ядра, наполнения качественным контентом и контекстной рекламой...
14 02 2026 18:21:36
Товарные объявления торговых кампаний заметнее в выдаче, да и показываться будут и в Bing, и в Yahoo, и в AOL...
13 02 2026 19:13:50
Инструкция по созданию изображений для сториз, email-рассылок и объявлений в соцсетях...
12 02 2026 8:27:55
Все успешные люди немного сомневаются в своих достижениях и рефлексируют о большом количестве ошибок. Не ок, когда сомнения затягивают и разрушают самооценку, создают постоянное напряжение. Давайте разбираться с синдромом самозванца....
11 02 2026 7:32:57
Еще:
понять и запомнить -1 :: понять и запомнить -2 :: понять и запомнить -3 :: понять и запомнить -4 :: понять и запомнить -5 :: понять и запомнить -6 :: понять и запомнить -7 ::