NetPeak Biz Tech    


Что такое краулинг и как управлять роботами

Что такое краулинг и как управлять роботами

< >

Выдача ответов на поисковый запрос на странице поиска за долю секунды только верхушка айсберга. В «черном ящике» поисковых систем — просканированные и занесенные в специальную базу данных миллиарды страниц, которые отбираются для представления с учетом множества факторов.

Страница с результатами поиска формируется в результате трех процессов:

  • сканирования;
  • индексирования;
  • предоставления результатов (состоит из поиска по индексу и ранжирования страниц).

В этом выпуске «Азбуки SEO» речь пойдет о сканировании или краулинге страниц сайта.

Как работает сканирование (краулинг) сайта?

Если кратко, краулинг (сканирование, crawling) — процесс обнаружения и сбора поисковым роботом (краулером) новых и обновленные страницы для добавления в индекс поисковых систем. Сканирование — начальный этап, данные собираются только для дальнейшей внутренней обработки (построения индекса) и не отображаются в результатах поиска. Просканированная страница не всегда оказывается проиндексированной.

Поисковый робот (он же crawler, краулер, паук, бот) — программа для сбора контента в интернете. Краулер состоит из множества компьютеров, запрашивающих и выбирающих страницы намного быстрее, чем пользователь с помощью своего веб-браузера. Фактически он может запрашивать тысячи разных страниц одновременно.

Что еще делает робот-краулер:

  1. Постоянно проверяет и сравнивает список URL-адресов для сканирования с URL-адресами, которые уже находятся в индексе Google.
  2. Убирает дубликаты в очереди, чтобы предотвратить повторное скачивание одной и той же страницы.
  3. Добавляет на переиндексацию измененные страницы для предоставления обновленных результатов.

При сканировании пауки просматривают страницы и выполняют переход по содержащимся на них ссылкам так же, как и обычные пользователи. При этом разный контент исследуется ботами в разной последовательности. Это позволяет одновременно обpaбатывать огромные массивы данных.

Например, в Google существуют роботы для обработки разного типа контента:

  • Googlebot — основной поисковый робот;
  • Googlebot News — робот для сканирования новостей;
  • Googlebot Images — робот для сканирования изображений;
  • Googlebot Video — робот для сканирования видео.

Что такое robots.txt и зачем вообще нужен индексный файл В статье о robots.txt мы собрали полный перечень роботов-пауков. Знакомьтесь :)

Кстати, именно с robots.txt и начинается процесс сканирования сайта — краулер пытается обнаружить ограничения доступа к контенту и ссылку на карту сайта (Sitemap). В карте сайта должны находиться ссылки на важные страницы сайта. В некоторых случаях поисковый робот может проигнорировать этот документ и страницы попадут в индекс, поэтому конфиденциальную информацию нужно закрывать паролем непосредственно на сервере.

Просматривая сайты, бот находит на каждой странице ссылки и добавляет их в свою базу. Робот может обнаружить ваш сайт даже без размещения ссылок на него на сторонних ресурсах. Для этого нужно осуществить переход по ссылке с вашего сервера на другой. Заголовок HTTP-запроса клиента «referer» будет содержать URL источника запроса и, скорее всего, сохранится в журнале источников ссылок на целевом сервере. Следовательно, станет доступным для робота.

Истории бизнеса и полезные фишки

Как краулер видит сайт

Если хотите проверить, как робот-краулер видит страницу сайта, отключите обработку JavaScript при включенном отладчике в браузере. Рассмотрим на примере Google Chrome:

1. Нажимаем F12 — вызываем окно отладчика, переходим в настройки.

2. Отключаем JavaScript и перезагружаем страницу.

Если в целом на странице сохранилась основная информация, ссылки на другие страницы сайта и выглядит она примерно так же, как и с включенным JavaScript, проблем со сканированием не должно возникнуть.

Второй способ — использовать инструмент Google «Просмотреть как Googlebot» в Search Console.

Если краулер видит вашу страницу так же, как и вы, проблем со сканированием не возникнет.

Третий метод — специальное программное обеспечение. Например https://pr-cy.ru/simulator/ отображает программный код, который робот видит на странице, а Netpeak Spider показывает более 50 разных видов ошибок, найденных при сканировании, и разделяет их по степени важности.

Если страница не отображается так, как вы ожидали, стоит проверить, доступна ли она для сканирования: не заблокирована ли она в robots.txt, в файле .htaccess.

Сайт на Ajax: как отдельным страницам попасть в выдачу Проблемы со сканированием могут возникать, если сайт создан с помощью технологий Javascript и Ajax, так как поисковые системы пока с трудом сканируют подобный контент.

Как управлять сканированием страниц

Запуск и оптимизация сканирования сайта

Существует несколько методов пригласить робота-паука к себе на сайт:

  1. Разрешить сканирование сайта, если он был запаролен на сервере, и передать информацию об URL c помощью HTTP-заголовка «referer» при переходе на другой ресурс.
  2. Разместить ссылку на ваш сайт на другом ресурсе, например, в соцсетях.
  3. Зарегистрироваться в панелях вебмастеров Google и Яндекс.
  4. Сообщить о сайте поисковой системе напрямую через кабинеты вебмастеров поисковых систем:
  1. Использовать внутреннюю перелинковку страниц для улучшения навигации и сканирования ресурса, например, хлебные крошки.
  2. Создать карту сайта с нужным списком страниц и разместить ссылку на карту в robots.txt.

Запрет сканирования сайта

  1. Для ограничения сканирования контента следует защитить каталогов сервера паролем. Это простой и эффективный способ защиты конфиденциальной информации от ботов.
  2. Ставить ограничения в robots.txt.
  3. Использовать метатег . С помощью директивы “nofollow” стоит запретить переход по ссылкам на другие страницы.
  4. Использовать HTTP-заголовок X-Robots tag. Запрет на сканирование со стороны сервера осуществляется с помощью HTTP заголовка X-Robots-tag: nofollow. Директивы, которые применяются для robots.txt, подходят и для X-Robots tag.

Больше информации о использовании http-заголовка в справке для разработчиков.

Управление частотой сканирования сайта

Googlebot использует алгоритмический процесс для определения, какие сайты сканировать, как часто и сколько страниц извлекать. Вебмастер может предоставить вспомогательную информацию краулеру с помощью файла sitemap, то есть с помощью атрибутов:

  • — дата последнего изменения файла;
  • — вероятная частота изменений страницы;
  • — приоритетность.

К сожалению, значения этих атрибутов рассматриваются роботами как подсказка, а не как комaнда, поэтому в Google Search Console и существует инструмент для ручной отправки запроса на сканирование.

Выводы

  1. Разный контент обpaбатывается ботами в разной последовательности. Это позволяет одновременно обpaбатывать огромные массивы данных.
  2. Для улучшения процесса сканирования нужно создавать карты сайтов и делать внутреннюю перелинковку — чтобы бот смог найти все важные страницы.
  3. Закрывать информацию от индексирования лучше с помощью метатега   или http-заголовка X-Robot tag, так как файл robots.txt содержит лишь рекомендации по сканированию, а не прямые комaнды к действию.

Инструменты для парсинга в работе SEO-специалиста Читайте больше об инструментах для парсинга сайта, необходимых SEO-специалисту в рутинной работе.



Комментарии:

Сколько стоил клик в Google Ads в Украине в третьем квартале 2021 года

Данные, приведенные в исследовании, помогут в составлении медиапланов по продвижению в интернете. Понимания стоимость конверсии и необходимое количество конверсий, вы можете прогнозировать, сколько денег на рекламу нужно выделить....

08 06 2026 2:40:48

Редакционная политика Netpeak Journal — как писать так, чтобы вас хотели читать, а не править

Редакционная политика Netpeak Journal — как писать так, чтобы вас хотели читать, а не править Редполитика Netpeak Journal (ex блог Netpeak) — руководство по написанию понятных, полезных, продающих и удобочитаемых текстов. Документ для внутреннего использования в открытом доступе. Применяйте, адаптируйте. Читать!...

07 06 2026 4:55:28

Маркетинг без бюджета. Как привлечь посетителей на молодой сайт

Маркетинг без бюджета. Как привлечь посетителей на молодой сайт Бесплатно рекламировать и привлечь первых посетителей/клиентов вполне реально своими силами...

06 06 2026 8:20:53

SEO-среда: 7 способов улучшить поведенческие факторы сайта

SEO-среда: 7 способов улучшить поведенческие факторы сайта Совет Константина Леоновича (Sape.ru), 4 наших + 2 бонусных...

05 06 2026 13:22:41

5 железных правил IT-бухгалтеров

5 железных правил IT-бухгалтеров Бухгалтерский мир Netpeak: цель, задачи, мотивация....

04 06 2026 23:49:19

Как работать с репутацией медицинского бренда в интернете — кейс Synevo

Как работать с репутацией медицинского бренда в интернете — кейс Synevo Как работать с негативом и что делать, чтобы его было меньше/не было вовсе....

03 06 2026 11:45:11

Email-маркетинг для интернет-магазина — как настроить, чтобы получить от 7 до 15% общего дохода

Email-маркетинг для интернет-магазина — как настроить, чтобы получить от 7 до 15% общего дохода Email-маркетинг увеличивает частоту транзакций. Показываем как это происходит и за счет чего. Делимся кейсом email-маркетинга для книжного интернет-магазина. Читать дальше....

02 06 2026 15:28:56

Что такое SEO и зачем нужна поисковая оптимизация

Что такое SEO и зачем нужна поисковая оптимизация Основные этапы раскрутки сайта. Что такое и как работает поисковая оптимизация, ее виды, особенности, преимущества...

01 06 2026 22:58:35

Трудности перевода: как найти общий язык с зарубежными SEO-специалистами

Трудности перевода: как найти общий язык с зарубежными SEO-специалистами Профессиональная лексика SEO-специалистов в буржунете и в рунете формируется в одном поле: Google-то общий. Но когда специалисты Востока и Запада встречаются, им сложно понять друг друга. Это неудивительно, так как язык отражает само восприятие SEO. А под...

31 05 2026 7:27:51

Как загрузить фото в Instagram с компьютера

В статье описан ручной и самый безопасный из существующих метод...

30 05 2026 8:59:34

Карантин и удаленная работа — опыт Netpeak

Карантин и удаленная работа — опыт Netpeak Как настроить эффективную удаленную работу: комментарии топ-менеджмента Netpeak с плюсами и минусами, личными инсайтами и рекомендациями. А также перспективы развития удаленки в комапнии. Читать дальше!...

29 05 2026 23:40:49

Как улучшить UX/UI сайта — семь советов по юзабилити

Как улучшить UX/UI сайта — семь советов по юзабилити Эти советы будут полезны вебмастерам, которые хотят сделать шаблон сайта самостоятельно...

28 05 2026 20:22:13

Как повысить коэффициент конверсии с помощью лендинга? — кейс Rawai VIP Villas

Как повысить коэффициент конверсии с помощью лендинга? — кейс Rawai VIP Villas Если ваш сайт не приносит желаемых продаж, задумайтесь о смене формата. Этот кейс о том, как с качественным лендингом можно достигнуть желаемой цены за конверсию....

27 05 2026 21:50:13

Netpeak Journal — медиа об онлайн-бизнесе и не только

Netpeak Journal — медиа об онлайн-бизнесе и не только Представляем Netpeak Journal — новый этап развития блога Netpeak...

26 05 2026 17:20:39

Как вернуть органический трафик после неправильного переноса сайта

Как вернуть органический трафик после неправильного переноса сайта Обидно терять сохраненные достижения. Почему падает трафик из поисковых систем и как это исправить...

25 05 2026 23:59:29

Как не надо составлять техзадание для дизайнера — восемь вредных советов и полезный докс

Как не надо составлять техзадание для дизайнера — восемь вредных советов и полезный докс Дизайнер, в частности технический дизайнер баннеров, — человек, который оформляет конкретную идею, текст и логотип в приемлемую визуальную форму. Все делают это по-разному, но конечный результат всегда зависит от четкости поставленной задачи...

24 05 2026 16:32:33

Правила работы с отзывами клиентов — памятка для брендов

Правила работы с отзывами клиентов — памятка для брендов От наличия отзывов зависит решение клиента купить товар или заказать услугу. Как правильно работать с репутацией? Разбираемся...

23 05 2026 13:36:57

Продвижение на prom.ua — настраиваем аналитику, ремаркетинг, Google Merchant Center

Лафхаки для маркетологов и владельцев сайтов на Prom...

22 05 2026 23:23:37

Востребованные IT-профессии в Украине — все кроме программирования. Какие курсы выбрать в 2022 году

Востребованные IT-профессии в Украине — все кроме программирования. Какие курсы выбрать в 2022 году Рассказываем об интересных диджитал-специальностях и зарплатах, как обучиться этим профессиям с нуля (в том числе в зрелом возрасте) и можно ли работать удалённо....

21 05 2026 10:18:37

Выгружаем данные из Google ***ytics для 100+ проектов одновременно — кейс агентства Netpeak

Выгружаем данные из Google ***ytics для 100+ проектов одновременно — кейс агентства Netpeak Как мы создаем BI-решение для департамента поискового продвижения — первые шаги...

20 05 2026 11:31:33

Динамический ремаркетинг в Facebook — подробный мануал по технической подготовке

Динамический ремаркетинг в Facebook — подробный мануал по технической подготовке Динамический ремаркетинг — один из самых эффективных способов продаж для любой группы товаров. В этой статье мы поделимся тонкостями технической подготовки к запуску динамического ремаркетинга в Facebook....

19 05 2026 7:52:49

Как не слить бюджет на клики? Все, что нужно знать о кликфроде

Как не слить бюджет на клики? Все, что нужно знать о кликфроде Как избежать скликивания — инструкция...

18 05 2026 13:12:11

Аналитический инструмент для сервиса заказа билетов — контролируем бюджеты сотен мероприятий в реальном времени

Аналитический инструмент для сервиса заказа билетов — контролируем бюджеты сотен мероприятий в реальном времени Как автоматизировать целый участок в работе комaнды специалистов по контекстной рекламе — кейс concert.ua...

17 05 2026 16:21:24

Аналитика покупок американцев и украинцев перед праздниками

Аналитика покупок американцев и украинцев перед праздниками Пост о том, как и когда тратит деньги американский и украинский покупатель...

16 05 2026 21:55:33

17 полезных кейсов от спикеров 8P

17 полезных кейсов от спикеров 8P Нашим решением было трaнcлировать хотя бы часть опыта спикеров 8P, составив дайджест лучших, на их взгляд, кейсов, о которых они узнали за этот год....

15 05 2026 18:54:26

Краткий курс машинного обучения, или Как создать нейронную сеть для решения задачи по скорингу

Краткий курс машинного обучения, или Как создать нейронную сеть для решения задачи по скорингу Нейронные сети, нейросети онлайн, сверхточные нейронные сети. Я рассажу, как они устроены, как написать свою нейронную сеть с нуля, как правильно обучить нейронную сеть на имеющихся данных...

14 05 2026 2:14:43

Как добавить 100 000 метатегов на сайт за 5 минут?

Как добавить 100 000 метатегов на сайт за 5 минут? Как SQL-запросы сайтов и Google Sheets освобождают SEO-специалиста от рутины...

13 05 2026 7:42:47

10 SEO-требований к сайту

Советы и даже требования SEO-специалистов к разработчикам сайтов....

12 05 2026 20:19:26

Анализ конкуренции в Google Рекламе

Расскажем в двух словах о всеми забытой функции «Анализ конкуренции»....

11 05 2026 20:31:52

Как рекламировать промоакции в Google Ads и увеличить доход на 54,7% — кейс Citrus.ua

Как рекламировать промоакции в Google Ads и увеличить доход на 54,7% — кейс Citrus.ua Тонкости настройки предпраздничной рекламной промо кампании на примере Citrus.ua....

10 05 2026 7:47:42

Как работает Brand Lift — исследуем эффективность видеорекламы на YouTube

Как работает Brand Lift — исследуем эффективность видеорекламы на YouTube Недавно у меня закончилась видеокампания на ютуб, по которой удалось собрать исследование Brand Lift. Хочу поделиться инсайтами...

09 05 2026 14:39:15

Как создать YouTube канал для бренда

Как создать YouTube канал для бренда Создание канала бренда на видеоплатформе необходимо для увеличения притока трафика, улучшения репутации и поискового продвижения компании...

08 05 2026 2:29:58

Сколько получают интернет-маркетологи? Обновленный рейтинг зарплат специалистов

Сколько получают интернет-маркетологи? Обновленный рейтинг зарплат специалистов Сбор анкет до 16 декабря, публикация результатов в конце декабря...

07 05 2026 4:35:21

Как отфильтровать внутренний трафик в Google ***ytics

Как отфильтровать внутренний трафик в Google ***ytics Фильтруем свой трафик от сотрудников в Google ***ytics...

06 05 2026 1:46:56

Как вывести информационный сайт из-под YMYL фильтра Google — кейс maanimo.com

Как вывести информационный сайт из-под YMYL фильтра Google — кейс maanimo.com Вывод информационного сайта из-под алгоритмического YMYL фильтра Google...

05 05 2026 2:27:51

Как написать кейс — руководство для технарей на примере кейса Citrus и Netpeak в блоге Google

Как написать кейс — руководство для технарей на примере кейса Citrus и Netpeak в блоге Google Как написать годный кейс и победить страх чистого листа...

04 05 2026 3:54:43

Как быстро найти ошибки SEO-оптимизации с помощью Netpeak Spider

Как быстро найти ошибки SEO-оптимизации с помощью Netpeak Spider Сохраняем время и ресурсы для проверки типичных задач и тратим его на реализацию креативных идей по оптимизации сайта....

03 05 2026 4:13:35

Netpeak Spider — помощник при составлении технического аудита сайта

Netpeak Spider — помощник при составлении технического аудита сайта Мы запустили еще один полезный инструмент: Netpeak Spider....

02 05 2026 20:17:46

Время, в которое мы живём — лучшее в истории. Давайте это замечать!

Время, в которое мы живём — лучшее в истории. Давайте это замечать! О ловушке медиа, Стивене Пинкере и почему в любой ситуации важно оставаться оптимистом....

30 04 2026 8:38:15

Как работают смарт-баннеры в Яндекс.Директ — кейс интернет-магазина товаров для сада и огорода

Как работают смарт-баннеры в Яндекс.Директ — кейс интернет-магазина товаров для сада и огорода Решили написать про новый формат рекламы — баннерный...

29 04 2026 3:30:58

Как следить за позициями сайта в мобильной выдаче

Как следить за позициями сайта в мобильной выдаче Регулярный мониторинг позиций необходим для отслеживания истории их изменений после внедрения новых ключевых слов и других работ над сайтом...

28 04 2026 7:48:13

Как бесплатно защитить книгу от копирования — инструкция для писателей

Как бесплатно защитить книгу от копирования — инструкция для писателей Как обезопасить себя от интернет-пиратов и защитить авторское право онлайн....

27 04 2026 9:47:49

Инструкция по работе с ***ytics Intelligence: как найти общий язык с Google ***ytics

Инструкция по работе с ***ytics Intelligence: как найти общий язык с Google ***ytics Не можете найти нужны отчёт в Google ***ytics? Или хотите ускорить поиск нужных данных и отчётов. В помощь ⏩ Обзор к Google ***ytics Intelligence....

26 04 2026 20:10:23

Кейс по контекстной рекламе портала-каталога организаций: как оптимизация целевых страниц повлияла на поведенческие факторы

Кейс по контекстной рекламе портала-каталога организаций: как оптимизация целевых страниц повлияла на поведенческие факторы Портал-каталог организаций и его продвижение. В этом кейсе мы детальнее остановимся на выгодах для проекта от синергии усилий клиента и агентских специалистов по контекстной рекламе...

25 04 2026 2:14:10

Топ-20 факторов ранжирования в локальном поиске — иллюстрированное руководство, часть первая

Первая часть иллюстрированного руководства, в котором мы взяли 20 самых важных фактора ранжирования представлены с краткими иллюстрированными примерами. В этом тексте вы найдете первые 10. Узнать больше!...

24 04 2026 6:29:46

Почему в США зарплаты СЕО приводят к дополнительным налогам?

Почему в США зарплаты СЕО приводят к дополнительным налогам? Как борьба с зарплатным неравенством становится трендом...

23 04 2026 10:57:45

Как эффективно настроить рекламные кампании в Apple Search Ads — zoom-митап с Радомиром Новковичем

Как эффективно настроить рекламные кампании в Apple Search Ads — zoom-митап с Радомиром Новковичем 5 мая в 17:00 — митап в Zoom с Радомиром Новковичем — фаундером RadASO и CEO Tonti Laguna Mobile....

22 04 2026 5:47:30

Что нужно понимать в SEO-отчетах, чтобы оценить эффективность продвижения

Что нужно понимать в SEO-отчетах, чтобы оценить эффективность продвижения Всё об оценке эффективности SEO-продвижения с инструментами и рекомендациями...

21 04 2026 12:15:23

Как SaaS-у заработать $250 000 за неделю, или Четкая инструкция от Serpstat, как провести успешную кампанию на AppSumo

Как SaaS-у заработать $250 000 за неделю, или Четкая инструкция от Serpstat, как провести успешную кампанию на AppSumo Заработок в четверть миллиона. Как многофункциональная SEO-платформа Serpstat из Netpeak Group стала самым продаваемым продуктом на AppSumo — пошаговая история-инструкция...

20 04 2026 20:51:22

Еще:
понять и запомнить -1 :: понять и запомнить -2 :: понять и запомнить -3 :: понять и запомнить -4 :: понять и запомнить -5 :: понять и запомнить -6 :: понять и запомнить -7 ::