Что такое краулинг и как управлять роботами > NetPeak - Независимость и осознанность
NetPeak Biz Tech    


Что такое краулинг и как управлять роботами

Что такое краулинг и как управлять роботами

< >

Выдача ответов на поисковый запрос на странице поиска за долю секунды только верхушка айсберга. В «черном ящике» поисковых систем — просканированные и занесенные в специальную базу данных миллиарды страниц, которые отбираются для представления с учетом множества факторов.

Страница с результатами поиска формируется в результате трех процессов:

  • сканирования;
  • индексирования;
  • предоставления результатов (состоит из поиска по индексу и ранжирования страниц).

В этом выпуске «Азбуки SEO» речь пойдет о сканировании или краулинге страниц сайта.

Как работает сканирование (краулинг) сайта?

Если кратко, краулинг (сканирование, crawling) — процесс обнаружения и сбора поисковым роботом (краулером) новых и обновленные страницы для добавления в индекс поисковых систем. Сканирование — начальный этап, данные собираются только для дальнейшей внутренней обработки (построения индекса) и не отображаются в результатах поиска. Просканированная страница не всегда оказывается проиндексированной.

Поисковый робот (он же crawler, краулер, паук, бот) — программа для сбора контента в интернете. Краулер состоит из множества компьютеров, запрашивающих и выбирающих страницы намного быстрее, чем пользователь с помощью своего веб-браузера. Фактически он может запрашивать тысячи разных страниц одновременно.

Что еще делает робот-краулер:

  1. Постоянно проверяет и сравнивает список URL-адресов для сканирования с URL-адресами, которые уже находятся в индексе Google.
  2. Убирает дубликаты в очереди, чтобы предотвратить повторное скачивание одной и той же страницы.
  3. Добавляет на переиндексацию измененные страницы для предоставления обновленных результатов.

При сканировании пауки просматривают страницы и выполняют переход по содержащимся на них ссылкам так же, как и обычные пользователи. При этом разный контент исследуется ботами в разной последовательности. Это позволяет одновременно обpaбатывать огромные массивы данных.

Например, в Google существуют роботы для обработки разного типа контента:

  • Googlebot — основной поисковый робот;
  • Googlebot News — робот для сканирования новостей;
  • Googlebot Images — робот для сканирования изображений;
  • Googlebot Video — робот для сканирования видео.

Что такое robots.txt и зачем вообще нужен индексный файл В статье о robots.txt мы собрали полный перечень роботов-пауков. Знакомьтесь :)

Кстати, именно с robots.txt и начинается процесс сканирования сайта — краулер пытается обнаружить ограничения доступа к контенту и ссылку на карту сайта (Sitemap). В карте сайта должны находиться ссылки на важные страницы сайта. В некоторых случаях поисковый робот может проигнорировать этот документ и страницы попадут в индекс, поэтому конфиденциальную информацию нужно закрывать паролем непосредственно на сервере.

Просматривая сайты, бот находит на каждой странице ссылки и добавляет их в свою базу. Робот может обнаружить ваш сайт даже без размещения ссылок на него на сторонних ресурсах. Для этого нужно осуществить переход по ссылке с вашего сервера на другой. Заголовок HTTP-запроса клиента «referer» будет содержать URL источника запроса и, скорее всего, сохранится в журнале источников ссылок на целевом сервере. Следовательно, станет доступным для робота.

Истории бизнеса и полезные фишки

Как краулер видит сайт

Если хотите проверить, как робот-краулер видит страницу сайта, отключите обработку JavaScript при включенном отладчике в браузере. Рассмотрим на примере Google Chrome:

1. Нажимаем F12 — вызываем окно отладчика, переходим в настройки.

2. Отключаем JavaScript и перезагружаем страницу.

Если в целом на странице сохранилась основная информация, ссылки на другие страницы сайта и выглядит она примерно так же, как и с включенным JavaScript, проблем со сканированием не должно возникнуть.

Второй способ — использовать инструмент Google «Просмотреть как Googlebot» в Search Console.

Если краулер видит вашу страницу так же, как и вы, проблем со сканированием не возникнет.

Третий метод — специальное программное обеспечение. Например https://pr-cy.ru/simulator/ отображает программный код, который робот видит на странице, а Netpeak Spider показывает более 50 разных видов ошибок, найденных при сканировании, и разделяет их по степени важности.

Если страница не отображается так, как вы ожидали, стоит проверить, доступна ли она для сканирования: не заблокирована ли она в robots.txt, в файле .htaccess.

Сайт на Ajax: как отдельным страницам попасть в выдачу Проблемы со сканированием могут возникать, если сайт создан с помощью технологий Javascript и Ajax, так как поисковые системы пока с трудом сканируют подобный контент.

Как управлять сканированием страниц

Запуск и оптимизация сканирования сайта

Существует несколько методов пригласить робота-паука к себе на сайт:

  1. Разрешить сканирование сайта, если он был запаролен на сервере, и передать информацию об URL c помощью HTTP-заголовка «referer» при переходе на другой ресурс.
  2. Разместить ссылку на ваш сайт на другом ресурсе, например, в соцсетях.
  3. Зарегистрироваться в панелях вебмастеров Google и Яндекс.
  4. Сообщить о сайте поисковой системе напрямую через кабинеты вебмастеров поисковых систем:
  1. Использовать внутреннюю перелинковку страниц для улучшения навигации и сканирования ресурса, например, хлебные крошки.
  2. Создать карту сайта с нужным списком страниц и разместить ссылку на карту в robots.txt.

Запрет сканирования сайта

  1. Для ограничения сканирования контента следует защитить каталогов сервера паролем. Это простой и эффективный способ защиты конфиденциальной информации от ботов.
  2. Ставить ограничения в robots.txt.
  3. Использовать метатег . С помощью директивы “nofollow” стоит запретить переход по ссылкам на другие страницы.
  4. Использовать HTTP-заголовок X-Robots tag. Запрет на сканирование со стороны сервера осуществляется с помощью HTTP заголовка X-Robots-tag: nofollow. Директивы, которые применяются для robots.txt, подходят и для X-Robots tag.

Больше информации о использовании http-заголовка в справке для разработчиков.

Управление частотой сканирования сайта

Googlebot использует алгоритмический процесс для определения, какие сайты сканировать, как часто и сколько страниц извлекать. Вебмастер может предоставить вспомогательную информацию краулеру с помощью файла sitemap, то есть с помощью атрибутов:

  • — дата последнего изменения файла;
  • — вероятная частота изменений страницы;
  • — приоритетность.

К сожалению, значения этих атрибутов рассматриваются роботами как подсказка, а не как комaнда, поэтому в Google Search Console и существует инструмент для ручной отправки запроса на сканирование.

Выводы

  1. Разный контент обpaбатывается ботами в разной последовательности. Это позволяет одновременно обpaбатывать огромные массивы данных.
  2. Для улучшения процесса сканирования нужно создавать карты сайтов и делать внутреннюю перелинковку — чтобы бот смог найти все важные страницы.
  3. Закрывать информацию от индексирования лучше с помощью метатега   или http-заголовка X-Robot tag, так как файл robots.txt содержит лишь рекомендации по сканированию, а не прямые комaнды к действию.

Инструменты для парсинга в работе SEO-специалиста Читайте больше об инструментах для парсинга сайта, необходимых SEO-специалисту в рутинной работе.



Комментарии:

8 ненужных пунктов в SEO-аудите

Глоссарий глупых ошибок в аудите от топовых SEO-агентств...

31 03 2026 0:56:52

Как внедрить аналитику бизнес-процессов с минимальными тратами — антикризисный мануал

Как внедрить аналитику бизнес-процессов с минимальными тратами — антикризисный мануал Как внедрить Business Intelligence для малого и среднего бизнеса....

30 03 2026 4:28:33

30+ мясных Telegram-каналов по digital-маркетингу: что читать новичку и опытному бизнесмену

30+ мясных Telegram-каналов по digital-маркетингу: что читать новичку и опытному бизнесмену Мы собрали 30+ Телеграм-каналов, где вы найдете только полезную и актуальную информацию про маркетинг, SEO, SMM, веб-аналитику и развитие бизнеса...

29 03 2026 10:34:57

Как сделать разработчикам приятно — опыт Netpeak

Как сделать разработчикам приятно — опыт Netpeak Отличный способ мотивации, который мы попробовали и вам рекомендуем....

28 03 2026 1:36:16

Как воспитать лояльного пользователя: нейромаркетинг в действии

Как воспитать лояльного пользователя: нейромаркетинг в действии Рецензия на книгу «Нейромаркетинг в действии» Дэвида Льюиса...

27 03 2026 19:39:37

Как анализировать внешнюю ссылочную массу: обзор сервисов и программ

Как анализировать внешнюю ссылочную массу: обзор сервисов и программ Делайте анализ ссылочной массы хотя бы раз в месяц — и будет вам счастье....

26 03 2026 4:19:43

Руководство для брендов по Playable Ads

Руководство для брендов по Playable Ads Рассказываем о перспективном формате рекламы, который привлекает внимание потребителя даже в эпоху повсеместной «баннерной слепоты»....

25 03 2026 22:30:42

Как ангел-хранитель Sammy помогает продвигать носки

Как ангел-хранитель Sammy помогает продвигать носки Как говорят легенды, на создание дизайна этих носочков Sammy Icon вдохновили рисунки на стенах храма Темпло Майор в древнем городе Теночтитлан. К сожалению, город сейчас разобрали перуанские строители, но память о нем осталась в киевских носках...

24 03 2026 15:40:52

Исследование о ценности доброжелательного лидерства

Исследование о ценности доброжелательного лидерства Так называемый Humankindex (доброжелательный стиль управления) способствует инновациям в компании....

23 03 2026 11:53:10

Типы соответствия ключевых слов в Google Рекламе и Яндекс.Директ — подробная инструкция

Типы соответствия ключевых слов в Google Рекламе и Яндекс.Директ — подробная инструкция Как разобраться в типах соответствия ключевых слов и определить, что минус-слова блокируют показы нужных ключевых слов....

22 03 2026 0:24:41

Как проводить вебинары — опыт агентства Netpeak

Как проводить вебинары — опыт агентства Netpeak Мы решили организовать серию вебинаров по SEO и предоставить их бесплатно. История о том, как с нуля при минимуме затрат создать успешный онлайн-курс...

21 03 2026 6:57:28

15 идей для таргетинга мобильного приложения в Facebook и Instagram

15 идей для таргетинга мобильного приложения в Facebook и Instagram Готовые к использованию таргетинговые идеи для мобильных приложений онлайн в Facebook....

20 03 2026 5:12:14

Удаленная работа после пандемии — трудности Apple и Google

Удаленная работа после пандемии — трудности Apple и Google Последствия удаленки на уровне крупного бизнеса. Как сотрудники и топ-менеджмент не могут договориться. Спopные вопросы, ответы на которые ещё предстоит найти. Узнать больше....

19 03 2026 21:49:15

SEO-среда: отcлеживание целей и настройка событий

SEO-среда: отcлеживание целей и настройка событий Настройка целей в Google ***ytics, а также отслеживание событий....

18 03 2026 6:15:15

Интеграция Google BigQuery c BI-платформами и электронными таблицами

Интеграция Google BigQuery c BI-платформами и электронными таблицами Подробная инструкция по интеграции с облачной базой данных и сравнение BI-платформ....

17 03 2026 21:22:29

Семь улучшений Netpeak: построение репутации для нового бренда, продвижение в TikTok и PR-статьи в журнале

Семь улучшений Netpeak: построение репутации для нового бренда, продвижение в TikTok и PR-статьи в журнале Еще организовали новую онлайн-конференцию, запустили опрос онлайн-покупателей, создали SEO-услугу для крупного бизнеса, рассказали, как вести В2С и В2В аккаунты в Instagram и ввели консультации SMM-специалистов....

16 03 2026 14:13:17

10 рабочих способов повторного использования контента

10 рабочих способов повторного использования контента В помощь контент-маркетологам, редакторам, авторам и бизнесу: идеи, которые учитывают фактор SEO. Переупакуйте статьи, заметки, любые другие посты — угодите читателям и поисковикам. Узнать больше!...

15 03 2026 0:59:23

Что такое SEO и зачем нужна поисковая оптимизация

Что такое SEO и зачем нужна поисковая оптимизация Основные этапы раскрутки сайта. Что такое и как работает поисковая оптимизация, ее виды, особенности, преимущества...

14 03 2026 20:31:44

Кейс по контекстной рекламе в тематике «детская обувь»: ROMI 110%

Кейс по контекстной рекламе в тематике «детская обувь»: ROMI 110% Магазин детской обуви: конкретные цифры в кейсе по продвижению....

13 03 2026 0:19:51

Что такое скрам — инструкция для новичков

Что такое скрам — инструкция для новичков Создатель scrum model Джефф Сазерленд написал книгу о том, как использовать методику разработки программного обеспечения для развития бизнеса....

12 03 2026 9:54:45

Seznam, откройся: подробное руководство по настройке контекстной рекламы в Чехии

Seznam, откройся: подробное руководство по настройке контекстной рекламы в Чехии Seznam.cz — одна из пяти поисковых систем в мире, сумевших в отдельно взятой стране стать популярнее Google...

11 03 2026 18:34:39

Как малый бизнес Украины перешел на удаленку — опрос предпринимателей

Как малый бизнес Украины перешел на удаленку — опрос предпринимателей Участники Netpeak Cluster поделились своими инсайтами....

10 03 2026 15:12:31

Маркетинг без бюджета. Как привлечь посетителей на молодой сайт

Маркетинг без бюджета. Как привлечь посетителей на молодой сайт Бесплатно рекламировать и привлечь первых посетителей/клиентов вполне реально своими силами...

09 03 2026 20:30:32

Как запустить торговые кампании в Bing Ads

Товарные объявления торговых кампаний заметнее в выдаче, да и показываться будут и в Bing, и в Yahoo, и в AOL...

08 03 2026 14:47:31

Как объединить источники данных в Google Data Studio

Как объединить источники данных в Google Data Studio Как пользоваться «Совмещением данных» с учетом всех особенностей инструмента...

07 03 2026 3:27:22

Что такое Netpeak Friends Day и почему его стоит посетить

Что такое Netpeak Friends Day и почему его стоит посетить А сейчас про конференцию Netpeak Friends Day для друзей Netpeak Group...

06 03 2026 13:13:14

Кейс: настраиваем ремаркетинг на брошенную корзину

Кейс: настраиваем ремаркетинг на брошенную корзину Как узнать срок хранения товаров в корзине и настроить ремаркетинг для завершения покупок...

05 03 2026 2:50:33

Про social insight, как один из базовых пунктов брифа

Про social insight, как один из базовых пунктов брифа Важный вопрос, если вы рассчитываете на вирусный эффект своих рекламных идей....

04 03 2026 22:33:34

Как я работаю дома с двумя детьми — хроники безумного папы

Как я работаю дома с двумя детьми — хроники безумного папы Опыт сотрудника отдела маркетинга Netpeak. Дочке Маше — 10 лет, сыну Егору — почти 4 года. Мы по-прежнему не очень продуктивны в таких условиях, но все же накопили больше опыта, чем те люди, которые сейчас внезапно столкнулись с удаленной работой...

03 03 2026 8:30:43

Частотность‌ ‌запросов‌ ‌и‌ ‌техника‌ ‌ее‌ ‌определения‌

Частотность‌ ‌запросов‌ ‌и‌ ‌техника‌ ‌ее‌ ‌определения‌ Определение частотности запросов — задача первоочередной важности для составления адекватного семантического ядра, наполнения качественным контентом и контекстной рекламой...

02 03 2026 21:33:49

Спикеры 8P о мобайле, программатике и инхаус комaнде мечты

Спикеры 8P о мобайле, программатике и инхаус комaнде мечты Мы попросили спикеров ответить на острые для многих онлайн-проектов вопросы о развитии мобайла как канала, программатике и строительстве инхаус комaнд...

01 03 2026 12:34:41

Universal App Campaign 2.0 в Google Рекламе — как выжать максимум пользы

Universal App Campaign 2.0 в Google Рекламе — как выжать максимум пользы Как сделать рекламу в Universal App Campaign 2.0 максимально эффективной...

28 02 2026 13:16:29

Восемь советов успешного запуска рекламной кампании в myTarget

Восемь советов успешного запуска рекламной кампании в myTarget Делимся фишками, которые облегчат работу как новичкам, так и специалистам....

27 02 2026 15:54:18

Как настроить запуск R-скрипта по расписанию?

Как настроить запуск R-скрипта по расписанию? Работаете со скриптами R регулярно? Потратьте десять минут на настройку автозапуска и избавьтесь от необходимости активировать R-скрипты вручную...

26 02 2026 6:13:55

Влияют ли негативные комментарии на эффективность рекламы в Facebook? Тест на $1000

Помогают ли комментарии повысить эффективность рекламных постов? Единственный способ выяснить наверняка — провести A/B-тестирование в Facebook. Спойлер: тональность комментария также имеет значение в Facebook...

25 02 2026 6:23:16

Трудности с рекламными инструментами Facebook — что может пойти не так

Трудности с рекламными инструментами Facebook — что может пойти не так Объявление или кабинет блокируют из-за эмоджи. Что делать?...

24 02 2026 17:56:23

Интервью с Юлией Куриловой

Интервью с Юлией Куриловой Увлекательные истории от специалиста по контекстной рекламе....

23 02 2026 19:27:59

Как запустить продукт на AppSumo в 2021 году и привлечь 2 000+ клиентов — личный опыт

Как запустить продукт на AppSumo в 2021 году и привлечь 2 000+ клиентов — личный опыт Зачем размещаться на AppSumo и как запустить продукт в 2021 году? Лайфхаки по размещению, личный опыт и результаты по проведенной кампании...

22 02 2026 18:27:28

Что объединяет в себе понятие ремаркетинг

Что объединяет в себе понятие ремаркетинг Подробнейшая статья об эффективном использовании ремаркетинга. Мотаем на ус!...

21 02 2026 17:44:23

Как рассчитать ROMI для большого интернет-магазина — импортируем себестоимость товаров в Google ***ytics

Как рассчитать ROMI для большого интернет-магазина — импортируем себестоимость товаров в Google ***ytics Хотите видеть в отчетах точный ROMI в разрезе рекламных кампаний, групп объявлений и ключевых слов? Импортируйте себестоимость товаров в Google ***ytics...

20 02 2026 3:48:16

10 мощных советов по маркетингу WordPress

Лучшие плагины WordPress для SEO и продвижения сайта в поисковой системе Google и 10 советов для WordPress, которые помогут вам продвигать свой сайт...

19 02 2026 7:13:25

Видеореклама в Google Ads: как оставить только релевантные площадки

Видеореклама в Google Ads: как оставить только релевантные площадки Четыре способа исключить нерелевантные места размещения видеорекламы, а также полезные списки минус-слов и детских YouTube-каналов....

18 02 2026 10:49:46

Как работает баннерная реклама — объясняем на примере кейса

Как работает баннерная реклама — объясняем на примере кейса О феномене Баадера-Майнхофа — как на самом деле работают системы баннерной рекламы в интернете...

17 02 2026 16:44:15

Как собрать данные из Google Search Console и построить отчетность с помощью Python и Google BigQuery

Как сохранить статистику переходов из органики Google, а также автоматизировать отчетность: подробное руководство для технического специалиста....

16 02 2026 17:29:59

Сколько стоил клик Яндекс.Директ и Google Ads в Казахстане в четвертом квартале 2017 года

Сколько стоил клик Яндекс.Директ и Google Ads в Казахстане в четвертом квартале 2017 года Почти 3 миллиона клика в 24 тематиках в 15 городах Казахстана. Читайте новое исследование нашего аналитика....

15 02 2026 9:40:53

Сколько стоил клик в Google Ads в третьем квартале 2016 — исследование Netpeak

Сколько стоил клик в Google Ads в третьем квартале 2016 — исследование Netpeak Алексей Селезнев проанализировал, как дорого обходятся рекламодателям клики по объявлениям в 25 тематиках и 92 странах....

14 02 2026 10:22:34

Netpeak + RadASO = Netpeak RadASO. Мы выходим на рынок комплексного продвижения мобильных приложений

Netpeak + RadASO = Netpeak RadASO. Мы выходим на рынок комплексного продвижения мобильных приложений Агентство Netpeak закрыло сделку по покупке агентства мобильного маркетинга Радомира Новковича RadASO....

13 02 2026 3:29:54

Что такое Alexa Rank и как в нем продвинуться

Что такое Alexa Rank и как в нем продвинуться Alexa Rank учитывает как число страниц, так и количество просмотров страниц. Alexa Rank 1, что означает, что все сайты и сервисы Google посещают больше всего посетителей в интернете....

12 02 2026 10:41:20

Как написать кейс — руководство для технарей на примере кейса Citrus и Netpeak в блоге Google

Как написать кейс — руководство для технарей на примере кейса Citrus и Netpeak в блоге Google Как написать годный кейс и победить страх чистого листа...

11 02 2026 0:10:53

Еще:
понять и запомнить -1 :: понять и запомнить -2 :: понять и запомнить -3 :: понять и запомнить -4 :: понять и запомнить -5 :: понять и запомнить -6 :: понять и запомнить -7 ::