Плотность ключевых слов — как определить релевантность документа ключевому запросу

< >

Этот пост был опубликован в 2018 году и до сих пор пользуется популярностью (если верить Google ***ytics). Напомню, материал — адаптация перевода и в то же время пересказ статьи с www.SEOmoz.org. В посте есть пояснения из Википедии, потому что хоть пост и более узкоспециализированный, не хотим заставлять вас бесконечно гуглить.

Суть вопроса в том, что СЕОмоз создал систему, которая определяет ключевые слова в тексте. Но не просто подсчитывает все и выдает плотность ключевых слов, нет. Такой способ определения плотности ключей уже давным давно устарел и мир шагнул далеко вперед. Сегодня мы рассмотрим несколько вариантов определения релевантности документа ключевому запросу. Итак, готовьтесь встречать искусственный интеллект и семантический поиск по смыслу написанного к 2020 году.

А пока рассмотрим, какие же алгоритмы используются для определения релевантности различных документов (часть информации взята из Википедии).

Еще в незапамятном XX веке началось развитие метода TF-IDF (от англ. TF — term frequency, IDF — inverse document frequency) — статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов. Мера TF-IDF часто используется в задачах анализа текстов и информационного поиска, например, как один из критериев релевантности документа поисковому запросу, при расчёте меры схожести документов при кластеризации (выделение групп документов, похожих по смыслу).

TF (term frequency — частота слова) — отношение числа вхождения некоторого слова к общему количеству слов документа. Таким образом, оценивается важность слова в пределах отдельного документа.

IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в других документах. Учёт IDF уменьшает вес часто и широко употрeбляемых слов. Таким образом, мера TF-IDF - произведение двух сомножителей: TF и IDF.

TF-IDF вес для слова «заяц»

Если документ содержит 100 слов и слово «заяц» встречается в нём 3 раза, то частота слова (TF) для слова «заяц» в документе будет 0,03 (3/100). Один из вариантов вычисления частоты документа (DF) определяется как количество документов содержащих слово «заяц», разделенное на количество всех документов. Таким образом, если слово «заяц» содержится в 1000 документов из 10 000 000 документов, то частота документа (DF) будет равной 0,0001 (1000/10 000 000). Для расчета окончательного значения веса слова необходимо разделить TF на DF (или умножить на IDF). В данном примере, TF-IDF вес для слова «заяц» в выбранном документе будет 300 (0,03/0,0001).

По наблюдениям Рэнда Фишкина за результатами выдачи Гугла, влияние on-page факторов вроде использования ключевых слов или TF-IDF довольно мало. Даже в низкоконкурентных запросах не наблюдается такого, чтобы кто-то мог просто написать больше раз свой ключевой запрос (или использовать синонимы), чем конкурент и улучшить позиции в выдаче. И этот опыт, который подкрепился разговорами с сеошниками, заставил Фишкина верить в то, что поисковые машины ранжируют более сложно, учитывая связи между словами и фразами. Поэтому, СЕОмоз начал работу над крупным проектом, который назвали — LDA (Latent Dirichlet Allocation).

Кому интересно распределение Дирихле из теории вероятностей, которое использовалось в данной системе, может почитать о нем вот тут — Распределение Дирихле. В двух словах скажу, что оно описывает связь между словами. То есть, какое слово чаще всего используется с каким-нибудь другим, какие слова вообще вместе не используются и т.д. Все это подводит нас к тематическим моделям.

Почему поисковым машинам необходимо тематическое моделирование?

Некоторые запросы довольно простые. Поиск по запросу «Википедия» не слишком сложный и результат по такому поиску может вернуть даже простая поисковая машина. Но некоторые другие запросы не являются такими же простыми. Давайте посмотрим как поисковые системы могут упорядочивать два результата — простая проблема, которая, в большинстве случаев, может быть комплексно решена несколькими методами, в зависимости от ситуации. Запросы привожу на английском языке, как есть в оригинале.

Так как Контент А содержит слово «Batman», а контент В — нет, то ПС может легко выбрать, какой же запрос поставить выше в выдаче.

ПС может использовать TF*IDF для определения того, что слово «Wiggum» имеет меньшую частоту употрeбления, чем «chief» и поэтому, Контент А будет считаться более релевантным запросу. Обратите внимание, что этот пример ясно показывает недостаток такой метрики, как плотность ключевого слова.

Используя знания о совместном использовании слов, ПС определит, что «Daily Planet» и «Clark Kent» появляются чаще со словом «Superman» и поэтому, Контент В будет более релевантен, чем Контент А, в котором есть точное вхождения ключа в текст!

Прочитав оба предложения, мы можем сделать однозначный вывод, что Контент В описывает музыкальный инструмент — пианино — и женщина играет на нем. Но, поисковая машина, вооруженная методами, которые мы описывали раньше, будет бороться с этими предложениями, т.к. оба они используют слова «keys» и «notes», которые являются только ключами к головоломке. СЕОмоз рад, что их система LDA поставила Контент В выше, чем А. Значит, их алгоритмы на правильном пути.

Для более комплексных запросов или когда большое влияние на результат могут оказать множество связей в контенте, ПС необходимы пути, для определения цели данной страницы. То, что на странице повторяется 4 или 5 раз ключевое слово, совсем не означает, что страница действительно релевантна запросу пользователя.

Исторически сложилось так, что много сеошников прикладывали очень много усилий в этом направлении, поэтому то, что делает СЕОмоз — это не революционное тематическое моделирование, которое включает в себя LDA, всегда было вокруг да около. Но, никто из тех, кто развивается в данном направлении, не делал такую систему общедоступной или сравнимой с результатами выдачи Гугла, чтобы показать, как могут влиять на позиции данные сигналы. Итак, суть ясна, я думаю.

Плотность ключевых слов была хороша раньше, сегодня мир шагнул далеко вперед в данном направлении.

Так давайте же заглянем внутрь и посмотрим на сердце данного метода.

Векторное прострaнcтво терминов и Тематическое моделирование

Упрощенная модель векторного прострaнcтва

Представим себе, что в данный момент существуют только две темы — «Собака» и «Кошка», а все остальные слова в разной степени связаны с этими двумя тематиками. К примеру, слово «клык» чаще всего используется со словом «Собака», а «Вискас» — с «Кошка». В действительности так и есть, любые два слова связаны между собой более или менее сильно. Эта модель просто представляет эти связи математически. К сожалению, изобразить больше, чем три тематики (три измерения), мне очень сложно, но вы должны помнить, что таких тематик много. Соответственно и измерений много. И каждое слово можно отнести частично к этой тематике, частично к другой. И получаются вектора в многомерном прострaнcтве. Кому интересно углубиться в векторное прострaнcтво, вот вам материалы Стэндфордского Университета по этому повод.

К сожалению, у LDA пока что очень много ограничений. Он работает только для англоязычных сайтов и не отражает полной и стопроцентной картины. Так как это, все-таки, не Гугл. Также, LDA не использует пока что фразы и очки в % по LDA являются относительными, так как это только что запущенная версия и в ней есть свои недочеты. И следует запомнить, что увеличение количества ключевых слов может помочь получить больше очков в LDA, но вряд ли поможет улучшить позиции.

Прошу всех не упускать из головы то, что система делалась 10 месяцев двумя математиками-программистами, а в Гугле работают не двое.

Думаю, что обещания Гугла по поводу семантического поиска имеют под собой серьезную основу. Роботы прогрессируют и готовятся захватить человечество. Поэтому нам нужно внимательно за ними следить, чтобы не упустить тот момент, когда начнется восстание машин. Очень надеюсь, что эти материалы помогут в написании тематических текстов копирайтерам. Да и сеошникам они полезны.

Кстати, если вам нужен не просто оптимизированный с точки зрения SEO пост, но и продающий полезный материал, который поможет привлечь трафик, получить заявки, повысить узнаваемость бренда и так далее... Обращайтесь, редакция Netpeak Journal создаст качественный контент и разместит его в журнале.

Оставить заявку можно, заполнив форму:

{\"0\":{\"lid\":\"1531306243545\",\"ls\":\"10\",\"loff\":\"\",\"li_type\":\"nm\",\"li_name\":\"name\",\"li_ph\":\"Имя\",\"li_req\":\"y\",\"li_nm\":\"name\"},\"1\":{\"lid\":\"1573230091466\",\"ls\":\"20\",\"loff\":\"\",\"li_type\":\"ph\",\"li_name\":\"phone\",\"li_req\":\"y\",\"li_masktype\":\"a\",\"li_maskcountry\":\"UA\",\"li_nm\":\"phone\"},\"2\":{\"lid\":\"1573567927671\",\"ls\":\"30\",\"loff\":\"y\",\"li_type\":\"in\",\"li_name\":\"surname\",\"li_ph\":\"Фамилия\",\"li_req\":\"y\",\"li_nm\":\"surname\"},\"3\":{\"lid\":\"1531306540094\",\"ls\":\"40\",\"loff\":\"\",\"li_type\":\"in\",\"li_name\":\"domains\",\"li_ph\":\"Адрес сайта\",\"li_rule\":\"url\",\"li_req\":\"y\",\"li_nm\":\"domains\"},\"4\":{\"lid\":\"1573230077755\",\"ls\":\"50\",\"loff\":\"\",\"li_type\":\"em\",\"li_name\":\"email\",\"li_ph\":\"Email\",\"li_req\":\"y\",\"li_nm\":\"email\"},\"5\":{\"lid\":\"1575903646714\",\"ls\":\"60\",\"loff\":\"\",\"li_type\":\"hd\",\"li_name\":\"comment\",\"li_value\":\"Автоматический коммент: заявка из блога, без пользовательского комментария\",\"li_nm\":\"comment\"},\"6\":{\"lid\":\"1575903664523\",\"ls\":\"70\",\"loff\":\"\",\"li_type\":\"hd\",\"li_name\":\"lead_channel_id\",\"li_value\":\"24\",\"li_nm\":\"lead_channel_id\"},\"7\":{\"lid\":\"1584374224865\",\"ls\":\"80\",\"loff\":\"\",\"li_type\":\"hd\",\"li_name\":\"ip\",\"li_nm\":\"ip\"},\"8\":{\"lid\":\"1609939359940\",\"ls\":\"90\",\"loff\":\"\",\"li_type\":\"hd\",\"li_name\":\"post_id\",\"li_nm\":\"post_id\"}}

Хочу быстро найти клиентов онлайн

Комментарии:

Как малый бизнес Украины перешел на удаленку — опрос предпринимателей

Участники Netpeak Cluster поделились своими инсайтами....

23 07 2026 11:14:47

Как масштабировать блог: успешный кейс роста блогов Serpstat до 300 000 ежемecячных сессий и $100 000 годового дохода

Личный опыт маркетинг-директора Serpstat. Внутренняя перелинковка, работа с контентом, настройка email-рассылок и построение качественного комьюнити помогли нам получить стабильный поток читателей и новых пользователей. Обо всем читайте дальше!...

22 07 2026 8:51:26

Кейс по SMM в тематике «ресторанный бизнес»: «Угощение — каждому!»

Cafe case. Знакомство аудитории с только что открывшимся заведением: online + offline....

21 07 2026 0:44:56

Как платить за рекламные аккаунты в Украине, России и Казахстане

Подробно об оплате аккаунтов и налогообложении рекламы в Украине, России, Казахстане....

20 07 2026 0:15:47

Настраиваем Google Рекламу на мобильные приложения

Реклама мобильных приложений. Хотите показывать рекламу в играх? Вам сюда. Узнайте как правильно настроить показ рекламы на мобильных устройствах....

19 07 2026 8:29:34

Сколько стоил клик в Google Ads в Казахстане в третьем квартале 2020 года — исследование Netpeak

Данные, приведенные в исследовании, могут помочь в составлении медиапланов по продвижению в интернете....

18 07 2026 12:45:23

Как собрать семантическое ядро и расширить структуру сайта: пошаговое руководство

Как увеличить охват и видимость сайта за счет сбора семантического ядра и расширения структуры...

17 07 2026 4:19:27

Как изменить местоположение в поиске или посмотреть геовыдачу другого региона

Как изменить геовыдачу с помощью настроек Google, Яндекс или специальных дополнений...

16 07 2026 23:24:13

SEO в стиле mobile-friendly: FAQ по новому фактору ранжирования

21 апреля Google официально начнет учитывать совместимость с мобильными девайсами в качестве одного из факторов ранжирования сайта в мобильном поиске. Что это значит для владельцев сайтов и вебмастеров? Мы подготовили небольшой FAQ по теме для рубрики «SE...

15 07 2026 16:35:33

Где бесплатно разместить ссылки — площадки для продвижения

Как найти релевантный сайт-донор для размещения своей ссылки...

14 07 2026 11:41:55

Как запустить контекстную рекламу в Японии и не сойти с ума

Как вести успешную рекламную кампанию в Японии, не зная языка....

13 07 2026 2:34:40

Подборка обучающих материалов для начинающего аналитика

Список курсов, книг, каналов и пабликов для работы с данными...

12 07 2026 15:59:45

Как мы снизили стоимость лида для клининга ковров в Эмиратах на 60%

Услуга уровня элит-класса в конкурентной нише и не в самом простом для продвижения регионе. Рассказываем, как привели целевой трафик по минимальной цене. Узнать!...

11 07 2026 10:28:20

Как продвигать личный бренд в Instagram в 2021?

Как завоевать Instagram, задавая правильные цели и вопросы. Также в статье делимся табличкой лучшего времени постинга для различных тематических публикаций. Узнать больше!...

10 07 2026 21:59:40

Кейс по SEO-продвижению интернет-магазина в тематике «фото и видео аксессуары»: ROMI 191%

Тематический кейс в нише «Фотография и аксессуары»: проделанные работы и полученные результаты...

09 07 2026 5:48:54

Как поисковые системы индексируют сайт

Система индексирования страниц — как поисковик и его роботы разбирают перечень контента по полочкам...

08 07 2026 14:41:11

Почему мы играем или не играем в игры

Николь Лаззаро из XEODesign провела исследование о том, почему мы играем или не играем в игры....

07 07 2026 12:23:30

Как небольшому медийному агентству выйти на новый уровень?

Мы хотим купить комaнду с компетенциями в сфере медиабаинга, чтобы объединить силы для развития онлайн-рынка...

06 07 2026 13:30:12

Как редизайн повысил доход от SEO — кейс по юзабилити

Считаем SEO-эффект от нового дизайна сайта и работы над usability...

05 07 2026 15:37:49

Что такое 500 Internal Server Error

Ошибка, которая может привести к полной потере контроля над вашим сайтом. Рассказываем, что это такое, какие могут быть причины поломки и как исправить. Узнать больше!...

04 07 2026 17:22:35

Агентство Netpeak вышло на рынок Болгарии

Агентство интернет-маркетинга Netpeak вышла на новые рекламные горизонты и приобрело 51% доли болгарской компании Optimization.bg....

03 07 2026 18:36:26

Запросы not provided — как получить больше информации

Отслеживаем в статистике Google ***ytics посетителей пришедших через защищенное соединение в поиске Google....

02 07 2026 0:27:52

Как делать картинки для соцсетей в Canva

Как быстро залить изображение, сделать красивую иллюстрацию, наложить надпись к любому тексту онлайн?...

01 07 2026 15:34:50

Трендовые инструменты в диджитал-маркетинге и рекламе — новое исследование Gartner

В 2019 году в цикл зрелости вошли 28 технологий и инструментов...

30 06 2026 4:54:10

Как повысить коэффициент конверсии с помощью лендинга? — кейс Rawai VIP Villas

Если ваш сайт не приносит желаемых продаж, задумайтесь о смене формата. Этот кейс о том, как с качественным лендингом можно достигнуть желаемой цены за конверсию....

29 06 2026 16:44:14

Как настроить отправку писем с помощью языка R

Как настроить отправку писем с помощью языка R и как избежать подводных камней....

28 06 2026 2:15:44

Кейс по продвижению интернет-магазина отопительного оборудования: ROMI 86%

Через тернии к кейсу. SEO-продвижение интернет-магазина отопительного оборудования с оплатой за трафик...

27 06 2026 2:17:35

Аналитика в Твиттер: ссылки, ведущие на сайт

Короткий прогон сервисов для аналитики активности в Твиттер....

26 06 2026 22:25:18

Что хорошего в новом бесплатном инструменте аналитики? Обзор сервиса Clarity от Microsoft

Не Google ***ytics единым...

25 06 2026 10:22:27

Core Web Vitals: что это такое и как работает

В мае прошлого года Google анонсировал выход нового Core Web Vitals. Что это и как будет работать рассмотрим в статье...

24 06 2026 11:12:30

RFM-анализ: три параметра для сверхточной сегментации базы email-рассылок

RFM — это аббревиатура слов Recency, Frequency, Money — новизна, частота, деньги. То есть считаем, как давно клиент купил товар в последний раз, сколько всего покупок он сделал и сколько денег принес нам за все время заказов....

23 06 2026 0:20:48

15+ Telegram-каналов о бизнесе, обучении, маркетинге, веб-аналитике, SEO, путешествиях

Полезный и развлекательный контент для всех, кто работает в IT, интернет-маркетинге, интересуется фишками тайм-менеджмента, учится управлять комaндой и собой....

22 06 2026 22:49:51

Как B2B-стартап с помощью партнерской программы увеличил доход на 1983% за 6 месяцев

Создание успешного стартапа в нише телемедицины. Без дополнительных трат увеличил за 6 месяцев доход на 1983%, а клиентскую базу — более чем на 1000%....

21 06 2026 7:13:50

Аутрич-ссылки — что это такое и как их получить

Сайту нужны внешние ссылки на сторонних ресурсах. Они могут повлиять на ранжирование вашего ресурса и трафик, а один из методов их получить — аутрич....

20 06 2026 9:46:51

Спикеры 8P о мобайле, программатике и инхаус комaнде мечты

Мы попросили спикеров ответить на острые для многих онлайн-проектов вопросы о развитии мобайла как канала, программатике и строительстве инхаус комaнд...

19 06 2026 3:35:27

CMS для сайта — самые популярные движки, плюсы и минусы для интернет-магазина, блога, портала, СМИ

Какой движок сайта стоит выбрать...

18 06 2026 22:41:29

Кредит на рекламу для бизнеса, спецпроекты, песочница контента и две новые конференции

А ещё у нас появилась новая стратегия SEO-продвижения для ниши доставки еды и продуктов....

17 06 2026 16:45:42

Настройка поисковой рекламы в App Store — пошаговое руководство

Как создать Apple ID и настроить поисковую рекламу в App Store...

16 06 2026 11:47:39

Восемь основных ошибок при составлении семантического ядра

Мы собрали топ обидных промахов в сборе семантики, влияющих на качество и эффективность продвижения проекта...

15 06 2026 4:56:57

Techtober: что показали Apple, Google и Samsung.

Apple, Google и Samsung — давайте вспомним новинки месяца....

14 06 2026 0:33:33

Как маркетинговому агентству выйти на зарубежный рынок. Опыт ADINDEX

Статья будет полезна небольшим агентствам, которые мечтают работать с заграничными клиентами. Зачем нужно выходить за рубеж, если и в своей стране все идет неплохо, да и вообще — нет времени на продвижение на незнакомом рынке? Давайте разбираться вместе!...

13 06 2026 23:42:22

SEO-продвижение для сайта сети кинотеатров в Украине — как за год увеличить приток органического трафика на 630%

Перед нами стояла цель увеличить поисковый трафик и видимость, не охватывая новые города. Через 8 месяцев после старта сотрудничества сайт переносили на новый front-end. Узнать больше!...

12 06 2026 23:27:35

Какой сервис крауд-маркетинга выбрать

Главная задача крауд-маркетинга — помочь, дать пользователю экспертный ответ и уже в последнюю очередь — оставить ссылку...

11 06 2026 19:10:27

Как научиться читать скрипты Google Рекламы

Популярные скрипты Google Рекламы позволяют автоматизировать рутинные и монотонные процессы. Каждый скрипт состоит из функций, переменных, объектов, сущностей, селекторов, итераторов...

10 06 2026 12:31:35

CEO of Ringostat Александр Максименюк: кому и зачем нужен Call Tracking

79% владельцев смартфонов, если верить Google, используют их для покупок или заказов услуг. Это более двух миллиардов человек. Ничего удивительного, что даже Google запустил собственный сервис Call Tracking. Кому и зачем жизненно важно отслеживать звонки...

09 06 2026 21:39:40

Как добавить товары на Яндекс.Маркет — руководство для интернет-магазинов

Требования к интернет-магазину, мануал по регистрации, что может пойти не так...

08 06 2026 23:24:10

14 неочевидных и пpaктически применимых фишек круглого стола SaaS Nation 2017

Советы от Agorapulse, Smarp, Readdle, Competera, Leadfeeder, Smartly, Toggl, Grammarly, .Io Media, MacPaw, Depositphotos, Promorepuplic, OWOX, Serpstat, Quokka и TemplateMonster для развития SaaS-продуктов...

07 06 2026 11:11:35

Chrome Dev Tools: 7 фишек для SEO анализа в инструментах разработчика Chrome

Какие возможности дает Chrome DevTools для SEO-оптимизации...

06 06 2026 0:56:34

Как специалисту по контекстной рекламе прокачать soft skills

5 важных навыков для новичков в PPC: как учиться, чтобы стать экспертом; секреты тайм-менеджмента, мотивации; тонкости оптимизации рабочего процесса. Узнать больше!...

05 06 2026 23:12:18

Семь улучшений Netpeak: пять стратегий по контекстной рекламе, три по SEO и три новых курса Академии блога

Информация для бизнесменов, интернет-маркетологов и всех, кто интересуется продвижением бизнеса в интернете....

04 06 2026 21:44:24

Еще:
понять и запомнить -1 :: понять и запомнить -2 :: понять и запомнить -3 :: понять и запомнить -4 :: понять и запомнить -5 :: понять и запомнить -6 :: понять и запомнить -7 ::