Плотность ключевых слов — как определить релевантность документа ключевому запросу > NetPeak - Независимость и осознанность
NetPeak Biz Tech    


Плотность ключевых слов — как определить релевантность документа ключевому запросу

Плотность ключевых слов — как определить релевантность документа ключевому запросу

< >

Этот пост был опубликован в 2018 году и до сих пор пользуется популярностью (если верить Google ***ytics). Напомню, материал — адаптация перевода и в то же время пересказ статьи с www.SEOmoz.org. В посте есть пояснения из Википедии, потому что хоть пост и более узкоспециализированный, не хотим заставлять вас бесконечно гуглить.

Суть вопроса в том, что СЕОмоз создал систему, которая определяет ключевые слова в тексте. Но не просто подсчитывает все и выдает плотность ключевых слов, нет. Такой способ определения плотности ключей уже давным давно устарел и мир шагнул далеко вперед. Сегодня мы рассмотрим несколько вариантов определения релевантности документа ключевому запросу. Итак, готовьтесь встречать искусственный интеллект и семантический поиск по смыслу написанного к 2020 году.

А пока рассмотрим, какие же алгоритмы используются для определения релевантности различных документов (часть информации взята из Википедии).

Еще в незапамятном XX веке началось развитие метода TF-IDF (от англ. TF — term frequency, IDF — inverse document frequency) — статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов. Мера TF-IDF часто используется в задачах анализа текстов и информационного поиска, например, как один из критериев релевантности документа поисковому запросу, при расчёте меры схожести документов при кластеризации (выделение групп документов, похожих по смыслу).

TF (term frequency — частота слова) — отношение числа вхождения некоторого слова к общему количеству слов документа. Таким образом, оценивается важность слова в пределах отдельного документа.

IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в других документах. Учёт IDF уменьшает вес часто и  широко употрeбляемых слов. Таким образом, мера TF-IDF - произведение двух сомножителей: TF и IDF.

TF-IDF вес для слова «заяц»

Если документ содержит 100 слов и слово «заяц» встречается в нём 3 раза, то частота слова (TF) для слова «заяц» в документе будет 0,03 (3/100). Один из вариантов вычисления частоты документа (DF) определяется как количество документов содержащих слово «заяц», разделенное на количество всех документов. Таким образом, если слово «заяц» содержится в 1000 документов из 10 000 000 документов, то частота документа (DF) будет равной 0,0001 (1000/10 000 000). Для расчета окончательного значения веса слова необходимо разделить TF на DF (или умножить на IDF). В данном примере, TF-IDF вес для слова «заяц» в выбранном документе будет 300 (0,03/0,0001).

По наблюдениям Рэнда Фишкина за результатами выдачи Гугла, влияние on-page факторов вроде использования ключевых слов или TF-IDF довольно мало. Даже в низкоконкурентных запросах не наблюдается такого, чтобы кто-то мог просто написать больше раз свой ключевой запрос (или использовать синонимы), чем конкурент и улучшить позиции в выдаче. И этот опыт, который подкрепился разговорами с сеошниками, заставил Фишкина верить в то, что поисковые машины ранжируют более сложно, учитывая связи между словами и фразами. Поэтому, СЕОмоз начал работу над крупным проектом, который назвали — LDA (Latent Dirichlet Allocation).

Кому интересно распределение Дирихле из теории вероятностей, которое использовалось в данной системе, может почитать о нем вот тут — Распределение Дирихле. В двух словах скажу, что оно описывает связь между словами. То есть, какое слово чаще всего используется с каким-нибудь другим, какие слова вообще вместе не используются и т.д. Все это подводит нас к тематическим моделям.

Почему поисковым машинам необходимо тематическое моделирование?

Некоторые запросы довольно простые. Поиск по запросу «Википедия» не слишком сложный и результат по такому поиску может вернуть даже простая поисковая машина. Но некоторые другие запросы не являются такими же простыми. Давайте посмотрим как поисковые системы могут упорядочивать два результата — простая проблема, которая, в большинстве случаев, может быть комплексно решена несколькими методами, в зависимости от ситуации. Запросы привожу на английском языке, как есть в оригинале.

Так как Контент А содержит слово «Batman», а контент В — нет, то ПС может легко выбрать, какой же запрос поставить выше в выдаче.

ПС может использовать TF*IDF для определения того, что слово «Wiggum» имеет меньшую частоту употрeбления, чем «chief» и поэтому, Контент А будет считаться более релевантным запросу. Обратите внимание, что этот пример ясно показывает недостаток такой метрики, как плотность ключевого слова.

Используя знания о совместном использовании слов, ПС определит, что «Daily Planet» и «Clark Kent» появляются чаще со словом «Superman» и поэтому, Контент В будет более релевантен, чем Контент А, в котором есть точное вхождения ключа в текст!

Прочитав оба предложения, мы можем сделать однозначный вывод, что Контент В описывает музыкальный инструмент — пианино — и женщина играет на нем. Но, поисковая машина, вооруженная методами, которые мы описывали раньше, будет бороться с этими предложениями, т.к. оба они используют слова «keys» и «notes», которые являются только ключами к головоломке. СЕОмоз рад, что их система LDA поставила Контент В выше, чем А. Значит, их алгоритмы на правильном пути.

Для более комплексных запросов или когда большое влияние на результат могут оказать множество связей в контенте, ПС необходимы пути, для определения цели данной страницы. То, что на странице повторяется 4 или 5 раз ключевое слово, совсем не означает, что страница действительно релевантна запросу пользователя.

Исторически сложилось так, что много сеошников прикладывали очень много усилий в этом направлении, поэтому то, что делает СЕОмоз — это не революционное тематическое моделирование, которое включает в себя LDA, всегда было вокруг да около. Но, никто из тех, кто развивается в данном направлении, не делал такую систему общедоступной или сравнимой с результатами выдачи Гугла, чтобы показать, как могут влиять на позиции данные сигналы. Итак, суть ясна, я думаю.

Плотность ключевых слов была хороша раньше, сегодня мир шагнул далеко вперед в данном направлении.

Так давайте же заглянем внутрь и посмотрим на сердце данного метода.

Векторное прострaнcтво терминов и Тематическое моделирование

Упрощенная модель векторного прострaнcтва

Представим себе, что в данный момент существуют только две темы — «Собака» и «Кошка», а все остальные слова в разной степени связаны с этими двумя тематиками. К примеру, слово «клык» чаще всего используется со словом «Собака», а «Вискас» — с «Кошка». В действительности так и есть, любые два слова связаны между собой более или менее сильно. Эта модель просто представляет эти связи математически. К сожалению, изобразить больше, чем три тематики (три измерения), мне очень сложно, но вы должны помнить, что таких тематик много. Соответственно и измерений много. И каждое слово можно отнести частично к этой тематике, частично к другой. И получаются вектора в многомерном прострaнcтве. Кому интересно углубиться в векторное прострaнcтво, вот вам материалы Стэндфордского Университета по этому повод.

К сожалению, у LDA пока что очень много ограничений. Он работает только для англоязычных сайтов и не отражает полной и стопроцентной картины. Так как это, все-таки, не Гугл. Также, LDA не использует пока что фразы и очки в % по LDA являются относительными, так как это только что запущенная версия и в ней есть свои недочеты. И следует запомнить, что увеличение количества ключевых слов может помочь получить больше очков в LDA, но вряд ли поможет улучшить позиции.

Прошу всех не упускать из головы то, что система делалась 10 месяцев двумя математиками-программистами, а в Гугле работают не двое.

Думаю, что обещания Гугла по поводу семантического поиска имеют под собой серьезную основу. Роботы прогрессируют и готовятся захватить человечество. Поэтому нам нужно внимательно за ними следить, чтобы не упустить тот момент, когда начнется восстание машин. Очень надеюсь, что эти материалы помогут в написании тематических текстов копирайтерам. Да и сеошникам они полезны.

Кстати, если вам нужен не просто оптимизированный с точки зрения SEO пост, но и продающий полезный материал, который поможет привлечь трафик, получить заявки, повысить узнаваемость бренда и так далее... Обращайтесь, редакция Netpeak Journal создаст качественный контент и разместит его в журнале.

Оставить заявку можно, заполнив форму:

Хочу быстро найти клиентов онлайн



Комментарии:

Реклама в Google Shopping для сайта б/у техники — рост продаж на 280% за 8 месяцев

Реклама в Google Shopping для сайта б/у техники — рост продаж на 280% за 8 месяцев Как продавать новую и б/у технику, ювелирные изделия в интернете. Эксперимент показал, что в Google Shopping можно продавать не только новые товары. Узнать больше!...

01 04 2026 4:45:19

Сооснователь SUPERLUDI Влад Ноздрачев о развитии рынка инфобизнеса и инфоцыганах

Сооснователь SUPERLUDI Влад Ноздрачев о развитии рынка инфобизнеса и инфоцыганах Сооснователь SUPERLUDI Влад Ноздрачев рассказал в своем подкасте о развитии инфобизнеса. Предлагаем вам вольный пересказ....

31 03 2026 2:31:44

Почему не получается запустить товарные объявления

Разбор типичных ошибок в рекламе Google Shopping как обязательного инструмента рекламы в Google. О минус-словах, геолокации, структуре сайта и обновлении объявлений. Что именно важно? Читайте дальше!...

30 03 2026 11:34:47

120 пунктов продающей мобильной версии сайта — чек-лист

120 пунктов продающей мобильной версии сайта — чек-лист Пора сделать так, чтобы мобильная версия сайта приносила прибыль....

29 03 2026 20:10:28

3D-креатив: время печатать идеи

3D-креатив: время печатать идеи Идея, напечатанная в 3Д? Уже сегодня маркетологи могут это делать с успехом. Главное — поменять свой стиль мышления....

28 03 2026 14:18:32

Как запустить локальную кампанию Google Ads — пошаговая инструкция

Как запустить локальную кампанию Google Ads — пошаговая инструкция Есть офлайн-точка продаж и нужно привлечь сюда больше клиентов. Что делать? Настраиваем локальные кампании. Показываем и рассказываем, как это делать....

27 03 2026 16:27:16

Как определить главное зеркало сайта

Как определить главное зеркало сайта Определение и настройка главного зеркала сайта в поисковых системах — первое, что нужно сделать перед раскруткой сайта...

26 03 2026 16:32:28

Постэффект контекстной рекламы

Постэффект контекстной рекламы Контекстная реклама и ее эффективность: как долго длится, как измерить, что бывает, как заканчиваются деньги....

25 03 2026 5:59:48

Как продвигать премиум-продукты — аутрич кейс бренда High-End акустики Copra

Как продвигать премиум-продукты — аутрич кейс бренда High-End акустики Copra Кейс о том, как написать большинству дилеров премиальных акустических систем в Европе и ничего не продать. И почему это кейс, а не антикейс....

24 03 2026 12:47:17

Дополнительные ценности Netpeak — что вы получаете при заказе [SEO 2.0] вместе с поисковым продвижением

Дополнительные ценности Netpeak — что вы получаете при заказе [SEO 2.0] вместе с поисковым продвижением В коробку [SEO 2.0] вместе с самим поисковым продвижением входят дополнительные ценности Netpeak: унифицированные действия по увеличению продаж, улучшения удобства работы и преимущества бренда Netpeak...

23 03 2026 14:36:43

Как все успеть — фишки тайм-менеджмента при подготовке текстов

Как все успеть — фишки тайм-менеджмента при подготовке текстов На вопрос «как все успеть?» хочется ответить что-то вроде «никак». Особенно, если дело касается задач, связанных с творчеством. Но можно и не срывать дедлайны. Читать дальше....

22 03 2026 22:38:10

Продвинутый подход к работе с аудиториями Facebook

Продвинутый подход к работе с аудиториями Facebook В основе продвижения любых продуктов фигурирует ЦА и её потребности. Рассказываем, как с ней работать в разрезе Инстаграм и Facebook так, чтобы РК давала максимальный профит...

21 03 2026 23:50:41

Кросс-минусовка ключевых слов в Google Ads: обзор сервисов и скриптов

Кросс-минусовка ключевых слов в Google Ads: обзор сервисов и скриптов Минусовки это не только про эстраду. Какой метод кросс-минусовки ключевых слов лучше?...

20 03 2026 6:44:40

Как быстро и без страданий сделать главную страницу сайта — MVP-подход

Как быстро и без страданий сделать главную страницу сайта — MVP-подход По-настоящему работающих идей не так много, поэтому не стоит бояться творчески заимствовать лучшие наработки и адаптировать их....

19 03 2026 21:24:31

Как стать SEO-специалистом

Как стать SEO-специалистом Как стать востребованным сео оптимизатором: 35+ ссылок для обучения и совершенствования своих знаний, а также советы...

18 03 2026 3:53:52

Беседа Netpeak с клиентом — отвечаем на вопрос «как оценить эффективность агентства»

Беседа Netpeak с клиентом — отвечаем на вопрос «как оценить эффективность агентства» Взяли интервью у нашего клиента — магазина климатической техники Mircli.ru. Поговорили о том, как клиенту и подрядчику лучше взаимодействовать....

17 03 2026 6:49:14

Краткое пособие для новичков по типам рекламных кампаний в Google Ads

Краткое пособие для новичков по типам рекламных кампаний в Google Ads Google Adwords: типы рекламных кампаний и объявлений, тонкостях настройки... Все, о чем вы боялись спросить... Или не боялись, а просто не знали, о чем спрашивать....

16 03 2026 16:44:33

Как украинский бизнес меняет свой маркетинг во время карантина — подборка примеров

Как украинский бизнес меняет свой маркетинг во время карантина — подборка примеров Новые тактики в рекламных кампаниях, SMM и PR, которые использует бизнес в новых условиях...

15 03 2026 17:41:32

Семь улучшений Netpeak: итоги года и цели на 2017

Netpeak подводит итоги 2016 года и делится планами на будущее....

14 03 2026 21:13:11

11 вопросов перед заказом коллтрекинга

11 вопросов перед заказом коллтрекинга Какие типы звонков отслеживаются? Есть ли интеграция с Google ***ytics? Существуют ли в выбранном сервисе или на платформе инструменты интеграции с другими системами? Больше вопросов и ответов на них — в статье....

13 03 2026 22:25:12

Как быстро перенести кампании из Google Рекламы в Директ

Как быстро перенести кампании из Google Рекламы в Директ Как перенести рекламные кампании из адвордс в директ, используя только Google Editor и Директ Коммaндер? Делимся быстрым и эффективным методом...

12 03 2026 14:45:26

Как проверить бизнес-идею — чек-лист. Анкетирование будущих клиентов

Как проверить бизнес-идею — чек-лист. Анкетирование будущих клиентов Клиентоориентированный бизнес должен знать, чего хотят покупатели. И лучше понять это еще на этапе идеи. Как — читайте чек-лист от Влада Ноздрачева....

10 03 2026 11:12:40

Как научиться читать скрипты Google Рекламы

Как научиться читать скрипты Google Рекламы Популярные скрипты Google Рекламы позволяют автоматизировать рутинные и монотонные процессы. Каждый скрипт состоит из функций, переменных, объектов, сущностей, селекторов, итераторов...

09 03 2026 6:55:26

Есть идея для бизнеса. С чего стоит начать?

Есть идея для бизнеса. С чего стоит начать? Руководство к действию от основателя Netpeak Group....

08 03 2026 11:24:41

Как правильно составить NDA

Как правильно составить NDA Для защиты конфиденциальной информации в организации вводят режим коммерческой тайны. Подписание NDA важно не только с сотрудниками, но и со сторонними компаниями, имеющими доступ к конфиденциальной информации...

07 03 2026 1:20:14

Управление репутацией в сети — особенности работы с отзовиками

Управление репутацией в сети — особенности работы с отзовиками Информация о любой организации распространяется в интернете очень быстро, особенно негативная. Поэтому необходимо учиться управлять своей репутацией....

06 03 2026 10:18:48

Бизнес и война: как выжить и не потерять всех сотрудников

Бизнес и война: как выжить и не потерять всех сотрудников Часто руководители, которые прекрасно справляются с работой в мирное время, в период войны перестают быть эффективными. У них нет навыков кризис-менеджмента. Чтобы удержать ситуацию на плаву, кризис-менеджером должен стать главный руководитель компании....

05 03 2026 8:24:44

Анализ контента в социальных сетях: цифры, цифры и еще раз цифры

Анализ контента в социальных сетях: цифры, цифры и еще раз цифры Что нам дают знания о статистике контента в социальных сетях и какими сервисами анализировать данные...

04 03 2026 4:44:23

Кейс по SMM в тематике «алкогольные напитки»: «Пригласи 10 друзей — получи бутылку шампанского»

Кейс по SMM в тематике «алкогольные напитки»: «Пригласи 10 друзей — получи бутылку шампанского» Оживший бар. О том, как один украинский бренд за полтора месяца получил более 4 000 фанов!...

03 03 2026 0:44:10

Портрет украинского фрилансера — исследование Freelancehunt.

Портрет украинского фрилансера — исследование Freelancehunt. Ежегодный прирост рынка фриланса в Украине составляет в среднем 35%. В прошлом году зарегистрировано более 200 тысяч проектов на общую сумму 385 млн гривен....

02 03 2026 12:34:53

Какие ошибки возникают при работе с Google ***ytics и как с ними бороться

Какие ошибки возникают при работе с Google ***ytics и как с ними бороться Советы специалистам по контекстной рекламе. Технические сложности, которые возникают при работе с Google ***ytics: от ограничений интерфейса до ошибок настройки отслеживания и последующей недостоверности полученных данных, и решения для них...

01 03 2026 3:32:23

PPC на украинском. Как языковой закон влияет на контекстную рекламу

PPC на украинском. Как языковой закон влияет на контекстную рекламу Языковой закон требует, чтобы общение бизнеса с клиентами шло на украинском языке, если нет просьбы о другом приемлемом варианте. Что это означает для РРС, читайте дальше....

28 02 2026 0:41:36

Сколько стоил клик в Google Ads в Казахстане в третьем квартале 2020 года — исследование Netpeak

Сколько стоил клик в Google Ads в Казахстане в третьем квартале 2020 года — исследование Netpeak Данные, приведенные в исследовании, могут помочь в составлении медиапланов по продвижению в интернете....

27 02 2026 12:21:26

Bihus.info — интервью с Денисом Бигусом

Bihus.info — интервью с Денисом Бигусом Денис Бигус, Bihus.info: с 13 до 457 000 подписчиков на YouTube за четыре года....

26 02 2026 0:57:34

Стратегия, позиционирование и бюджетирование: основные маркетинговые боли малого бизнеса Украины

Мы собрали и проанализировали ответы 270 владельцев и маркетологов...

25 02 2026 21:48:23

Баннерная реклама vs. Таргетированная реклама в социальных сетях

Не существует универсальных решений - есть эффективные инструменты и удачные их сочетания....

24 02 2026 12:17:25

7 признаков некачественных онлайн-курсов

7 признаков некачественных онлайн-курсов Рассказываем, как обменять свои деньги на действительно полезные знания....

23 02 2026 13:54:23

К чему быть готовым продавцам одежды и обуви — пример тематической стратегии Netpeak

К чему быть готовым продавцам одежды и обуви — пример тематической стратегии Netpeak Советы специалистов по продвижению интернет-магазинов в сверхконкурентной нише одежды и обуви...

22 02 2026 0:44:45

Как активизировать подписчиков по Франку Керну

Как активизировать подписчиков по Франку Керну Как превратить неактивных подписчиков в вовлеченную аудиторию....

21 02 2026 19:33:53

Что такое Server-side tracking

Что такое Server-side tracking И чем этот тип отслеживания событий отличается от Client-side. Узнать!...

20 02 2026 4:41:39

Как провести A/B-тест сайта: инструменты и популярные гипотезы

Как провести A/B-тест сайта: инструменты и популярные гипотезы 22 оригинальные гипотезы для A/B-теста сайта, которые чаще всего влияют на получаемую прибыль...

19 02 2026 17:50:18

Netpeak Group купила конференцию eCommerce от OWOX

Конференцию eCommerce будет развивать комaнда Octopus Events...

18 02 2026 6:13:19

Загадки для тренировки мозга: заяц с одним ухом, пароход из Гавра и лабиринт с правым поворотом

Загадки для тренировки мозга: заяц с одним ухом, пароход из Гавра и лабиринт с правым поворотом Проверьте свою логику, находчивость и креативность...

17 02 2026 17:47:10

Первая помощь в офисе — как вести себя в нештатных ситуациях

Первая помощь в офисе — как вести себя в нештатных ситуациях Человеку стало плохо, он теряет сознание. Те, кто рядом, хотят помочь, но не знают, как это сделать. Давайте разбираться....

16 02 2026 15:25:56

Как получить 184% прироста трафика и увеличить долю поискового трафика в три раза в gaming-тематике — кейс Wowcarry

Как получить 184% прироста трафика и увеличить долю поискового трафика в три раза в gaming-тематике — кейс Wowcarry Доля органического трафика увеличилась с 14% до 44%, а небрендового — на 184%....

15 02 2026 4:28:23

11 полезных сервисов для рассылки по англоязычной аудитории

11 полезных сервисов для рассылки по англоязычной аудитории Список инструментов email-маркетолога для рассылок по англоязычной аудитории....

14 02 2026 13:24:47

Как нанять маркетолога и не уволить через месяц

Как нанять маркетолога и не уволить через месяц Краткая инструкция по поиску идеального кандидата, потому что (как видим) многим на рынке все еще сложно найти хорошего маркетолога. Да и понять, стоит ли вкладывать в сотрудника силы, время, средства с первой встречи достаточно сложно....

13 02 2026 6:11:49

Как собрать данные из Google Search Console и построить отчетность с помощью Python и Google BigQuery

Как сохранить статистику переходов из органики Google, а также автоматизировать отчетность: подробное руководство для технического специалиста....

12 02 2026 5:24:12

Как провести аудит рекламных кампаний в Google Ads

Как провести аудит рекламных кампаний в Google Ads Повышаем эффективность рекламных кампаний. Как рекламодателю-новичку самостоятельно провести аудит своих кампаний в Google Ads, а также про наиболее частые ошибки новичков, связанные с работой и аудитами кампаний в Google Ads. Читайте дальше!...

11 02 2026 7:28:28

Еще:
понять и запомнить -1 :: понять и запомнить -2 :: понять и запомнить -3 :: понять и запомнить -4 :: понять и запомнить -5 :: понять и запомнить -6 :: понять и запомнить -7 ::