Алгоритм LSA для поиска похожих документов

< >

И снова наш аналитический отдел подготовил материал для читателей блога Netpeak. Передаю привет Кириллу Левенцу — он проделал титанический труд, чтобы изложить понятным языком не самые простые вещи.

Среди огромного числа алгоритмов, которые используются для поиска и анализа информации, особое место занимают те, чья цель — обнаружение скрытых закономерностей или неочевидных зависимостей.

Используя семантический анализ текста, мы можем сказать, например, что два текста похожи, даже если эта похожесть выражена косвенно. Или например «лыжи» и «автомобиль» по отдельности относятся к разным категориям, но будучи использованы вместе, могут быть интерпретированы в таких категориях, как «спорт» и «отдых».

Об одном из методов, который применяется для рекомендательных систем (коллаборативная фильтрация), информационного семантического поиска, разделения текстов по тематикам без обучения и многих других и пойдет речь далее. Метод этот называется латентно-семантическим анализом (LSA — Latent semantic ***ysis). Можно сказать, что это продвинутый SEO анализ текста.

Рассмотрим более подробно, что это за метод и как он работает

Уже из названия можно сделать вывод о том, что он должен делать, а именно находить скрытые смысловые взаимосвязи между объектами (будь-то слова в тексте или товары в магазине). Для текстов на естественных языках такой скрытой закономерностью может быть, например, наличие определенного набора слов в определенной теме. Представим себе такую задачу: у нас есть коллекция документов и мы хотим научиться отвечать на вопрос: два документа близки по тематике или нет. Вывод о схожести можно сделать, основываясь на том, какие слова и в каких пропорциях входят в каждый из документов.

Чтобы подготовить данные для этой задачи, используют подход, который называется «мешок слов».

Его суть состоит в том, что для нас неважен порядок слов в документе, в каких морфологических формах они представлены, а важно только количество вхождений конкретных слов. Предположим, что каждую тему можно охаpaктеризовать определенным набором слов и частотой их появления. Если в тексте конкретный набор слов употрeбляется с определенными частотами, то текст принадлежит к определенной теме.

Основываясь только на этой информации, строится таблица «слово-документ». Где строки соответствуют словам (а точнее, их леммам), а столбцы - документам. В каждой ячейке хранится 1, если слово есть в документе, и 0 - если нет. Хотя такой вариант и самый простой, но не самый лучший. Вместо 0 и 1 можно использовать, например, частоту слова в документе или tf-idf слова. Такой способ представления текстов в виде таблицы (или матрицы) называется векторной моделью текста. Теперь, для того чтобы сравнить два документа, нужно определить меру схожести двух столбцов таблицы.

Сделать это можно по-разному:

скалярное произведение векторов - столбцов таблицы;
косинусное расстояние (пожалуй самое адекватное) ;
евклидовым расстоянием;
манхэттенским расстоянием.

Чтобы лучше понять все вышесказанное, изобразим это графически на простом примере двух небольших текстов. Один текст про письменность, другой про неопределенность Гeйзенберга. Стоп-слова удалены, а остальные приведены к основной форме (без окончаний). Каждая точка на графике — слово. На осях отложено, сколько раз слово встретилось в каждом документе. Т.е. если слово встретилось в тексте про неопределенность 3 раза, а в тексте про письменность 2 раза, то на рисунке это слово изобразим точкой с координатами (3,2).

Видно, что в этом примере некоторые слова встречались и в одном и в другом тексте приблизительно одинаково часто («свободн», «друг», «звук» и так далее). Такие слова не дают возможности отличить тексты один от другого и в принципе сравнимы со стоп-словами. Но есть слова, которые хаpaктерны только одному из текстов. Имея такое представление текста, мы можем определять близость каждого слова к теме (как косинус угла между вектором с началом в (0;0) и концом в точке слова и осью, соответствующей документу). Если же такого слова в коллекции нету, то о нем мы ничего не можем сказать.

Для сравнения документов можно подсчитать сумму векторов-слов, которые в них входят и опять же оценить расстояние между ними. В рассмотренном примере слова распределились хорошо, так как тематики существенно разные. А если тематики схожи, то может получиться такая картина:

По сравнению с предыдущей картинкой видно, что документы существенно похожи, и, кроме того, есть слова, которые хаpaктеризуют общую тематику для обоих текстов (например \"язык\" и \"письмен\"). Такие слова можно назвать ключевыми для данной темы. Т.е. напрашивается вывод, что имея такое представление текстов, мы теоретически можем сгруппировать документы по близости их содержимого, и таким образом построить тематическое разбиение коллекции текстов. В частности может оказаться, что каждый документ - это отдельная тема. Также можно искать документы по запросу, при этом могут находиться документы, которые не содержат слов из запроса, но близки ему по теме.

Но в жизни оказывается, что документов и слов очень много (гораздо больше чем тем) и возникают следующие проблемы:

размерности (вычисление близости между векторами становится медленной процедурой) ;
зашумленности (например, посторонние небольшие вставки текста не должны влиять на тематику) ;
разряженности (большинство ячеек в таблице будут нулевыми).

В таких условиях довольно логично выглядит идея, вместо таблицы \"слово-документ\" использовать что-то типа \"слово-тема\" и \"тема-документ\". Решение именно такой задачи предлагает LSA. Правда, интерпретация полученных результатов может оказаться затруднительной.

На рисунке приведен пример карты двух художественных текстов. Видно, что у них есть как свои особенности, так и много общего, и можно выделить новую тематику. Если говорить в терминах линейной алгебры, то нам нужно такое представление:

Числа в таблицах в общем случае не обязательно будут именно 0 и 1. Имея такое представление, мы можем кроме оценки близости слов и документов, также определять важные слова для каждой тематики.

Ограничения LSA:

Невозможно получить тематик больше чем документов/слов.
Семантическое значение документа определяется набором слов, которые, как правило, идут вместе.
Документы рассматриваются как просто наборы слов. Порядок слов в документах игнорируется. Важно только то, сколько раз то или иное слово встречается в документе.
Каждое слово имеет единственное значение.
Недостаток LSA — предположение о том, что карта слов в документах не имеет вид нормального распределения. С этой проблемой справляются другие модификации метода (вероятностный LSA и LDA).

LSA включает в себя следующие этапы:

Удаление стоп-слов, стемминг или лемматизация слов в документах;
Исключение слов, встречающихся в единственном экземпляре;
Построение матрицы слово-документ (бинарную есть/нет слова, число вхождений или tf-idf) ;
Разложение матрицы методом SVD (A = U * V * WT) ;
Выделение строк матрицы U и столбцов W, которые соответствуют наибольшим сингулярным числам (их может быть от 2-х до минимума из числа терминов и документов). Конкретное количество учитываемых собственных чисел определяется предполагаемым количеством семантических тем в задаче. А вообще чем больше сингулярное число, тем сильнее в коллекции проявлена тема.

В итоге получается нечто такое:

Пример с небольшими документами

[Взят из статьи Indexing by Latent Semantic ***ysis, Scott Deerwester, Susan T. Dumais, George W. Furnas, and Thomas K. Landauer, Richard Harshman]

Пусть имеется следующий набор заголовков-документов:

c1: Human machine interface for ABC computer applications
c2: A survey of user opinion of computer system response time
c3: The EPS user interface management system
c4: System and human system engineering testing of EPS
c5: Relation of user perceived response time to error measurement
m1: The generation of random, binary, ordered trees
m2: The intersection graph of paths in trees
m3: Graph minors IV: Widths of trees and well-quasi-ordering
m4: Graph minors: A survey

Выделяем слова, которые встретились хотя бы в двух заголовках. И строим матрицу слово-документ: в ячейках будем писать количество вхождений слова в документ.

Применяем сингулярное разложение к этой матрице и получаем три матрицы (U, V, W^T).

Чтобы иметь возможность визуально оценить результат, выделим только две главные компоненты, соответствующие самым большим сингулярным числам. Используем значения в выделенных столбцах как координаты и изобразим их в виде точек на плоскости (синим цветом документы, красным - слова, кругами - возможные тематики).

Рассмотрим расстояние между каждой парой слов. Было (желтым цветом выделены значения выше 0):

Стало после снижения размерности (зеленым цветом выделены значения больше 0,8):

Как и по картинке, так и по таблице видно, что термины образовали 2 группы (довольно условно) и по сравнению с исходной матрицей связи значительно усилены (как укрепились исходные, так и появились новые):

[human, interface, computer, user, EPS, response, time],
[survey, trees, graph, minors].

Между каждой парой документов.

Было:

Стало:

Отношение термин документ.

Было:

Стало:

Рассмотрим еще один пример: пусть имеются три документа, каждый - на свою тематику (первый про автомобили, второй про спорт и третий про компьютеры). Используя LSA, изобразим двумерное представление семантического прострaнcтва, и как в нем будут представлены слова (красным цветом), запросы (зеленым) и документы (синим). Напомню, что все слова в документах и запросах прошли процедуру лемматизации или стемминга.

Видно, что тема \"компьютер\" хорошо отделилась от двух других. А вот \"спорт\" и \"авто\" довольно близки друг другу. Для каждой темы проявились свои ключевые слова. Зеленым на рисунке изображен запрос \"автомобил колес\". Его релевантность к документам имеет следующий вид:

\\\'sport.txt\\\' - 0.99990845
\\\'auto.txt\\\' - 0.99987185
\\\'computer.txt\\\' - 0.031289458

Из-за близости тем \"спорт\" и \"авто\" довольно сложно точно определить, к какой теме он принадлежит. Но точно не к \"компьютерам\". Если в системе, обученной на этих документах, попытаться определить релевантность к образовавшимся темам слова \"рынок\", то в ответ мы получим 0 (т.к. это слово в документах не встречалось ни разу). Добавим в систему документ по теме \"финансы\". Будем снова искать слово \"рынок\".

Получим следующую картинку:

Релевантность к темам будет такой:

\\\'finance.txt\\\' - 0.99948204
\\\'sport.txt\\\' - 0.97155833
\\\'auto.txt\\\' - 0.23889101
\\\'computer.txt\\\' - -0.24506855

Итак подведем итог:

LSA позволяет снизить размерность данных - не нужно хранить всю матрицу слово-документ, достаточно только сравнительно небольшого набора числовых значений для описания каждого слова и документа.
Получаем семантическое представление слов и документов - это позволяет находить неочевидные связи между словами и документами.
Из минусов - очень большая вычислительная сложность метода.

Комментарии:

5 железных правил IT-бухгалтеров

Бухгалтерский мир Netpeak: цель, задачи, мотивация....

23 07 2026 16:20:36

Как составить семантическое ядро без помощи специалиста — руководство для владельцев интернет-магазинов

Как стать заметнее для поисковых роботов Яндекс и Google...

22 07 2026 12:45:55

SEO-среда: отcлеживание целей и настройка событий

Настройка целей в Google ***ytics, а также отслеживание событий....

21 07 2026 17:45:36

Как перенести кампании в Google Рекламу и Яндекс.Директ — подробное руководство для новичков

Не хотите настраивать объявление в Google Рекламе и Яндекс.Директ по отдельности? Узнайте, как сделать экспорт кампании и сэкономить время....

20 07 2026 17:57:35

Новая реальность: боты принимают на работу и ходят на свидания

История свидания двух ботов как иллюстрация развития искусственного интеллекта...

19 07 2026 21:36:52

Как работать с оператором «квадратные скобки» в Вордстат?

Как пользоваться выбором высокочастотных фраз для метатегов, чисткой мусорных фраз и как расставлять приоритеты для навигационных запросов с указанием определенного направления...

18 07 2026 3:26:32

Генерируем прорывные идеи по Люку Уильямсу

Важно иметь прорывное мышление — о таком подходе к бизнесу написана книга Люка Уильмса «Переворот»....

17 07 2026 7:50:36

Как продвигать мобильное приложение с ограниченным бюджетом? Руководство для новичков

Программа покорения онлайн мира мобайла — самому и с ограниченными средствами на маркетинг...

16 07 2026 6:13:30

Как сделать гифку из видео — два способа для новичков

Гифка — это зациклиненное видеоизображение, рисунок-ролик, крохотный фильм, без которого трудно представить современный сайт. Как быстро создавать гифки и получать профит....

15 07 2026 19:30:39

Эксцентричный и скромный Дарвин Смит

Короткая история про одного из руководителей корпорации «Kimberly Clark». Альтернативная Википедия для тех, кто любит сторителлинг. Читать дальше!...

14 07 2026 8:26:42

Как ангел-хранитель Sammy помогает продвигать носки

Как говорят легенды, на создание дизайна этих носочков Sammy Icon вдохновили рисунки на стенах храма Темпло Майор в древнем городе Теночтитлан. К сожалению, город сейчас разобрали перуанские строители, но память о нем осталась в киевских носках...

13 07 2026 23:42:13

Мониторинг ошибок 404 с помощью специальных отчетов в Google ***ytics

Простой способ отслеживания как внутренних, так и внешних битых ссылок. Узнать больше!...

12 07 2026 3:34:23

Инсталлы по цене пирожка — кейс Apple Search Ads для приложения OLX Украина

Как с помощью рекламы в Apple Search Ads получить дешевые установки и привлечь релевантных пользователей среди владельцев айфонов...

11 07 2026 10:52:25

Что хорошего в новом бесплатном инструменте аналитики? Обзор сервиса Clarity от Microsoft

Не Google ***ytics единым...

10 07 2026 17:56:17

Как настроить триггерные письма в GetResponse

Делаем первые шаги к созданию системы email-коммуникаций бренда....

09 07 2026 9:14:36

Как настроить максимально объективную веб-аналитику и отладить работу отдела контекстной рекламы? Мануал не для чайников

Почему бизнесу нужно настраивать мультикaнaльную модель атрибуции на основе воронки продаж и как это сделать....

08 07 2026 7:36:22

Баннерная реклама vs. Таргетированная реклама в социальных сетях

Не существует универсальных решений - есть эффективные инструменты и удачные их сочетания....

07 07 2026 10:31:38

Как отслеживать трафик PBN-сайтов

Если в сетке сайтов есть интересный домен, его можно использовать для дополнительной монетизации, а не только для ссылок. В таком случае важно знать, как правильно отслеживать трафик таких доменов....

06 07 2026 10:37:36

7 идей для онлайн-корпоратива и день рождения компании в зуме. Кейс Netpeak Group

Онлайн-корпоративы стали трендом 2020 года, но останутся с нами надолго если не в чистом, то в гибридном формате. Делимся опытом организации дня рождения компании в Zoom....

05 07 2026 16:47:13

Главные инструменты увеличения продаж в интернет-магазине

Знания основных принципов конверсионности сайта, этапов воронки продаж важны для того, чтобы наладить процессы, рост продаж в любом бизнесе. Узнать больше!...

04 07 2026 18:40:27

Pitch perfect: как получить публикации в топовых медиа

Если у вас есть продукт, о котором миру стоит узнать, книга Pitch perfect придется вам очень кстати....

03 07 2026 0:11:42

Пользователи удаляют приложение — когда mobile-маркетологу не стоит волноваться

Почему соотношение данных об использовании приложения важнее, чем количество установок и удалений...

02 07 2026 4:53:55

Как не слить бюджет при запуске контекстной рекламы

Ошибки, которые допускают новички и теряют деньги, трафик, клиентов....

01 07 2026 8:30:59

Как не терять звонки даже с двумя сотрудниками в call-центре

Минимизация пропущенных звонков и ускорение обработки заявок с наглядными примерами из сервиса...

30 06 2026 5:45:23

Apple тайно рекламирует приложения в гугле? Что это значит.

Давайте разбираться, в чем именно обвиняют техногиганта разработчики и действительно ли такую рекламу считают циничной....

29 06 2026 23:55:37

Как работать с автостратегиями Google Ads

И научиться делать свою рекламу прибыльной. Читайте про типы автостратегий и способы их оптимизации....

28 06 2026 9:34:40

Игры на память и внимание: о работе мозга и «прокачивании скиллов»

Про работу мозга и запоминание из книги Торкеля Клинберга «Информационный поток и пределы рабочей памяти» и обзор игр Lumosity....

27 06 2026 13:20:12

Как рекламировать промоакции в Google Ads и увеличить доход на 54,7% — кейс Citrus.ua

Тонкости настройки предпраздничной рекламной промо кампании на примере Citrus.ua....

26 06 2026 19:42:25

Как создать рекламную кампанию в Bing Ads — подробное руководство

Инструкция о том, как создать новую кампанию в Bing Ads или импортировать существующую из Google Рекламы? Как добавить способ оплаты? Читайте о первых шагах настройки рекламы в Bing...

25 06 2026 10:18:15

Реактивационные письма: примеры уместных рассылок для возврата спящих подписчиков

Как вернуть клиентов с помощью реактивационных email-рассылок. Внутри идеи таких брендов: Bershka, Wildberries, LinguaLeo, Facebook, Mail.ru, Coub, BlaBlaCar, Repka.ua и другие. Узнайте принципы красивой реактивации!...

24 06 2026 4:11:15

5 фишек Google ***ytics для SEO-специалистов

Как прокачать свои знания и навыки использования GA, чтобы оптимизировать сайт и получать больше (намного больше, чем сейчас) трафика, конверсий, вовлечения. Больше!...

23 06 2026 5:44:38

Как получать удовольствие от жизни. Советы из книги «Поток»

Психологический бестселлер. Как достичь гармонии во всех делах и начать получать удовольствие от жизни, — об этом читайте в новой рецензии Константина Рябенко на книгу Михая Чиксентмихайи «Поток»....

22 06 2026 0:55:33

11 пpaктически применимых фишек по SEO и арбитражу трафика — итоги круглого стола 8P 2019

Панельная дискуссия, на которой специалисты представляют нестандартные идеи для привлечения трафика, продвижения проектов. Всё, что можно применить на деле. Читать!...

21 06 2026 4:40:48

Эффективная рекламная кампания — обзор автостратегий в Яндекс.Директ

Как использовать автостратегии для экономии рекламного бюджета...

20 06 2026 8:59:57

Гeймификация в email-маркетинге: повышаем вовлеченность в рассылках

Как использовать игровые механики для вовлечения аудитории....

19 06 2026 8:29:16

Действие зеркальных нейронов

зеркальные нейроны и сознание. как они влияют на наше поведение?...

18 06 2026 21:26:35

Контекстная реклама в тематике «междугородняя грузоперевозка»

Междугородние перевозки и их реклама. Кейс Павла Верлана...

17 06 2026 1:49:24

Зачем нужен видеомаркетинг: инфографика

Видеомаркетинг должен стать обязательной частью рекламной онлайн-стратегии, и мы собрали несколько подтверждений этому в нашей инфографике....

16 06 2026 9:13:24

Как создать чат-бота для сайта

Чат-боты упрощают процесс покупки продуктов онлайн. Netflix, Adidas, British Airways и другие крупные компании уже внедрили ботов в свои маркетинговые системы. Так ли это эффективно, если компании начинают отказываться от операторов в пользу ботов?...

15 06 2026 18:46:12

Как без ошибок объединять данные в Google Data Studio

Продолжаем разговор о том, почему функция «Совмещение данных» в Google Data Studio может работать не так, как вы ожидаете....

14 06 2026 11:42:16

Контекстная реклама для продажи квартир в Киеве — как увеличить количество конверсий на 75%

Исправляем ошибки в рекламных кампаниях, аналитике и бюджете...

13 06 2026 22:31:15

Внутренняя кухня SEO: считаем рентабельность блога и возвращаем трафик на сайт UniSender

Очередной красивый пост о продвижении платформы email и sms-рассылок — UniSender...

12 06 2026 12:40:21

Slow-маркетинг — моя ласковая, нежная рутина

Сделать «на вчера», «внезапно», протестировать все варианты. Стоп! Остановитесь и выдохните. Be slow...

11 06 2026 19:56:30

Как создать гибкий шаблон для наглядной статистики и автоматизировать отчетность для всех участников проекта

Как стандартизировали сбор данных по проектам клиентов и отчетности, чтобы тратить меньше времени и не совершать лишние действия...

10 06 2026 8:37:35

Трендовые инструменты в диджитал-маркетинге и рекламе — новое исследование Gartner

В 2019 году в цикл зрелости вошли 28 технологий и инструментов...

09 06 2026 7:52:12

Как добавить время работы в объявления Google Ads

Google внедрил новую возможность выделить объявление — автоматическое добавление часов работы. Давайте разберемся, как добавить эту полезную информацию в расширения объявлений...

08 06 2026 20:39:48

SEO growth hacking. Как находить идеи и внедрять точки кратного роста

Наибольший эффект по продвижению сайта при минимальных затратах — именно таков принцип SEO growth hacking. Как найти кратные точки роста, читайте статье....

07 06 2026 21:58:17

Список Telegram-ботов для SMM-специалиста

Лайфхаки, как упростить работу с соцсетями от специалиста агентства Netpeak и ежедневной работы SMM-специалиста. Телеграм-боты, которые облегчат рутину и сэкономят время. Узнать больше!...

06 06 2026 8:15:19

Кейс «Мой Город»: как мы за месяц подняли трафик из Facebook на 86%

Цель — трафик facebook. Делимся кейсом проекта «Мой город»....

05 06 2026 0:40:11

Как не сломать работу автостратегий Google, когда на сайте произошел сбой — используем «Исключение данных»

Качество передаваемых данных напрямую отражается на качестве решений, принимаемых для бизнеса. Как защититься от таких ошибок?...

04 06 2026 19:52:45

Еще:
понять и запомнить -1 :: понять и запомнить -2 :: понять и запомнить -3 :: понять и запомнить -4 :: понять и запомнить -5 :: понять и запомнить -6 :: понять и запомнить -7 ::