Алгоритм LSA для поиска похожих документов

< >

И снова наш аналитический отдел подготовил материал для читателей блога Netpeak. Передаю привет Кириллу Левенцу — он проделал титанический труд, чтобы изложить понятным языком не самые простые вещи.

Среди огромного числа алгоритмов, которые используются для поиска и анализа информации, особое место занимают те, чья цель — обнаружение скрытых закономерностей или неочевидных зависимостей.

Используя семантический анализ текста, мы можем сказать, например, что два текста похожи, даже если эта похожесть выражена косвенно. Или например «лыжи» и «автомобиль» по отдельности относятся к разным категориям, но будучи использованы вместе, могут быть интерпретированы в таких категориях, как «спорт» и «отдых».

Об одном из методов, который применяется для рекомендательных систем (коллаборативная фильтрация), информационного семантического поиска, разделения текстов по тематикам без обучения и многих других и пойдет речь далее. Метод этот называется латентно-семантическим анализом (LSA — Latent semantic ***ysis). Можно сказать, что это продвинутый SEO анализ текста.

Рассмотрим более подробно, что это за метод и как он работает

Уже из названия можно сделать вывод о том, что он должен делать, а именно находить скрытые смысловые взаимосвязи между объектами (будь-то слова в тексте или товары в магазине). Для текстов на естественных языках такой скрытой закономерностью может быть, например, наличие определенного набора слов в определенной теме. Представим себе такую задачу: у нас есть коллекция документов и мы хотим научиться отвечать на вопрос: два документа близки по тематике или нет. Вывод о схожести можно сделать, основываясь на том, какие слова и в каких пропорциях входят в каждый из документов.

Чтобы подготовить данные для этой задачи, используют подход, который называется «мешок слов».

Его суть состоит в том, что для нас неважен порядок слов в документе, в каких морфологических формах они представлены, а важно только количество вхождений конкретных слов. Предположим, что каждую тему можно охаpaктеризовать определенным набором слов и частотой их появления. Если в тексте конкретный набор слов употрeбляется с определенными частотами, то текст принадлежит к определенной теме.

Основываясь только на этой информации, строится таблица «слово-документ». Где строки соответствуют словам (а точнее, их леммам), а столбцы - документам. В каждой ячейке хранится 1, если слово есть в документе, и 0 - если нет. Хотя такой вариант и самый простой, но не самый лучший. Вместо 0 и 1 можно использовать, например, частоту слова в документе или tf-idf слова. Такой способ представления текстов в виде таблицы (или матрицы) называется векторной моделью текста. Теперь, для того чтобы сравнить два документа, нужно определить меру схожести двух столбцов таблицы.

Сделать это можно по-разному:

скалярное произведение векторов - столбцов таблицы;
косинусное расстояние (пожалуй самое адекватное) ;
евклидовым расстоянием;
манхэттенским расстоянием.

Чтобы лучше понять все вышесказанное, изобразим это графически на простом примере двух небольших текстов. Один текст про письменность, другой про неопределенность Гeйзенберга. Стоп-слова удалены, а остальные приведены к основной форме (без окончаний). Каждая точка на графике — слово. На осях отложено, сколько раз слово встретилось в каждом документе. Т.е. если слово встретилось в тексте про неопределенность 3 раза, а в тексте про письменность 2 раза, то на рисунке это слово изобразим точкой с координатами (3,2).

Видно, что в этом примере некоторые слова встречались и в одном и в другом тексте приблизительно одинаково часто («свободн», «друг», «звук» и так далее). Такие слова не дают возможности отличить тексты один от другого и в принципе сравнимы со стоп-словами. Но есть слова, которые хаpaктерны только одному из текстов. Имея такое представление текста, мы можем определять близость каждого слова к теме (как косинус угла между вектором с началом в (0;0) и концом в точке слова и осью, соответствующей документу). Если же такого слова в коллекции нету, то о нем мы ничего не можем сказать.

Для сравнения документов можно подсчитать сумму векторов-слов, которые в них входят и опять же оценить расстояние между ними. В рассмотренном примере слова распределились хорошо, так как тематики существенно разные. А если тематики схожи, то может получиться такая картина:

По сравнению с предыдущей картинкой видно, что документы существенно похожи, и, кроме того, есть слова, которые хаpaктеризуют общую тематику для обоих текстов (например \"язык\" и \"письмен\"). Такие слова можно назвать ключевыми для данной темы. Т.е. напрашивается вывод, что имея такое представление текстов, мы теоретически можем сгруппировать документы по близости их содержимого, и таким образом построить тематическое разбиение коллекции текстов. В частности может оказаться, что каждый документ - это отдельная тема. Также можно искать документы по запросу, при этом могут находиться документы, которые не содержат слов из запроса, но близки ему по теме.

Но в жизни оказывается, что документов и слов очень много (гораздо больше чем тем) и возникают следующие проблемы:

размерности (вычисление близости между векторами становится медленной процедурой) ;
зашумленности (например, посторонние небольшие вставки текста не должны влиять на тематику) ;
разряженности (большинство ячеек в таблице будут нулевыми).

В таких условиях довольно логично выглядит идея, вместо таблицы \"слово-документ\" использовать что-то типа \"слово-тема\" и \"тема-документ\". Решение именно такой задачи предлагает LSA. Правда, интерпретация полученных результатов может оказаться затруднительной.

На рисунке приведен пример карты двух художественных текстов. Видно, что у них есть как свои особенности, так и много общего, и можно выделить новую тематику. Если говорить в терминах линейной алгебры, то нам нужно такое представление:

Числа в таблицах в общем случае не обязательно будут именно 0 и 1. Имея такое представление, мы можем кроме оценки близости слов и документов, также определять важные слова для каждой тематики.

Ограничения LSA:

Невозможно получить тематик больше чем документов/слов.
Семантическое значение документа определяется набором слов, которые, как правило, идут вместе.
Документы рассматриваются как просто наборы слов. Порядок слов в документах игнорируется. Важно только то, сколько раз то или иное слово встречается в документе.
Каждое слово имеет единственное значение.
Недостаток LSA — предположение о том, что карта слов в документах не имеет вид нормального распределения. С этой проблемой справляются другие модификации метода (вероятностный LSA и LDA).

LSA включает в себя следующие этапы:

Удаление стоп-слов, стемминг или лемматизация слов в документах;
Исключение слов, встречающихся в единственном экземпляре;
Построение матрицы слово-документ (бинарную есть/нет слова, число вхождений или tf-idf) ;
Разложение матрицы методом SVD (A = U * V * WT) ;
Выделение строк матрицы U и столбцов W, которые соответствуют наибольшим сингулярным числам (их может быть от 2-х до минимума из числа терминов и документов). Конкретное количество учитываемых собственных чисел определяется предполагаемым количеством семантических тем в задаче. А вообще чем больше сингулярное число, тем сильнее в коллекции проявлена тема.

В итоге получается нечто такое:

Пример с небольшими документами

[Взят из статьи Indexing by Latent Semantic ***ysis, Scott Deerwester, Susan T. Dumais, George W. Furnas, and Thomas K. Landauer, Richard Harshman]

Пусть имеется следующий набор заголовков-документов:

c1: Human machine interface for ABC computer applications
c2: A survey of user opinion of computer system response time
c3: The EPS user interface management system
c4: System and human system engineering testing of EPS
c5: Relation of user perceived response time to error measurement
m1: The generation of random, binary, ordered trees
m2: The intersection graph of paths in trees
m3: Graph minors IV: Widths of trees and well-quasi-ordering
m4: Graph minors: A survey

Выделяем слова, которые встретились хотя бы в двух заголовках. И строим матрицу слово-документ: в ячейках будем писать количество вхождений слова в документ.

Применяем сингулярное разложение к этой матрице и получаем три матрицы (U, V, W^T).

Чтобы иметь возможность визуально оценить результат, выделим только две главные компоненты, соответствующие самым большим сингулярным числам. Используем значения в выделенных столбцах как координаты и изобразим их в виде точек на плоскости (синим цветом документы, красным - слова, кругами - возможные тематики).

Рассмотрим расстояние между каждой парой слов. Было (желтым цветом выделены значения выше 0):

Стало после снижения размерности (зеленым цветом выделены значения больше 0,8):

Как и по картинке, так и по таблице видно, что термины образовали 2 группы (довольно условно) и по сравнению с исходной матрицей связи значительно усилены (как укрепились исходные, так и появились новые):

[human, interface, computer, user, EPS, response, time],
[survey, trees, graph, minors].

Между каждой парой документов.

Было:

Стало:

Отношение термин документ.

Было:

Стало:

Рассмотрим еще один пример: пусть имеются три документа, каждый - на свою тематику (первый про автомобили, второй про спорт и третий про компьютеры). Используя LSA, изобразим двумерное представление семантического прострaнcтва, и как в нем будут представлены слова (красным цветом), запросы (зеленым) и документы (синим). Напомню, что все слова в документах и запросах прошли процедуру лемматизации или стемминга.

Видно, что тема \"компьютер\" хорошо отделилась от двух других. А вот \"спорт\" и \"авто\" довольно близки друг другу. Для каждой темы проявились свои ключевые слова. Зеленым на рисунке изображен запрос \"автомобил колес\". Его релевантность к документам имеет следующий вид:

\\\'sport.txt\\\' - 0.99990845
\\\'auto.txt\\\' - 0.99987185
\\\'computer.txt\\\' - 0.031289458

Из-за близости тем \"спорт\" и \"авто\" довольно сложно точно определить, к какой теме он принадлежит. Но точно не к \"компьютерам\". Если в системе, обученной на этих документах, попытаться определить релевантность к образовавшимся темам слова \"рынок\", то в ответ мы получим 0 (т.к. это слово в документах не встречалось ни разу). Добавим в систему документ по теме \"финансы\". Будем снова искать слово \"рынок\".

Получим следующую картинку:

Релевантность к темам будет такой:

\\\'finance.txt\\\' - 0.99948204
\\\'sport.txt\\\' - 0.97155833
\\\'auto.txt\\\' - 0.23889101
\\\'computer.txt\\\' - -0.24506855

Итак подведем итог:

LSA позволяет снизить размерность данных - не нужно хранить всю матрицу слово-документ, достаточно только сравнительно небольшого набора числовых значений для описания каждого слова и документа.
Получаем семантическое представление слов и документов - это позволяет находить неочевидные связи между словами и документами.
Из минусов - очень большая вычислительная сложность метода.

Комментарии:

Рейтинг директоров по маркетингу среди ecommerce-проектов Казахстана

Помимо полезного и качественного продукта, услуги, компании нужен мощный маркетинг. И возможно это только благодаря хорошему директору по маркетингу. Только так это работает. Кто лучшие в этой нише в Казахстане? Узнать!...

02 06 2026 19:20:17

AMP-письма: что это, чем полезны, примеры лучших писем

Как создавать интеpaктивные рассылки-сайты и чем они хороши...

01 06 2026 8:28:45

Как подключить API Google Search Console к Google Таблицам

Новая инструкция, которую можно применять к любым задачам в Google Таблицах....

31 05 2026 12:19:50

Какие данные о пользователях можно собирать сайтам, а какие — нет

General Data Protection Regulation (GDPR): ответы на вопросы....

30 05 2026 13:20:19

Что такое медиаплан в контекстной рекламе и как его составлять

Медиаплан для контекстной рекламы малого и среднего бизнеса — как составить медиаплан мечты для рекламных кампаний без ложного понимания, что автоматические сервисы могут корректно обработать сырые данные и выдать результат...

29 05 2026 18:59:48

Как не попасть в спам при отправке email-рассылки

Персональный чек-лист автора десятков рассылок: три года опыта и регулярное общение с техподдержкой почтовых сервисов. Всё о том, как не попасть в спам и как из него спасаться. А может и не всё. Можете дополнить этот пост своими фишками? Делитесь!...

28 05 2026 5:57:46

7 частых и неочевидных ошибок интернет-магазинов

Расскажем про ошибки интернет-магазинов, которые трудно найти соответствующими программами и сервисами проверки...

27 05 2026 19:44:37

Евгений Черняк про бизнес, кассовый разрыв, нематериальную мотивацию сотрудников и Big Money

Как делать большие деньги даже, когда случаются кассовые разрывы и каким образом строить процессы внутри компании, чтобы сотрудники горели своим (вашим) делом? Узнать!...

26 05 2026 23:57:59

Как отслеживать клики по телефонным номерам

Быстрый и бесплатный способ настройки целей через Google Tag Manager....

25 05 2026 1:58:48

Ведем паблик Facebook в режиме новостного медиа. MVP-эксперимент Netpeak Journal

У нас было 500 вечнозеленых постов и желание понять алгоритм ленты Facebook....

24 05 2026 18:19:57

Как увеличить продажи с помощью местных экспертов от Google — советы локальному бизнесу

Информация для SEO- и PPC-специалистов, маркетологов и предпринимателей малого бизнеса...

23 05 2026 12:25:19

«Покажи свою работу»: Юрий Грузинский, руководитель отдела по работе с крупными клиентами

Как построить самостоятельную комaнду и научиться спокойно делегировать...

22 05 2026 5:25:21

Как привлечь дополнительный трафик с помощью SNDS-кампаний — кейсы Netpeak

Как получить больше конверсионного трафика из поиска и не выйти за рамки KPI? Запустите SNDS-кампании...

21 05 2026 23:38:55

Инфлюенс-маркетинг — как дружить и сотрудничать с блогерами, чтобы всем было хорошо. Опыт Kacho Group

Главная цель инфлюенс-маркетинга — теплый и близкий контакт с аудиторией. Клиентам нравится ассоциировать продукты с живыми, знакомыми им людьми — пускай и только по интернету. Читать дальше....

20 05 2026 7:16:43

Первая помощь в офисе — как вести себя в нештатных ситуациях

Человеку стало плохо, он теряет сознание. Те, кто рядом, хотят помочь, но не знают, как это сделать. Давайте разбираться....

19 05 2026 3:19:24

Чек-лист SMM-стратегии: готовимся к продвижению в соцсетях

14 пунктов, которые помогут вам лучше изучить свой бизнес и подготовить эффективную SMM-стратегию...

18 05 2026 3:59:32

Как Netpeak продвигает бизнес-страницы на OLX — первая часть

Как найти продавцов для маркетплейса с помощью рекламы в Google, Facebook, TikTok и Viber....

17 05 2026 9:58:36

10 неочевидных функций приложения для скриншотов KISS

Опции скриншутера, которые упростят вам жизнь....

16 05 2026 6:23:18

Как за месяц получить 60 тысяч подписчиков для мобильной аудитории сайта: сотрудничество Gravitec.net и F.ua

«Случайный» посетитель потому, что может уйти (не сделав покупку) и не вернуться, не стать клиентом. Пуш-уведомления позволяют посетителю сразу стать подписчиком: ему предлагают подписаться на рассылку. Как это использовать? Читайте!...

15 05 2026 16:23:27

Сторителлинг как маркетинговый приём

Сторителлинг — это способ рассказывать истории, его цель — дать возможность читателю или зрителю почувствовать себя героем этой истории,...

14 05 2026 12:42:46

Сайт попал под фильтр. Так ли страшен черт, как его малюют?

Советы специалистов Netpeak: виды фильтров Google, что с этим делать и как снять ручные санкции Google....

13 05 2026 22:19:45

Реклама в YouTube для интернет-магазина обуви — увеличиваем узнаваемость бренда и продажи

Возможно, вы купили обувь Intertop именно после просмотра нашей рекламы....

12 05 2026 15:40:59

Как линкбилдер работает с поиском Яндекс

SEO-специалист Константин Гайдук поделился с читателями блога постом о фишках работы линкбилдера с поиском Яндекс....

11 05 2026 13:40:33

Удача — это выбор

Удача и везение — не случайность. Это выбор. Любопытные эксперименты профессора Ричарда Вайсмена инсайде...

10 05 2026 13:20:50

Как сформировать комaнду департамента маркетинга для международной компании

Поговорим о soft skills, потому что именно они, исходя из моего опыта, помогают строить поистине сильные комaнды....

09 05 2026 7:52:38

Реклама в Facebook, Instagram и ВКонтакте — размеры баннеров

Шпаргалка по размерам креативов для всех, кто запускает рекламу в соцсетях...

08 05 2026 21:13:19

Apple тайно рекламирует приложения в гугле? Что это значит.

Давайте разбираться, в чем именно обвиняют техногиганта разработчики и действительно ли такую рекламу считают циничной....

07 05 2026 5:12:48

Видеореклама в Google Ads: как оставить только релевантные площадки

Четыре способа исключить нерелевантные места размещения видеорекламы, а также полезные списки минус-слов и детских YouTube-каналов....

06 05 2026 6:55:57

Рейтинг журнала Time — 11 изобретений, полезных для бизнеса

Ноу-хау, интересные для бизнеса, которые вошли в ежегодный рейтинг журнала Time....

05 05 2026 5:51:19

Как работать с Яндекс.Вебвизор 2.0

Бета-версия помогает записывать действия пользователей на сайте и благодаря этому улучшать удобство использования сайта и в перспективе растить продажи. Узнать больше!...

04 05 2026 12:33:30

Как ускорить сайт с помощью сервиса CDN — краш-тест Айри

Как трафик CDN повлиял на систему интернет-магазина — палим кейсы...

03 05 2026 14:55:35

Реклама медицинских услуг: требования и ограничения для контекстной рекламы

Если ваша фирма работает на предоставление услуг в медицине, следует учесть требования рекламных систем в интернете, чтобы объявления в с первого раза прошли модерацию...

02 05 2026 10:22:32

Аудит аккаунта Google Рекламы своими силами

Одесса. Конференция «Контекстная реклама 2013». Самые полезные настройки рекламной кампании....

01 05 2026 8:41:33

Геотаргетинг: 10 способов увеличить охват целевой аудитории

Как увеличить охват целевой аудитории ресторана или магазина с помощью рекламы на мобильных и сверхточного геотаргетинга...

30 04 2026 15:23:30

Как бизнесу бороться с финансовыми мошенниками

Чтобы обезопасить себя и своих клиентов, используйте технологию 3D Secure. Больше рекомендаций — в статье....

29 04 2026 20:37:23

Путь от обычного сайта до интернет-магазина — история Сергея Бабенышева и бизнеса Tricolor

C какими сложностями пришлось столкнуться при создании интернет-магазина....

28 04 2026 13:24:48

Как массово удалить в интернет-магазине страницы товаров, которые не приносят трафик

Инструкция с применением языка R. Полезно веб-аналитикам, которые работают с крупными интернет-магазинами. Например, на сайте еженедельно появляется примерно 1000 новых наименований и такое же количество позиций переходит в статус «нет в наличии»....

27 04 2026 1:43:26

7 признаков хорошего отдела по работе с клиентами

Структура того, чем обладают сотрудники департаментов работы с клиентами лучших компаний....

26 04 2026 15:59:51

17 шагов к эффективному бренду, или Крутая зеленая ворона. Рецензия на книгу «Zag»

Семнадцать крутых шагов к эффективному бренду Заг — это авторский неологизм от слова зигзаг (англ. zigzag). Он подразумевает движение в другом направлении....

25 04 2026 15:50:45

Сервис оплаты частями уменьшает количество брошенных корзин в интернет-магазине

Благодаря сервисам оплаты частями у покупателей появляется возможность покупать товары и услуги по выгодным ценам. А у бизнеса — увеличивать объем продаж....

24 04 2026 16:10:20

Семь улучшений Netpeak: скрипт GetLeads и PPC для брендинга. Выпуск второй

В третьем квартале Netpeak внедрил множество крутых улучшений. Мы подробно расскажем о семи самых интересных новостях....

23 04 2026 21:15:43

Сколько заpaбатывают интернет-маркетологи? Рейтинг зарплат за второе полугодие 2018

Комaнда Serpstat провела исследование среди интернет-маркетологов и создала виджет, который рассчитывает среднюю зарплату на основе опыта, навыков и знаний специалистов. Что из этого получилось, читаем в статье....

22 04 2026 10:20:23

Какие товары загружать на маркетплейсы — аналитика Hubber

Специалисты дропшиппинг-платформы делятся данными по самым продаваемым товарам на крупных онлайн-площадках. Информация для масштабирования бизнеса. Читать!...

21 04 2026 15:49:14

Чем отличается адвокат бренда от посла бренда?

Что такое посол бренда и чем он отличается от адвоката бренда?...

20 04 2026 16:54:50

Шесть принципов виральности, или Как работает вирусный маркетинг

Автор книги о вирусном маркетинге «Заразительный. Психология сарафанного радио» Йона Бергер пришел к выводу, что у виральности всего шесть принципов....

19 04 2026 3:12:29

Лучшие дудл-игры от Google для обеденного перерыва

Топ doodle games от Google — от менее достойных к самым крутым....

18 04 2026 8:10:27

Создаем рейтинг CPA-сетей в Украине

Опыт коллег и их рекомендации — самая ценная валюта в арбитраже. Давайте объединим усилия и составим актуальный рейтинг СРА-сетей Украины....

17 04 2026 5:56:18

Как мы внедрили BI-аналитику в отделе контекстной рекламы

Зачем внедрять BI-решение для бизнеса, какие функции отдел может решить с помощью автоматизации? Кейс Netpeak....

16 04 2026 7:50:10

Google Apps Script: полезные функции и фишки для SEO (часть первая)

Как автоматизировать рутину в Google Таблицах с помощью Google Apps Script...

15 04 2026 6:17:31

«Эмоциональный интеллект в бизнесе» Дэниела Гоулмана

Как развить в себе такой EQ, как хочется, и далее использовать его для достижения успеха. Рецензия на книгу Дэниела Гоулмана «Эмоциональный интеллект в бизнесе»....

14 04 2026 23:10:32

Еще:
понять и запомнить -1 :: понять и запомнить -2 :: понять и запомнить -3 :: понять и запомнить -4 :: понять и запомнить -5 :: понять и запомнить -6 :: понять и запомнить -7 ::