Interested Article - Латентно-семантический анализ

Латентно-семантический анализ (ЛСА) ( англ. Latent semantic analysis, LSA ) — это метод обработки информации на естественном языке , анализирующий взаимосвязь между библиотекой документов и терминами, в них встречающимися, и выявляющий характерные факторы ( тематики ), присущие всем документам и терминам.

В основе метода латентно-семантического анализа лежат принципы факторного анализа , в частности, выявление латентных связей изучаемых явлений или объектов. При классификации / кластеризации документов этот метод используется для извлечения контекстно-зависимых значений лексических единиц при помощи статистической обработки больших корпусов текстов .

История

ЛСА был запатентован в 1988 году , , George Furnas , , Thomas Landauer , и . В области информационного поиска данный подход называют латентно-семантическим индексированием (ЛСИ) .

Впервые ЛСА был применен для автоматического индексирования текстов, выявления семантической структуры текста и получения псевдодокументов . Затем этот метод был довольно успешно использован для представления баз знаний и построения когнитивных моделей .

В последние годы метод ЛСА часто используется для поиска информации ( ), классификации документов , и других областях, где требуется выявление главных факторов из массива информационных данных.

Описание работы ЛСА

Анимация процесса обнаружения тематик в матрице «документы-слова». Каждый столбец матрицы соответствует документу, каждая строка — слову. Ячейки матрицы содержат веса слов в документах (например, значения TF-IDF), более тёмные оттенки соответствуют более высокому весу. Алгоритм LSA группирует как документы, которые используют похожие слова, так и слова, которые встречаются в похожем наборе документов. Полученные кластеры в матрице используются для обнаружения латентных (скрытых) компонентов в исходных данных, соответствующих определённым тематикам.

ЛСА можно сравнить с простым видом нейросети , состоящей из трех слоев: первый слой содержит множество слов ( термов ), второй — некое множество документов, соответствующих определённым ситуациям, а третий, средний, скрытый слой представляет собой множество узлов с различными весовыми коэффициентами, связывающих первый и второй слои.

В качестве исходной информации ЛСА использует матрицу термы-на-документы , описывающую набор данных, используемый для обучения системы. Элементы этой матрицы содержат, как правило, веса, учитывающие частоты использования каждого терма в каждом документе и участие терма во всех документах ( TF-IDF ). Наиболее распространенный вариант ЛСА основан на использовании разложения матрицы по сингулярным значениям ( SVD — Singular Value Decomposition ). С помощью SVD-разложения любая матрица раскладывается во множество ортогональных матриц, линейная комбинация которых является достаточно точным приближением к исходной матрице.

Говоря более формально, согласно теореме о сингулярном разложении , любая вещественная прямоугольная матрица может быть разложена на произведение трех матриц:

,

где матрицы и — ортогональные, а — диагональная матрица, значения на диагонали которой называются сингулярными значениями матрицы . Буква Т в выражении означает транспонирование матрицы.

Такое разложение обладает замечательной особенностью: если в матрице оставить только наибольших сингулярных значений, а в матрицах и — только соответствующие этим значениям столбцы, то произведение получившихся матриц , и будет наилучшим приближением исходной матрицы к матрице ранга :

,

Основная идея латентно-семантического анализа состоит в том, что если в качестве матрицы использовалась матрица термы-на-документы , то матрица , содержащая только первых линейно независимых компонент , отражает основную структуру различных зависимостей, присутствующих в исходной матрице. Структура зависимостей определяется весовыми функциями термов.

Таким образом, каждый терм и документ представляются при помощи векторов в общем пространстве размерности (так называемом пространстве гипотез). Близость между любой комбинацией термов и/или документов легко вычисляется при помощи скалярного произведения векторов.

Как правило, выбор зависит от поставленной задачи и подбирается эмпирически. Если выбранное значение слишком велико, то метод теряет свою мощность и приближается по характеристикам к стандартным векторным методам. Слишком маленькое значение k не позволяет улавливать различия между похожими термами или документами.

Применение

Существуют три основных разновидности решения задачи методом ЛСА:

  • сравнение двух термов между собой;
  • сравнение двух документов между собой;
  • сравнение терма и документа.

Достоинства и недостатки ЛСА

Достоинства метода:

  • метод является наилучшим для выявления латентных зависимостей внутри множества документов;
  • метод может быть применен как с обучением, так и без обучения (например, для кластеризации );
  • используются значения матрицы близости, основанной на частотных характеристиках документов и лексических единиц;
  • частично снимается полисемия и омонимия .

Недостатки:

  • Существенным недостатком метода является значительное снижение скорости вычисления при увеличении объёма входных данных (например, при SVD-преобразовании). Как показано в , скорость вычисления соответствует порядку , где — сумма количества документов и термов , — размерность пространства факторов.
  • Вероятностная модель метода не соответствует реальности. Предполагается, что слова и документы имеют Нормальное распределение , хотя ближе к реальности Распределение Пуассона . В связи с этим для практических применений лучше подходит Вероятностный латентно-семантический анализ , основанный на мультиномиальном распределении .

Примечания

  1. , Peter W. Foltz, & Darrell Laham. (англ.) // (англ.) : journal. — 1998. — Vol. 25 . — P. 259—284 . — doi : . 24 декабря 2010 года.
  2. , , George W. Furnas , , . (англ.) // (англ.) : journal. — 1990. — Vol. 41 , no. 6 . — P. 391—407 . — doi : . 17 июля 2012 года.
  3. , . (англ.) // JPsychological Review. : journal. — 1997. — Vol. 104 . — P. 211—240 . 14 марта 2012 года.
  4. , . (неопр.) // Tutorial given at the 5th International Conference on Cognitive Modeling (ICCM'2003), Bamberg, Germany, April 9 2003.. — 2003. (недоступная ссылка)
  5. Некрестьянов И. С. Тематико-ориентированные методы информационного поиска / Диссертация на соискание степени к. ф-м.н. СПбГУ, 2000.
  6. Соловьев А. Н. Моделирование процессов понимания речи с использованием латентно-семантического анализа / Диссертация на соискание степени к.ф.н. СПбГУ, 2008.
  7. . Дата обращения: 1 сентября 2017. 1 сентября 2017 года.
  8. Голуб Дж., Ван Лоун Ч. Матричные вычисления. М.: «Мир», 1999.

Ссылки

  • - Readings in Latent Semantic Analysis for Cognitive Science and Education. — Сборник статей и ссылок о ЛСА.
  • - сайт, посвященный моделированию ЛСА.
Источник —

Same as Латентно-семантический анализ