Interested Article - Вероятностный латентно-семантический анализ

Вероятностный латентно-семантический анализ (ВЛСА) , также известный как вероятностное латентно-семантическое индексирование ( ВЛСИ , особенно в области информационного поиска) — это статистический метод анализа корреляции двух типов данных . Данный метод является дальнейшим развитием латентно-семантического анализа . ВЛСА применяется в таких областях как информационный поиск , обработка естественного языка , машинное обучение и смежных областях. Данный метод был впервые опубликован в 1999 году Томасом Хофманом (Thomas Hofmann) .

По сравнению с обычным латентно-семантическим анализом , который основан на линейной алгебре и является способом снижения размерности матрицы (как правило, с помощью разложения диагональной матрицы по сингулярным значениям ), вероятностный латентно-семантический анализ основан на смешанном разложении, в свою очередь берущим своё начало из модели скрытых классов. Данный подход более принципиален, поскольку имеет прочную основу в области статистики.

Варианты pLSA

  • Иерархические расширения:
    • Асимметричное: MASHA («Multinomial ASymmetric Hierarchical Analysis», «полиномиальный асимметричный иерархический анализ»)
    • Симметричное: HPLSA («Hierarchical Probabilistic Latent Semantic Analysis», «Иерархический вероятностный латентно-семантический анализ»),
  • Генеративные модели: разработаны для решения часто критикуемых недостатков pLSA, а именно — того, что он является неправильной порождающей моделью для новых документов.
  • Данные высшего порядка: Хотя это редко обсуждается в научной литературе, pLSA, естественно, примени́м и для данных более высокого порядка (трёхуровневых и выше), то есть он может моделировать совместное поведение трёх и более переменных. В симметричной формулировке, данной выше, это делается простым добавлением условного распределения вероятностей для этих дополнительных переменных. Это вероятностный аналог неотрицательной тензорной факторизации.

Примечания

  1. Thomas Hofmann, 14 декабря 2010 года. , Proceedings of the Twenty-Second Annual International Conference on Research and Development in Information Retrieval (SIGIR-99), 1999
  2. Alexei Vinokourov and Mark Girolami, , in Information Processing and Management , 2002
  3. Eric Gaussier, Cyril Goutte, Kris Popat and Francine Chen, от 13 марта 2006 на Wayback Machine , in «Advances in Information Retrieval — Proceedings of the 24th European Colloquium on IR Research (ECIR-02)», 2002

См. также

Источник —

Same as Вероятностный латентно-семантический анализ