Interested Article - Латентное размещение Дирихле

Латентное размещение Дирихле ( LDA , от англ. Latent Dirichlet allocation ) — применяемая в машинном обучении и информационном поиске , позволяющая объяснять результаты наблюдений с помощью неявных групп, благодаря чему возможно выявление причин сходства некоторых частей данных. Например, если наблюдениями являются слова, собранные в документы, утверждается, что каждый документ представляет собой смесь небольшого количества тем и что появление каждого слова связано с одной из тем документа. LDA является одним из методов тематического моделирования и впервые был представлен в качестве графовой модели для обнаружения тематик Дэвидом Блеем, Эндрю Ыном и Майклом Джорданом в 2003 году .

В LDA каждый документ может рассматриваться как набор различных тематик. Подобный подход схож с вероятностным латентно-семантическим анализом (pLSA) с той разницей, что в LDA предполагается, что распределение тематик имеет в качестве априори распределения Дирихле . На практике в результате получается более корректный набор тематик.

К примеру, модель может иметь тематики классифицируемые как «относящиеся к кошкам» и «относящиеся к собакам», тематика обладает вероятностями генерировать различные слова, такие как «мяу», «молоко» или «котёнок», которые можно было бы классифицировать как «относящиеся к кошкам», а слова, не обладающие особой значимостью (к примеру, служебные слова ), будут обладать примерно равной вероятностью в различных тематиках.

Примечания

Blei, David M.; Ng, Andrew Y.; (англ.) ( . (англ.) // Journal of Machine Learning Research : journal / Lafferty, John. — 2003. — January ( vol. 3 , no. 4—5 ). — P. pp. 993—1022 . — doi : . 1 мая 2012 года.

Ссылки

и реализации LDA для R .
, — реализация LDA и пример для MATLAB .
, — реализация LDA и пример с анализом текста в python

[blei2003-1] Blei, David M.; Ng, Andrew Y.; (англ.) ( . (англ.) // Journal of Machine Learning Research : journal / Lafferty, John. — 2003. — January ( vol. 3 , no. 4—5 ). — P. pp. 993—1022 . — doi : . 1 мая 2012 года.

Обработка естественного языка
Общие определения	Языковая модель Корпус текстов Речевой корпус Стоп-слова Мешок слов AI-полнота N-грамма Биграммный шифр Триграмма
Анализ текста	Частеречная разметка Поверхностно-синтаксический анализ Стемминг Лемматизация Разрешение кореферентности Анализ тональности текста Синтаксический анализ Разрешение лексической многозначности Извлечение информации Идентификация языка
Реферирование
Машинный перевод	Автоматизированный Гибридный На основе правил На основе примеров На основе трансформации Нейронный Статистический Синхронный
Идентификация и сбор данных	Распознавание речи Синтез речи Оптическое распознавание символов Генерация текста
Тематическая модель	Размещение патинко Латентно-семантический анализ
	Конкордансер Предиктивный ввод текста Система проверки правописания
	Виртуальный ассистент Виртуальный собеседник Вопросно-ответная система Голосовой интерфейс Интерактивная литература

Примечания

Ссылки

Same as Латентное размещение Дирихле

Тематическое моделирование

Размещение патинко

Виртуальный собеседник

Машинный перевод

Синтез речи

Корпус текстов

Система проверки правописания

Обработка естественного языка

Языковая модель

Речевой корпус

Мешок слов

AI-полная задача

Биграммный шифр

Триграмма (анализ текста)

Частеречная разметка

Поверхностно-синтаксический анализ

Стемминг

Лемматизация

Анализ тональности текста

Извлечение информации

Идентификация языка

Автоматическое реферирование

Гибридный машинный перевод

Машинный перевод на основе правил

Машинный перевод на основе примеров

Нейронный машинный перевод

Статистический машинный перевод

Распознавание речи

Оптическое распознавание символов

Генератор текста

Конкордансер

Предиктивный ввод текста

Виртуальный ассистент

Вопросно-ответная система

Голосовой интерфейс

Нейронный машинный перевод Google

ChatGPT

Midjourney