Interested Article - Латентное размещение Дирихле


- 2021-02-18
- 1
Латентное размещение Дирихле ( LDA , от англ. Latent Dirichlet allocation ) — применяемая в машинном обучении и информационном поиске , позволяющая объяснять результаты наблюдений с помощью неявных групп, благодаря чему возможно выявление причин сходства некоторых частей данных. Например, если наблюдениями являются слова, собранные в документы, утверждается, что каждый документ представляет собой смесь небольшого количества тем и что появление каждого слова связано с одной из тем документа. LDA является одним из методов тематического моделирования и впервые был представлен в качестве графовой модели для обнаружения тематик Дэвидом Блеем, Эндрю Ыном и Майклом Джорданом в 2003 году .
В LDA каждый документ может рассматриваться как набор различных тематик. Подобный подход схож с вероятностным латентно-семантическим анализом (pLSA) с той разницей, что в LDA предполагается, что распределение тематик имеет в качестве априори распределения Дирихле . На практике в результате получается более корректный набор тематик.
К примеру, модель может иметь тематики классифицируемые как «относящиеся к кошкам» и «относящиеся к собакам», тематика обладает вероятностями генерировать различные слова, такие как «мяу», «молоко» или «котёнок», которые можно было бы классифицировать как «относящиеся к кошкам», а слова, не обладающие особой значимостью (к примеру, служебные слова ), будут обладать примерно равной вероятностью в различных тематиках.
Примечания
- Blei, David M.; Ng, Andrew Y.; Journal of Machine Learning Research : journal / Lafferty, John. — 2003. — January ( vol. 3 , no. 4—5 ). — P. pp. 993—1022 . — doi : . 1 мая 2012 года. (англ.) //
Ссылки
- и реализации LDA для R .
- , — реализация LDA и пример для MATLAB .
- , — реализация LDA и пример с анализом текста в python
![]() |
Это
заготовка статьи
по
статистике
. Помогите Википедии, дополнив её.
|

- 2021-02-18
- 1