Интеллектуальный капитал
- 1 year ago
- 0
- 0
Интеллектуальный анализ текстов ( ИАТ , англ. text mining) — направление в искусственном интеллекте , целью которого является получение информации из , основываясь на применении эффективных в практическом плане методов машинного обучения и обработки естественного языка . Название «интеллектуальный анализ текстов» перекликается с понятием « интеллектуальный анализ данных » ( ИАД , англ. data mining), что выражает схожесть их целей, подходов к переработке информации и сфер применения; разница проявляется лишь в конечных методах, а также в том, что ИАД имеет дело с хранилищами и базами данных , а не электронными библиотеками и корпусами текстов .
Ключевыми группами задач ИАТ являются: категоризация текстов, извлечение информации и информационный поиск , обработка изменений в коллекциях текстов, а также разработка средств представления информации для пользователя.
Категоризация документов заключается в отнесении документов из коллекции к одной или нескольким группам (классам, кластерам) схожих между собой текстов (например, по теме или стилю). Категоризация может происходить при участии человека, так и без него. В первом случае, называемом классификацией документов , система ИАТ должна отнести тексты к уже определённым (удобным для него) классам. В терминах машинного обучения для этого необходимо произвести обучение с учителем , для чего пользователь должен предоставить системе ИАТ как множество классов, так и образцы документов, принадлежащих этим классам.
Второй случай категоризации называется кластеризацией документов . При этом система ИАТ должна сама определить множество кластеров, по которым могут быть распределены тексты, — в машинном обучении соответствующая задача называется обучением без учителя . В этом случае пользователь должен сообщить системе ИАТ количество кластеров, на которое ему хотелось бы разбить обрабатываемую коллекцию (подразумевается, что в алгоритм программы уже заложена процедура).
В последнее время анализ текста привлекает всё больше внимания в различных областях, таких как безопасность, коммерция, наука.
Многие пакеты анализа текста, такие как и , нацелены на рынок приложений безопасности, в частности на анализ источников простого текста, например новостных сайтов.
Исследования и разработки подразделений крупных компаний, таких как IBM , Apple и Microsoft , исследуют технологии анализа текста с целью будущей автоматизации процессов анализа и извлечения данных.
На русском:
На английском: