Interested Article - Извлечение информации

Извлечение информации ( англ. information extraction ) — это задача автоматического извлечения (построения) структурированных данных из неструктурированных или слабоструктурированных машиночитаемых документов.

Извлечение информации является разновидностью информационного поиска , связанного с обработкой текста на естественном языке . Примером извлечения информации может быть поиск деловых визитов — формально это записывается так: НанеслиВизит(Компания-Кто, Компания-Кому, ДатаВизита) — из новостных лент , таких как: «Вчера, 1 апреля 2007 года, представители корпорации Пепелац Интернэшнл посетили офис компании Гравицап Продакшнз». Главная цель такого преобразования — возможность анализа изначально «хаотичной» информации с помощью стандартных методов . Более узкой целью может служить, например, задача выявить логические закономерности в описанных в тексте событиях.

В современных информационных технологиях роль такой процедуры, как извлечение информации, всё больше возрастает — из-за стремительного увеличения количества неструктурированной (без метаданных ) информации, в частности, в Интернете . Эта информация может быть сделана более структурированной посредством преобразования в реляционную форму или добавлением XML разметки. При мониторинге новостных лент с помощью интеллектуальных агентов как раз и потребуются методы извлечения информации и преобразования её в такую форму, с которой будет удобнее работать позже.

Типичная задача извлечения информации: просканировать набор документов, написанных на естественном языке , и наполнить базу данных выделенной полезной информацией. Современные подходы извлечения информации используют методы обработки естественного языка , направленные лишь на очень ограниченный набор тем (вопросов, проблем) — часто только на одну тему. Например, «Конференция по Пониманию сообщений» ( , MUC ) — это конференция соревновательного характера и в прошлом она фокусировалась на таких вопросах:

MUC-1 (1987), MUC-2 (1989): Военно-морские операции.
MUC-3 (1991), MUC-4 (1992): Терроризм в латиноамериканских странах.
MUC-5 (1993): Венчурные операции в области микроэлектроники.
MUC-6 (1995): Новостные статьи об изменениях в управляющих процессах.
MUC-7 (1998): Отчёты о запусках спутников.

Тексты на естественном языке могут потребовать некоего предварительного преобразования на язык (например, RDF — Resource Description Framework), понятный для компьютера.

Типичные подзадачи извлечения информации:

Распознавание именованных элементов ( сущностей ), например: имён людей, названий организаций, географических названий, событий, временны́х и денежных обозначений и пр.
Разрешение анафоры и кореференций : поиск связей, относящихся к одному и тому же объекту. Типичный случай таких ссылок — местоименная анафора.
Выделение терминологии: нахождение для данного текста ключевых слов и словосочетаний ( коллокаций ).
: выделение из текста смысловой, эмотивной, оценочной и пр. информации. Бывает генеративным и декларативным.

Примечания

Под обработкой данных может пониматься, помимо прочего , и просто накопление их в базе данных .
Этой задачей занимается интеллектуальный анализ данных (data mining).
Концепция развития Интернета, где к каждому документу присоединяется файл с метаданными в XML формате, называется семантической паутиной и считается очень перспективной; но стоит отметить: это не то же самое, что преобразование самого документа.

См. также

Ссылки

(недоступная ссылка с 13-05-2013 [3938 дней] — )

Иноязычные

Extracción informacion (Spanish site)
MUC
от 25 сентября 2013 на Wayback Machine ACE (LDC)
ACE (NIST)
(недоступная ссылка) — TermExtractor
, on-line terminology extractor for EN, FR & IT — web application
Videolectures.net

[1] Под обработкой данных может пониматься, помимо прочего , и просто накопление их в базе данных .

[2] Этой задачей занимается интеллектуальный анализ данных (data mining).

[3] Концепция развития Интернета, где к каждому документу присоединяется файл с метаданными в XML формате, называется семантической паутиной и считается очень перспективной; но стоит отметить: это не то же самое, что преобразование самого документа.

Инженерия знаний
Общие понятия	Данные Метаданные Знания Метазнания Представление знаний База знаний Онтология Семантическая паутина
Жёсткие модели	Продукции Семантические сети Фреймы Логическая модель
Мягкие методы	Нейронная сеть Эволюционное моделирование Нечёткая логика
Применения	Экспертные системы Интеллектуальный анализ данных Виртуальные собеседники Гибридные интеллектуальные системы
Искусственный интеллект Машинное обучение Обработка естественного языка

Обработка естественного языка
Общие определения	Языковая модель Корпус текстов Речевой корпус Стоп-слова Мешок слов AI-полнота N-грамма Биграммный шифр Триграмма
Анализ текста	Частеречная разметка Поверхностно-синтаксический анализ Стемминг Лемматизация Разрешение кореферентности Анализ тональности текста Синтаксический анализ Разрешение лексической многозначности Идентификация языка
Реферирование
Машинный перевод	Автоматизированный Гибридный На основе правил На основе примеров На основе трансформации Нейронный Статистический Синхронный
Идентификация и сбор данных	Распознавание речи Синтез речи Оптическое распознавание символов Генерация текста
Тематическая модель	Размещение патинко Латентное размещение Дирихле Латентно-семантический анализ
	Конкордансер Предиктивный ввод текста Система проверки правописания
	Виртуальный ассистент Виртуальный собеседник Вопросно-ответная система Голосовой интерфейс Интерактивная литература

Interested Article - Извлечение информации

Примечания

См. также

Ссылки

Предотвращение утечек информации

Средства массовой информации

Классификация секретной информации в США

Same as Извлечение информации

Извлечение жидких углеводородов из газа

Безопасное извлечение устройства

Извлечение троих

Извлечение камня глупости (картина Босха)

Извлечение короля

Безопасное извлечение устройства

Федеральный закон «Об информации, информационных технологиях и о защите информации»

Предотвращение утечек информации

Институт проблем передачи информации имени А. А. Харкевича РАН

Средства массовой информации США

Средства массовой информации

Классификация секретной информации в США

Средства массовой информации Казахстана

Источники информации

Носитель информации

Фонд свободы информации

Свобода массовой информации

Национальный центр биотехнологической информации

Средства массовой информации СССР

Носители информации

Передача информации

Исчезновение информации в чёрной дыре

Средства массовой информации Красноярска

Средства массовой информации России

The title for the last searches