Автосвязывание
- 1 year ago
- 0
- 0
Cвязывание именованных сущностей (от англ. Named Entity Linking , NEL ) — задача, заключающаяся в определении идентичности сущностей, упомянутых в тексте. Рассмотрим, например, предложение «Я поеду в Киров на выходных». Суть связывания, в этом случае, будет заключаться в соотнесении слова «Киров» с городом Киров, а не с человеком по фамилии Киров, или с чем-либо ещё. NEL отличается от (Named Entity Recognition, NER) тем, что NER определяет тип упоминаемой сущности (Личность, Географическая локация, Организация и т. п.), но не связывает сущность с каким-либо конкретным объектом.
Связывание именованных сущностей требует наличие базы знаний , содержащей сущности (или концепты), с которыми упоминания могут быть связаны. Популярным решением для связывания сущностей в тексте из открытых источников являются базы знаний, основанные на Wikipedia , в которых каждая страница является именованной сущностью. NEL, использующий сущности Wikipedia , иногда называют викификаторами ( англ. wikification ). База знаний также может быть получена автоматически из обучающего текста или построена вручную .
Упоминание именованных сущностей может быть существенно неоднозначным, любой метод связывания должен уметь устранять эту неоднозначность. Было испробовано множество подходов для решения этой проблемы. Одним из плодотворных вариантов решения этой проблемы было предложено Милне и Виттеном (Milne and Witten), оно было основано на применении обучения с учителем с использованием текста ссылок wikipedia в качестве обучающих данных. Кулкарни и др. использовали общее свойство близких по теме документов ссылаться на сущности сильно связанных типов. Список самых современных систем для связывания именованных сущностей включает в себя AIDA, AGDISTIS, Babelfy и TagMe.
Связывание именованных сущностей используется для улучшения качества систем информационного поиска и для улучшения качества электронных библиотек. NEL также является ключом к построению семантического поиска . Например, NEL был успешно применен для валидации результата методов распознания именованных сущностей с использованием предположения о том, что каждый текст имеет специфичную область и контекст, и, следовательно, сущности, упомянутые в этом тексте, должны были иметь семантическую связь между собой . Измерение семантической близости может быть использовано для фильтрации ошибок в идентификации сущностей вне контекста, даже когда для единственного упоминания возможно множество интерпретаций.
Компания по оценке NEL ( ) организована Национальным Институтом Стандартов и Технологий США ( NIST ) в контексте задачи Пополнения Баз Знаний ( ) Конференции Анализа Текста (Text Analysis Conference).