Если методы
обучения без учителя
в
проблеме разрешения многозначности
полагаются на неаннотированный (не размеченный)
корпус
, то
обучение с учителем
коренным образом зависят от размеченного корпуса тестов. Проблема получения достаточного количества знаний является одной из самых главных преград в реализации высокоэффективных алгоритмов
обучения
. Однако, если алгоритм реализуется не такими крупными с точки зрения ресурсов мероприятиями, как Senseval, а более мелкая, то в подобных случаях получение качественно размеченного корпуса не представляется возможным из-за огромных трудозатрат, которые необходимы для осуществления этого процесса вручную. Поэтому перед исследователями, нуждающимися в подобных корпусах, встала задача получения размеченного корпуса автоматически.
Выходом является автоматическое нахождение таких контекстов, в которых искомое многозначное слово со 100-процентной вероятностью принимает необходимое нам значение. И такие методы были придуманы; всего существует несколько способов, в корне отличающихся друг от друга.
Существующие решения
Одним из решений является
алгоритм
, разработанный Радой Майхелсиа
и основанный на получении контекстов из выдачи поисковых движков (типа Google или Yandex) с помощью знаний, имеющихся в тезаурусе. Весь процесс получения корпуса состоит из трёх этапов: препроцессинг, поиск и постпроцессинг.
-
Препроцессинг. Для каждого слова w и его значения #i берутся их однозначные синонимы, а также слова, полученные после обработки
(словарного толкования, грамматических пояснений, примеров использования слова в различных контекстах и т. п.)
-
Поиск. Затем, на стадии поиска формируются поисковые запросы, помогающие найти именно те контексты, в которых данное слово присутствует в нужном нам значении.
-
Постпроцессинг. После этого, полученные контексты обрабатываются, фильтруются плохие и т. д.
Эффективность метода позволяет получать большое количество контекстов, примерно 91 % из которых являются правильными, что является довольно высоким результатом, достаточным для обучения машины. Также, у этого метода существует последователи и предшественники (например, алгоритм Leacock и Chodorow), однако все они так и не сравнились с ним по эффективности.
Второй метод, придуманный
и часто называемый bootstrapping, предлагает, начиная с небольшого количества вручную определённых примеров (так называемым seed examples), автоматически и итерационно расширять классы, разделяя оставшиеся контексты в неразмеченном тексте на классы, получая, таким образом, обучающую выборку. При этом за аксиому берутся такие вещи, как «one sense per collocation» и «one sense per discourse». Однако, этот способ также менее точен, чем способ Mihalcea, так как в данном случае не получаются однозначные
контексты
.
Также, существует ещё 3 метода
, практически неприменимые к русскому языку:
-
каталоги веб-страниц
(такие как
Open Directory Project
);
-
выравненные
билингвальные тексты
(однако, несмотря на быстрый рост подобных материалов, их количество для русского языка ещё недостаточно велико);
-
коллаборативная работа
в стиле
Вики
(Open Mind Word Expert project): принцип заключается в том, что лёгкие случаи разрешения многозначности решаются машиной, трудные — показываются
волонтёрам
в интернете; этот метод, к сожалению, не показал достаточно высоких результатов из-за не профессионализма добровольцев (62.8 % согласия между людьми по сравнению 85,5 % на Senseval).
Итог
Результаты
Автоматическое получение примеров для тренировки классификатора (обучение с учителем), как оказалось, является наилучшим подходом
майнинга
интернета для
разрешения лексической многозначности
. Стоит привести некоторые обнадёживающие результаты:
-
В некоторых
экспериментах
, качества данных из
интернета
практически сравнялось с качеством корпуса, сделанным человеком: сочетание получения с помощью однозначных
синонимов
и бутстреппинга из SemCor’овских примеров
и примеры, полученные из
ODP
. В первом, однако, примеры из SemCor’a необходимы и существуют только для английского языка, и тестирование проводилось со слишком небольшим количеством существительных, а во втором покрытие эксперимента слишком мало и неизвестно, насколько сильно ухудшается качество полученного корпуса при его увеличении.
-
Также, было показано
, что почти любая техника обучения с учителем, тренированная на автоматически полученных из интернета корпусах, превосходит все техники
обучения
без
учителя
, участвовавшие в Senseval-2.
-
Примеры из
интернета
принесли огромную пользу в плане эффективности лучшим английским all-words алгоритмам на Senseval-2
.
Проблемы
Однако, также существуют определённые проблемы и трудности, напрямую связанные с получением подобного корпуса:
-
Хорошее качество полученных примеров (то есть, правильная принадлежность примеров к классам значений) не обязательно обеспечивает высокую точность
классификатора
.
-
Наиболее объективные эксперименты по оценке качества полученных примеров показали
, что обучение на этих примеров существенно повышает уровень точности разрешения многозначности, однако, тем не менее, результаты далеки от идеальных: они не то, что хуже полученных вручную, — она даже не превышают качество полученное с помощью most-frequent-sense baseline.
-
Результаты не всегда удаётся повторить: те же самые или похожие методы могут привести к различным результатам в разных экспериментах. В качестве сравнения можно сравнить эксперименты: Mihalcea (2002
) с Agirre и Martínez (2004
), или Agirre и Martínez (2000
) с Mihalcea и Moldovan (1999
). Результаты, полученные с помощью интернета, показали, что данные очень чувствительны даже к небольшим изменениям в обучающем алгоритме, даже к дате получения корпуса (выдача поисковых машин постоянно меняется), и к незаметным эвристическим проблемам (например, различия в фильтрах по отбрасыванию части полученных примеров).
-
На результаты сильно влияет такое явление как «перекос» (то есть, на соотношение частотностей примеров одних значений слова по сравнению с другими
). Так до конца неясно, является ли это проблемой только информации из Интернета или это проблема, присущая обучению с учителем, или же это проблема того, каким образом методы оцениваются (в самом деле, сравнительно небольшое количество данных Senseval вполне возможно является не такой уж и репрезентативной вещью по сравнению со всем интернетом в качестве корпуса).
-
В любом случае, данные из интернета обладают перекосом, потому что запросы к поисковым системам непосредственно ограничивают множество полученных контекстов. Существуют подходы для смягчения этого эффекта, такие как: использование нескольких seeds или запросов для каждого из значений слова
или присваивание значениям соответствующих категорий из каталогов
веб-сайтов
; однако эта проблема ещё далека от полного разрешения.
-
У любого полученного корпуса контекстов не всегда ясен вопрос с лицензией по его использованию (правовая составляющая неясна).
Будущее области
Кроме вышеперечисленных техник получения корпуса из веба, также были проведены некоторые другие эксперименты, использующие интернет:
-
Интернет
, как
социальная сеть
, несколько раз был успешно использован для коллаборативной
аннотации
анонимными пользователями (проект OMWE, Open Mind Word Expert project)
: он был применён уже три раза для задач Senseval-3 (для английского, румынского языков и многоязыковой задачи).
-
Интернет также использовался для обогащения значений
WordNet
'a знаниями о теме корпуса (domain-specific information): так называемые topic signatures
and Web directories
, которые успешно применялись для
разрешения многозначности
.
-
Также с недавних пор проводятся исследования по изучению возможности использования Википедии для разрешения многозначностей, перечисленных на страницах значений многозначных слов
.
Однако возможности, открывающиеся и предоставляемые интернетом, ещё не до конца исследованы. К примеру, мало известно как использовать лексическую информацию, полученную с помощью knowledge-based систем разрешения многозначности; и также непонятно каким образом получать из интернета
параллельные корпусы
, хотя и эффективные алгоритмы для обработки таких корпусов уже существуют. Следовательно, следует ждать в этой области ещё многих интересных результатов в ближайшем будущем.
Примечания
-
Rada Mihalcea, Dan Moldovan. An Automatic method for generating sense tagged corpora.
-
Yarowsky, D. «Unsupervised Word Sense Disambiguation Rivaling Supervised Methods». Proceedings of the 33rd Annual Meeting of the Association for Computational Linguistics. Cambridge, MA, pp. 189—196, 1995.
-
Word Sense Disambiguation: Algorithms and Applications, edited by Eneko Agirre and Philip Edmonds (2006), Springer.
-
Mihalcea, Rada. 2002. Bootstrapping large sense tagged corpora. Proceedings of the Language Resources and Evaluation Conference (LREC), Las Palmas, Spain.
-
↑
Santamaría, Celina, Julio Gonzalo & Felisa Verdejo. 2003. Automatic association of Web directories to word senses. Computational Linguistics, 29(3): 485—502.
-
Agirre, Eneko & David Martínez. 2004. Unsupervised WSD based on automati- cally retrieved examples: The importance of bias. Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), Barcelona, Spain, 25-33.
-
Mihalcea, Rada. 2002a. Word sense disambiguation with pattern learning and automatic feature selection. Natural Language Engineering, 8(4): 348—358.
-
↑
Agirre, Eneko & David Martínez. 2000. Exploring automatic word sense disambiguation with decision lists and the Web. Proceedings of the COLING Workshop on Semantic Annotation and Intelligent Annotation, Luxembourg, 11-19.
-
↑
Agirre, Eneko & David Martínez. 2004. Unsupervised WSD based on automatically retrieved examples: The importance of bias. Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), Barcelona, Spain, 25-33.
-
↑
Mihalcea, Rada. 2002b. Bootstrapping large sense tagged corpora. Proceedings of the Language Resources and Evaluation Conference (LREC), Las Palmas, Spain.
-
Mihalcea, Rada & Dan Moldovan. 1999. An automatic method for generating sense tagged corpora. Proceedings of the American Association for Artificial Intelligence (AAAI), Orlando, U.S.A., 461—466.
-
Chklovski, Tim & Rada Mihalcea. 2002. Building a sense tagged corpus with Open Mind Word Expert. Proceedings of the ACL SIGLEX Workshop on Word Sense Disambiguation: Recent Successes and Future Directions, Phila- delphia, U.S.A., 116—122.
-
Agirre, Eneko, Olatz Ansa, Eduard H. Hovy & David Martínez. 2000. Enriching very large ontologies using the WWW. Proceedings of the Ontology Learning Workshop, European Conference on Artificial Intelligence (ECAI), Berlin, Germany.
-
Denis Turdakov, Pavel Velikhov. Semantic Relatedness Metric for Wikipedia Concepts Based on Link Analysis and its Application to Word Sense Disambiguation // SYRCoDIS.— 2008.
-
Турдаков Денис. Устранение лексической многозначности терминов Википедии на основе скрытой модели Маркова // XI Всероссийская научная конференция «Электронные библиотеки: перспективные методы и технологии, электронные коллекции».— 2009.
от 5 июля 2010 на
Wayback Machine