Метод дыхания
- 1 year ago
- 0
- 0
Алгоритм Леска — классический алгоритм разрешения лексической многозначности , основанный на знаниях, предложенный в 1986 году .
попытался самостоятельно решить задачу сопоставления слова и его смысла в английском языке с помощью машиночитаемых словарей . Идея метода заключалась в поиске значения слова в списке словарных определений с учетом контекста , где это слово использовано. Основным критерием для выбора значения послужило следующее правило: заложенный в этом определении смысл должен был частично совпадать со смыслом значений соседних слов в контексте .
В качестве примера можно рассмотреть задачу — определить значение слова « кошка » в тексте « в Китае выведены новые породы кошек ». Предположим, что словарь выдаст два определения для слова « кошка »:
Алгоритм покажет, что с определением (1) у этого текста одно общее слово — « породы », а с определением (2) ни одного. Следовательно, алгоритм Леска выберет значение « кошка » 1 .
В алгоритме Леска для поиска значений новых слов не используются уже найденные определения. Алгоритм смотрит на каждое слово в отдельности, ищет для него значение, при выяснении корректного смысла одного слова , алгоритм проделывал те же действия со следующим словом .
Существует большое количество работ, предлагающих использование модификации алгоритма Леска. Эти исследования основаны на идее использования различных словарей (тезаурусы, словари синонимов и т. д.) или моделей (морфологические, синтаксические и т. д.) совместно. Все эти работы ориентированы на обработку различных не словарных текстов, и ни одна не использует в качестве материала для обработки именно толковый словарь. Кроме того, практически всегда процесс ограничивается небольшим количеством экспериментов и не производится обработка достаточно больших массивов данных.
В качестве возможных путей улучшения исходного алгоритма Леска используется привлечение дополнительной информации о сходстве слов и учет значимости совпадений для различных слов.
В качестве первого примера модифицированного метода Леска можно привести вариант алгоритма, где в качестве дополнительной информации используется словарь синонимов, словообразовательная морфологическая модель, а также привлекаются толкования слов, входящих в исходное толкование.
Важным моментом является то, что алгоритм разрешения неоднозначности значений слов применяется к толкованиям, берущимся из словаря, что существенно упрощает задачу по сравнению с применением алгоритма к обычным текстам, по следующим причинам:
В качестве второго примера модифицированного метода Леска можно привести вариант алгоритма, основанный на двух гипотезах. Первая гипотеза заключается в том, что со слов, встречающихся в предложении, можно снять неоднозначность, присвоив им смысл, который наиболее близок к соседним словам. Это следует из интуитивного понятия того, что слова, встречающиеся вместе в одном предложении, обязательно каким-то образом связаны между собой, так как, согласуясь друг с другом, они передают некоторый смысл. Вторая гипотеза состоит в том, что связанные между собой смыслы можно идентифицировать, находя в их определениях слова, которые встречаются в толкованиях обоих слов. Эту гипотезу также можно обосновать с помощью интуитивного понятия, а именно того, что слова, которые связаны по смыслу, могут быть определены с одними и теми же терминов, а также могут ссылаться друг на друга в своих определениях.
В качестве примера можно рассмотреть два значения слова « калейдоскоп »:
И текст «Красивые цветные узоры калейдоскопа завораживают и взрослых, и детей». С первым определением у этого текста два общих слова, а со вторым — ни одного. Следовательно, алгоритм Леска выберет первое значение.
К сожалению, подход Леска очень чувствителен к точной формулировке определений, таким образом, отсутствие определенного слова может радикально изменить результаты. Ещё одним минусом является то, что алгоритм определяет перекрытия только среди толкований смыслов, которые рассматриваются. Это существенное ограничение, которое состоит в том, что толкования словаря имеют тенденцию быть довольно короткими и не обеспечивают достаточный словарь , чтобы показывать разницу между схожими по смыслу определениями.
В последнее время появилось большое количество работ, предлагающих использовать модификации алгоритма Леска. В этих работах выдвигаются идеи, связанные с дополнительным использованием различных словарей ( тезаурусы , словари синонимов ) или моделей ( морфологические , синтаксические и т. п.), см., например :
Относительно алгоритма Леска есть много исследований и расширений:
Относительно больших экспериментов на проверку этого метода не проводилось, кроме как на корпусе книги « Гордость и предубеждение » и газеты Associated Press . Результат варьировался от 50 % до 70 %.