Электронный словарь
—
программное обеспечение
, которое позволяет быстро найти нужное
слово
, часто с учётом
морфологии
и возможностью поиска словосочетаний (примеров употребления), а также с возможностью изменения направления перевода (например, англо-
русский
или русско-
английский
).
В проекте Leipzig Corpora Collection
(LCC) корпуса и одноязычные словари строятся на основе текстов, извлекаемых из сети Интернет
. LCC включает около 400 словарей. В качестве затравки для поиска текстов в Интернете в проекте LCC использовали текст
Всеобщей декларации прав человека
, поскольку Декларация содержит около 2000 общеупотребимых слов и переведена на 370 языков и диалектов
. Из 200 Википедий были отобраны тексты для компиляции всего 70 словарей. Тексты не всех Википедий были включены в корпус LCC, поскольку многие вики-проекты начинаются с создания статей-заготовок, содержащих почти одинаковые предложения
.
Такой подход трудно реализуем для малоресурсных языков, но проект Crúbadán
, собрав данные для более чем 2200 языков, показывает, что
автоматический поиск
для языков, представленных в сети Интернет малым или единичным числом текстов, также возможен
. В дальнейшем эти тексты используются для создания словарей, например, в проекте Crúbadán было собрано более 100 млн
валлийских
слов и половина валлийских текстов с этими словами были переданы
Уэльскому университету
для создания валлийского словаря
.
Использование машиночитаемых словарей
В работах 1980-х годов предполагали, что на основе машиночитаемых словарей можно построить большие
базы знаний
. Но в дальнейшем признали, что для этого нужно использовать множество ресурсов, в первую очередь
корпусы
.
Максимум того, что получилось добиться при
извлечении знаний
из словарей — это автоматически построить несколько несовершенных таксономий
.
Трудности извлечения информации из словарей:
Преобразование из исходного формата
требует больших усилий и эта задача достойна отдельного исследования, однако учёные предпочитают заниматься более научными задачами
. Трудность в том, что
неоднозначности
и
противоречия
в правилах организации исходного словаря исключают возможность построения полностью автоматического парсера словаря. Построение таких парсеров — задача времязатратная и неблагодарная, поэтому словарей, доступных для компьютерной обработки крайне мало
.
Противоречия и несогласованность
в словарях приводят к построению очень разных
семантических сетей
по разным словарям
. Проверка фрагментов пяти главных английских словарей показала, что в 50-70 % случаев информация в толкованиях словарей искажена или отсутствует
. Та же плачевная картина получена при анализе трёх главных французских словарей. Из этого следует, что те методы
WSD
, которые основаны на анализе текстов толкований, в этих многочисленных случаях не будут работать
.
Необходима
частичная ручная проверка
для построения качественных баз знаний по словарям
.
Необходима
интеграция множества источников данных
. В комбинировании информации из нескольких словарей есть смысл, поскольку неполнота одного словаря компенсируется другим, имеющим другие лакуны и пропуски информации. В небольшом эксперименте в построении иерархии по пяти английским словарям процент ошибок был снижен с 55-70 % до 5 %. Качество извлекаемой информации при объединении словарей повысилось, но ручная проверка нужна
. С другой стороны, анализ 12 русских словарей показал, что существуют большие размеры пересечений словников словарей
. На рисунке представлена доля «уникальной» лексики в каждом из рассмотренных русских словарей
.
Формат машиночитаемых словарей
Для использования машиночитаемых словарей их необходимо преобразовать в удобный для работы формат. Формат должен быть достаточно общим для совместимости между разными словарями, для создания единого
ПО
и
повторного использования
словарей
. Примером является формат, выработанный сообществом
.
С выбором формата словаря тесно связана задача выбора подходящей модели для представления данных машиночитаемого словаря. Если посмотреть любую словарную статью, то можно увидеть, что организация лексикографических данных намного сложнее, чем данные в задаче «
товары-поставщик
» или организация «базы данных сотрудников». Классические (
реляционные
) базы данных не являются идеальным решением для лексических баз данных
.
В работах
, посвящённых исследованиям в области
проектирования баз данных
, предложена альтернативная модель для лексической базы данных на основе свойств. Особенности этой модели: (1) поддержка вложения значений, (2) есть механизм наследования для исключения избыточной информации.
— русско-английские, немецкие, французские, испанские, итальянские, португальские и многоязычные словари. Включают толковые словари и тематические словарные базы для перевода специализированной лексики.
(неопр.)
. Дата обращения: 5 мая 2019.
30 мая 2016 года.
, с. 760.
↑
, с. 762.
(неопр.)
. Дата обращения: 5 мая 2019.
23 апреля 2019 года.
.
, с. 9.
, с. 137—138.
, с. 138.
↑
.
↑
, с. 139.
, с. 141.
↑
, с. 140.
↑
, с. 143.
, с. 144.
Ide, N., Le Maitre, J., & Véronis, J. (1994).
от 9 августа 2017 на
Wayback Machine
. In Current Issues in Computational Linguistics: In Honour of Don Walker (pp. 283—320). Springer, Dordrecht.
Véronis, J., & Ide, N. (1992, August).
от 14 июля 2019 на
Wayback Machine
. In Proceedings of the 14th conference on Computational linguistics-Volume 2 (pp. 588—594). Association for Computational Linguistics.
Литература
Goldhahn D., Eckart T., Quasthoff U.
(англ.)
//
: Istanbul, Turkey. — 2012. —
Vol. 29
. —
P. 759—765
.
Ide, N., & Véronis, J.
(англ.)
// Proceedings of the International Workshop on the Future of Lexical Research : Beijing, China. — 1994. —
P. 137—146
.
Kiselev Y., Krizhanovsky A., Braslavski P., Menshikov I., Mukhin M., Krizhanovskaya N.
(англ.)
// Computational Linguistics and Intellectual Technologies: “Dialogue”. — Moscow: RGGU, 2015. —
Iss. 14 (21)
. —
P. 254—271
.
Scannell K. P.
(англ.)
// Building and Exploring Web Corpora: Proceedings of the 3rd Web as Corpus Workshop. — 2007. —
Vol. 4
. —
P. 5—15
.