Interested Article - Электронный словарь

Электронный словарь — программное обеспечение , которое позволяет быстро найти нужное слово , часто с учётом морфологии и возможностью поиска словосочетаний (примеров употребления), а также с возможностью изменения направления перевода (например, англо- русский или русско- английский ).

Внутренне устроен как база данных со .

Машиночитаемые словари (Machine-readable dictionary, кратко MRD) используются компьютерными программами для решения различных задач, например, для обработки текстов на естественном языке . Машиночитаемые словари являются разновидностью электронных словарей.

Машиночитаемые словари

Создание машиночитаемых словарей

В проекте Leipzig Corpora Collection (LCC) корпуса и одноязычные словари строятся на основе текстов, извлекаемых из сети Интернет . LCC включает около 400 словарей. В качестве затравки для поиска текстов в Интернете в проекте LCC использовали текст Всеобщей декларации прав человека , поскольку Декларация содержит около 2000 общеупотребимых слов и переведена на 370 языков и диалектов . Из 200 Википедий были отобраны тексты для компиляции всего 70 словарей. Тексты не всех Википедий были включены в корпус LCC, поскольку многие вики-проекты начинаются с создания статей-заготовок, содержащих почти одинаковые предложения .

Такой подход трудно реализуем для малоресурсных языков, но проект Crúbadán , собрав данные для более чем 2200 языков, показывает, что автоматический поиск для языков, представленных в сети Интернет малым или единичным числом текстов, также возможен . В дальнейшем эти тексты используются для создания словарей, например, в проекте Crúbadán было собрано более 100 млн валлийских слов и половина валлийских текстов с этими словами были переданы Уэльскому университету для создания валлийского словаря .

Использование машиночитаемых словарей

В работах 1980-х годов предполагали, что на основе машиночитаемых словарей можно построить большие базы знаний . Но в дальнейшем признали, что для этого нужно использовать множество ресурсов, в первую очередь корпусы .

Максимум того, что получилось добиться при извлечении знаний из словарей — это автоматически построить несколько несовершенных таксономий .

Трудности извлечения информации из словарей:

Число уникальных русских слов в академических словарях (вертикальная полоса) и число уникальных слов по всем 12 словарям (круговая диаграмма), 2015

Преобразование из исходного формата требует больших усилий и эта задача достойна отдельного исследования, однако учёные предпочитают заниматься более научными задачами . Трудность в том, что неоднозначности и противоречия в правилах организации исходного словаря исключают возможность построения полностью автоматического парсера словаря. Построение таких парсеров — задача времязатратная и неблагодарная, поэтому словарей, доступных для компьютерной обработки крайне мало .
Противоречия и несогласованность в словарях приводят к построению очень разных семантических сетей по разным словарям . Проверка фрагментов пяти главных английских словарей показала, что в 50-70 % случаев информация в толкованиях словарей искажена или отсутствует . Та же плачевная картина получена при анализе трёх главных французских словарей. Из этого следует, что те методы WSD , которые основаны на анализе текстов толкований, в этих многочисленных случаях не будут работать .
Необходима частичная ручная проверка для построения качественных баз знаний по словарям .
Необходима интеграция множества источников данных . В комбинировании информации из нескольких словарей есть смысл, поскольку неполнота одного словаря компенсируется другим, имеющим другие лакуны и пропуски информации. В небольшом эксперименте в построении иерархии по пяти английским словарям процент ошибок был снижен с 55-70 % до 5 %. Качество извлекаемой информации при объединении словарей повысилось, но ручная проверка нужна . С другой стороны, анализ 12 русских словарей показал, что существуют большие размеры пересечений словников словарей . На рисунке представлена доля «уникальной» лексики в каждом из рассмотренных русских словарей .

Формат машиночитаемых словарей

Фрагмент страницы в русско- словаре. Словарные статьи краткие, но включают большой объём разнородных данных: толкование, перевод, словообразование, ударение, грамматические и диалектные пометы

Для использования машиночитаемых словарей их необходимо преобразовать в удобный для работы формат. Формат должен быть достаточно общим для совместимости между разными словарями, для создания единого ПО и повторного использования словарей . Примером является формат, выработанный сообществом .

С выбором формата словаря тесно связана задача выбора подходящей модели для представления данных машиночитаемого словаря. Если посмотреть любую словарную статью, то можно увидеть, что организация лексикографических данных намного сложнее, чем данные в задаче « товары-поставщик » или организация «базы данных сотрудников». Классические ( реляционные ) базы данных не являются идеальным решением для лексических баз данных .

В работах , посвящённых исследованиям в области проектирования баз данных , предложена альтернативная модель для лексической базы данных на основе свойств. Особенности этой модели: (1) поддержка вложения значений, (2) есть механизм наследования для исключения избыточной информации.

См. также

Онлайн-словарь

Примечания

(неопр.) . Дата обращения: 5 мая 2019. 30 мая 2016 года.
, с. 760.
↑ , с. 762.
(неопр.) . Дата обращения: 5 мая 2019. 23 апреля 2019 года.
.
, с. 9.
, с. 137—138.
, с. 138.
↑ .
↑ , с. 139.
, с. 141.
↑ , с. 140.
↑ , с. 143.
, с. 144.
Ide, N., Le Maitre, J., & Véronis, J. (1994). от 9 августа 2017 на Wayback Machine . In Current Issues in Computational Linguistics: In Honour of Don Walker (pp. 283—320). Springer, Dordrecht.
Véronis, J., & Ide, N. (1992, August). от 14 июля 2019 на Wayback Machine . In Proceedings of the 14th conference on Computational linguistics-Volume 2 (pp. 588—594). Association for Computational Linguistics.

Литература

Goldhahn D., Eckart T., Quasthoff U. (англ.) // : Istanbul, Turkey. — 2012. — Vol. 29 . — P. 759—765 .
Ide, N., & Véronis, J. (англ.) // Proceedings of the International Workshop on the Future of Lexical Research : Beijing, China. — 1994. — P. 137—146 .
Kiselev Y., Krizhanovsky A., Braslavski P., Menshikov I., Mukhin M., Krizhanovskaya N. (англ.) // Computational Linguistics and Intellectual Technologies: “Dialogue”. — Moscow: RGGU, 2015. — Iss. 14 (21) . — P. 254—271 .
Scannell K. P. (англ.) // Building and Exploring Web Corpora: Proceedings of the 3rd Web as Corpus Workshop. — 2007. — Vol. 4 . — P. 5—15 .

[1] (неопр.) . Дата обращения: 5 мая 2019. 30 мая 2016 года.

[_01d1a4e2a06997fe-2] , с. 760.

[_01d1a4e2a06997fc-3] , с. 762.

[4] (неопр.) . Дата обращения: 5 мая 2019. 23 апреля 2019 года.

[_5c0a11a06be5ed58-5] .

[_4b094b9757b24cb1-6] , с. 9.

[_853650a2aa14ee64-7] , с. 137—138.

[_0ef3a7dc0602b829-8] , с. 138.

[_f77c0aae0fb7cfdc-9] .

[_0ef3a7dc0602b828-10] , с. 139.

[_0ef3a8dc0602b9f5-11] , с. 141.

[_0ef3a8dc0602b9f4-12] , с. 140.

[_0ef3a8dc0602b9f7-13] , с. 143.

[_0ef3a8dc0602b9f0-14] , с. 144.

[15] Ide, N., Le Maitre, J., & Véronis, J. (1994). от 9 августа 2017 на Wayback Machine . In Current Issues in Computational Linguistics: In Honour of Don Walker (pp. 283—320). Springer, Dordrecht.

[16] Véronis, J., & Ide, N. (1992, August). от 14 июля 2019 на Wayback Machine . In Proceedings of the 14th conference on Computational linguistics-Volume 2 (pp. 588—594). Association for Computational Linguistics.

Лексикография
Типы справочников	Глоссарий Лексика Разговорник Словарь Тезаурус
Типы словарей	Активный словарь Биографический словарь Грамматический словарь Идеографический словарь Медицинский словарь Обратный словарь Орфографический словарь Орфоэпический словарь Переводной словарь Словарь сокращений Словарь рифм Толковый словарь Фразеологический словарь Частотный словарь Энциклопедический словарь Этимологический словарь
Прочее	Дефиниционный вокабуляр Даль Зализняк Мельчук Мюллер Ожегов Слонимский Срезневский Ушаков Чубинашвили Шведова
Портал лингвистики

Interested Article - Электронный словарь

Содержание

Машиночитаемые словари

Создание машиночитаемых словарей

Использование машиночитаемых словарей

Формат машиночитаемых словарей

Популярные электронные словари

Словари

Программы

Программы, сайты и др.

См. также

Примечания

Литература

Электронный авиабилет

Same as Электронный словарь

Электронный авиабилет

Электронный счётчик импульсов

Электронный замок

Электронный элемент

Электронный элемент/doc

Электронный билет (железнодорожный транспорт)

The title for the last searches