Interested Article - Электронный словарь

Электронный словарь программное обеспечение , которое позволяет быстро найти нужное слово , часто с учётом морфологии и возможностью поиска словосочетаний (примеров употребления), а также с возможностью изменения направления перевода (например, англо- русский или русско- английский ).

Внутренне устроен как база данных со .

Машиночитаемые словари (Machine-readable dictionary, кратко MRD) используются компьютерными программами для решения различных задач, например, для обработки текстов на естественном языке . Машиночитаемые словари являются разновидностью электронных словарей.

Машиночитаемые словари

Создание машиночитаемых словарей

В проекте Leipzig Corpora Collection (LCC) корпуса и одноязычные словари строятся на основе текстов, извлекаемых из сети Интернет . LCC включает около 400 словарей. В качестве затравки для поиска текстов в Интернете в проекте LCC использовали текст Всеобщей декларации прав человека , поскольку Декларация содержит около 2000 общеупотребимых слов и переведена на 370 языков и диалектов . Из 200 Википедий были отобраны тексты для компиляции всего 70 словарей. Тексты не всех Википедий были включены в корпус LCC, поскольку многие вики-проекты начинаются с создания статей-заготовок, содержащих почти одинаковые предложения .

Такой подход трудно реализуем для малоресурсных языков, но проект Crúbadán , собрав данные для более чем 2200 языков, показывает, что автоматический поиск для языков, представленных в сети Интернет малым или единичным числом текстов, также возможен . В дальнейшем эти тексты используются для создания словарей, например, в проекте Crúbadán было собрано более 100 млн валлийских слов и половина валлийских текстов с этими словами были переданы Уэльскому университету для создания валлийского словаря .

Использование машиночитаемых словарей

В работах 1980-х годов предполагали, что на основе машиночитаемых словарей можно построить большие базы знаний . Но в дальнейшем признали, что для этого нужно использовать множество ресурсов, в первую очередь корпусы .

Максимум того, что получилось добиться при извлечении знаний из словарей — это автоматически построить несколько несовершенных таксономий .

Трудности извлечения информации из словарей:

Число уникальных русских слов в академических словарях (вертикальная полоса) и число уникальных слов по всем 12 словарям (круговая диаграмма), 2015
  • Преобразование из исходного формата требует больших усилий и эта задача достойна отдельного исследования, однако учёные предпочитают заниматься более научными задачами . Трудность в том, что неоднозначности и противоречия в правилах организации исходного словаря исключают возможность построения полностью автоматического парсера словаря. Построение таких парсеров — задача времязатратная и неблагодарная, поэтому словарей, доступных для компьютерной обработки крайне мало .
  • Противоречия и несогласованность в словарях приводят к построению очень разных семантических сетей по разным словарям . Проверка фрагментов пяти главных английских словарей показала, что в 50-70 % случаев информация в толкованиях словарей искажена или отсутствует . Та же плачевная картина получена при анализе трёх главных французских словарей. Из этого следует, что те методы WSD , которые основаны на анализе текстов толкований, в этих многочисленных случаях не будут работать .
  • Необходима частичная ручная проверка для построения качественных баз знаний по словарям .
  • Необходима интеграция множества источников данных . В комбинировании информации из нескольких словарей есть смысл, поскольку неполнота одного словаря компенсируется другим, имеющим другие лакуны и пропуски информации. В небольшом эксперименте в построении иерархии по пяти английским словарям процент ошибок был снижен с 55-70 % до 5 %. Качество извлекаемой информации при объединении словарей повысилось, но ручная проверка нужна . С другой стороны, анализ 12 русских словарей показал, что существуют большие размеры пересечений словников словарей . На рисунке представлена доля «уникальной» лексики в каждом из рассмотренных русских словарей .

Формат машиночитаемых словарей

Фрагмент страницы в русско- словаре. Словарные статьи краткие, но включают большой объём разнородных данных: толкование, перевод, словообразование, ударение, грамматические и диалектные пометы

Для использования машиночитаемых словарей их необходимо преобразовать в удобный для работы формат. Формат должен быть достаточно общим для совместимости между разными словарями, для создания единого ПО и повторного использования словарей . Примером является формат, выработанный сообществом .

С выбором формата словаря тесно связана задача выбора подходящей модели для представления данных машиночитаемого словаря. Если посмотреть любую словарную статью, то можно увидеть, что организация лексикографических данных намного сложнее, чем данные в задаче « товары-поставщик » или организация «базы данных сотрудников». Классические ( реляционные ) базы данных не являются идеальным решением для лексических баз данных .

В работах , посвящённых исследованиям в области проектирования баз данных , предложена альтернативная модель для лексической базы данных на основе свойств. Особенности этой модели: (1) поддержка вложения значений, (2) есть механизм наследования для исключения избыточной информации.

Популярные электронные словари

Словари

Программы

Программы, сайты и др.

  • ABBYY Lingvo
  • DICT сетевой протокол
  • Мультитран
  • — русско-английские, немецкие, французские, испанские, итальянские, португальские и многоязычные словари. Включают толковые словари и тематические словарные базы для перевода специализированной лексики.

См. также

Примечания

  1. . Дата обращения: 5 мая 2019. 30 мая 2016 года.
  2. , с. 760.
  3. , с. 762.
  4. . Дата обращения: 5 мая 2019. 23 апреля 2019 года.
  5. .
  6. , с. 9.
  7. , с. 137—138.
  8. , с. 138.
  9. .
  10. , с. 139.
  11. , с. 141.
  12. , с. 140.
  13. , с. 143.
  14. , с. 144.
  15. Ide, N., Le Maitre, J., & Véronis, J. (1994). от 9 августа 2017 на Wayback Machine . In Current Issues in Computational Linguistics: In Honour of Don Walker (pp. 283—320). Springer, Dordrecht.
  16. Véronis, J., & Ide, N. (1992, August). от 14 июля 2019 на Wayback Machine . In Proceedings of the 14th conference on Computational linguistics-Volume 2 (pp. 588—594). Association for Computational Linguistics.

Литература

  • Goldhahn D., Eckart T., Quasthoff U. (англ.) // : Istanbul, Turkey. — 2012. — Vol. 29 . — P. 759—765 .
  • Ide, N., & Véronis, J. (англ.) // Proceedings of the International Workshop on the Future of Lexical Research : Beijing, China. — 1994. — P. 137—146 .
  • Kiselev Y., Krizhanovsky A., Braslavski P., Menshikov I., Mukhin M., Krizhanovskaya N. (англ.) // Computational Linguistics and Intellectual Technologies: “Dialogue”. — Moscow: RGGU, 2015. — Iss. 14 (21) . — P. 254—271 .
  • Scannell K. P. (англ.) // Building and Exploring Web Corpora: Proceedings of the 3rd Web as Corpus Workshop. — 2007. — Vol. 4 . — P. 5—15 .


Источник —

Same as Электронный словарь