Interested Article - Коранический корпус арабского языка

Синтаксическое дерево суры (67:1)

Коранический корпус арабского языка — доступный для поиска электронный онлайн- корпус текстов Корана , включающий 77 430 арабских слов. Целью проекта является предоставление и синтаксических данных для исследователей, желающих изучить классический арабский язык .

Функции

Грамматический анализ текста помогает пользователям раскрывать предполагаемые значения каждого аята и предложения. Каждое слово текста Корана атрибутировано указанием его части речи и несколькими морфологическими характеристиками. В отличие от других корпусов арабского языка, грамматика, используемая Кораническим корпусом, является традиционной арабской грамматикой Ираб (إعراب). Коранический корпус арабского языка — это исследовательский проект, возглавляемый специалистом по компьютерным наукам из Лидского университета , который является частью проекта по изучению арабского языка в Школе вычислительной техники под руководством Эрика Атуэлла .

Аннотированный корпус включает в себя :

  • верифицированную вручную частеречную разметку текста на арабском языке;
  • аннотированную древовидную структуру корпуса классического арабского языка;
  • новую визуализацию традиционной арабской грамматики через графы зависимостей;
  • морфологический поиск по тексту Корана;
  • машиночитаемый морфологический арабо-английский словарь;
  • частеречный конкорданс арабского языка Корана, с лемматизацией ;
  • онлайновую доску объявлений для волонтёров сообщества.

Частеречная разметка присваивает каждому слову корпуса тег части речи и морфологические признаки — например, указание, является данное слово существительным или глаголом , стоит в мужском или женском роде . На первом этапе проекта была задействована автоматическая частеречная разметка. Затем характеристики для каждого из 77 430 слов Корана поэтапно уточнены двумя аннотаторами, и уточнения продолжаются до настоящего времени.

Лингвистические исследования, в которых используется Коранический корпус, включают в себя обучение скрытой марковской модели частеречной разметки арабского языка , автоматическую категоризацию глав Корана и просодический анализ текста .

Кроме того, проект предусматривает дословный перевод Корана на основе принятых английских источников вместо осуществления нового перевода Корана .

См. также

Примечания

  1. K. Dukes, E. Atwell and N. Habash (2011). от 10 мая 2012 на Wayback Machine Language Resources and Evaluation Journal (LREJ). Special Issue on Collaboratively Constructed Language Resources.
  2. от 6 апреля 2018 на Wayback Machine at ResearchGate . Uploaded by Nizar Habash, Columbia University .
  3. K. Dukes and T. Buckwalter (2010). от 10 мая 2012 на Wayback Machine In Proceedings of the 7th International Conference on Informatics and Systems (INFOS). Cairo, Egypt.
  4. от 23 февраля 2013 на Wayback Machine at The Muslim Tribune. June 20, 2011.
  5. Eric Atwell, Claire Brierley, Kais Dukes, Majdi Sawalha and Abdul-Baquee Sharaf. (недоступная ссылка) , pg. 2. : , 2011.
  6. Engineering . www.comp.leeds.ac.uk . Дата обращения: 6 апреля 2018. 9 августа 2017 года.
  7. K. Dukes and N. Habash (2011). от 10 мая 2012 на Wayback Machine International Conference on Parsing Technologies (IWPT). Dublin, Ireland.
  8. M. Albared, N. Omar and M. Ab Aziz (2011). (недоступная ссылка) Intelligent Information and Database Systems. Springer Berlin, Heidelberg.
  9. A. M. Sharaf and E. Atwell (2011). от 8 января 2014 на Wayback Machine 7th International Computing Conference in Arabic (ICCA11). Riyadh, Saudi Arabia.
  10. C. Brierley, M. Sawalha and E. Atwell (2012). от 15 декабря 2018 на Wayback Machine IVACS Annual Symposium. Cambridge.

Ссылки

Источник —

Same as Коранический корпус арабского языка