Interested Article - СинТагРус

СинТагРус ( англ. SynTagRus , сокр. от англ. Syntactically Tagged Russian text corpus , «синтаксически аннотированный корпус русских текстов») — глубоко аннотированный корпус текстов русского языка , первый корпус русских текстов с синтаксической разметкой. Разрабатывается с 1998 года Лабораторией компьютерной лингвистики ИППИ РАН в сотрудничестве с Сектором теоретической семантики ИРЯ РАН . Корпус состоит из текстов различных жанров; общее количество словоупотреблений составляет более 1,5 миллионов .

СинТагРус основан на идеологии многоцелевого лингвистического процессора ЭТАП . Особенностью корпуса является наличие нескольких уровней аннотации разной глубины, включая полную морфологическую и синтаксическую разметку со снятой омонимией . Языком разметки является XML .

СинТагРус распространяется по некоммерческой лицензии . Кроме того, корпус был также преобразован в различные форматы ; некоторые из этих версий (или конвертеров) находятся в открытом доступе, а ограниченная версия оригинального корпуса входит в состав Национального корпуса русского языка .

История

Результатом появления в начале 1990-х годов корпусов с синтаксической разметкой стало развитие эмпирических методов в задачах обработки естественного языка . Причём использование таких корпусов нашло своё применение не только в контексте собственно синтаксического анализа, но и в ряде других задач, среди которых разрешение лексической многозначности , семантический анализ и др.

К концу 1990-х годов для большинства основных европейских языков были созданы аннотированные корпусы, тогда как для русского языка таких корпусов фактически не существовало . Более того, даже существовавшие на тот момент неразмеченные корпусы (например, ) не были общедоступными .

По этим причинам с 1998 года началась разработка первого аннотированного корпуса русского языка СинТагРус , ставшего впоследствии эталоном среди корпусов с синтаксической разметкой . При этом разработчики принимали участие и в создании Национального корпуса русского языка; в частности, СинТагРус (с некоторыми ограничениями) является составной, но полностью автономной частью НКРЯ с момента создания последнего . В НКРЯ для СинТагРуса (как подкорпуса) используется также название «глубоко аннотированный корпус» .

Разработка СинТагРуса осуществляется Лабораторией компьютерной лингвистики ИППИ РАН в сотрудничестве с Сектором теоретической семантики ИРЯ РАН .

Состав корпуса

Исходным материалом для СинТагРуса послужил : было взято около 10 000 предложений из текстов художественных произведений. Впоследствии в корпус были добавлены короткие (до 30 предложений) тексты, взятые с сайтов популярных новостных изданий ( yandex.ru , rbc.ru , polit.ru , lenta.ru , , news.ru ) .

СинТагРус постоянно развивается и по состоянию на 2023 год насчитывает около 107 тысяч предложений (более 1,5 миллионов словоупотреблений) , взятых из текстов следующих жанров :

Типы и формат разметки

Разметка в СинТагРусе на примере предложения «Сначала его поили чаем, непременно в присутствии пациентки.»

Отличительной особенностью СинТагРуса по сравнению с другими аннотированными корпусами русского языка является наличие нескольких уровней аннотации разной глубины, которые могут извлекаться из корпуса независимо, причём количество этих уровней потенциально не ограничено. Языком разметки корпуса является XML , а формат разметки совместим с формализмом , за исключением некоторых дополнительно введённых элементов и атрибутов . В основном разметка произвольного текста осуществляется в два шага :

  1. Предварительная разметка текста в автоматическом режиме средствами лингвистического процессора ЭТАП, являющегося практической реализацией модели «Смысл — Текст» .
  2. Проверка и, в случае необходимости, корректирование разметки экспертом- лингвистом .

Далее будут перечислены имеющиеся в корпусе типы разметки.

Разбиение текста на предложения и лексические элементы

Каждый текст в СинТагРусе разбит на предложения. Каждое предложение является элементом с именем S , и у каждого такого элемента есть атрибут ID , значением которого является порядковый номер предложения в тексте. Аналогично каждое предложение разбито на лексические элементы с именем W , и у каждого такого элемента есть атрибут ID , значением которого является порядковый номер слова в данном предложении . Знаки препинания оформляются в виде текста тега предложения (с сохранением их относительного расположения в исходном тексте) и не выражаются собственными тегами .

Морфологическая разметка

Морфологическая структура словоформы представляет собой имя лексемы , или лемму , которой приписывается часть речи и морфологические характеристики , то есть значения соответствующих морфологических категорий . Для соответствующей словоформы лемма является значением атрибута LEMMA , а часть речи и морфологические характеристики совместно являются значением атрибута FEAT .

Синтаксическая разметка

Графическое представление разметки в СинТагРусе на примере предложения «Сначала его поили чаем, непременно в присутствии пациентки.», созданное с помощью средств лингвистического процессора ЭТАП и иллюстрирующее древовидную структуру синтаксической разметки

Синтаксическая разметка предложений корпуса осуществляется в рамках грамматики зависимостей : синтаксической структурой является ориентированное дерево , узлами которого являются слова, а каждое ребро направлено от слова-хозяина к слову-слуге и соответствует некоторому синтаксическому отношению . Слово, соответствующее корню дерева, называется вершиной предложения и, в отличие от остальных слов предложения, синтаксически не зависит ни от какого другого. Синтаксические группы оформляются в виде поддеревьев исходного дерева: в каждом таком поддереве один из членов группы является её представителем во внешних связях и подчиняет остальные члены группы . Всего в СинТагРусе различается около 70 типов синтаксических отношений .

Для записи информации о синтаксической структуре предложения в СинТагРусе используются два атрибута каждого слова предложения: DOM , значением которого является ID слова-хозяина, и LINK , значением которого является имя соответствующего синтаксического отношения . Вершина предложения имеет специальное значение _root атрибута DOM .

Лексико-семантическая разметка

Каждой словоформе, помимо леммы , приписывается атрибут KSNAME , значением которого является имя соответствующей статьи толково-комбинаторного словаря лингвистического процессора ЭТАП. За счёт этого, с одной стороны, уточняется значение многозначных и омонимичных слов, а с другой стороны, устанавливается связь со статьями словаря, который используется процессором ЭТАП, и становится доступной содержащаяся в этих статьях информация о семантических свойствах слов .

Лексико-функциональная разметка

В предложениях отмечаются словосочетания, которые можно интерпретировать в терминах лексических функций . Для разметки таких словосочетаний внутри предложения создаются дополнительные элементы отдельно от самих словоформ .

Микросинтаксическая разметка

Под микросинтаксическими единицами в СинТагРусе понимаются фразеологизмы с синтаксической спецификой . В качестве примера можно привести составной предлог . С одной стороны, он синтаксически близок к первообразным предлогам. Действительно, между элементами этого предлога нельзя вставить местоименное определение к существительному, как в других предложных конструкциях типа , и др. Кроме того, если этому предлогу в предложении подчиняется личное местоимение третьего лица, то к такому местоимению в большинстве случаев добавляется начальное н- , как и в случае первообразных предлогов. С другой стороны, первая часть некоторых парных союзов , а также частица ли или же , может располагаться между предлогом в силу и зависящим от него существительным, что не дает возможности отнести этот предлог к первообразным .

Если в некотором предложении корпуса встречается микросинтаксическая единица, то добавляется новый атрибут предложения — MICROSYNT , значением которого являются имя соответствующей микросинтаксической единицы и её линейные границы .

Анафорическая разметка

Для встреченного в тексте анафорического местоимения указывается его , то есть выражение, к которому это местоимение отсылает. У предложения, в котором найдено анафорическое местоимение, имеется дополнительный атрибут COREF , значением которого является список пар местоимение — антецедент, соответствующий данному местоимению. Для каждого анафорического местоимения указывается его линейное положение в предложении, а для антецедента, помимо этого, дополнительно указывается, в каком предложении относительно рассматриваемого он находится (в пределах трёх предложений в обе стороны) .

Обработка эллиптических конструкций

В СинТагРусе опущенные фрагменты эллиптированных предложений восстанавливаются явно. Соответствующая восстановленная словоформа размечается точно так же, как и другие словоформы; в частности, от таких «фантомных» слов проводятся все необходимые синтаксические связи. При этом словоформе приписывается атрибут NODETYPE со значением FANTOM .

Использование корпуса

СинТагРус используется в различных областях. С одной стороны, на его основе проводятся чисто лингвистические исследования, как теоретические, так и практические (в частности, в области лексикографии ). С другой стороны, корпус находит своё применение в задачах компьютерной лингвистики и обработки естественного языка как источник лингвистических данных, например, при создании синтаксических анализаторов . Эти задачи могут решаться с применением различных форматов разметки. В то же время объединение нескольких корпусов с разной разметкой в один делает последний более представительным. Эти обстоятельства приводят к задаче конвертации корпуса .

Предпринимались неоднократные попытки перевода СинТагРуса в другие форматы разметки: известны эксперименты по переводу корпуса в форматы и . Кроме того, СинТагРус был успешно переведён в форматы , и . Однако преобразование, во-первых, во всех случаях касалось только морфологической и синтаксической разметок, а во-вторых, осуществлялось в автоматическом режиме, что стало препятствием на пути к полноценной конвертации. Так, например, часть речи NID не удалось однозначно перевести в формат (в котором такой части речи нет) автоматически, поэтому все предложения СинТагРуса, в которых хотя бы одна словоформа имела такую часть речи, были исключены из корпуса перед конвертацией .

Доступ

СинТагРус бесплатно распространяется по некоммерческой лицензии . Кроме того, версия корпуса без некоторых типов разметки доступна для некоммерческого использования в научно-исследовательских и учебных целях как подкорпус Национального корпуса русского языка и находится в открытом доступе , так же как и версии в форматах (лицензия CC BY-NC-SA 4.0 ) и (доступен только конвертер) .

Примечания

  1. Eric Brill , Raymond J. Mooney. (англ.) // AI Magazine. — AAAI, 1997. — Vol. 18 , no. 4 . — P. 13—24 .
  2. Богуславский И. М. , Григорьев Н. В. , Григорьева С. А. , Крейдлин Л. Г. , Фрид Н. Е. // Труды Международного семинара по компьютерной лингвистике и её приложениям «Диалог-2000». — Протвино, 2000. 31 июля 2019 года.
  3. Резникова Т. И. , Копотев М. В. // Национальный корпус русского языка: 2003—2005. — М. : Индрик , 2005. — С. 31—61 . 31 июля 2019 года.
  4. Иншакова Е. С. , Иомдин Л. Л. , Митюшин Л. Г. , Сизов В. Г. , Фролова Т. И. , Цинман Л. Л. // Труды Института русского языка им. В. В. Виноградова. — М. : «Нестор-История», 2019. — Вып. 21 . — С. 14—40 . 26 марта 2020 года.
  5. Москвина А. Д. , Орлова Д. , Паничева П. В. , Митрофанова О. А. // Труды объединённой научной конференции «Интернет и современное общество». — 2016. — С. 44—54 . 10 октября 2019 года.
  6. Кибрик А. Е. , Федорова О. В., Татевосов С. Г. , Лютикова Е. А., Кибрик А. А. , Кобозева И. М. , Фаликман М. В., Ченки А., Секерина И., Николаева Ю. В., Даниэль М. А., , Алпатов В. М. , Беляев О. И., Толдова С. Ю., Бонч-Осмоловская А. А. , Подлесская В. И., Кривнова О. Ф. Корпусная лингвистика // / под ред. О. В. Федоровой и С. Г. Татевосова. — М. : Буки Веди, 2019. — С. 420. — 672 с. — ISBN 978-5-4465-2188-3 .
  7. Сичинава Д. В. // Национальный корпус русского языка: 2003—2005. — М. : Индрик, 2005. — С. 21—30 . 31 июля 2019 года.
  8. Апресян Ю. Д. , Богуславский И. М. , Иомдин Б. Л. , Иомдин Л. Л. , Санников А. В. , Санников В. З. , Сизов В. Г. , Цинман Л. Л. // Национальный корпус русского языка: 2003—2005. — М. : Индрик, 2005. — С. 193—214 . 31 июля 2019 года.
  9. Захаров В. П. , Богданова С. Ю. Корпусная лингвистика . — 3-е изд., перераб. — СПб. : Издательство Санкт-Петербургского университета, 2020. — С. 47. — 234 с. — ISBN 978-5-288-05997-1 .
  10. Апресян Ю. Д. , Иомдин Л. Л. , Санников А. В. , Сизов В. Г. // Труды Международной конференции «Корпусная лингвистика-2004». — СПб. : СПбГУ, 2004. — С. 41—54 . 31 июля 2019 года.
  11. Богуславский И. М. , Григорьев Н. В. , Иомдин Л. Л. , Крейдлин Л. Г. , Фрид Н. Е. , Чардин И. С. // Доклады научной конференции «Корпусная лингвистика и лингвистические базы данных». — СПб. : СПбГУ, 2002. — С. 40—50 . 31 июля 2019 года.
  12. . Лаборатория компьютерной лингвистики ИППИ РАН (4 мая 2023). Дата обращения: 5 мая 2023. 22 февраля 2020 года.
  13. Дяченко П. В. , Иомдин Л. Л. , Лазурский А. В. , Митюшин Л. Г. , Подлесская О. Ю. , Сизов В. Г. , Фролова Т. И. , Цинман Л. Л. // Сборник «Национальный корпус русского языка: 10 лет проекту». — М. : Труды Института русского языка им. В. В. Виноградова, 2015. — Вып. 6 . — С. 272—299 . 31 июля 2019 года.
  14. Boguslavsky I. , Iomdin L. , Sizov V. , Tsinman L. , Petrochenkov V. (англ.) // Proceedings of the International Conference on Dependency Linguistics. — 2011. — P. 318—327 . 31 июля 2019 года.
  15. Droganova K. , Lyashevskaya O. , Zeman D. (англ.) // Proceedings of the 17th International Workshop on Treebanks and Linguistic Theories (TLT 2018). — Oslo University, Norway: Linköping University Electronic Press, 2018. — P. 52—65 . 19 марта 2020 года.
  16. Igor Boguslavsky , Ivan Chardin , Svetlana Grigorjeva , Nikolai Grigoriev , Leonid Iomdin , Lеonid Kreydlin , Nadezhda Frid. (англ.) // Proceedings of the Third International Conference on Language Resources and Evaluation (LREC-2002). — Las Palmas, 2002. — Vol. III . — P. 852—856 . 10 августа 2017 года.
  17. . Национальный корпус русского языка . Дата обращения: 29 марта 2020. 25 марта 2020 года.
  18. Апресян Ю. Д. , Богуславский И. М. , Иомдин Л. Л. , Лазурский А. В. , Митюшин Л. Г. , Санников В. З. , Цинман Л. Л. Лингвистический процессор для сложных информационных систем. — М. : Наука , 1992. — С. 32—40, 56—73. — 256 с.
  19. Leonid Iomdin , Victor Sizov. (англ.) // Research Infrastructure for Digital Lexicography. — Ljubljana: Jožef Stefan Institute, 2009. — P. 1—12 .
  20. Иомдин Л. Л. // Труды международной научной конференции «Корпусная лингвистика — 2017». — СПб. : СПбГУ, 2017. — С. 188—194 . 20 ноября 2021 года.
  21. Иомдин Л. Л. // Компьютерная лингвистика и интел-лектуальные технологии. — М. : РГГУ, 2008. — С. 178—184 . 29 августа 2019 года.
  22. Droganova K. , Zeman D. (англ.) // Technical report. — Institute of Formal and Applied Linguistics, Faculty of Mathematics and Physics, Charles University, 2016. 8 июня 2021 года.
  23. Luu A. , Malamud S. A. , Xue N. (англ.) // Proceedings of the 10th Linguistic Annotation Workshop held in conjunction with ACL 2016 (LAW-X 2016). — 2016. — P. 16—21 . 27 февраля 2019 года.
  24. Lipenkova J. , Souček M. (англ.) // Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics. — 2014. — Vol. 2 . — P. 143—147 . 8 июня 2018 года.
  25. Ляшевская О. Н. Корпусные инструменты в грамматических исследованиях русского языка. — М. : Издательский дом ЯСК, 2016. — С. 193. — 520 с.

Ссылки

Источник —

Same as СинТагРус