Interested Article - Национальный корпус русского языка

Национа́льный ко́рпус ру́сского языка́ (НКРЯ) — доступный для поиска электронный онлайн - корпус русскоязычных текстов .

Корпус открыт 29 апреля 2004 года. Также доступен для поиска исторический корпус церковнославянских, древнерусских (XI—XIV века) и среднерусских (XV — начало XVIII века) текстов.

Составители

Работы по созданию корпуса были начаты в 2001 году группой филологов из Москвы , Санкт-Петербурга , Воронежа и других городов.

В программе по созданию Национального корпуса русского языка участвуют специалисты следующих организаций :

Состав корпуса

( ИРЯ РАН ), доклад «Инструментарий национального корпуса русского языка в диахронических исследованиях», « », СПбГУ

В корпус входят как письменные тексты (художественные, мемуары, публицистика, научная, религиозная литература, повседневная печатная продукция), так и записи устных текстов (публичной речи и частных бесед).

В корпус также входят подкорпусы поэтических и диалектных текстов, корпусы параллельных текстов (корпусы, параллельные с русским, доступны для следующих языков: английский, армянский, белорусский, болгарский, бурятский, испанский, итальянский, китайский, латышский, немецкий, польский, украинский, французский, шведский, эстонский и многоязычный), отдельный газетный корпус (материалы СМИ начала XXI века), церковнославянский корпус (богослужебные тексты, современные (XIX—XX век) и более ранних периодов), исторический (в том числе древнерусский, старорусский, берестяных грамот), синтаксический, акцентологический, мультимедийный и обучающий подкорпусы.

С 2010 года в составе исторического подкорпуса Национального корпуса русского языка доступен текстовый корпус берестяных грамот с полной морфологической разметкой. Тексты берестяных грамот в составе корпуса интерактивно связаны с их представлением на сайте .

Объём корпуса

Внешние видеофайлы
Зобнин А. // ФКН ВШЭ, 2015, YouTube

Объём основного корпуса на декабрь 2023 года составлял 375 млн словоупотреблений, а общий объём корпусов превышает больше 2 млрд словоупотреблений .

Тексты снабжены метаразметкой (по дате создания, автору, жанру и тому подобному); словоформы в текстах снабжены автоматической морфологической и семантической разметкой; параллельные тексты выровнены; тексты поэтического корпуса снабжены также особой метрической разметкой.

1,5 % текстов снабжены морфологической и семантической разметкой со снятой вручную омонимией («дезамбигуированный подкорпус»).

Корпус Число текстов Число предложений Число словоупотреблений % словоупотреблений
Дезамбигуированная часть корпуса 2 тыс. 500 тыс. 6 млн 1,6 %
Основной корпус 84 тыс. 19,1 млн 209 млн 57,3 %
Весь корпус 342 тыс. 32 млн 364 млн 100 %

Доступ

В настоящее время свободным и бесплатным является только поиск по корпусу. Сайт корпуса и поиск по нему поддерживаются компанией « Яндекс », сотрудники которой принимали участие также в разработке программного обеспечения корпуса. Доступ ко всему корпусу (копирование и передача его базы данных) запрещён лицензионным соглашением. Для получения доступа к 1/6 размеченной части подкорпуса необходимо зарегистрироваться и принять лицензионное соглашение . Проблему с ограничением доступа призван решить проект «Открытый корпус», также создающий корпус русского языка, но под свободной лицензией .

См. также

Примечания

  1. . Национальный корпус русского языка . Дата обращения: 7 марта 2018. 8 марта 2018 года.
  2. . Национальный корпус русского языка . Дата обращения: 7 марта 2018. 8 марта 2018 года.
  3. Зализняк А. А., Янин В. Л., Гиппиус А. А. от 27 марта 2019 на Wayback Machine . Том XII. — М.: Языки славянской культуры, 2015. — 288 с.
  4. . ruscorpora.ru. Дата обращения: 7 марта 2018. 7 октября 2011 года.
  5. . Национальный корпус русского языка . Дата обращения: 7 марта 2018. 19 февраля 2018 года.
  6. . Национальный корпус русского языка . Дата обращения: 7 марта 2018. 19 февраля 2018 года.
  7. . Национальный корпус русского языка . Дата обращения: 7 марта 2018. 8 марта 2018 года.
  8. . opencorpora.org . Дата обращения: 26 января 2022. 26 января 2022 года.

Литература

Ссылки

Источник —

Same as Национальный корпус русского языка