Interested Article - Генеральный интернет-корпус русского языка

Генера́льный интерне́т-ко́рпус ру́сского языка́ (ГИКРЯ) — доступный для поиска электронный онлайновый корпус русских текстов из сети интернет. Открыт в 2013 году . Корпус включает в себя текстовые материалы из блогосферы , социальных сетей , с крупнейших новостных ресурсов и из литературных журналов .

Цели проекта

Проект имеет статус учебно-научного, и многие задачи компьютерной лингвистики решаются независимыми исследователями и научными группами на материале, полученном ГИКРЯ. В то время как другие корпусные проекты фокусируют свое внимание на художественной литературе и отредактированных текстах, Генеральный интернет-корпус предоставляет российским лингвистам своевременную возможность изучать язык как он есть, со всеми региональными и сленговыми особенностями.

Корпус дает возможность производить:

В разное время НИР и самостоятельные исследования на материале проекта вели студенты, аспиранты и сотрудники МГУ , МФТИ , РГГУ , НГУ , НИУ ВШЭ , ИЯ РАН , ЮФУ , ЧГУ , ВГПУ , ИСАА МГУ .

Научные руководители проекта:

В создании и поддержке проекта участвовали:

Объём и состав корпуса

Объём корпуса на лето 2016 года составляет 19,8 миллиарда словоупотреблений, из них 49 % приходится на « Вконтакте », 40 % — на Живой Журнал , еще по 4 % — на Блоги@Mail.ru и Новости, и 2 % — на Журнальный зал . В сегменте Новостей собраны материалы из источников: РИА Новости , Regnum , Lenta.ru , Росбалт . Тексты снабжены метаразметкой (по дате создания текста, полу, месту и году рождения автора, интернет-жанру и так далее); все тексты снабжены автоматической морфологической разметкой и лемматизированы . Большую часть текстов создают записи за 2013 2014 годы , хотя на некоторых сегментах, например, в Журнальном зале, собраны тексты, начиная с 1994 года .

Подкорпус Слов, млн Текстов
Блоги@Mail.ru 707 9882120
ВКонтакте 9820 193770717
Живой Журнал 8110 73229158
Журнальный зал 313 56547
Новостной подкорпус ( РИА Новости , Regnum , Lenta.ru , Росбалт ) 851 2964897
Весь корпус 19801 279903439

ГИКРЯ является одним из немногих мега-корпусов, достигающих объемом нескольких миллиардов слов.

Корпус Языки Доступ Сайт Объем Возможности
COW: Free, Large Web Corpora in European Languages Английский , французский , немецкий , испанский , шведский , нидерландский бесплатно, после регистрации, возможен ознакомительный доступ без регистрации порядка 30 млрд слов формат KWIC, морфоразметка, поиск по CQP, разметка и поиск по дате, URL , стране, городу и т. д.
Sketch Engine английский , французский , немецкий , итальянский , арабский , русский , испанский , португальский , корейский , японский , китайский ; больше языков доступны платно платно, после регистрации, возможен ознакомительный доступ 86 млрд слов конкордансы, скетч-грамматика, тезаурусы , KWIC, морфоразметка, поиск по CQP
Aranea Corpora английский , русский , финский , французский , немецкий , венгерский , испанский , итальянский , голландский , польский , словацкий бесплатно, после регистрации, возможен ознакомительный доступ без регистрации около 14 млрд слов noSketch Engine, конкордансы, скетч-грамматика, KWIC, морфоразметка, поиск по CQP, сравнение результатов запросов на разных языках
ГИКРЯ Генеральный интернет-корпус русского языка русский бесплатно, регистрация по запросу 20 млрд слов формат KWIC, морфоразметка, конкордансы, поиск по CQP, разметка и поиск по дате, стране, городу, сегменту рунета , полу, году и месту рождения автора, пересылка результатов пользователями друг другу
CORPUS OF GLOBAL WEB-BASED ENGLISH (GloWbE) английский , спецификация 20 стран мира без регистрации 1,9 млрд слов KWIC, конкордансы, коллокаты , сравнение результатов по диалектам , CQP, можно скачать весь корпус целиком

Доступ

В настоящее время интерфейс корпуса находится в стадии бета-тестирования , поэтому доступ к поиску по корпусу предоставляется и является бесплатным, однако предоставляется по заявке.

См. также

Примечания

  1. . Дата обращения: 26 декабря 2019. 16 ноября 2019 года.
  2. . Дата обращения: 8 июня 2016. 26 июня 2016 года.
  3. . Дата обращения: 26 декабря 2019. 5 января 2020 года.
  4. . Дата обращения: 26 декабря 2019. 3 декабря 2019 года.

Литература

Ссылки

Источник —

Same as Генеральный интернет-корпус русского языка