Interested Article - Корпус текстов

В лингвистике кóрпус (множественное число — кóрпусы ) — подобранная и обработанная по определённым правилам совокупность текстов, используемых в качестве базы для исследования языка. Они используются для статистического анализа и проверки статистических гипотез , подтверждения лингвистических правил в данном языке. Корпус текстов является предметом исследования корпусной лингвистики .

Основные свойства корпуса

Среди множества определений корпуса можно выделить его главные свойства :

электронный — в современном понимании корпус должен быть в электронном виде
репрезентативный — должен хорошо «представлять» объект, который моделирует
размеченный — главное отличие корпуса от коллекции текстов
прагматически ориентированный — должен быть создан под определённую задачу

Классификация корпусов

Одна из возможных классификаций корпусов .

Классифицировать корпусы можно по различным признакам: цель создания корпуса, тип языковых данных, «литературность», жанр, динамичность, тип разметки, объём текстов и так далее. По критерию параллельности , например, корпусы можно разделить на одноязычные, двуязычные и многоязычные. Многоязычные и двуязычные делятся на два типа:

параллельные — множество текстов и их переводов на один или несколько языков.
сопоставимые (псевдопараллельные) — оригинальные тексты на двух или нескольких языках.

Разметка корпусов

Разметка заключается в приписывании текстам и их компонентам специальных тегов : лингвистических и внешних (экстралингвистических). Выделяют следующие лингвистические типы разметки: морфологическая, семантическая, синтаксическая, анафорическая, просодическая, дискурсная и т. д. К некоторым корпусам применяются дальнейшие структурные уровни анализа. В частности, некоторые небольшие корпусы могут быть полностью синтаксически размечены. Такие корпусы обычно называют глубоко аннотированными или синтаксическими , а сама синтаксическая структура при этом является деревом зависимостей .

Ручная разметка (аннотирование) текстов — дорогостоящая и трудоемкая задача. На данный момент в открытом доступе представлены различные программные средства для разметки корпусов . Условно их можно разделить на обособленные (stand-alone) и веб-ориентированные (web-based) . При этом акцент разработчиков в последние годы сместился в сторону веб-приложений. Данные системы обладают рядом преимуществ:

возможность одновременной разметки одного документа несколькими людьми
не требуют установки дополнительных программных средств, кроме браузера
гибкое разграничение прав доступа
отображение текущего прогресса процесса разметки
возможность модификации размечаемого корпуса

Интернет как корпус

Современные технологии позволяют создавать «веб-корпусы», то есть корпусы, полученные путём обработки интернет-источников:

Веб-корпус представляет собой особый вид лингвистического корпуса, который создан путем постепенной загрузки текстов из интернета при помощи автоматизированных процедур, которые на лету определяют язык и кодировку отдельных веб страниц, удаляют шаблоны, элементы навигации, ссылки и рекламу (т. н. boilerplate), осуществляют трансформацию на текст, фильтрацию, нормализацию и дедупликацию полученных документов, которые затем можно обработать традиционными инструментами корпусной лингвистики (токенизация, мирфосинтаксическая и синтаксическая аннотация) и внедрить в поисковую корпусную систему. Создание веб-корпуса не только намного дешевле, но прежде всего его размер может быть даже на порядок больше традиционных корпусов .

— Владимѝр Бенко ARANEA — СЕМЕЙСТВО МИЛЛИАРДНЫХ ВЕБ-КОРПУСОВ

Применение

Корпус — основное понятие и база данных корпусной лингвистики. Анализ и обработка разных типов корпусов являются предметом большинства работ в области компьютерной лингвистики (например, извлечение ключевых слов ), распознавания речи и машинного перевода , в которых корпусы часто применяются при создании скрытых марковских моделей для маркирования частей речи и других задач. Корпусы и частотные словари могут быть полезны в обучении иностранным языкам.

Корпусы текстов русского языка

См. также

Примечания

. gramota.ru. Дата обращения: 26 декабря 2019. 17 сентября 2019 года.
Диаграмма создана по материалам книги "Захаров В. П., Богданова С. Ю. Корпусная лингвистика: учебник. 3-е изд., перераб. —СПб.: Изд-во С.-Петерб. ун-та, 2020. — 234 с."
.
. textualheritage.org. Дата обращения: 26 декабря 2019. 9 августа 2020 года.
Глазкова, А. (2018), , Труды Института системного программирования РАН , 30(6): 221–236, doi :
Рубцова, Ю. (2015), , Программные продукты и системы , 1(109): 72–78, doi : . Дата обращения: 24 августа 2020. Архивировано 7 августа 2020 года.

Литература

Ванюшкин А.С., Гращенко Л.А. // Новые информационные технологии в автоматизированных системах. — 2017. — Вып. 20 . — ISSN .
Николаев И. С., Митренина О. В., Ландо Т. М. Прикладная и компьютерная лингвистика. — М. : URSS, 2016. — 320 с.

[1] . gramota.ru. Дата обращения: 26 декабря 2019. 17 сентября 2019 года.

[2] Диаграмма создана по материалам книги "Захаров В. П., Богданова С. Ю. Корпусная лингвистика: учебник. 3-е изд., перераб. —СПб.: Изд-во С.-Петерб. ун-та, 2020. — 234 с."

[_888ba3dfab8467bf-3] .

[4] . textualheritage.org. Дата обращения: 26 декабря 2019. 9 августа 2020 года.

[5] Глазкова, А. (2018), , Труды Института системного программирования РАН , 30(6): 221–236, doi :

[6] Рубцова, Ю. (2015), , Программные продукты и системы , 1(109): 72–78, doi : . Дата обращения: 24 августа 2020. Архивировано 7 августа 2020 года.

Обработка естественного языка
Общие определения	Языковая модель Речевой корпус Стоп-слова Мешок слов AI-полнота N-грамма Биграммный шифр Триграмма
Анализ текста	Частеречная разметка Поверхностно-синтаксический анализ Стемминг Лемматизация Разрешение кореферентности Анализ тональности текста Синтаксический анализ Разрешение лексической многозначности Извлечение информации Идентификация языка
Реферирование
Машинный перевод	Автоматизированный Гибридный На основе правил На основе примеров На основе трансформации Нейронный Статистический Синхронный
Идентификация и сбор данных	Распознавание речи Синтез речи Оптическое распознавание символов Генерация текста
Тематическая модель	Размещение патинко Латентное размещение Дирихле Латентно-семантический анализ
	Конкордансер Предиктивный ввод текста Система проверки правописания
	Виртуальный ассистент Виртуальный собеседник Вопросно-ответная система Голосовой интерфейс Интерактивная литература

Основные свойства корпуса

Классификация корпусов

Разметка корпусов

Интернет как корпус

Применение

Корпусы текстов русского языка

См. также

Примечания

Литература

Второй корпус Потомакской армии

9-й армейский корпус (США)

Корпус стражей исламской революции

Same as Корпус текстов

Перенос текстов

Авторы текстов Тотального диктанта

Дикастерия по интерпретации законодательных текстов

Общество палийских текстов

Транслитерация египетских текстов

Перевод медицинских текстов

Второй корпус Потомакской армии

9-й армейский корпус (США)

Корпус стражей исламской революции

Корпус подготовки офицеров запаса (США)

Корпус судна

51-й армейский корпус (вермахт)

6-й гвардейский стрелковый корпус

Пажеский корпус

21-й армейский корпус (Российская империя)

Белорусский добровольческий корпус

Польский добровольческий корпус

1-й Сибирский армейский корпус

Армейский корпус

Донской кадетский корпус

Силосный корпус

Первый кадетский корпус (Санкт-Петербург)

2-й гвардейский корпус

1-й Кавказский кавалерийский корпус

Корпус инженеров Армии США

1-й гвардейский стрелковый корпус

5-й гвардейский кавалерийский корпус

14-й танковый корпус (вермахт)

1-й парашютный корпус (вермахт)

1-й экспедиционный корпус морской пехоты

Второй кадетский корпус

127-й лёгкий горнострелковый корпус

Братский корпус Знаменского монастыря

5-й воздушно-десантный корпус

130-й стрелковый корпус

Владимирский Киевский кадетский корпус

Немецкий Африканский корпус

5-й армейский корпус (Великая армия)

Первый кадетский корпус

Шуваловский корпус МГУ

1-й Кубанский корпус (ВСЮР)

Корпус внутренней безопасности (Польша)

2-й экспедиционный корпус морской пехоты