Переводчики с немецкого языка
- 1 year ago
- 0
- 0
Мангеймский корпус немецкого языка (COSMAS corpora или DeReKo) — это коллекция современных немецкоязычных текстов, поддерживаемая Институтом немецкого языка в городе Маннгейм (Германия). В корпусе представлены различные типы текстов: научная и научно-популярная литература, большое количество газетных текстов, художественная проза, и др. Представляя собой самое большое в мире электронное собрание современных немецкоязычных текстов, является инструментом корпусной лингвистики .
Мангеймский корпус немецкого языка имеет несколько альтернативных названий, таких как German Reference Corpus, IDS corpora, COSMAS corpora. С 2004 года официальное название корпуса — Deutsches Referenzkorpus (DeReKo).
История создания корпуса в Институте немецкого языка (IDS) началась в 1964 году, когда Пауль Гребе (Paul Grebe) и Ульрих Энгель (Ulrich Engel) создали «Мангеймский Корпус 1» — проект, в котором к 1967 году было успешно собрано около 2,2 млн часто употребляемых слов немецкой письменной речи. С этого времени база электронных текстовых данных дополнялась и расширялась за счёт ряда последующих проектов по сбору корпуса. К 2013 году DeReKo является одним из основных ресурсов во всем мире для изучения немецкого языка . Темпы роста объёма корпуса — около 300 миллионов слов в год. Поставив основной целью «изучение немецкого языка в его современном использовании», Институт IDS проводит политику по обеспечению долгосрочной работы DeReKo.
Ключевыми особенностями DeReKo являются:
Основная цель DeReKo состоит в том, чтобы служить в качестве практической основы для научного исследования современной немецкой письменной речи. Одним из важных принципов является то, что в центре внимания находится сам язык, а не информация, передаваемая им.
В корпусе представлены различные типы текстов: художественная проза, научная и научно-популярная литература, периодика и др. Имеется также подкорпус устной речи (разговорная речь, записи речи носителей различных диалектов и др.). Ресурс включает созданную на основе корпуса базу данных по сочетаемости слов немецкого языка.
Данный корпус содержит 6 основных подкорпусов:
Корпус письменной речи включает в себя 3 собственно Мангеймских корпуса, а также множество других (беллетристика, исторические корпуса, публицистика, собрание сочинений Карла Маркса и Фридриха Энгельса , корпус Томаса Манна, корпус интервью и т. д.).
Объём корпуса составляет более 1846 млн словоупотреблений. В отличие от других известных корпусов (таких как, например, Британский национальный корпус ), DeReKo нацелен на охват максимально возможного объёма текстов, а не на сбалансированность их состава: распределение текстов по времени создания или по типу текста не соответствует заранее заданным процентным соотношениям.
В DeReKo присутствует лемматизация и морфологическая разметка , но лишь для части текстов. Однако, в архиве имеется несколько полных согласованных аннотаций на разных языковых уровнях (по крайней мере, на уровнях части речи и синтаксиса). Из-за большого размера корпуса ни ручное аннотирование, ни ручное управление автоматической аннотацией не могут быть осуществимы. В результате ожидаемая степень неточности очень высока, особенно там, где есть лингвистически сложные явления.
Основные единицы текста в корпусе DeReKo сопровождаются специальной информацией — метаданными . Важным принципом корпуса является то, что эти метаданные должны быть доступными. Какая конкретно информация доступна, зависит от источника данных и типа текста.
Основные категории метаданных:
Из-за авторских прав и лицензионных ограничений базы данных архивов DeReKo нельзя копировать или загружать с сайта на жесткий диск. Но эти данные можно запросить и проанализировать бесплатно через систему COSMAS II , пользователи которой должны зарегистрироваться и принять соглашение на использование данных исключительно для некоммерческих, образовательных целей. COSMAS II позволяет использовать корпус DeReKo для решения конкретных научных задач.