Interested Article - СинТагРус
- 2020-01-23
- 1
СинТагРус ( англ. SynTagRus , сокр. от англ. Syntactically Tagged Russian text corpus , «синтаксически аннотированный корпус русских текстов») — глубоко аннотированный корпус текстов русского языка , первый корпус русских текстов с синтаксической разметкой. Разрабатывается с 1998 года Лабораторией компьютерной лингвистики ИППИ РАН в сотрудничестве с Сектором теоретической семантики ИРЯ РАН . Корпус состоит из текстов различных жанров; общее количество словоупотреблений составляет более 1,5 миллионов .
СинТагРус основан на идеологии многоцелевого лингвистического процессора ЭТАП . Особенностью корпуса является наличие нескольких уровней аннотации разной глубины, включая полную морфологическую и синтаксическую разметку со снятой омонимией . Языком разметки является XML .
СинТагРус распространяется по некоммерческой лицензии . Кроме того, корпус был также преобразован в различные форматы ; некоторые из этих версий (или конвертеров) находятся в открытом доступе, а ограниченная версия оригинального корпуса входит в состав Национального корпуса русского языка .
История
Результатом появления в начале 1990-х годов корпусов с синтаксической разметкой стало развитие эмпирических методов в задачах обработки естественного языка . Причём использование таких корпусов нашло своё применение не только в контексте собственно синтаксического анализа, но и в ряде других задач, среди которых разрешение лексической многозначности , семантический анализ и др.
К концу 1990-х годов для большинства основных европейских языков были созданы аннотированные корпусы, тогда как для русского языка таких корпусов фактически не существовало . Более того, даже существовавшие на тот момент неразмеченные корпусы (например, ) не были общедоступными .
По этим причинам с 1998 года началась разработка первого аннотированного корпуса русского языка СинТагРус , ставшего впоследствии эталоном среди корпусов с синтаксической разметкой . При этом разработчики принимали участие и в создании Национального корпуса русского языка; в частности, СинТагРус (с некоторыми ограничениями) является составной, но полностью автономной частью НКРЯ с момента создания последнего . В НКРЯ для СинТагРуса (как подкорпуса) используется также название «глубоко аннотированный корпус» .
Разработка СинТагРуса осуществляется Лабораторией компьютерной лингвистики ИППИ РАН в сотрудничестве с Сектором теоретической семантики ИРЯ РАН .
Состав корпуса
Исходным материалом для СинТагРуса послужил : было взято около 10 000 предложений из текстов художественных произведений. Впоследствии в корпус были добавлены короткие (до 30 предложений) тексты, взятые с сайтов популярных новостных изданий ( yandex.ru , rbc.ru , polit.ru , lenta.ru , , news.ru ) .
СинТагРус постоянно развивается и по состоянию на 2023 год насчитывает около 107 тысяч предложений (более 1,5 миллионов словоупотреблений) , взятых из текстов следующих жанров :
- художественная проза XX века;
- современная научно-популярная литература ;
- публицистика ;
- биографии ;
- газетные и журнальные статьи , опубликованные в период с 1960 года по настоящее время ;
- новостные ленты (тексты общественно-политического, культурного, экономического и научно-технического характера).
Типы и формат разметки
Отличительной особенностью СинТагРуса по сравнению с другими аннотированными корпусами русского языка является наличие нескольких уровней аннотации разной глубины, которые могут извлекаться из корпуса независимо, причём количество этих уровней потенциально не ограничено. Языком разметки корпуса является XML , а формат разметки совместим с формализмом , за исключением некоторых дополнительно введённых элементов и атрибутов . В основном разметка произвольного текста осуществляется в два шага :
- Предварительная разметка текста в автоматическом режиме средствами лингвистического процессора ЭТАП, являющегося практической реализацией модели «Смысл — Текст» .
- Проверка и, в случае необходимости, корректирование разметки экспертом- лингвистом .
Далее будут перечислены имеющиеся в корпусе типы разметки.
Разбиение текста на предложения и лексические элементы
Каждый текст в СинТагРусе разбит на предложения. Каждое предложение является элементом с именем S , и у каждого такого элемента есть атрибут ID , значением которого является порядковый номер предложения в тексте. Аналогично каждое предложение разбито на лексические элементы с именем W , и у каждого такого элемента есть атрибут ID , значением которого является порядковый номер слова в данном предложении . Знаки препинания оформляются в виде текста тега предложения (с сохранением их относительного расположения в исходном тексте) и не выражаются собственными тегами .
Морфологическая разметка
Морфологическая структура словоформы представляет собой имя лексемы , или лемму , которой приписывается часть речи и морфологические характеристики , то есть значения соответствующих морфологических категорий . Для соответствующей словоформы лемма является значением атрибута LEMMA , а часть речи и морфологические характеристики совместно являются значением атрибута FEAT .
Часть речи | Сокращение | Примеры |
---|---|---|
Существительное | S | завод , я |
Прилагательное | A | новый , мой |
Глагол | V | одеваться |
Наречие | ADV | плохо , отчасти |
Числительное | NUM | пять , 2 |
Предлог | PR | под |
Композит | COM | авиа , гидро |
Союз | CONJ | и |
Частица | PART | всё-таки |
Междометие | INTJ | то-то |
Слово — иноязычное вкрапление | NID | WhatsApp , Берлинер Цайтунг |
Морфологическая характеристика | Сокращение | Примечание |
---|---|---|
Одушевлённость | ||
Одушевлённое | ОД | |
Неодушевлённое | НЕОД | |
Род | ||
Мужской | МУЖ | |
Женский | ЖЕН | |
Средний | СРЕД | |
Число | ||
Единственное | ЕД | |
Множественное | МН | |
Падеж | ||
Именительный | ИМ | |
Родительный | РОД | |
Партитивный | ПАРТ | Указывается только для существительных, у которых эта форма графически отличается от формы родительного падежа |
Дательный | ДАТ | |
Винительный | ВИН | |
Творительный | ТВОР | |
Предложный | ПР | |
Местный | МЕСТН | Указывается только для существительных, у которых эта форма графически отличается от формы предложного падежа |
Звательный | ЗВ | Указывается только для существительных, у которых эта форма графически отличается от формы именительного падежа |
Степень сравнения | ||
Сравнительная | СРАВ | |
Превосходная | ПРЕВ | |
Краткость | ||
Краткое | КР | |
Репрезентация | ||
Инфинитив | ИНФ | |
Причастие | ПРИЧ | |
Деепричастие | ДЕЕПР | |
Наклонение | ||
Изъявительное | ИЗЪЯВ | |
Повелительное | ПОВ | |
Вид | ||
Несовершенный | НЕСОВ | |
Совершенный | СОВ | |
Время | ||
Непрошедшее | НЕПРОШ | |
Прошедшее | ПРОШ | |
Настоящее | НАСТ | Приписывается только глаголу быть в личной форме |
Лицо | ||
Первое | 1-Л | Приписывается только глаголам |
Второе | 2-Л | |
Третье | 3-Л | |
Залог | ||
Страдательный | СТРАД | |
Дополнительные характеристики | ||
Словосложение | СЛ | |
Смягчённая сравнительная степень | СМЯГ |
Синтаксическая разметка
Синтаксическая разметка предложений корпуса осуществляется в рамках грамматики зависимостей : синтаксической структурой является ориентированное дерево , узлами которого являются слова, а каждое ребро направлено от слова-хозяина к слову-слуге и соответствует некоторому синтаксическому отношению . Слово, соответствующее корню дерева, называется вершиной предложения и, в отличие от остальных слов предложения, синтаксически не зависит ни от какого другого. Синтаксические группы оформляются в виде поддеревьев исходного дерева: в каждом таком поддереве один из членов группы является её представителем во внешних связях и подчиняет остальные члены группы . Всего в СинТагРусе различается около 70 типов синтаксических отношений .
Синтаксическое отношение | Сокращение | Слово-хозяин | Слово-слуга |
---|---|---|---|
Предикативное | предик | Сказуемое | Подлежащее |
Дательно-субъектное | дат-субъект | Слово, обозначающее состояние | субъект состояния, обозначаемого словом-хозяином |
Агентивное | агент | Слово, обозначающее действие | Субъект действия, обозначаемого словом-хозяином |
Квазиагентивное | квазиагент | Предикатное существительное | Слово, реализующее первую синтаксическую валентность слова-хозяина |
Несобственно-агентивное | несобст-агент | Глагол | Слово, реализующее первую семантическую валентность существительного, являющегося семантическим актантом слова-хозяина |
Первое комплетивное | 1-компл | Предикатное слово | Синтаксический актант слова-хозяина, за исключением первого. Так, первое комплетивное отношение относится ко второму актанту, второе — к третьему и т. д. |
Второе комплетивное | 2-компл | ||
Третье комплетивное | 3-компл | ||
Четвертое комплетивное | 4-компл | ||
Пятое комплетивное | 5-компл | ||
Присвязочное | присвяз | Глагол- связка | Именная часть сказуемого |
Первое несобственно-комплетивное | 1-несобст-компл | Функциональный глагол | Дополнение (первое, второе и т. д.), семантическим хозяином которого является некоторый семантический актант слова-хозяина |
Второе несобственно-комплетивное | 2-несобст-компл | ||
Третье несобственно-комплетивное | 3-несобст-компл | ||
Четвертое несобственно-комплетивное | 4-несобст-компл | ||
Пятое несобственно-комплетивное | 5-несобст-компл | ||
Неактантно-комплетивное | неакт-компл | Предикатное слово | Слово, не являющееся полноценным семантическим актантом слова-хозяина, но по синтаксической функции близкое к дополнению |
Комплетивно-аппозитивное | компл-аппоз | Параметрическое существительное или существительное типа рейс , маршрут , поезд | Семантический актант слова-хозяина, если этот актант выражается именительным падежом или его синтаксическим эквивалентом |
Предложное | предл | Предлог | Вершина именной группы, зависящая от предлога |
Подчинительно-союзное | подч-союзн | Подчинительный союз | Вершина придаточного предложения, вводимого починительным союзом |
Инфинитивно-союзное | инф-союзн | Подчинительный союз | Инфинитив |
Сравнительное | сравнит | Прилагательное или наречие в сравнительной степени | Вершина именной группы в родительном падеже, представляющая второй из сравниваемых членов, либо сравнительный союз чем |
Глагол, имя или наречие | Сравнительный союз | ||
Сравнительно-союзное | сравн-союзн | Сравнительный союз | Второй из сравниваемых членов сравнительной конструкции |
Элективное | электив | Числительное, порядковое прилагательное, прилагательное в превосходной степени или прилагательное со словом самый | Предлог из или среди , вводящий указание на множество, в котором производится выбор |
Сентенциально-предикативное | сент-предик | Вершина предложения, выражающего ситуацию, описываемую в идентифицирующей конструкции | Указательное местоименное существительное это или то в именительном падеже |
Адресатно-присвязочное | адр-присв | Слово-отношение, выступающее в качестве именной части сказуемого при (возможно, нулевой) связке | Существительное в дательном падеже, заполняющее, по существу, синтаксическую валентность слова-хозяина |
Синтаксическое отношение | Сокращение | Слово-хозяин | Слово-слуга |
---|---|---|---|
Определительные | |||
Определительное | опред | Существительное или Прилагательное | Прилагательное или причастие |
Описательно-определительное | оп-опред | Существительное или прилагательное | Прилагательное или причастие, выступающее в качестве обособленного определения |
Аппроксимативно-порядковое | аппрокс-порядк | Существительное | Порядковое прилагательное |
Релятивное | релят | Существительное или прилагательное | Вершина придаточного определительного |
Общеатрибутивные | |||
Атрибутивное | атриб | Существительное или прилагательное | Несогласованное определение |
Композитное | композ | Вторая часть сложного слова | Первая часть сложного слова |
Аппозитивные | |||
Аппозитивное | аппоз | Существительное | Следующее за ним приложение |
Обособленно-аппозитивное | об-аппоз | Существительное | Обособленное приложение к слову-хозяину |
Номинативно-аппозитивное | ном-аппоз | Существительное | Вершина любой группы в кавычках, выражающей название |
Нумеративно-аппозитивное | нум-аппоз | Существительное, обозначающее регулярно нумерующиеся объекты | Имя числительное в именительном падеже либо записанное цифрами (обозначающее номер) |
Количественные | |||
Количественное | количест | Существительное | Числительное, стоящее в препозиции |
Аппроксимативно-количественное | аппрокс-колич | Существительное | Числительное, стоящее в |
Количественное-копредикативное | колич-копред | Глагол, при котором стоит существительное в родительном падеже, выступающее при нём в качестве подлежащего | Вершина группы числительного или вершина именной группы с количественным значением |
Количественно-ограничительное | колич-огран | Прилагательное или наречие в сравнительной степени | Наречие или вершина группы с предлогами в или на , указывающая на интенсивность |
Распределительное | распред | Вершина именной группы, обозначающая некий параметр (цену, скорость, вес и т. п.) | Существительное в именительном падеже или вершина группы с предлогами в , на , за , указывающая на единицу измерения |
Аддитивное | аддит | Числительное или вершина количественной группы | Числительное или вершина количественной группы |
Обстоятельственные | |||
Обстоятельственное | обст | Глагол или слово другой части речи, являющееся вершиной предложения | Обстоятельство |
Длительное | длительн | Глагол | Обстоятельство длительности, выражаемое существительным в винительном падеже или предложной группой со значением приблизительного количества или распределительности |
Кратно-длительное | кратно-длительн | Глагол | Обстоятельство многократной длительности, выражаемое существительным в творительном падеже множественного числа |
Дистанционное | дистанц | Глагол | Обстоятельство пространственной протяженности, выражаемое существительным в винительном падеже или предложной группой со значением приблизительного количества или распределительности |
Обстоятельственно-тавтологическое | обст-тавт | Глагол | Существительное в творительном падеже, дублирующее часть значения слова-хозяина |
Субъектно-обстоятельственное | суб-обст | Глагол | Обстоятельство в творительном падеже, характеризующее одновременно субъект действия |
Объектно-обстоятельственное | об-обст | Глагол | Обстоятельство в творительном падеже, характеризующее одновременно объект действия |
Субъектно-копредикативное | суб-копр | Глагол | Вершина именной группы в именительном или творительном падеже, либо вершина предложной группы, выступающая в функции, близкой к функции именной части составного сказуемого, но по смыслу характеризующая подлежащее и (в случае именной группы) согласующаяся с ним по роду и числу |
Объектно-копредикативное | об-копр | Глагол | Вершина именной группы в творительном или винительном падеже или вершина предложной группы, характеризующая дополнение. Если слово-слуга выражено именной группой, то оно согласуется с дополнением по роду и числу |
Ограничительное | огранич | Слово любой части речи | Частица или ограничительное наречие |
Вводное | вводн | Сказуемое или другой член предложения | Вводное слово , вводный оборот, предложение или обращение |
Изъяснительное | изъясн | Вершина главного предложения | Вершина придаточного предложения, включающего союзное слово что , отчего или почему |
Разъяснительное | разъяснит | Произвольное слово | Слово, которое имеет зависимые и вместе с ними сообщает дополнительную информацию о слове-хозяине или группе слов, представленных словом-хозяином. Необходимо присутствие формального «маркера разъяснения», которым может быть знак препинания или выражение, вводящее дополнительную информацию |
Примыкательное | примыкат | Слово, являющееся «хозяином» выражения, вершиной которого является слово-слуга | Вершина выражения, зависящего от слова-хозяина, расположенного справа от слова-хозяина и заключенного в скобки или ограниченного с обеих сторон тире |
Уточнительное | уточн | Представитель (вершина) некоторого выражения | Представитель некоторого выражения. Это выражение семантически уточняет выражение, представителем которого являтся слово-хозяин, однако оба этих выражения имеют одинаковую синтаксическую функцию. |
Синтаксическое отношение | Сокращение | Слово-хозяин | Слово-слуга |
---|---|---|---|
Сочинительное | сочин | Член сочинительной конструкции | Член сочинительной конструкции или сочинительный союз. Расположен непосредственно справа от слова-хозяина. |
Сентенциально-сочинительное | сент-соч | Вершина первого из однородных предложений | Вершина второго предложения или сочинительный союз |
Сочинительно-союзное | соч-союзн | Сочинительный союз | Вершина второго из однородных членов или предложений |
Кратное | кратн | Главный член кратной конструкции — существительное , прилагательное , наречие , числительное или глагол | Зависимый член кратной конструкции. Оформлен либо так же, как и главный член, и отделен от него дефисом, тире, двоеточием или наклонной чертой, либо вводится предлогом «на» или «к» |
Синтаксическое отношение | Сокращение | Слово-хозяин | Слово-слуга |
---|---|---|---|
Аналитическое | аналит | Элементы составного глагольного сказуемого . Эти элементы оформляют сложное будущее время или сослагательное наклонение | |
Пассивно-аналитическое | пасс-анал | Глагол - связка «быть» | Страдательное причастие |
Количественно-вспомогательное | колич-вспом | Правая часть составного числительного или составного порядкового прилагательного | Левая часть составного числительного или составного порядкового прилагательного |
Соотносительное | соотнос | Левая часть разрывного парного союза , предлога или частицы , или правая часть разрывного парного сочинительного союза | Правая часть разрывного парного союза, предлога или частицы, или левая часть разрывного парного сочинительного союза |
Эксплетивное | эксплет | Указательное местоимение -«прокладка» типа то , тот | Подчинительный союз или вершина предложения. Слово-хозяин «расшифровывается» словом-слугой |
Пролептическое | пролепт | Семантически неполнозначное слово, занимающее полноценную позицию в предложении | Слово, вынесенное вовне |
Вспомогательное | вспом | Части образующих синтаксическое и смысловое единство словосочетаний |
Для записи информации о синтаксической структуре предложения в СинТагРусе используются два атрибута каждого слова предложения: DOM , значением которого является ID слова-хозяина, и LINK , значением которого является имя соответствующего синтаксического отношения . Вершина предложения имеет специальное значение _root атрибута DOM .
Лексико-семантическая разметка
Каждой словоформе, помимо леммы , приписывается атрибут KSNAME , значением которого является имя соответствующей статьи толково-комбинаторного словаря лингвистического процессора ЭТАП. За счёт этого, с одной стороны, уточняется значение многозначных и омонимичных слов, а с другой стороны, устанавливается связь со статьями словаря, который используется процессором ЭТАП, и становится доступной содержащаяся в этих статьях информация о семантических свойствах слов .
Лексико-функциональная разметка
В предложениях отмечаются словосочетания, которые можно интерпретировать в терминах лексических функций . Для разметки таких словосочетаний внутри предложения создаются дополнительные элементы отдельно от самих словоформ .
Микросинтаксическая разметка
Под микросинтаксическими единицами в СинТагРусе понимаются фразеологизмы с синтаксической спецификой . В качестве примера можно привести составной предлог . С одной стороны, он синтаксически близок к первообразным предлогам. Действительно, между элементами этого предлога нельзя вставить местоименное определение к существительному, как в других предложных конструкциях типа , и др. Кроме того, если этому предлогу в предложении подчиняется личное местоимение третьего лица, то к такому местоимению в большинстве случаев добавляется начальное н- , как и в случае первообразных предлогов. С другой стороны, первая часть некоторых парных союзов , а также частица ли или же , может располагаться между предлогом в силу и зависящим от него существительным, что не дает возможности отнести этот предлог к первообразным .
Если в некотором предложении корпуса встречается микросинтаксическая единица, то добавляется новый атрибут предложения — MICROSYNT , значением которого являются имя соответствующей микросинтаксической единицы и её линейные границы .
Анафорическая разметка
Для встреченного в тексте анафорического местоимения указывается его , то есть выражение, к которому это местоимение отсылает. У предложения, в котором найдено анафорическое местоимение, имеется дополнительный атрибут COREF , значением которого является список пар местоимение — антецедент, соответствующий данному местоимению. Для каждого анафорического местоимения указывается его линейное положение в предложении, а для антецедента, помимо этого, дополнительно указывается, в каком предложении относительно рассматриваемого он находится (в пределах трёх предложений в обе стороны) .
Обработка эллиптических конструкций
В СинТагРусе опущенные фрагменты эллиптированных предложений восстанавливаются явно. Соответствующая восстановленная словоформа размечается точно так же, как и другие словоформы; в частности, от таких «фантомных» слов проводятся все необходимые синтаксические связи. При этом словоформе приписывается атрибут NODETYPE со значением FANTOM .
Использование корпуса
СинТагРус используется в различных областях. С одной стороны, на его основе проводятся чисто лингвистические исследования, как теоретические, так и практические (в частности, в области лексикографии ). С другой стороны, корпус находит своё применение в задачах компьютерной лингвистики и обработки естественного языка как источник лингвистических данных, например, при создании синтаксических анализаторов . Эти задачи могут решаться с применением различных форматов разметки. В то же время объединение нескольких корпусов с разной разметкой в один делает последний более представительным. Эти обстоятельства приводят к задаче конвертации корпуса .
Предпринимались неоднократные попытки перевода СинТагРуса в другие форматы разметки: известны эксперименты по переводу корпуса в форматы и . Кроме того, СинТагРус был успешно переведён в форматы , и . Однако преобразование, во-первых, во всех случаях касалось только морфологической и синтаксической разметок, а во-вторых, осуществлялось в автоматическом режиме, что стало препятствием на пути к полноценной конвертации. Так, например, часть речи NID не удалось однозначно перевести в формат (в котором такой части речи нет) автоматически, поэтому все предложения СинТагРуса, в которых хотя бы одна словоформа имела такую часть речи, были исключены из корпуса перед конвертацией .
Доступ
СинТагРус бесплатно распространяется по некоммерческой лицензии . Кроме того, версия корпуса без некоторых типов разметки доступна для некоммерческого использования в научно-исследовательских и учебных целях как подкорпус Национального корпуса русского языка и находится в открытом доступе , так же как и версии в форматах (лицензия CC BY-NC-SA 4.0 ) и (доступен только конвертер) .
Примечания
- Eric Brill , Raymond J. Mooney. (англ.) // AI Magazine. — AAAI, 1997. — Vol. 18 , no. 4 . — P. 13—24 .
- ↑ Богуславский И. М. , Григорьев Н. В. , Григорьева С. А. , Крейдлин Л. Г. , Фрид Н. Е. // Труды Международного семинара по компьютерной лингвистике и её приложениям «Диалог-2000». — Протвино, 2000. 31 июля 2019 года.
- Резникова Т. И. , Копотев М. В. // Национальный корпус русского языка: 2003—2005. — М. : Индрик , 2005. — С. 31—61 . 31 июля 2019 года.
- ↑ Иншакова Е. С. , Иомдин Л. Л. , Митюшин Л. Г. , Сизов В. Г. , Фролова Т. И. , Цинман Л. Л. // Труды Института русского языка им. В. В. Виноградова. — М. : «Нестор-История», 2019. — Вып. 21 . — С. 14—40 . 26 марта 2020 года.
- Москвина А. Д. , Орлова Д. , Паничева П. В. , Митрофанова О. А. // Труды объединённой научной конференции «Интернет и современное общество». — 2016. — С. 44—54 . 10 октября 2019 года.
- Кибрик А. Е. , Федорова О. В., Татевосов С. Г. , Лютикова Е. А., Кибрик А. А. , Кобозева И. М. , Фаликман М. В., Ченки А., Секерина И., Николаева Ю. В., Даниэль М. А., , Алпатов В. М. , Беляев О. И., Толдова С. Ю., Бонч-Осмоловская А. А. , Подлесская В. И., Кривнова О. Ф. Корпусная лингвистика // / под ред. О. В. Федоровой и С. Г. Татевосова. — М. : Буки Веди, 2019. — С. 420. — 672 с. — ISBN 978-5-4465-2188-3 .
- Сичинава Д. В. // Национальный корпус русского языка: 2003—2005. — М. : Индрик, 2005. — С. 21—30 . 31 июля 2019 года.
- ↑ Апресян Ю. Д. , Богуславский И. М. , Иомдин Б. Л. , Иомдин Л. Л. , Санников А. В. , Санников В. З. , Сизов В. Г. , Цинман Л. Л. // Национальный корпус русского языка: 2003—2005. — М. : Индрик, 2005. — С. 193—214 . 31 июля 2019 года.
- Захаров В. П. , Богданова С. Ю. Корпусная лингвистика . — 3-е изд., перераб. — СПб. : Издательство Санкт-Петербургского университета, 2020. — С. 47. — 234 с. — ISBN 978-5-288-05997-1 .
- ↑ Апресян Ю. Д. , Иомдин Л. Л. , Санников А. В. , Сизов В. Г. // Труды Международной конференции «Корпусная лингвистика-2004». — СПб. : СПбГУ, 2004. — С. 41—54 . 31 июля 2019 года.
- ↑ Богуславский И. М. , Григорьев Н. В. , Иомдин Л. Л. , Крейдлин Л. Г. , Фрид Н. Е. , Чардин И. С. // Доклады научной конференции «Корпусная лингвистика и лингвистические базы данных». — СПб. : СПбГУ, 2002. — С. 40—50 . 31 июля 2019 года.
- . Лаборатория компьютерной лингвистики ИППИ РАН (4 мая 2023). Дата обращения: 5 мая 2023. 22 февраля 2020 года.
- ↑ Дяченко П. В. , Иомдин Л. Л. , Лазурский А. В. , Митюшин Л. Г. , Подлесская О. Ю. , Сизов В. Г. , Фролова Т. И. , Цинман Л. Л. // Сборник «Национальный корпус русского языка: 10 лет проекту». — М. : Труды Института русского языка им. В. В. Виноградова, 2015. — Вып. 6 . — С. 272—299 . 31 июля 2019 года.
- Boguslavsky I. , Iomdin L. , Sizov V. , Tsinman L. , Petrochenkov V. (англ.) // Proceedings of the International Conference on Dependency Linguistics. — 2011. — P. 318—327 . 31 июля 2019 года.
- Droganova K. , Lyashevskaya O. , Zeman D. (англ.) // Proceedings of the 17th International Workshop on Treebanks and Linguistic Theories (TLT 2018). — Oslo University, Norway: Linköping University Electronic Press, 2018. — P. 52—65 . 19 марта 2020 года.
- ↑ Igor Boguslavsky , Ivan Chardin , Svetlana Grigorjeva , Nikolai Grigoriev , Leonid Iomdin , Lеonid Kreydlin , Nadezhda Frid. (англ.) // Proceedings of the Third International Conference on Language Resources and Evaluation (LREC-2002). — Las Palmas, 2002. — Vol. III . — P. 852—856 . 10 августа 2017 года.
- ↑ . Национальный корпус русского языка . Дата обращения: 29 марта 2020. 25 марта 2020 года.
- Апресян Ю. Д. , Богуславский И. М. , Иомдин Л. Л. , Лазурский А. В. , Митюшин Л. Г. , Санников В. З. , Цинман Л. Л. Лингвистический процессор для сложных информационных систем. — М. : Наука , 1992. — С. 32—40, 56—73. — 256 с.
- Leonid Iomdin , Victor Sizov. (англ.) // Research Infrastructure for Digital Lexicography. — Ljubljana: Jožef Stefan Institute, 2009. — P. 1—12 .
- ↑ Иомдин Л. Л. // Труды международной научной конференции «Корпусная лингвистика — 2017». — СПб. : СПбГУ, 2017. — С. 188—194 . 20 ноября 2021 года.
- Иомдин Л. Л. // Компьютерная лингвистика и интел-лектуальные технологии. — М. : РГГУ, 2008. — С. 178—184 . 29 августа 2019 года.
- ↑ Droganova K. , Zeman D. (англ.) // Technical report. — Institute of Formal and Applied Linguistics, Faculty of Mathematics and Physics, Charles University, 2016. 8 июня 2021 года.
- ↑ Luu A. , Malamud S. A. , Xue N. (англ.) // Proceedings of the 10th Linguistic Annotation Workshop held in conjunction with ACL 2016 (LAW-X 2016). — 2016. — P. 16—21 . 27 февраля 2019 года.
- Lipenkova J. , Souček M. (англ.) // Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics. — 2014. — Vol. 2 . — P. 143—147 . 8 июня 2018 года.
- Ляшевская О. Н. Корпусные инструменты в грамматических исследованиях русского языка. — М. : Издательский дом ЯСК, 2016. — С. 193. — 520 с.
Ссылки
- 2020-01-23
- 1