Interested Article - Статистический машинный перевод

Статистический машинный перевод ( англ. Statistical machine translation — SMT) — разновидность машинного перевода, где перевод генерируется на основе статистических моделей, параметры которых являются производными от анализа двуязычных корпусов текста (text corpora).

Статистический машинный перевод противопоставляют системам машинного перевода, основанным на правилах Rule-Based Machine Translation (RBMT) и на примерах Example-Based MT (EBMT).

Первые идеи статистического машинного перевода были опубликованы Уорреном Уивером (Warren Weaver), в 1949 году. «Вторая волна» — начало 1990-х, IBM . «Третья волна» — Google, Microsoft, Language Weaver, Яндекс .

Разработчики систем машинного перевода для улучшения качества вводят некоторые «сквозные» правила, тем самым превращая чисто статистические системы в Гибридный машинный перевод . Добавление некоторых правил, то есть создание гибридных систем, несколько улучшает качество переводов, особенно при недостаточном объёме входных данных, используемых при построении индекса машинного переводчика.

Основы

Преимущества SMT

Быстрая настройка
Легко добавлять новые направления перевода
Гладкость перевода

Недостатки SMT

«Дефицит» параллельных корпусов
Многочисленные грамматические ошибки
Нестабильность перевода

Языковые модели

В качестве языковой модели в системах статистического перевода используются преимущественно различные модификации n-граммной модели, утверждающей, что « грамматичность » выбора очередного слова при формировании текста определяется только тем, какие (n-1) слов идут перед ним .

n-граммы.
- Достоинства: — высокое качество перевода для фраз, которые целиком помещаются в n-граммную модель.
- Недостатки: — качественный перевод возможен только для фраз, которые целиком помещаются в n-граммную модель.

Статистические модели перевода

по словам (Word-based translation — WBT)
по фразам (Phrase-based translation — PBT)
по синтаксису (Syntax-based translation — SBT)
по иерархическим фразам (Hierarchical phrase-based translation — HPBT)

См. также

Источники

. Дата обращения: 19 марта 2013. 22 марта 2013 года.
. Дата обращения: 17 марта 2013. Архивировано из 3 ноября 2013 года.
. Дата обращения: 17 марта 2013. 3 ноября 2013 года.
. Дата обращения: 17 марта 2013. 26 мая 2013 года.
. Дата обращения: 17 марта 2013. Архивировано из 3 февраля 2013 года.
. Дата обращения: 17 марта 2013. Архивировано из 26 мая 2013 года.

[SMT1Ref-1] . Дата обращения: 19 марта 2013. 22 марта 2013 года.

[WordRef-2] . Дата обращения: 17 марта 2013. Архивировано из 3 ноября 2013 года.

[Phrase1Ref-3] . Дата обращения: 17 марта 2013. 3 ноября 2013 года.

[PhraseRef-4] . Дата обращения: 17 марта 2013. 26 мая 2013 года.

[SyntaxRef-5] . Дата обращения: 17 марта 2013. Архивировано из 3 февраля 2013 года.

[HierarRef-6] . Дата обращения: 17 марта 2013. Архивировано из 26 мая 2013 года.

Обработка естественного языка
Общие определения	Языковая модель Корпус текстов Речевой корпус Стоп-слова Мешок слов AI-полнота N-грамма Биграммный шифр Триграмма
Анализ текста	Частеречная разметка Поверхностно-синтаксический анализ Стемминг Лемматизация Разрешение кореферентности Анализ тональности текста Синтаксический анализ Разрешение лексической многозначности Извлечение информации Идентификация языка
Реферирование
Машинный перевод	Автоматизированный Гибридный На основе правил На основе примеров На основе трансформации Нейронный Синхронный
Идентификация и сбор данных	Распознавание речи Синтез речи Оптическое распознавание символов Генерация текста
Тематическая модель	Размещение патинко Латентное размещение Дирихле Латентно-семантический анализ
	Конкордансер Предиктивный ввод текста Система проверки правописания
	Виртуальный ассистент Виртуальный собеседник Вопросно-ответная система Голосовой интерфейс Интерактивная литература

Interested Article - Статистический машинный перевод

Содержание

Основы

Преимущества SMT

Недостатки SMT

Языковые модели

Статистические модели перевода

См. также

Источники

Машинный перевод на основе трансформации

Same as Статистический машинный перевод

Машинный перевод

Нейронный машинный перевод Google

Машинный перевод на основе трансформации

Машинный перевод

Нейронный машинный перевод Google

Машинный перевод

Машинный код

Машинный код

Машинный код

Машинный код

Плотность кода (машинный код)

Машинный код

Человеко-машинный интерфейс

Машинный код

Машинный код

The title for the last searches