Машинный перевод на основе трансформации
- 1 year ago
- 0
- 0
Машинный перевод на основе трансформации является разновидностью машинного перевода (MП). В настоящее время это один из наиболее распространённых методов машинного перевода. В отличие от более простой модели прямого MП, MП на основе трансформации разделяет процесс перевод на три этапа: анализ текста на исходном языке для определения его грамматической структуры, перевод результирующей структуры в структуру, подходящую для производства текста на языке перевода, и генерацию текста. Таким образом, системы МП на основе трансформации способны использовать знания исходного языка и языка перевода .
В основе перевода на основе трансформации и межъязыкового машинного перевода лежит одна и та же идея, согласно которой для того чтобы осуществить перевод, необходимо получить промежуточное представление. С его помощью можно зафиксировать смысл первоначального предложения, чтобы затем построить правильный перевод. В межъязыковом МП такое промежуточное представление должно быть независимым и от исходного языка, и от языка перевода, в то время как в случае с MП, основанном на переносе, имеет место определённая степень зависимости от конкретной пары языков. Способы работы систем МП на основе трансформации существенным образом различаются, однако в целом они следуют одной и той же схеме: применяют наборы лингвистических правил, определяемых соответствиями между структурой исходного языка и языка перевода. Первый этап включает анализ входного текста с точки зрения морфологии и синтаксиса (иногда также семантики ) для создания промежуточного представления. Из полученного представления с использованием двуязычных словарей и правил грамматического построения формируется перевод. Данная стратегия позволяет получить достаточно качественный перевод с точностью соответствия оригиналу порядка 90% (впрочем, точность в большой степени зависит от конкретной языковой пары и определяется степенью близости двух конкретных языков).
В системе МП на основе правил исходный текст сначала анализируется с точки зрения морфологии и синтаксиса с целью получения синтаксического представления. Данное представление в дальнейшем может быть изменено в сторону меньшей конкретизации, в связи с необходимостью уделять повышенное внимание наиболее существенным для перевода фрагментам, игнорируя при этом другие виды информации. В процессе трансформации окончательное представление (все ещё существующее на исходном языке) преобразуется в представление того же уровня конкретизации на языке перевода. Эти два представления носят название промежуточных представлений . Процесс трансформации представления на языке перевода в готовый текст состоит из аналогичных этапов, произведённых в обратном порядке.
До того момента как будет получен финальный результат, возможно обращение к различным методам анализа и трансформации. Наряду со статистическими подходами может быть увеличено число генерирующих гибридных систем. Выбираемые методы и приоритеты в значительной мере зависят от устройства самой системы. Тем не менее, большинство существующих систем включает как минимум следующие этапы:
Одной из основных особенностей систем МП на основе трансформации является стадия, на которой происходит перевод промежуточного представление текста на исходном языке в промежуточное представление текста на языке перевода. Этот процесс может происходить на одном из уровней лингвистического анализа или в промежутке между ними. Уровни представлены ниже: