В отличие от печатного текста или искусственных сигналов, естественная речь не допускает простого и однозначного членения на элементы (фонемы, слова, фразы), поскольку они не имеют явных физических границ. Границы слов в потоке речи автоматически могут быть определены лишь в ходе распознавания посредством подбора оптимальной последовательности слов, наилучшим образом согласующейся с входным потоком речи по акустическим, лингвистическим, семантическим и иным критериям.
История
Июнь
2012 года
— Программа для автоматического синхронного перевода (Технологический институт города Карлсруэ (федеральная земля Баден-Вюртемберг, Германия)
. Устройство переводит устные лекции преподавателей института с немецкого на английский язык и воспроизводит перевод в виде субтитров
.
Октябрь 2012 года — Автоматический, почти синхронный голосовой перевод с английского на путунхуа. Разработчик — Microsoft.
Система машинного обучения, на основе искусственных нейронных сетей (Deep Neural Networks), которая сокращает непонимание до каждого седьмого−восьмого слова. Но самое большое достижение — это, генерация речи с сохранением модуляций голоса говорящего.
Ноябрь 2012 года — Открывшийся сервис, японского мобильного оператора NTT Docomo, позволяет абонентам, говорящим на разных языках общаться в режиме реального времени.
Языки, поддерживаемые сервисом: (японский <-> английский), (японский <-> корейский), (японский <-> китайский).
Май 2015 года — Появился , который переводит речь на 14 языков, а чат на 88.
Принцип работы
Процесс электронного перевода речи (S2S Real-Time Translation), как правило, включает следующие три этапа)
:
машинный перевод
(MT — Machine Translation); — автоматический перевод текста с одного языка на другой.
синтез речи
(TTS — text-to-speech) — технология, которая даёт возможность произнести текст голосом, приближенным к естественному.
Говорящий на языке A говорит в микрофон, а
модуль распознавания речи
признаёт
[
что?
]
произнесённое. Происходит сравнение входных данных с фонологическими моделями, состоящими из большого количества речевых библиотек. Отфильтрованное таким образом, используя словарь и грамматику языка А, преобразуется в строку слов, основанную
на массиве фразы языка
[
неизвестный термин
]
А. Модуль автоматического перевода преобразует эту строку. Ранние системы заменяли каждое слово, с соответствующим словом в языке B. Более совершенные системы не используют дословный перевод, а принимают во внимание весь контекст фразы, чтобы произвести соответствующий перевод. Созданный перевод передаётся в
модуль синтеза речи
, который оценивает произношение и интонацию, соответствующую ряду слов из массива речевых данных языка B. Данные, соответствующие фразе, отбираются, соединяются и выводятся в необходимой потребителю форме на языке В.
Системы перевода речи
Системы перевода речи (ST — Speech Translation)
, состоят из двух основных компонентов:
Автоматическое распознавание речи
(ASR — automatic speech recognition) и
Машинный перевод
(MT — Machine Translation) и различаются:
Работающие «на клиенте» (client-based).
По принципу «клиент-сервер» (client-server) (OnLine service).
Распознавание слитной спонтанной речи — конечная цель всех усилий по распознаванию речи.
Автоматическое распознавание речи
разделяют, на привязку и её отсутствие, к голосу конкретного человека.
Если рассматривать классическую схему «наука-технологии-практические сист
емы», то, наиболее серьёзные проблемы в которых будет работать практическая система автоматического распознавания или понимания речи, возникают при условиях:
— произвольный, наивный пользователь;
— спонтанная речь, сопровождаемая аграмматизмами и речевым «мусором»;
— наличие акустических помех и искажений, в том числе меняющихся;
— наличие речевых помех.
Обобщённая классификация систем распознавания речи. См.(
)
Традиционно системы машинного перевода делятся на категории:
Rule-Based Machine Translation (RBMT) — системы, основанные на правилах, которые описывают языковые структуры и их преобразования.
Example-Based MT (EBMT) — системы на примерах двух текстов, один из которых является переводом другого.
Statistical Machine Translation (SMT) — статистический машинный перевод
— разновидность
машинного перевода
текста, основанная на сравнении больших объёмов языковых пар.
Hybrid Machine Translation (SMT + RBMT) — Гибридные модели «… где ожидается прорыв в качестве перевода».
Границы между системами Example-based и Rule-based не очень чёткие, поскольку и те и другие используют словари и правила работы со словарями.
Статистический машинный перевод
Статистический машинный перевод
основан на поиске наиболее вероятного перевода предложения, с использованием данных двуязычного корпуса (Parallel Corpora) —
Битекст
. В результате при выполнении перевода компьютер не оперирует лингвистическими алгоритмами, а вычисляет вероятность применения того или иного слова или выражения. Слово или последовательность слов, имеющие оптимальную вероятность, считаются наиболее соответствующими переводу исходного текста и подставляются компьютером в получаемый в результате текст. В статистическом машинном переводе ставится задача не перевода текста, а задача его расшифровки.
Типичная архитектура статистических систем МП.
Одноязычный корпус (язык перевода).
Языковая модель — набор n-грамм (последовательностей словоформ длины n) из корпуса текстов.
Параллельный корпус.
Фразовая таблица — таблица соответствий фраз исходного корпуса и корпуса переводов с некоторыми статистическими коэффициентами.
Статистический декодер — среди всех возможных вариантов перевода, выбирает наиболее вероятный.
В качестве языковой модели в системах статистического перевода используются преимущественно различные модификации n-граммной модели, утверждающей, что <грамматичность> выбора очередного слова при формировании текста определяется только тем, какие(n-1)слов идут перед ним.
n-граммы.
— Достоинства: — высокое качество перевода, для фраз, которые целиком помещаются в n-граммную модель.
— Недостатки: — качественный перевод возможен только для фраз, которые целиком помещаются в n-граммную модель.
Преимущества SMT
Быстрая настройка
Легко добавлять новые направления перевода
Гладкость перевода
Недостатки SMT
<Дефицит> параллельных корпусов
Многочисленные грамматические ошибки
Нестабильность перевода
Системы, которые не используют обучение, называются « » системы. Системы, использующие обучение, — « » системы.
Системы МП, основанные на правилах «Rule-Based»
(Rule-Based Machine Translation), подразделяются:
системы пословного перевода;
трансферные системы (Transfer) — преобразуют структуры входного языка в грамматические конструкции выходного языка;
интерлингвистические системы (Interlingua)- промежуточный язык описания смысла.
Преимущества: — синтаксическая и морфологическая точность; — стабильность и предсказуемость результата; — возможность настройки на предметную область.
Недостатки: — трудоемкость и длительность разработки, — необходимость поддерживать и актуализировать лингвистические БД; — «машинный акцент» при переводе.
Гибридные модели SMT + RBMT
Архитектура Гибридной технологии:
Обучение: Параллельный корпус->Обучение: — Модель языка; — Данные для постредактирования; — Правила синтеза; — Словарь терминологии.
Эксплуатация: Гибридный перевод.
Этапы Гибридной технологии:
Обучение RBMT на основе параллельного корпуса с использованием статистических технологий;
Эксплуатация на основе натренированной системы.
Системы синтеза речи
Типичная архитектура «Text-to-Speech» System.
Анализ текста
: — Определение структуры текста; — Нормализация текста; — Лингвистический анализ.
конкатенативный, или компиляционный (компилятивный) синтез;
синтез по правилам;
предметно-ориентированный синтез.
Шумоочистка
Источники шумов в речевых системах:
— помехи от микрофонов, провода, АЦП (аналогово-цифровой преобразователь), внешние шумы, возникающие в окружении говорящего.
Классификация шумов относительно их характеристик:
периодический / непериодический шум;
ширина диапазона частот, в котором распределяется энергия шума: — широкополосные (ширина полосы частот более 1 кГц) и узкополосные шумы (ширина полосы частот менее 1 кГц);
речевой шум, состоящий из голосов людей, окружающих говорящего.
Наиболее опасным по своему влиянию на речевой сигнал и наиболее трудноудаляемым шумом считается белый шум: — непериодичный шум, спектральная плотность которого равномерно распределена по всей области частот.
В области систем распознавания речи в шуме, существует следующие подходы:
Разработчики не обращают внимания на шум.
Сначала избавляются от шума, а затем распознают очищенный речевой сигнал. Эта концепция обычно используется при разработке систем шумоочистки в качестве дополнительного модуля систем распознавания.
Распознавание зашумленного сигнала без его предварительного улучшения, при котором изучается, каким же образом человек распознает и понимает зашумленную речь; ведь он не производит предварительной фильтрации речевого сигнала для того, чтобы очистить его от шума.
Методы достижения :
сводятся либо к выделению некоторых инвариантных относительно шума признаков, либо к обучению в условиях шума или модификации эталонов распознавания с использованием оценки уровня шумов.
Слабым местом подобных методов является ненадежная работа систем распознавания, настроенных на распознавание в шуме, в условиях отсутствия шумов, а также сильная зависимость от физических характеристик шума.
Вычисление коэффициентов линейного предсказания. В качестве элементов эталонов, вместо численных значений используются вероятностные распределения (среднее математическое, дисперсия).
Цифровая обработкой сигнала: — методы маскировки шумов (численные значения, сравнимые с характеристиками шума, игнорируются или используются с меньшими весовыми коэффициентами) и методы шумоподавления с использованием нескольких микрофонов (например, очистка от низкочастотных шумов с использованием микрофона с одной стороны устройства и высокочастотных — с другой стороны).
Очистка полезного сигнала от посторонних шумов, с использованием массивов микрофонов, моделирующих направленный микрофон с переменным лучом направления (простейший метод «задержки и суммирования» или более сложный с модификацией весов микрофонов).
Модели и методы оптимизации
Большинство существующих метрик автоматической оценки машинного перевода, основаны на сравнении с человеческим эталоном.
При обучении System, применяют следующие методы оптимизаций качества и скорости перевода:
MT/BLEU (Bilingual Evaluation Understudy) — вероятность совпадение перевода с образцом.
Особенности
Помимо проблем, связанных с переводом текста, синхронный перевод речи имеет дело с особыми проблемами, включая бессвязность разговорного языка, меньше ограничений грамматики разговорного языка, неясной границы слова разговорного языка и коррекции ошибок распознавания речи. Кроме того, у синхронного перевода есть свои преимущества по сравнению с переводом текста, в том числе менее сложную структуру разговорного языка и меньше лексики в разговорном языке.
Стандарты
Когда много стран начнут исследовать и развивать речевой перевод, будет необходимо стандартизировать интерфейсы и форматы данных, чтобы гарантировать, что системы взаимно совместимы.
(C-STAR) Consortium for Speech Translation Advanced Research — международный консорциум по переводу речи для объединённого исследования речевого перевода;
Они были основаны как международная объединённая исследовательская организация, по проектированию форматов двуязычных стандартов, которые важны, для продвижения научных исследований этой технологии и стандартизации интерфейсов и форматов данных, чтобы соединить речевой модуль перевода на международном уровне.
Оценки качества перевода
(Bilingual Evaluation Understudy) — алгоритм оценки-оптимизации качества текста, машинного перевода.
(Word Error Rate) — алгоритм оценки-оптимизации качества текста, машинного перевода.
Классификатор «Речь/не речь» () — определяющий вероятность правильного распознавания речи. Компромисс между определением, голос как шум или шум как голос ().
Искусственная нейронная сеть
(Возможность обучения — одно из главных преимуществ нейронных сетей перед традиционными алгоритмами)
Литература
— построен на алгоритме обучения, имеющем линейную вычислительную сложность и высокую устойчивость. (Первый в мировой практике стандарт по автоматическому обучению искусственных нейронных сетей)
Ссылки
// Microsoft Corporation, 7 November 2012
by Satoshi, Nakamura in
Science & Technology Trends — Quarterly Review No.31
April 2009.
(недоступная ссылка с 18-05-2013 [3818 дней])
«Architectural overview of speech-centric information processing systems»
Automatic Speech-to-Speech Translator from IBM
S2S Real-Time Translation from AT&T Labs
S2S Real-Time Translation from Nokia Research Center
Примечания
(недоступная ссылка)
(неопр.)
.
Дата обращения: 1 февраля 2013.
21 мая 2013 года.
(неопр.)
.
Дата обращения: 1 февраля 2013.
13 ноября 2012 года.
(неопр.)
.
Дата обращения: 17 февраля 2013.
15 марта 2013 года.
(неопр.)
.
Дата обращения: 1 февраля 2013.
15 марта 2013 года.
(неопр.)
.
Дата обращения: 30 апреля 2020.
25 января 2021 года.
(неопр.)
.
Дата обращения: 13 февраля 2013.
16 февраля 2013 года.
(неопр.)
.
Дата обращения: 17 февраля 2013.
15 марта 2013 года.
(неопр.)
.
Дата обращения: 15 февраля 2013.
4 марта 2016 года.
↑
(неопр.)
.
Дата обращения: 22 февраля 2013.
23 марта 2014 года.
(неопр.)
.
Дата обращения: 3 марта 2013.
Архивировано из 15 июля 2013 года.
(неопр.)
.
Дата обращения: 2 марта 2013.
27 ноября 2013 года.
(неопр.)
.
Дата обращения: 24 февраля 2013.
Архивировано из 18 декабря 2011 года.
↑
(неопр.)
.
Дата обращения: 27 февраля 2013.
25 июня 2012 года.
(неопр.)
.
Дата обращения: 22 февраля 2013.
23 марта 2014 года.
↑
(неопр.)
.
Дата обращения: 23 февраля 2013.
Архивировано из 9 ноября 2012 года.
↑
(неопр.)
.
Дата обращения: 19 марта 2013.
22 марта 2013 года.
(неопр.)
.
Дата обращения: 18 марта 2013.
22 марта 2013 года.
(неопр.)
.
Дата обращения: 22 февраля 2013.
24 декабря 2012 года.
Сорокин В. Н.
Синтез речи. — М.: Наука, 1992, с. 392.
(недоступная ссылка)
(неопр.)
.
Дата обращения: 24 февраля 2013.
23 января 2014 года.
(неопр.)
.
Дата обращения: 25 февраля 2013.
Архивировано из 18 июня 2006 года.
(неопр.)
.
Дата обращения: 25 февраля 2013.
23 марта 2014 года.