Interested Article - Microsoft Speech API

Speech Application Programming Interface (SAPI) — интерфейс программирования приложений , основанный на технологии COM , предназначенный для распознавания и синтеза речи.

Распознавание речи

Распознавание речи — процесс преобразования произнесённых слов в печатный текст. Распознавание речи включает в себя:

захват и оцифровку звука, произнесённого в микрофон;
преобразование оцифрованного звука в фонемы ;
конструирование из фонем слов;
анализ контекста, в котором было произнесено слово, и, при необходимости, замена слов на похожие по звучанию.

Распознающая программа (движок распознавания текста) итерационно сравнивает распознанный текст с правилами грамматики приложения и при совпадении текста с серией правил формирует выходной поток XML с использованием языка разметки семантики ( англ. Semantic Markup Language , SML). Выходной поток содержит распознанный текст, значения вероятностей правильного распознания и может содержать семантические значения, присвоенные при помощи разметки интерпретации семантики . Распознанный текст обычно используется для ввода данных при помощи диктовки и для управления приложениями при помощи речевых команд.

Размер правил грамматики ограничивает возможности распознавания текста. Большинство программ, поддерживающих диктовку, для обеспечения наиболее точного распознавания настраиваются на речевые обороты конкретного пользователя. Режим управления речевыми командами более прост для реализации, поскольку содержание правил грамматики ограничено имеющимися командами .

Синтез речи

Синтез речи — процесс преобразования текста в произносимые слова. Синтез речи включает в себя:

разделение слов на фонемы;
нахождение текста, требующего преобразование в символы, такого как числа, количество валюты и пунктуация;
генерация цифрового звука для воспроизведения.

Движки преобразования текста в речь могут использовать один из двух способов синтеза голоса:

генерировать звуки, подобные издаваемым голосовыми связками и использовать различные фильтры для моделирования длины горла, форму ротовой полости, расположение губ и языка;
собирать его из многочисленных кусков речи, записанных диктором.

Примечания

Томашенко Н. А., Хохлов Ю. Ю.// от 19 сентября 2015 на Wayback Machine . - Статья. - Приборостроение. - УДК 004.934

Ссылки

(англ.) . MSDN Library . Microsoft (2012). Дата обращения: 24 июля 2012. Архивировано из 29 сентября 2012 года.

[1] Томашенко Н. А., Хохлов Ю. Ю.// от 19 сентября 2015 на Wayback Machine . - Статья. - Приборостроение. - УДК 004.934

Синтез речи
Проприетарное ПО	Vocaloid Utau
Свободное ПО	eSpeak Festival Speech Synthesis System FreeTTS Orca
Машина
Приложения
Протоколы	Speech Synthesis Markup Language
Разработчики/ Исследователи	Гуннар Фант Вольфганг фон Кемпелен VoiceXML Yamaha
Процесс	Currah

Interested Article - Microsoft Speech API

Содержание

Распознавание речи

Синтез речи

Примечания

Ссылки

Visible Speech

Same as Microsoft Speech API

The King's Speech Poster.jpg

The King's Speech Soundtrack Cover.jpg

Speech Synthesis Markup Language

Cite speech

Visible Speech

Java API for XML Processing

Java API for XML Based Web Services

Java Persistence API

Список Java API

Windows API

Windows API

API

Java Transaction API

Плотность в градусах API

API

Java Persistence API

Mobile 3D Graphics API

Java API for XML Processing

Java API for XML Based Web Services

GSS-API

API

API

The title for the last searches