Распознавание отпечатков пальцев
- 1 year ago
- 0
- 0
Распознавание речи — автоматический процесс преобразования речевого сигнала в цифровую информацию (например, текстовые данные ). Обратной задачей является синтез речи (Text-To-Speech).
Первое устройство для распознавания речи появилось в 1952 году , оно могло распознавать произнесённые человеком цифры . В 1962 году на ярмарке компьютерных технологий в Нью-Йорке было представлено устройство .
В 1963 году в США были презентованы разработанные инженерами корпорации Sperry миниатюрные распознающие устройства с волоконно-оптическим запоминающим устройством под названием «Септрон» ( Sceptron , но произносится [ˈseptrɑːn] без «к») , выполняющие ту или иную последовательность действий на произнесённые человеком-оператором определённые фразы. «Септроны» годились для применения в сфере фиксированной (проводной) связи для автоматизации набора номеров голосом и автоматической записи надиктовываемого текста телетайпом , могли применяться в военной сфере (для голосового управления сложными образцами военной техники ), авиации (для создания «умной авионики », реагирующей на команды пилота и членов экипажа), автоматизированных системах управления и др. . В 1983 году был презентован интерактивный комплекс «умной авионики» для ударных вертолётов « Апач », распознающий команды и запросы пилота, преобразующий их в сигналы управления на бортовое оборудование и односложно отвечающий ему голосом относительно возможности реализации поставленной им задачи .
Коммерческие программы по распознаванию речи появились в начале 90-х годов. Обычно их используют люди, которые из-за травмы руки не в состоянии набирать большое количество текста. Эти программы (например,
, ) переводят голос пользователя в текст, таким образом, разгружая его руки. Надёжность перевода у таких программ не очень высока, но с годами она постепенно улучшается.Увеличение вычислительных мощностей мобильных устройств позволило и для них создать программы с функцией распознавания речи. Среди таких программ стоит отметить приложение Microsoft Voice Command, которое позволяет работать со многими приложениями при помощи голоса. Например, можно включить воспроизведение музыки в плеере или создать новый документ.
Все большую популярность применение распознавания речи находит в различных сферах бизнеса, например, врач в поликлинике может проговаривать диагнозы, которые тут же будут внесены в электронную карточку. Или другой пример. Наверняка каждый хоть раз в жизни мечтал с помощью голоса выключить свет или открыть окно. В последнее время в телефонных интерактивных приложениях все чаще стали использоваться системы автоматического распознавания и синтеза речи. В этом случае общение с голосовым порталом становится более естественным, так как выбор в нём может быть осуществлен не только с помощью тонового набора, но и с помощью голосовых команд. При этом системы распознавания являются независимыми от дикторов, то есть распознают голос любого человека.
Следующим шагом технологий распознавания речи можно считать развитие так называемых интерфейсов безмолвного доступа ( silent speech interfaces , SSI). Эти системы обработки речи базируются на получении и обработке речевых сигналов на ранней стадии артикулирования. Данный этап развития распознавания речи вызван двумя существенными недостатками современных систем распознавания: чрезмерная чувствительность к шумам, а также необходимость четкой и ясной речи при обращении к системе распознавания. Подход, основанный на SSI, заключается в том, чтобы использовать новые сенсоры, не подверженные влиянию шумов в качестве дополнения к обработанным акустическим сигналам.
Системы распознавания речи классифицируются:
Для систем автоматического распознавания речи, помехозащищённость обеспечивается, прежде всего, использованием двух механизмов:
«… очевидно, что алгоритмы обработки речевого сигнала в модели восприятия речи должны использовать ту же систему понятий и отношений, которой пользуется человек» .
Сегодня системы распознавания речи строятся на основе [ кем? ] форм распознавания [ неизвестный термин ] . Методы и алгоритмы, которые использовались до сих пор, могут быть разделены на следующие большие классы распознавания речи на основе сравнения с эталоном.:
Контекстно-зависимая классификация. При её реализации из потока речи выделяются отдельные лексические элементы — фонемы и аллофоны, которые затем объединяются в слоги и морфемы.
Алгоритм динамической трансформации временной шкалы используется для определения того, речевые сигналы представляют одну и ту же исходную произнесённую фразу.
Одна из архитектур систем автоматической обработки речи, основанной на статистических данных, может быть следующей :
Этапы распознавания :
|
Эта статья или раздел нуждается в переработке.
|
Основные понятия, которые характеризуют параметры речи человека, связанные с формой, размерами, динамикой изменения речеобразующего тракта и описывающие эмоциональное состояния человека, можно разделить на четыре группы объективных признаков, позволяющих различать речевые образцы: спектрально-временные, кепстральные, амплитудно-частотные и признаки нелинейной динамики. Подробнее, каждая группа признаков:
Спектральные признаки:
Временные признаки:
Спектрально-временные признаки характеризуют речевой сигнал в его физико-математической сущности исходя из наличия компонентов трех видов:
Спектрально-временные признаки позволяют отражать своеобразие формы временного ряда и спектра голосовых импульсов у разных лиц и особенности фильтрующих функций их речевых трактов. Характеризуют особенности речевого потока, связанные с динамикой перестройки артикуляционных органов речи говорящего, и являются интегральными характеристиками речевого потока, отражающими своеобразие взаимосвязи или синхронности движения артикуляционных органов говорящего.
Большинство современных автоматических систем распознавания речи сосредотачивают усилия на извлечении частотной характеристики речевого тракта человека, отбрасывая при этом характеристики сигнала возбуждения. Это объяснено тем, что коэффициенты первой модели обеспечивают лучшую разделимость звуков. Для отделения сигнала возбуждения от сигнала речевого тракта прибегают к кепстральному анализу .
Амплитудно-частотные признаки позволяют получать оценки, значения которых могут меняться в зависимости от параметров дискретного преобразования Фурье (вида и ширины окна), а также при незначительных сдвигах окна по выборке. Речевой сигнал акустически представляют собой распространяемые в воздушной среде сложные по своей структуре звуковые колебания, которые характеризуются в отношении их частоты (числа колебаний в секунду), интенсивности (амплитуды колебаний) и длительности. Амплитудно-частотные признаки несут необходимую и достаточную информацию для человека по речевому сигналу при минимальном времени восприятия. Но применение этих признаков не позволяет в полной мере использовать их в качестве инструмента идентификации эмоционально окрашенной речи.
Для группы признаков нелинейной динамики речевой сигнал рассматривается как скалярная величина, наблюдаемая в системе голосового тракта человека. Процесс речеобразования можно считать нелинейным и анализировать его методами нелинейной динамики. Задача нелинейной динамики состоит в нахождении и подробном исследовании базовых математических моделей и реальных систем, которые исходят из наиболее типичных предложений о свойствах отдельных элементов, составляющих систему, и законах взаимодействия между ними. В настоящее время методы нелинейной динамики базируются на фундаментальной математической теории, в основе которой лежит
, которая подводит строгую математическую основу под идеи нелинейной авторегрессии и доказывает возможность восстановления фазового портрета аттрактора по временному ряду или по одной его координате. (Под аттрактором понимают множество точек или подпространство в фазовом пространстве, к которому приближается фазовая траектория после затухания переходных процессов.) Оценки характеристик сигнала из восстановленных речевых траекторий используются в построении нелинейных детерминированных фазово-пространственных моделей наблюдаемого временного ряда. Выявленные отличия в форме аттракторов можно использовать для диагностических правил и признаков, позволяющих распознать и правильно идентифицировать различные эмоции в эмоционально окрашенном речевом сигнале.
|
Стиль этого раздела
неэнциклопедичен или нарушает нормы литературного русского языка
.
|
Параметры качества речи по цифровым каналам:
|
В разделе
не хватает
ссылок на источники
(см.
рекомендации по поиску
).
|
Основным преимуществом голосовых систем объявлялась дружественность к пользователю . Речевые команды должны были избавить конечного пользователя от необходимости использования сенсорных и иных методов ввода данных и команд.
Успешными примерами использования технологии распознавания речи в мобильных приложениях являются: ввод адреса голосом в Яндекс. Навигаторе, голосовой поиск Google Now.
Помимо мобильных устройств, технология распознавания речи находит широкое распространение в различных сферах бизнеса:
Для улучшения этой статьи
желательно
:
|