Interested Article - Распознавание по голосу

Распознавание по голосу — одна из форм биометрической аутентификации , позволяющая идентифицировать личность человека по совокупности уникальных характеристик голоса . Относится к динамическим методам биометрии . Однако, поскольку голос человека может меняться в зависимости от возраста, эмоционального состояния, здоровья, гормонального фона и целого ряда других факторов, не является абсолютно точным . По мере развития звукозаписывающей и воспроизводящей техники, технология распознавания применяется с различным успехом в сфере защиты информации , охраны и систем доступа, криминалистике .

История

Работы по распознаванию речи берут начало с середины прошлого века. Первая система была создана в начале 1950 годов: её разработчики поставили перед собой задачу распознавания цифр. Разработанная система могла идентифицировать цифры , но сказанные одним голосом, как, например, система «Audrey» компании Bell Laboratories . Она работала на основе определения форманты в спектре мощности каждого речевого отрывка . В общих чертах система состояла из трёх главных частей: анализаторов и квантователей, шаблонов согласователей сети и, наконец, датчиков. Создано было, соответственно, на элементной базе различных частотных фильтров, переключателей, так же в составе датчиков были газонаполненные трубки ^{[

нет в источнике

]} .

К концу десятилетия появились системы, распознающие гласные независимо от диктора . В 70-х годах начали использоваться новые методы, позволившие добиться более совершенных результатов — и (Linear Predictive Coding — LPC). В вышеупомянутой компании, Bell Laboratories были созданы системы, использующие именно эти методы . В 80-х годах следующим шагом в развитии систем распознавания голоса стало использование скрытых марковский моделей (Hidden Markov Models — HMM). В это время начинают появляться первые крупные программы по распознаванию голоса, как например, Kurzweil text-to-speech . В конце 80-х также стали применяться методы искусственных нейронных сетей (Artificial Neural Network — ANN) . В 1987 году на рынке появились куклы Worlds of Wonder’s Julie doll, которые были способны понимать голос . А ещё через 10 лет Dragon Systems выпустила программу «NaturallySpeaking 1.0» .

Надёжность

Основными источниками ошибок распознавания голоса являются:

среда записи (уровень и тип шума среды, уровень реверберации );
эффект представления (длительность речи, психофизиологическое состояние говорящего (болезнь, эмоциональное состояние и т. п.), язык речевого сообщения, акцент, громкость речи);
низкое качество канала (помехи, искажения микрофона и канала передачи, вид кодирования в канале и т. д.) .

Распознавание пола можно выделить в отдельный тип задач, который довольно успешно решается — при больших объёмах начальных данных пол определяется практически безошибочно, а на коротких отрывках вроде ударного гласного звука вероятность ошибки — 5,3 % для мужчин и 3,1 % для женщин .

Также рассматривалась проблема имитации голоса. Исследования France Telecom показали, что профессиональная имитация голоса практически не увеличивает вероятность ошибки определения личности — имитаторы подделывают голос лишь внешне, подчеркивая особенности речи, но базовую канву голоса подделать не способны. Даже голоса близких родственников, близнецов будет иметь различие, как минимум, в динамике управления . Но с развитием компьютерных технологий возникла новая проблема, требующая использования новых способов анализа, — трансформация голоса, которая увеличивает вероятность ошибки до 50 % .

Для описания надёжности системы есть два используемых критерия: FRR (False Rejection Rate) — вероятность ложного отказа в доступе ( ошибка первого рода ) и FAR (False Acceptance Rate) — вероятность ложного допуска, когда система ошибочно опознаёт чужого как своего (ошибка второго рода). Также иногда системы распознавания характеризуются таким параметром, как EER (Equal Error Rates), представляющим точку совпадения вероятностей FRR и FAR. Чем надежней система, тем более низкий EER имеет .

Значения ошибок идентификации для различных биометрических модальностей

Биометрический признак	Тест	Условия тестирования	FRR %	FAR %
Отпечатки пальцев	FVC 2006	Неоднородная популяция (включает работников ручного труда и пожилых людей)	2,2	2,2
Лицо	MBE 2010	Полицейская база фотографий База фотографий с документов	4,0 0,3	0,1 0,1
Голос	NIST 2010	Текстонезависимое распознавание	3..4	1,0
Радужная оболочка глаз	ICE 2006	Контролируемое освещение, широкий диапазон качества изображений	1,1…1,4	0,1

Применение

Распознавание можно разделить на два главных направления: идентификацию и верификацию . В первом случае система должна самостоятельно установить личность пользователя по голосу; во втором случае система должна подтвердить или опровергнуть идентификатор, который предъявляет пользователь . Определение исследуемого диктора состоит в попарном сравнении голосовых моделей, которые учитывают индивидуальные особенности речи каждого диктора. Таким образом, нам необходимо для начала собрать достаточно большую базу данных. А по результатам этого сравнения может быть сформирован список фонограмм, являющихся с некоторой вероятностью речью интересующего нас пользователя .

Хотя распознавание по голосу не может гарантировать стопроцентную правильность результата, оно может довольно эффективно использоваться в таких областях, как криминалистика и судебная экспертиза; разведка; антитеррористический мониторинг; безопасность; банковское дело и так далее .

Анализ

Весь процесс обработки речевого сигнала можно разбить на несколько главных этапов:

предобработка сигнала;
выделение критериев;
распознавание диктора.

Каждый этап представляет алгоритм или некоторую совокупность алгоритмов, что в итоге даёт требуемый результат .

Главные черты голоса формируются тремя главными свойствами: механикой колебаний голосовых складок, анатомией речевого тракта и системой управления артикуляцией. Кроме этого, иногда есть возможность пользоваться словарём говорящего, его оборотами речи . Главные признаки, по которым принимается решение о личности диктора, формируются с учётом всех факторов процесса речеобразования: голосового источника, резонансных частот речевого тракта и их затуханий, а также динамикой управления артикуляцией. Если рассмотреть источники подробнее, то в свойства голосового источника входят: средняя частота основного тона, контур и флюктуации частоты основного тона и форма импульса возбуждения. Спектральные характеристики речевого тракта описываются огибающей спектра и его средним наклоном, формантными частотами , долговременным спектром или кепстром . Кроме того, рассматривается также длительность слов, ритм (распределение ударений), уровень сигнала, частота и длительность пауз . Чтобы определить эти характеристики приходится использовать довольно сложные алгоритмы, но так как, к примеру, погрешность формантных частот довольно велика, для упрощения используются коэффициенты кепстра, вычисляемые по огибающей спектра или передаточная функция речевого тракта, найденная методом линейного предсказания. Кроме упомянутых коэффициентов кепстра также используются их первые и вторые разности по времени . Этот метод был впервые предложен в работах Дэвиса и Мермельштейна .

Кепстральный анализ

В работах по распознаванию голоса наиболее популярен метод кепстрального преобразования спектра речевых сигналов . Схема метода такова: на интервале времени в 10 — 20 мс вычисляется текущий спектр мощности, а затем применяется обратное преобразование Фурье от логарифма этого спектра (кепстр) и находятся коэффициенты: $c_{n}={\frac {1}{\Theta }}\int _{0}^{\Theta }{\mid S(j,\omega ,t)\mid }^{2}\exp ^{-jn\omega \Omega }d\omega$ , $\Omega =2{\frac {2\pi }{\Theta }},\Theta$ - верхняя частота в спектре речевого сигнала, ${\mid S(j,\omega ,t)\mid }^{2}$ - спектр мощности. Число кепстральных коэффициентов n зависит от требуемого сглаживания спектра, и находится в пределах от 20 до 40. Если используется гребёнка полосовых фильтров , то коэффициенты дискретного кепстрального преобразования вычисляются как $c_{n}=\sum _{m=1}^{N}\log {Y(m)^{2}}\cos {{\frac {\pi n}{M}}(m-{\frac {1}{2}}))}$ , где Y(m) — выходной сигнал m-го фильтра, $c_{n}$ — n-й коэффициент кепстра.

Свойства слуха учитываются путём нелинейного преобразования шкалы частот, обычно в шкале мел . Эта шкала формируется исходя из присутствия в слухе так называемых , таких, что сигналы любой частоты в пределах критической полосы неразличимы. Шкала мел вычисляется как $M(f)=1125\ln {(1+{\frac {f}{700}})}$ , где f — частота в Гц, M — частота в мелах. Либо используется другая шкала — барк , такая, что разность между двумя частотами, равная критической полосе, равна 1 барк. Частота B вычисляется как $B=13\operatorname {arctg{(0,00076f)}} +3,5\operatorname {arctg{\frac {f}{7500}}}$ . Найденные коэффициенты в литературе иногда обозначаются как MFCC — Mel Frequiency Cepstral Coefficients. Их число лежит в диапазоне от 10 до 30. Использование первых и вторых разностей по времени кепстральных коэффициентов втрое увеличивает размерность пространства принятия решений, но улучшает эффективность распознавания диктора .

Кепстр описывает форму огибающей спектра сигнала, на которую влияют и свойства источника возбуждения, и особенности речевого тракта. В экспериментах было установлено, что огибающая спектра сильно влияет на узнаваемость голоса. Поэтому использование различных способов анализа огибающей спектра в целях распознавания голоса вполне оправдано .

Методы

Так как во многих системах используется пространство кепстральных коэффициентов, их первых и вторых разностей, большое внимание уделяется построению решающих правил. Наиболее популярны методы аппроксимации плотности вероятности в пространстве признаков взвешенной смесью нормальных распределений ( — Gauss Mixture Models), метод опорных векторов (SVM — Support Vector Machines), метод скрытых Марковских моделей (HMM — Hidden Markov Models), искусственные нейронные сети , а также модификации факторного анализа .

Метод GMM следует из теоремы о том, что любая функция плотности вероятности может быть представлена как взвешенная сумма нормальных распределений:

$p(x|\lambda )=\sum _{j=1}^{k}{\omega _{j}\phi (\chi ,\Theta _{j})}$ ; $\lambda$ — модель диктора;k — количество компонентов модели; ${\omega _{j}}$ — веса компонентов такие, что $\sum _{j=1}^{n}{\omega _{j}}=1.$ $\phi (\chi ,\Theta _{j})$ - функция распределения многомерного аргумента $\chi ,\Theta _{j}$ . $\phi (\chi ,\Theta _{j})=p(\chi \mid \mu _{j},R_{j})={\frac {1}{({2\pi })^{\frac {n}{2}}{\mid R_{j}\mid }^{\frac {1}{2}}}}\exp {\frac {-1(\chi -\mu _{j})^{T}R_{j}^{-1}(\chi -\mu _{j})}{2}}$ , $\omega _{j}$ - её вес, k — количество компонент в смеси. Здесь n — размерность пространства признаков, $\mu _{j}\in \mathbb {R} ^{n}$ — вектор математического ожидания j-й компоненты смеси, $R_{j}\in \mathbb {R} ^{n\times n}$ - ковариационная матрица .

Очень часто в системах с этой моделью используется диагональная ковариационная матрица. Она может использоваться для всех компонент модели или даже для всех моделей. Чтобы найти матрицу ковариации, веса, векторы средних часто используют EM- алгоритм . На входе имеем обучающую последовательность векторов X = {x ₁ , . . . , x _T } . Параметры модели инициализируются начальными значениями и затем на каждой итерации алгоритма происходит переоценка параметров. Для определения начальных параметров обычно используют алгоритм кластеризации такой, как алгоритм К-средних . После того как произошло разбиение множества обучающих векторов на M кластеров, параметры модели могут быть определены так: начальные значения $\mu _{j}$ совпадают с центрами кластеров, матрицы ковариации рассчитываются на основе попавших в данный кластер векторов, веса компонентов определяются долей векторов данного кластера среди общего количества обучающих векторов.

Переоценка параметров происходит по следующим формулам:

вычисление апостериорных вероятностей (Estimation-step): ${\displaystyle p(i|\chi _{t},\lambda )={\frac {\omega _{i}\phi (\chi _{t},\Theta _{i})}{\sum _{j=1}^{k}{\omega _{j}\phi (\chi _{t},\Theta _{j})}}}}$ .
вычисление новых параметров модели (Maximization-step): $\omega _{j}={\frac {\sum _{j=1}^{k}{p(i|\chi _{j},\lambda )}}{T}}$ ; ${\mu _{i}={\frac {\sum _{t=1}^{n}{p(i|\chi _{t},\lambda )\chi _{t}}}{\sum _{t=1}^{n}{p(i|\chi _{t},\lambda )}}}}$ ; ${R_{i}={\frac {\sum _{t=1}^{n}{p(i|\chi _{t},\lambda )(\chi _{t}-\mu _{i}){(\chi _{t}-\mu _{i})}^{T}}}{\sum _{t=1}^{n}{p(i|\chi _{t},\lambda )}}}}$ . Шаги повторяются, пока не будет достигнуто схождение параметров .

GMM можно также назвать продолжением метода векторного квантования ( ). При его использовании создаётся кодовая книга для непересекающихся областей в пространстве признаков (часто с использованием кластеризации методом K-means). Векторное квантование является простейшей моделью в системах распознавания, независимых от контекста .

Метод опорных векторов (SVM) строит гиперплоскость в многомерном пространстве, разделяющую два класса — параметров целевого диктора и параметров дикторов из референтной базы. Гиперплоскость вычисляется c помощью опорных векторов — выбранных особым образом. Будет выполняться нелинейное преобразование пространства измеренных параметров в некоторое пространство признаков более высокой размерности, так как разделяющая поверхность может и не соответствовать гиперплоскости. Разделяющая поверхность в гиперплоскости строится методом опорных векторов, если выполняется условие линейной разделимости в новом пространстве признаков. Таким образом успех применения SMM зависит от подобранного нелинейного преобразования в каждом конкретном случае. Метод опорных векторов применяется часто с методом GMM или HMМ. Обычно для коротких фраз длительностью в несколько секунд для контестно-зависимого подхода лучше применяются фонемно-зависимые HMM .

Примечания

Е. К. Брагина, С. С. Соколов. Современные методы биометрической аутентификации: обзор, анализ и определение перспектив развития // Вестник АГТУ. — 2016. — № 61 . — ISSN .
K. H. Davis, R. Biddulph and S. Balashek. Automatic recognition of spoken digits // J. Acoust. Soc. Am..
B.H. Juang & Lawrence R. Rabiner. // USCB. — 2004. — Октябрь. 20 декабря 2016 года.
J. W. Forgie and C. D. Forgie,. Results obtained from a vowel recognition computer program // J. Acoust. Soc. Am., 31.
H. Sakoe and S. Chiba. Dynamic programming algorithm optimization for spoken word recognition // ASSP.
F. Itakura and S. Saito, «Analysis synthesis telephony based on the maximum likelihood method», Reports of the 6th International Congress on Acoustics
↑ . PCWorld . из оригинала 6 декабря 2016 . Дата обращения: 14 декабря 2016 .
J. K. Baker. Stochastic modeling for automatic speech understanding. — Academic Press.
. www.dragon-medical-transcription.com. Дата обращения: 14 декабря 2016. 13 августа 2015 года.
↑ Ю. Н . Матвеев Технологии биометрической идентификации личности по голосу и другим модальностям
↑ В. Н. Сорокин, В. В. Вьюгин, А. А. Тананыкин Распознавание личности по голосу: аналитический обзор
. Дата обращения: 2 декабря 2016. Архивировано из 19 мая 2017 года.
Тассов К. Л., Дятлов Р. А. Метод идентификации человека по голосу
Kuwabara H., Sagisaka Y. (1995)
Davis S., Mermelstein P. (1980)
Е.А. Первушин. Обзор основных методов распознавания дикторов // Математические структуры и моделирование. — 2011.
. FindBiometrics (англ.) . 2008-11-11. из оригинала 30 ноября 2016 . Дата обращения: 29 ноября 2016 .
Tim Wallace (2016-02-19). . The Telegraph . из оригинала 30 ноября 2016 . Дата обращения: 29 ноября 2016 .

Источники

Ю. Н . Матвеев Технологии биометрической идентификации личности по голосу и другим модальностям — ISSN 0236-3933. Вестник МГТУ им. Н. Э. Баумана. Сер. «Приборостроение». 2012
В. Н. Сорокин, В. В. Вьюгин, А. А. Тананыкин Распознавание личности по голосу: аналитический обзор — ISSN 1819-5822 Информационные процессы, Том 12, № 1, стр. 1-30
Тассов К. Л., Дятлов Р. А. Метод идентификации человека по голосу. Инженерный журнал: наука и инновации, 2013, вып. 6. URL:
Lamel L.F., Gauvain J.L. (2000). Speaker verification over the telephone. Journal Speech Communication — Speaker recognition and its commercial and forensic applications
Kuwabara H., Sagisaka Y. (1995). Acoustic characteristics of speaker individuality: Control and Conversion. Speech Communication
Davis S., Mermelstein P. (1980). Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences. IEEE Trans. Acoustics, Speech, Signal Process.