Interested Article - Диаризация

Диаризация (или разделение дикторов ) — процесс разделения входящего аудиопотока на однородные сегменты в соответствии с принадлежностью аудиопотока тому или иному говорящему. Диаризация повышает качество текстов при автоматическом транскрибировании, а также может использоваться совместно с системой распознавания речи , значительно её улучшая. Диаризация используется для ответа на вопрос «Кто сейчас говорит?». Диаризация является сочетанием методов сегментации и кластеризации дикторов . Первый направлен на поиск точек смены диктора, второй — на группирование выделенных в речи диктора речевых сегментов.

Одним из популярных методов при диаризации является использование алгоритмов на основе гауссовых смесей для моделирования каждого из говорящих и закрепление выделенных фрагментов за каждым из дикторов с помощью скрытой марковской модели .

Программное обеспечение

Программные средства для диаризации включают в себя :

  • ALIZE
  • LIUM_SpkDiarization
  • Audioseg — сегментация и классификация аудиопотоков
  • SHoUT
  • pyAudioAnalysis

Примечания

  1. от 4 января 2015 на Wayback Machine // icsi.berkeley.edu, 2012.
  2. от 5 марта 2016 на Wayback Machine D2.1: State of the Art, Project’s deliverable
  3. . Дата обращения: 4 января 2015. 4 января 2015 года.
  4. . Дата обращения: 11 сентября 2019. Архивировано из 28 января 2019 года.
  5. . Дата обращения: 4 января 2015. 4 января 2015 года.
  6. . Дата обращения: 4 января 2015. 17 декабря 2014 года.

Литература

  • Будков В. Ю., Ронжин А. Л. . «Информационно-измерительные и управляющие системы» № 8, 2013.
  • Anguera, Xavier et al. // Audio, Speech, and Language Processing, IEEE Transactions on. — IEEE, 2012. — Vol. 20. — P. 356—370. — ISSN . — doi : .
  • Beigi, Homayoon. Fundamentals of Speaker Recognition. — Springer, 2011. — 942 p. — ISBN 978-0-387-77591-3 .
Источник —

Same as Диаризация