Речево́й ко́рпус
(
звуково́й ко́рпус
) —
база данных
аудиофайлов
и транскрипций текстов, разновидность
корпуса текстов
. В
речевые корпуса используются, среди прочего, для создания
(которые затем могут использоваться в механизмах
распознавания речи
). В
лингвистике
речевые корпуса используются для исследований
фонетики
,
диалектологии
,
конверсационного анализа
и в других областях.
Существует два типа речевых корпусов:
1.Базы начитанных текстов, в том числе:
-
тексты книг;
-
тексты трансляций новостей;
-
списки слов;
-
последовательности чисел.
2.Базы аудиозаписей спонтанной речи — в том числе:
-
диалоги — беседы между двумя или более людьми;
-
устные рассказы (например, Buckeye Corpus
);
-
картографические пояснения — один человек объясняет маршрут на карте другим;
-
задачи назначения — два человека пытаются найти общее время встречи, основанное на отдельных графиках.
Особый вид речевых корпусов — это
, которые содержат речь с иностранным
акцентом
.
Примечания
-
(неопр.)
. Дата обращения: 6 апреля 2018.
23 марта 2018 года.
Литература
-
Edwards, Jane / Lampert, Martin (eds.) (1992): Talking Data — Transcription and Coding in Discourse Research. Hillsdale: Erlbaum.
-
Leech, Geoffrey / Myers, Greg / Thomas, Jenny (eds.) (1995): Spoken English on Computer: Transcription, Markup and Application. Harlow: Longman.
Ссылки
-
-
The Buckeye Corpus of Conversational Speech
-
-
-
-
-
-
-
-
-
-