Interested Article - MPEG-1 Audio Layer II

MPEG-1 Audio Layer II (сокр. MP2 , иногда неправильно называется Musicam ) — один из трёх форматов сжатия звука с потерями , определённых в стандарте MPEG-1 . Применяется в цифровом радиовещании DAB и устаревшем стандарте Video CD , который в 90-е годы использовался для распространения фильмов на оптических компакт-дисках и существовал до широкого распространения DVD .

MP2 развился из кодека MUSICAM ( англ. Masking pattern adapted Universal Subband Integrated Coding And Multiplexing — универсальное полосное кодирование и мультиплексирование с адаптацией к шаблону маскировки ), разработанного CCETT, Philips и IRT в 1989 году как часть межгосудартвенной инициативы EUREKA 147 (проекта DAB ) по разработке и исследованиям систем цифрового радиовещания для стационарных, портативных и мобильных приёмных устройств.

Основные параметры сжатия аудио в MPEG-1 были унаследованы из MUSICAM, включая банк фильтров, обработку во временной области, размер аудиокадра и т. д. Однако после дополнительного усовершенствования, алгоритм MUSICAM не был использован в финальной версии стандарта MPEG-1 Layer II .

Основные параметры

MPEG-1 Audio Layer II определён в стандарте ISO/IEC 11172-3 (MPEG-1 Часть 3)
- Частота дискретизации: 32, 44.1 и 48 кГц
- Битрейты: 32, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256, 320 и 384 кбит/с.
Расширение формата было представлено в MPEG-2 Audio Layer II и определено в стандарте ISO/IEC 13818-3 (MPEG-2 Part 3)
- дополнительные частоты дискретизации: 16, 22.05 и 24 кГц
- дополнительные битрейты: 8, 16, 24, 40 и 144 кбит/с, для формата 5.1 — около 1 Мбит/с.
- поддержка многоканальности — до 5 полных каналов и канала низкочастотных эффектов.
Поддерживается переменный битрейт (VBR)

Кодирование и декодирование MP2

Метод кодирования

Входной цифровой звуковой сигнал разделяется на кадры (фреймы), каждый из которых кодируется и декодируется независимо от других кадров. Размер кадра для уровня Layer II составляет 1152 отсчёта.

Полоса аудиосигнала с помощью цифровых полосовых фильтров разбивается на 32 поддиапазона. Все поддиапазоны имеют одинаковую ширину, которая зависит от частоты дискретизации входного сигнала. После разделения частота дискретизации уменьшается в 32 раза, так что число отсчётов в кадре в каждом поддиапазоне равно 36.

Затем выполняется квантование данных. Предварительно определяются масштабные множители, которые зависят от максимального значения сигнала. При этом масштабный множитель определяется для групп по 12 отсчётов в каждом поддиапазоне, причём множитель может быть общим для двух или трёх групп. Таким образом, для каждого поддиапазона в кадре определяется до трёх масштабных множителей. Перед квантованием значения сигнала делятся на соответствующие масштабные множители.

Затем в блоке квантования и кодирования выполняется квантование данных. В основе сжатия звуковой информации на уровне Layer II лежит метод, называемый адаптивным распределением битов. Этот метод заключается в выполнении квантования с различным числом двоичных разрядов квантования для разных частотных поддиапазонов. При этом используется равномерное квантование. Полное число битов, выделяемых на все поддиапазоны в данном кадре, зависит от частоты дискретизации входного сигнала и от заданной выходной скорости передачи двоичных символов, то есть от требуемой степени сжатия звуковой информации. Распределение битов по поддиапазонам осуществляется блоком психоакустической модели .

После квантования выполняется кодирование полученных данных. Квантованные отсчёты сигнала в каждом поддиапазоне объединяются по три, и полученные последовательности битов кодируются с использованием таблиц кодов с переменной длиной. Кроме того с помощью соответствующих таблиц кодируются данные о распределении битов по поддиапазонам и данные о масштабных множителях.

Чтобы выполнить распределение битов в блоке психоакустической модели анализируется спектр исходного звукового сигнала (не разложенного на поддиапазоны). Для этого производится быстрое преобразование Фурье участков этого сигнала по 1024 отсчётов, после чего вычисляется спектр мощности звукового сигнала и величины звукового давления в каждом частотном поддиапазоне.

Затем анализируются тональные (синусоидальные) и нетональные составляющие звукового сигнала, определяются локальные и глобальные пороги маскировки и вычисляются отношения сигнал/маскирующий сигнал для всех поддиапазонов, на основании которых производится распределение битов по поддиапазонам.

В тех поддиапазонах, в которых искажения звука, вызываемые квантованием, менее заметны для слушателя или маскируются большим уровнем сигнала в других поддиапазонах, квантование делается более грубым, то есть для этих поддиапазонов выделяется меньше битов. Для полностью маскируемых поддиапазонов битов совсем не выделяется. Благодаря этому удаётся существенно уменьшить количество передаваемой информации при сохранении достаточно высокого качества звука.

Декодирование

Данные, содержащиеся в кадре, декодируются в соответствии с порядком их следования и таблицами кодов, которые содержатся в программе работы декодера. Декодированные данные о распределении битов и о масштабных множителях используются для декодирования и деквантования звуковых данных. После деквантования отсчёты сигналов поддиапазонов умножаются на соответствующие масштабные множители.

После декодирования и деквантования отсчёты сигналов всех поддиапазонов объединяются в выходной цифровой звуковой сигнал.

Примечания

. ISO (1993). Дата обращения: 15 марта 2011. Архивировано из 23 марта 2012 года.
. ISO (1995). Дата обращения: 15 марта 2011. Архивировано из 23 марта 2012 года.
. Дата обращения: 14 марта 2011. 23 марта 2012 года.
8 мая 2001 года.
. Дата обращения: 14 марта 2011. 30 апреля 2010 года.
8 февраля 2015 года.

Литература

Смирнов А. В. Основы цифрового телевидения: Учебное пособие.— М.: Горячая линия-Телеком, 2001.- 224 с.: ил.

Ссылки

См. также

MPEG-1
- MPEG-1 Audio Layer I
- MPEG-1 Layer III (MP3)
MPEG-2
- AAC (MPEG-2 Part 7) — в 1999 году обновлен и включен в MPEG-4 Part 3
MPEG-4
- AAC (MPEG-4 Part 3)

[11172-3-1] . ISO (1993). Дата обращения: 15 марта 2011. Архивировано из 23 марта 2012 года.

[13818-3-2] . ISO (1995). Дата обращения: 15 марта 2011. Архивировано из 23 марта 2012 года.

[3] . Дата обращения: 14 марта 2011. 23 марта 2012 года.

[4] 8 мая 2001 года.

[5] . Дата обращения: 14 марта 2011. 30 апреля 2010 года.

[6] 8 февраля 2015 года.

MPEG (Moving Picture Experts Group)
MPEG-1 2 3 4 7 A B C E V M U
Разделы MPEG-1	Part 3: Аудио ( Layer I Layer III )
Разделы MPEG-2	Part 1: Системы ( Транспортный поток ) Part 3: Аудио ( Layer I Layer III ) Part 7: AAC
Разделы MPEG-4	Part 3: HE-AAC Part 10: H.264 Part 14: Формат файла MP4
Разделы MPEG-7
Разделы MPEG-21
Разделы MPEG-D

Сжатие аудио
Кодеки	ATRAC Dolby Digital /AC3 DTS Musepack Opus TwinVQ (VQF) Vorbis WMA
Речь/голос	iLBC iSAC Nellymoser QCELP RTAudio SILK Speex SVOPC Truespeech
Без потерь	Apple Lossless FLAC Monkey’s Audio OptimFROG TAK True Audio/ TTA WavPack WMA Lossless
Стандарты и форматы	AAC AMR G. 711 722 723 723.1 726 728 729 729.1 729A HE-AAC MLP MPEG-1 Audio Layer I Layer III MT9 RealMedia Dolby E
Цифровые аудиоформаты Сравнение цифровых аудиоформатов

Медиаконтейнеры
Видео/аудио	3GP ASF AVI Bink FLV MP4 MPEG MPEG-TS MXF Matroska (MKV) Ogg Media Ogg QuickTime RIFF RealMedia Smacker VOB WebM WMV сжатие сравнение
Аудио	AIFF APE DSD DXD FLAC MLP MP3 WAV WMA сжатие сравнение
Музыка	MIDI ( ) Трекерная музыка
Растровые	AVIF DNG FPX FLIF HEIF ICER ICO ILBM JBIG2 JBIG JPEG XR (HD Photo) JPEG XL JPEG / JP2 / JPEG-LS MNG EXR PCX PNG PSD PNM Raw TIFF TGA WBMP WebP XCF Анимационные: APNG , GIF Без потерь: BMP Включая сжатие с потерями: BPG
Векторные	SWF AI CDR EPS PS SVG VRML EMF WMF X3D XPS 3D: 3DS Анимационные: SVG
Комплексные	CGM DjVu PDF