Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Mp3 - технология сжатия звуковой информации

Само название МрЗ появилось в результате сокращения аббревиатуры MPEG-1 Layer3.

MPEG (Motion Pictures Expert Group) - это группа при Международной организации по стандартизации и Международном электрическом комитете, которая занимается разработкой стандартов для цифрового сжатия видео и аудио информации. А зачем сжимать эту информацию? Во-первых, для экономии экономических и материальных ресурсов при передаче информации на расстояние по каналам связи (в том числе и спутниковым), а во-вторых, для ее хранения.

Официальное одобрение стандарт MPEG-1 получил в 1992 году, однако до недавнего времени открытие не было востребовано в полной мере. Лишь с появлением достаточно мощных процессоров Pentium (с тактовыми частотами от 300 МГц и выше, позволяющих резко снизить время на кодирование/декодирование сигнала) и высокоскоростных модемов стандарт получил широкое признание.

Стандарт MPEG-1 является потоковым форматом и состоит из аудио, видео и системной частей. Последняя часть содержит информацию об объединении и синхронизации двух первых.

Передача данных происходит потоком независимых отдельных блоков данных - фреймов, получаемых при "нарезке" на равные по продолжительности участки, которые кодируются независимо друг от друга.

Всего в настоящее время существует пять видов (номеров) стандартов MPEG:

1) MPEG1 - сжатие аудио и видео с общей скоростью до 150 Кбайт/сек (аудио 38, 44.1, 48 килогерц);

2) MPEG2 - сжатие аудио и видео с общей скоростью до 300 Кбайт/сек (аудио 38, 44.1, 48 килогерц), сжатие аудио ИДЕНТИЧНО MPEG1;

3) MPEG2.5 - сжатие аудио с пониженным разрешением (аудио 16,22.05,24 килогерц). Интересно заметить, что стандарт MPEG2.5 (еще известный как MPEG2 LSF - LOW SAMPLE FREQUENCY - низкая частота сканирования аудио) введен фирмой IIS Fraunhofer (институт информационных технологий имени Фраунхофера из Германии). Этот стандарт является расширением "чистого" аудио MPEG2 (то есть MPEG1!) для частоты сканирования аудио в два раза меньшей, чем обычно;

4) MPEG3 - многоканальный MPEG1+MPEG2. Этот стандарт практически не используется;

5) MPEG4 - новомодный за рубежом стандарт. Его особенность: может держать до 8-и каналов аудио (то есть AC-3 - цифровое расширение системы Surround.

Чем выше индекс уровня тем выше сложность и производительность алгоритма кодирования, соответственно и увеличиваются требования к системным ресурсам.

Здесь под термином 'кодирование" понимается процесс, позволяющий получать файл в сжатом виде, который занимает меньше места на диске и соответственно быстрее передается по каналам связи. В сжатой форме файл использоваться не может, соответственно, перед использованием его необходимо декодировать. Сжатие файла происходит не всегда с положительным результатом. Результат напрямую зависит от метода компрессии и от содержимого самого файла.

Принцип кодирования сигнала в MPEG Audio основан на использовании психоакустической модели (Psycho-acoustics), суть которой в следующем.

Существует ряд звуковых частот, которые человеческое ухо не воспринимает. Происходит маскирование одних звуков другими, как с большей амплитудой, так и с близкой частотой. Так, например, если излучается сильный звук частотой 1000 Гц (маскирующий), то более слабый звук частотой 1100 Гц (маскируемый) человеческое ухо не зафиксирует из-за особенностей порога слышимости человеческого уха. Порог слышимости на краях частотного диапазона (16-20 Гц и 16-20 кГц) значительно повышается, т.к. на этих частотах слух имеет значительно меньшую чувствительность по сравнению с областью наибольшей чувствительности слуха (диапазон 1-5 кГц). Также известно, что время восстановления чувствительности слуха после громкого сигнала составляет порядка 100 мс, а время задержки восприятия этого же сигнала составляет порядка 5 мс.

Таким образом, происходит передача только той звуковой информации, которая может быть адекватно воспринята подавляющим большинством слушателей, а вся остальная, увы, безвозвратно теряется.

Как уже упоминалось, все уровни имеют одинаковую базовую структуру, при которой кодер анализирует исходный сигнал, вычисляет для него гребенку фильтров (32 полосы) и применяет психоакустическую модель. С заранее выбранной частотой квантования, величиной потока и маскирования кодер производит квантование и кодирование сигнала.

Сравнительные характеристики способов кодирования для одного канала при частоте квантования в 32 кГц представлены в таблице 2.

 

                                   Таблица 2.

 

Способ кодирования Скорость передачи (кбит/с) Коэффициент сжатия
Layer 1 192 1:4
Layer 2 128-96 1:6...8
Layer 3 64-56 1:10...12

 

Перед кодированием исходный сигнал разбивается на фреймы, каждый из которых кодируется отдельно с разными параметрами и помещается в конечном файле независимо от других. Последовательность воспроизведения определяется порядком расположения фреймов. Вся информация о фрейме содержится в его заголовке, а информация о фреймах содержится в заголовке файла. Для информации об артисте, альбоме, названии композиции, жанре и пр. предусмотрен ID3/ID2 tag - заголовок. Подавляющее большинство существующих проигрывателей используют данный заголовок для прокрутки этой информации во время проигрывания музыкального фрагмента.

Между фреймами может содержаться произвольная информация, допустим, авторские права, расположенные ровным слоем по всему файлу. Основное требование к последовательно расположенным фреймам заключается в том, чтобы отсутствовали совпадения с сигнатурой начала фрейма.

Частота следования фреймов называется битрейтом (BIT RATE - битовая скорость, чем она выше, тем ближе будет конечный результат к оригиналу).

Каждый битрейт имеет свою область применения. Для создания качественной копии, соответствующей качеству оригиналу применяются только высокие битрейты порядка 256 кбит/с. При битрейте 128 кбит/с качество конечного продукта кажется вполне нормальным, но заметить разницу между копией и оригиналом способны уже многие. В Интернете чаще всего содержатся как раз МРЗ файлы, закодированные битрейтом 128 кбит/с. Но для создания действительно качественной копии необходимо использовать скорость кодирования в 320 кбит/с, хотя конечный файл получается меньше лишь в 4,3 раза по сравнению с 10,8 раз на 128 кбит/с и 5,4 раза на 256 кбит/с. Поэтому выбирать битрейт необходимо самому, исходя из потребностей.

После фреймовой разметки исходный сигнал с помощью гребенчатых фильтров разделяется на составляющие, представляющие отдельные частотные диапазоны, в сумме дающие обрабатываемый сигнал. Для каждого такого диапазона определяется своя психоакустическая модель и участки фрейма, которые "выпадают" из процесса кодирования. Для оставшихся данных определяется максимально допустимая частота квантования, которая должна обеспечивать потери ниже величины маскирующего эффекта.

После обработки всех фреймов формируется итоговый поток, который дополнительно кодируется по методу Хаффмана. Этот алгоритм также используется в архиваторе ARJ, только с динамической, постоянно изменяющейся таблицей Хаффмана, что требует двух проходов по данным; при фиксированной же таблице Layer 3, сжатие происходит за один проход. Указанный метод позволяет "сжать" до 20 процентов от общего объема. В результате получаем конечный поток кодированных аудиоданных.

 

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...