Некоторые особенности процесса речеобразования, учитываемые в вокодерах
⇐ ПредыдущаяСтр 3 из 3 Рассмотрим особенности процесса речеобразования. При разговоре грудная клетка сжимается и расширяется, поток воздуха проходит из легких через трахею и гортань в полости глотки, рта и носа. Голосовой тракт простирается от голосовой щели (отверстия между голосовыми складками в гортани) до губ. В процессе речеобразования его форма меняется. Если произносятся звонкие звуки (гласные, носовые, звонкие согласные), голосовые складки в гортани смыкаются и размыкаются с той или иной частотой, которая называется частотой основного тона. Получается последовательность импульсов воздушного потока, которые возбуждают полости голосового тракта. Говоря, человек меняет геометрические размеры этих полостей, соответственно меняются и их резонансные частоты, которые называют формантами. Звонкие звуки называются также вокализованными. Частота основного тона обычно находится в интервале от 50 до 400 Гц. На рис. 2.7 приведены временная зависимость и спектр, соответствующие гласному звуку "и". Хорошо виден периодический характер сигнала; в спектре ярко выражены основной тон и форманты. Рис. 2.7. При произнесении глухих (невокализованныx) звуков голосовые складки расслаблены. Проходя по суженному голосовому тракту, воздух создает турбулентный поток. Полости рта и носа возбуждаются при этом шумоподобным сигналом. На рис. 2.8 показаны временная зависимость и спектр, соответствующие глухому согласному звуку "с". Сигнал не содержит периодических составляющих и подобен шуму; в спектре отсутствуют форманты и основной тон. Рис. 2.8. Взрывные (смычные) звуки получаются путем кратковременного выхлопа - полного перекрытия речевого тракта, нагнетания давления и внезапного открытия тракта. Взрывные звуки бывают звонкие (б, д, г) и глухие (п, т, к), то есть могут образовываться с участием голосовых складок и без них.
Органы речи обладают инерционностью: на интервале 20 - 30 мс параметры речи можно считать постоянными.
Метод линейного кодирования с предсказанием Многие из методов вокодерного кодирования берут свое начало от изобретенного довольно давно метода LPC (Linear Predictive Coding). В качестве входного сигнала в LPC используется та же последовательность цифровых значений амплитуды, однако этот метод применяется не к отдельным цифровым значениям, а к определенным их блокам. Для каждого такого блока значений вычисляются его характерные параметры: частота, амплитуда и ряд других. Именно эти значения и передаются по сети. При таком подходе к кодированию речи, во-первых, возрастают требования к вычислительным мощностям специализированных процессоров, используемых для обработки сигнала, а во-вторых, увеличивается задержка при передаче, поскольку кодирование применяется не к отдельным значениям, а к некоторому их набору, который перед началом преобразования следует накопить в определенном буфере. Подчеркнем, что задержка в передаче речи при использовании этого метода связана не только с необходимостью обработки цифрового сигнала (эту задержку можно уменьшать, увеличивая мощность процессора), а непосредственно следует из характера метода сжатия. Этот метод позволяет, вообще говоря, достигать очень больших степеней сжатия, которым соответствует полоса пропускания 2,4 или 4,8 кбит/с, однако качество звука здесь сильно страдает. Поэтому в коммерческих приложениях он не используется, а применяется в основном для ведения служебных переговоров.
Гибридные кодеры Более сложные методы сжатия речи основаны на применении LPC в сочетании с элементами кодирования формы сигнала. В этих алгоритмах используется кодирование с обратной связью, когда при передаче сигнала осуществляется оптимизация кода. Закодировав сигнал, процессор пытается восстановить его форму и сличает результат с исходным сигналом, после чего начинает варьировать параметры кодировки, добиваясь наилучшего совпадения. Достигнув такого совпадения, аппаратура передает полученный код по линиям связи; на противоположном конце происходит восстановление звукового сигнала. Ясно, что для использования такого метода требуются еще более серьезные вычислительные мощности.
Одной из наиболее распространенных разновидностей описанного метода кодирования является метод LD-CELP (Low-Delay Code-Excited Linear Prediction). Этот метод позволяет достичь удовлетворительного качества воспроизведения при пропускной способности 16 кбит/с; он был стандартизован Международным союзом электросвязи (International Telecommunications Union - ITU) в 1992 году как алгоритм кодирования речи G.728 [3]. Алгоритм применяется к последовательности цифр, получаемых в результате аналого-цифрового преобразования голосового сигнала с 16-разрядным разрешением. Пять последовательных цифровых значений кодируются одним 10-битовным блоком - это и дает те самые 16 кбит/с. Для применения этого метода требуются очень большие вычислительные мощности, в частности, для прямолинейной реализации G.728 необходим процессор с быстродействием 44 млн. операций в секунду.. В марте 1995 года ITU принял новый стандарт G.723, который предполагается использовать при сжатии речи для организации видеоконференций по телефонным сетям. Этот стандарт является частью более общего стандарта H.324, описывающего подход к организации таких видеоконференций, при этом целью является обеспечение видеоконференций с использованием обычных модемов. Основой G.723 является метод сжатия речи MP-MLQ (Multipulse Maximum Likelihood Quantization). Он позволяет добиться весьма существенного сжатия речи при сохранении достаточно высокого качества звучания. В основе метода лежит описанная выше процедура оптимизации; с помощью различных усовершенствований можно сжимать речь до уровня 4,8; 6,4; 7,2 и 8,0 кбит/с. Структура алгоритма позволяет на основе программного обеспечения изменять степень сжатия голоса в ходе передачи. Вносимая кодированием задержка не превышает 20 мс.
Как показали испытания, проведенные ведущими американскими и европейскими телекоммуникационными компаниями, качество голоса, получаемое при сжатии методом MP-MLQ до уровня 6,4 кбит/с, не ниже того, что дает ADPCM при сжатии до 32 кбит/с. Список использованных источников к разделу 2
1. Применение цифровой обработки сигналов/ Под ред. Э. Оппенгеймера; пер. с англ.- М.: Мир, 1980. -552 с. 2. Шелухин О.И., Лукъянцев Н.Ф. Цифровая обработка и передача речи. -М.: «Радио и связь», 2000. - 456 с. 3. Синепол В.С., Цикин И.А. Системы компьютерной видеоконференцсвязи. М. ООО «Мобильные коммуникации», 1999. – 166 с.
Воспользуйтесь поиском по сайту: ©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|