Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Непосредственное кодирование формы речевого сигнала




Курсовой проект

 

На тему: «Разработка программного канального вокодера»

по курсу «Цифровая обработка сигналов»

 

2006


АННОТАЦИЯ

 

В данном проекте описан процесс создания канального вокодера. Описана программа на языке Matlab, модель, созданная с помощью системы Matlab Simulink, а так же программа на DSK TMS320C6711(5402), использующая возможности CODE COMPOSER STUDIO v.2, осуществляющая сжатие и восстановление речевого сигнала в реальном времени до уровня не более 4800 бит/с с удовлетворительным качеством восстановленного речевого сигнала (требуется обеспечить разборчивость речи, при этом узнаваемость диктора не обязательна).


На защиту студент представляет:

- пояснительную записку;

- электронную презентацию проекта в виде файла формата.ppt,.pdf или.ps;

- полностью отлаженное программное обеспечение.

Пояснительная записка должна выполняться в соответствии с требованиями действующих стандартов и содержать следующие разделы:

- введение;

- обзор существующих систем и методов решения задачи в соответствии с темой курсового проекта;

- обоснование метода решения задачи;

- разработка структурной схемы системы и расчет необходимых системных параметров;

- разработка программной модели системы на языке МАТЛАБ;

- результаты тестирования модели системы;

- разработка программного обеспечения системы на языке Си для реализации ее на цифровом сигнальном процессоре;

- анализ вычислительной сложности;

- анализ результатов реализации системы в реальном времени на цифровом сигнальном процессоре;

- краткое руководство пользователя;

- заключение;

- библиографический список;

- приложения:

- тексты программ на языке МАТЛАБ;

- тексты программ на языке Си.


ВВЕДЕНИЕ

 

В настоящее время, с развитием вычислительной техники, стоимость сигнальных процессоров довольно не велика и постоянно уменьшается, при этом увеличивается производительность вновь выпускаемых моделей процессоров. При этом стоимость каналов связи остается на достаточно высоком уровне, так как создание современных цифровых каналов связи требует значительных капиталовложений, а существующие аналоговые линии связи не выдерживают возрастающей нагрузки. Поэтому разработка систем сжатия речевых сигналов, с целью передачи их по каналам связи, является одной из актуальных задач современности.

Вокодер (от англ. voice — голос, coder — кодировщик) представляет со­бой электронное устройство, предназ­наченное для анализа и синтеза зву­ков человеческого голоса.

Впервые вокодером был назван изо­бретенный в 1936 году американским инженером Гомером Дадлеем аппарат, сужающий полосу частот, требуемую для передачи речевого сигнала по ка­налам связи. В последующие десяти­летия появилось множество разновид­ностей вокодера, применяемых в систе­мах связи. В них передается не са­ма речь, а определенные параметры речевого сигнала, по которым его за­тем можно восстановить в месте при­ема. Широко применяют вокодер в аку­стических исследованиях, при обуче­нии иностранным языкам, в речевой терапии.

Первый раздел пояснительной записки посвящен обзору существующих систем и методов построения сжатие речи с помощью канальных вокодеров обоснование метода решения данной задачи.

Во втором разделе КП разработка структурной схемы системы и расчет необходимых системных параметров для построения канального вокодера;

Разработка программной модели системы на языке Matlab и результаты тестирования модели системы приведены в третьем разделе.

В четвертом разделе описан процесс разработки программного обеспечения проектируемой системы канального вокодера на языке Си для реализации ее на цифровом сигнальном процессоре.

В пятом разделе произведен анализ вычислительной сложности, разработанной системы сжатия речи, а так же анализ результатов реализации данной системы в реальном времени на цифровом сигнальном процессоре, и краткое руководство пользователя системы сжатия.

В приложениях приводятся тексты разработанных программ на языке МАТЛАБ и Си.


ПОСТАНОВКА ЗАДАЧИ НА ПРОЕКТИРОВАНИЕ

 

Разработать и реализовать на ЦПОС TMS320C6711(5402) систему сжатия речи (рекомендуется реализовать канальный вокодер), осуществляющую сжатие и восстановление речевого сигнала в реальном времени до уровня не более 4800 бит/с. Считать, что исходный речевой сигнал представлен в виде последовательности 16-разрядных отсчетов c частотой дискретизации 8КГц. Необходимо обеспечить удовлетворительное качество восстановленного речевого сигнала (требуется обеспечить разборчивость речи, при этом узнаваемость диктора не обязательна).


СИСТЕМЫ СЖАТИЯ РЕЧИ

 

Голосовой тракт человека представляет собой акустическую трубу, ко­торая с одной стороны оканчивается голосовыми связками, а с другой губами. Форма голосового тракта определяется положением губ, челюстей языка и мяг­кого неба.

Звуки в этой системе образуются тремя способами. Вокализованные (звонкие) звуки - путем возбуждения голосового тракта квазипериодическими импульсами воздушного давления, создаваемыми вибрациями голосовых свя­зок. Фрикативные звуки образуются проталкиванием воздуха через сужения в определенных областях голосового тракта, в результате чего возникает турбуленция, которая является источником шума, возбуждающего голосовой тракт. Взрывные звуки образуются путем создания избыточного давления в области полного смыкания голосового тракта с последующим его быстрым размыка­нием. Все эти источники создают широкополосное возбуждение голосового тракта, который в свою очередь действует как линейный фильтр с изменяющи­мися во времени параметрами.

На рис. 14 приведена модель источника речи на основе цифрового пред­ставления речевых сигналов. Предполагается, что в этой модели дискретные отсчеты речевого сигнала формируются на выходе ЦФ с переменными параметрами, который аппроксимирует передаточные свойства голосового тракта, обусловленные формой импульсов возбуждения.


 

 


Рисунок 14 - Модель источника речи

 

На временном интервале порядка 10ms характеристики ЦФ можно считать неизменными. На каждом таком интервале ЦФ может быть охарактеризован совокупностью своих коэффициентов. В случае вокализованной речи ЦФ возбуждается генератором квазиканонической импульсной последовательности, расстояние между соседними импульсами которого соответствует периоду основного тона. На интервалах невокализованной речи ЦФ возбуждается генератором случайных чисел, который вырабатывает шумовой сигнал с равномерной спектральной плотностью. В обоих случаях сигнал, поступивший на ЦФ, управляется по амплитуде.

На рассмотренной модели базируются многочисленные способы представления речевых сигналов. По сложности реализации эти способы кодирования речи занимают широкий диапазон от простейшей периодической дискретизации до оценок параметров модели изображенной на рис.14.

Существует несколько подходов к сжатию речевых сигналов:

- кодирование формы волны речевого сигнала;

- кодирование параметров речевого тракта человека и источника возбуждения;

- кодирование символьной информации (фонем);

- кодирование лингвистической информации (слов, фраз и т.п.).

Непосредственное кодирование формы речевого сигнала

 

Исходный речевой сигнал представляет собой акустическую волну (волна давления в воздухе), которую можно преобразовать в электрический сигнал с помощью микрофона. Будем считать, что спектр речевого сигнала лежит в диапазоне от 100 до 4000 гц. Динамический диапазон изменения амплитуды, достаточный для описания речевых сигналов, составляет 12 двоичных разрядов.

Первым шагом, обеспечивающим сжатие речевого сигнала, является попытка обеспечения равномерной относительной точности измерения значения амплитуды сигнала. Для этого 14-12-ти разрядный динамический диапазон амплитуды разбивают на 8 логарифмических поддиапазонов, в каждом из которых значение амплитуды кодируют 5 разрядами и, таким образом, достигают сокращения информации до 64000 бит/с (кодирование по m- и A- законам в соответствии со стандартом ITU -G.711). Следующим шагом является адаптивная дифференциальная импульсно-кодовая модуляция (АДИКМ), (например, в соответствии со стандартами G.721 или G.726 8-40000 бит/с), с помощью которой осуществляют кодирование (аппроксимацию) степени приращения амплитуды сигнала во времени. Таким путем удается достичь степени сжатия речевого сигнала порядка 32000-16000 бит/сек., причем приемлемое (коммерческое) качество речи (по критерию отношения: полезный_сигнал/шум) обеспечивается до 24000 бит/сек. При более низких скоростях кодирования сохраняется разборчивость речи, но характерны сильные нелинейные и частотные искажения сигнала и ухудшение отношения сигнал/шум. Дальнейшее уменьшение информационной емкости сигнала с помощью данного подхода считается неэффективным.


Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...