Проектирование устройства захвата и аналого-цифрового преобразования речевого сигнала

Тип работы:
Дипломная
Предмет:
Коммуникации, связь, цифровые приборы и радиоэлектроника


Узнать стоимость новой

Детальная информация о работе

Выдержка из работы

Введение

Человеческая речь — исторически сложившаяся форма общения посредством языковых конструкций, создаваемых на основе определённых правил. Она позволяет человеку познавать окружающий мир, передавать свои знания и опыт другим людям, аккумулировать их для передачи последующим поколениям. Процесс речи предполагает формирование и формулирование мыслей речевыми средствами образуемые, как правило, артикуляционным аппаратом человека. В целом звуки речи подразделяются на шумы и тоны. Тоны в речи возникают в результате колебания голосовых связок; шумы образуются в результате непериодических колебаний выходящей из лёгких струи воздуха. Математическую модель можно представить в виде возбуждающих генераторов тонового и белового шума и группы фильтров, модуляторов и ключей — рот, нос, язык, губы, обеспечивающих фильтрацию и формирование определённого ощущения звука.

У человека преобразование акустических волн в сигналы нейронных цепей происходит во внутреннем ухе, а более конкретно -- в улитке. Улитка содержит в себе мембрану, различные участки которой резонируют на различных частотах, возбуждая нервные окончания. Параметры мембраны определяют спектр поспринимаемых звуков, у здорового взрослого человека он составляет 20 Гц-20 кГц. На других частотах резонанс в мембране не возникает, и они человеком не воспринимаются. Мозг человека анализирует разницу амплитуд, как звука, достигшего внешнего уха, так и разницу амплитуд в слуховом канале после ушной раковины для определения местоположения источника звука.

Звук представляет собой аналоговый сигнал, непрерывный во времени и принимающий произвольные неограниченные величины, его так же можно условно поделить на несколько частично пересекающихся классов:

1. тоновые (pitched):

o гармонические (harmonic),

o слабо гармонические (rough-garmonic);

o негармонические (inharmonic);

2. шумовые (noisy);

3. перкуссивные (percussive).

Первая передача речи на расстоянии, по проводам, была осуществлена в 1876 году североамериканским учёным, изобретателем и бизнесменом Александром Грэмом. Активное развитие техники, в частности развитие радиоприемников, позволило осуществить передачу речи без проводов. Первая публичная демонстрация состоялась 7 мая 1895 года Александром Степановичем Поповым. Уже в 1908 году был создан регламент в котором было зафиксировано распределение радиочастот между разными службами. В 1922 году было открыто свойство коротких волн преломляться в верхних слоях атмосферы, что позволило распространять сигналы на огромные расстояния. А в 1927 году была установлена радиотелефонная связь через Атлантический океан, которая могла передавать человеческую речь из Европы в Америку. С постепенным развитием цифровой техники важным параметрам стало качество речевого сигнала. Главным фактором, определяющим качество передачи речевого сигнала в низкоскоростных цифровых системах связи, является пропускная способность цифрового канала. Для того, чтобы иметь возможность передавать, хранить и обрабатывать звук посредством цифровой техники необходимо преобразование его цифровой вид — квантование. При квантовании с аналогового сигнала производятся выборки через определенные промежутки времени, а затем сопоставление каждой выборке конечной дискретного значения -- цифрового кода. Такое представление имеет название импульсно-кодовая модуляция (ИКМ). Возможны и иные методы преобразования, но они как правило ускоспециальны, например, детекторы частоты с одной стороны и генераторы с цифровым управлением с другой.

Цифровое представление звука ценно прежде всего возможностью бесконечного хранения и тиражирования без потери качества, однако преобразование из аналоговой формы в цифровую и обратно все же неизбежно приводит к частичной его потере. Наиболее неприятные на слух искажения, вносимые на этапе оцифровки — гранулярный шум, возникающий при квантовании сигнала по уровню из-за округления амплитуды до ближайшего дискретного значения. В отличие от простого широкополосного шума, вносимого ошибками квантования, гранулярный шум представляет собой гармонические искажения сигнала, наиболее заметные в верхней части спектра.

При восстановлении звука из цифровой формы в аналоговую возникает проблема сглаживания ступенчатой формы сигнала и подавления гармоник, вносимых частотой дискретизации. Из-за неидеальности АЧХ фильтров может происходить либо недостаточное подавление этих помех, либо избыточное ослабление полезных высокочастотных составляющих. Плохо подавленные гармоники частоты дискретизации искажают форму аналогового сигнала, что создает впечатление «шероховатого», «грязного» звука.

Цифровой звук обрабатывается посредством математических операций, применяемых к отдельным отсчетам сигнала, либо к группам отсчетов различной длины. Выполняемые математические операции могут либо имитировать работу традиционных аналоговых средств обработки (микширование двух сигналов — сложение, усиление/ослабление сигнала — умножение на константу, модуляция — умножение на функцию и т. п.), либо использовать альтернативные методы — например, разложение сигнала в спектр (ряд Фурье), коррекция отдельных частотных составляющих, затем обратная «сборка» сигнала из спектра.

Обработка цифровых сигналов подразделяется на линейную (в реальном времени, над «живым» сигналом) и нелинейную — над предварительно записанным сигналом. Линейная обработка требует достаточного быстродействия вычислительной системы (процессора); в ряде случаев невозможно совмещение требуемого быстродействия и качества, и тогда используется упрощенная обработка с пониженным качеством. Нелинейная обработка никак не ограничена во времени, поэтому для нее могут быть использованы вычислительные средства любой мощности, а время обработки, особенно с высоким качеством, может достигать нескольких минут и даже часов.

Для обработки применяются как универсальные процессоры общего назначения — Intel 8035, 8051, 80×86, Motorola 68xxx, SPARC — так и специализированные цифровые сигнальные процессоры (Digital Signal Processor, DSP) Texas Instruments TMS xxx, Motorola 56xxx, Analog Devices ADSP-xxxx и др.

Разница между универсальным процессором и DSP состоит в том, что первый ориентирован на широкий класс задач — научных, экономических, логических, игровых и т. п., и содержит большой набор команд общего назначения, в котором преобладают обычные математические и логические операции. DSP специально ориентированы на обработку сигналов и содержат наборы специфических операций — сложение с ограничением, перемножение векторов, вычисление математического ряда и т. п. Реализация даже несложной обработки звука на универсальном процессоре требует значительного быстродействия и далеко не всегда возможна в реальном времени, в то время как даже простые DSP нередко справляются в реальном времени с относительно сложной обработкой, а мощные DSP способны выполнять качественную спектральную обработку сразу нескольких сигналов.

В силу своей специализации DSP редко применяются самостоятельно — чаще всего устройство обработки имеет универсальный процессор средней мощности для управления всем устройством, приема/передачи информации, взаимодействия с пользователем, и один или несколько DSP — собственно для обработки звукового сигнала. Например, для реализации надежной и быстрой обработки сигналов в компьютерных системах применяют специализированные платы с DSP, через которые пропускается обрабатываемый сигнал, в то время как центральному процессору компьютера остаются лишь функции управления и передачи.

Поскольку любой цифровой сигнал представляется реальной электрической кривой напряжения или тока — его форма так или иначе искажается при любой передаче, а «замороженный» для хранения сигнал (сигналограмма) подвержен деградации в силу обычных физических причин. Все эти воздействия на форму несущего сигнала являются помехами, которые до определенной величины не изменяют информационного содержания сигнала, как отдельные искажения и выпадения букв в словах обычно не мешают правильному пониманию этих слов, причем избыточность информации, как и увеличение длины слов, повышает вероятность успешного распознавания.

Сам несущий сигнал может искажаться, однако переносимая им информация — закодированный звуковой сигнал — в абсолютном большинстве случаев остается неизменной.

Для того, чтобы качество несущего сигнала не ухудшалось, любая передача полезной звуковой информации — копирование, запись на носитель и считывание с него — обязательно должна включать операцию восстановления формы несущего сигнала, а в идеале — и первичного цифрового вида сигнала информационного, и лишь после этого заново сформированный несущий сигнал может быть передан следующему потребителю. В случае прямого копирования без восстановления (например, обычным переписыванием видеокассеты с цифровым сигналом, полученным при помощи ИКМ-приставки, на обычных видеомагнитофонах) качество цифрового сигнала ухудшается, хотя он по-прежнему полностью содержит всю переносимую им информацию. Однако после многократного последовательного копирования или длительного хранения качество ухудшается настолько, что начинают возникать неисправимые ошибки, необратимо искажающие переносимую сигналом информацию. Поэтому копирование и передачу цифровых сигналов необходимо вести только в цифровых устройствах, а при хранении на носителях — своевременно «освежать» не дожидаясь необратимой деградации (для магнитных носителей этот срок оценивается в несколько лет). Правильно переданная или обновленная цифровая сигналограмма качества не теряет и может копироваться и существовать вечно в абсолютно неизменном виде.

Тем не менее, не следует забывать, что корректирующая способность любого кода конечна, а реальные носители далеки от идеальных, поэтому возникновение неисправимых ошибок — на такая уж редкая вещь, особенно при неаккуратном обращении с носителем. При чтении с новых и правильно хранимых DAT-кассет или компакт-дисков в качественных и надежных аппаратах таких ошибок практически не возникает, однако при старении, загрязнении и повреждении носителей и считывающих систем их становится больше. Одиночная неисправленная ошибка почти всегда незаметна на слух благодаря интерполяции, однако она приводит к искажению формы исходного звукового сигнала, а накопление таких ошибок со временем начинает ощущаться и на слух.

Отдельную проблему составляет сложность регистрации неисправленных ошибок, а также проверки идентичности оригинала и копии. Чаще всего конструкторы цифровых звуковых устройств, работающих в реальном времени, не озабочены вопросом точной проверки достоверности передачи, считая вполне достаточными меры, принятые для коррекции ошибок. Невозможность в общем случае повторной передачи ошибочного отсчета или блока приводит к тому, что интерполяция происходит скрытно и после копирования нельзя с уверенностью сказать, точно ли скопирован исходный сигнал. Индикаторы ошибки, имеющиеся в ряде устройств, обычно включаются только в момент ее возникновения, и в случае одиночных ошибок их срабатывание легко может остаться незамеченным. Даже в системах на основе персональных компьютеров чаще всего нет возможности контролировать правильность приема по цифровому интерфейсу или прямого считывания CD; выходом является только многократное повторение операции и сравнение результатов.

И наконец, в принципе возможны ситуации, когда даже незначительные ошибки способны необратимо исказить передаваемую информацию, оставшись при этом незамеченными системой передачи. Другое дело, что вероятность возникновения подобных ошибок исчезающе мала (порядка одной на несколько лет непрерывной передачи сигнала), поэтому такую возможность практически нигде не принимают в расчет.

1. Расчётно-теоретический раздел

1.1 Уточнение технического задания

Уточнение технических и эксплуатационных показателей.

Устройство предназначено для использования в стационарной аппаратуре (группа 1.1 по ГОСТ РВ 20. 39. 304−98). Предельные значения параметров окружающей среды, воздействующих на конструкцию для данной группы аппаратуры, приведены в таблице 1.1.

Таблица 1.1 Предельные значения параметров окружающей среды

Вибрация

Частота, Гц

Ускорение, м/с2

10−70

19,6

Ударные сотрясения

Ускорение, м/с2

Длительность, мс

98

5−15

Одиночные удары

Ускорение, м/с2

Длительность, мс

196

1−5

Температура максимальная

Рабочая, °К

Предельная, °К

323

333

Температура минимальная

Рабочая, °К

Предельная, °К

263

253

Влажность относительная

Насыщенность, %

Температура, °К

93

298±10

Акустические шумы

Уровень, дБ

Частота, Гц

85−125

50−1000

Давление атмосферное

Максимальное, Па

Минимальное, Па

110 000

55 000

Линейные ускорения

Замедление, g

Центральное, g

2−4

2−5

Ветровая нагрузка

Рабочая, м/с

Предельная, м/с

до 50

до 70

1. 2 Импульсно-кодовая модуляция (ИКМ)

Исходная форма звукового сигнала — непрерывное изменение амплитуды во времени — представляется в цифровой форме с помощью «перекрестной дискретизации» — по времени и по уровню.

Согласно теореме Котельникова, любой непрерывный процесс с ограниченным спектром может быть полностью описан дискретной последовательностью его мгновенных значений, следующих с частотой, как минимум вдвое превышающей частоту наивысшей гармоники процесса; частота выборки мгновенных значений (отсчетов) называется частотой дискретизации.

Из теоремы следует, что сигнал с частотой Fa может быть успешно дискретизирован по времени на частоте 2Fa только в том случае, если он является чистой синусоидой, ибо любое отклонение от синусоидальной формы приводит к выходу спектра за пределы частоты Fa. Таким образом, для временной дискретизации произвольного звукового сигнала (обычно имеющего, как известно, плавно спадающий спектр), необходим либо выбор частоты дискретизации с запасом, либо принудительное ограничение спектра входного сигнала ниже половины частоты дискретизации.

Одновременно с временной дискретизацией выполняется амплитудная — измерение мгновенных значений амплитуды и их представление в виде числовых величин с определенной точностью. Точность измерения (двоичная разрядность N получаемого дискретного значения) определяет соотношение сигнал/шум и динамический диапазон сигнала (теоретически это — взаимно-обратные величины, однако любой реальный тракт имеет также и собственный уровень шумов и помех).

Полученный поток чисел (серий двоичных цифр), описывающий звуковой сигнал, называют импульсно-кодовой модуляцией или ИКМ (Pulse Code Modulation, PCM), так как каждый импульс дискретизованного по времени сигнала представляется собственным цифровым кодом.

Чаще всего применяют линейное квантование, когда числовое значение отсчета пропорционально амплитуде сигнала. Из-за логарифмической природы слуха более целесообразным было бы логарифмическое квантование, когда числовое значение пропорционально величине сигнала в децибелах, однако это сопряжено с трудностями чисто технического характера.

Временная дискретизация и амплитудное квантование сигнала неизбежно вносят в сигнал шумовые искажения, уровень которых принято оценивать по формуле 6N + 10lg (Fдискр/2Fмакс) + C (дБ), где константа C варьируется для разных типов сигналов: для чистой синусоиды это 1.7 дБ, для звуковых сигналов — от -15 до 2 дБ. Отсюда видно, что к снижению шумов в рабочей полосе частот 0. Fмакс приводит не только увеличение разрядности отсчета, но и повышение частоты дискретизации относительно 2Fмакс, поскольку шумы квантования «размазываются» по всей полосе вплоть до частоты дискретизации, а звуковая информация занимает только нижнюю часть этой полосы.

В большинстве современных цифровых звуковых систем используются стандартные частоты дискретизации 44.1 и 48 кГц, однако частотный диапазон сигнала обычно ограничивается возле 20 кГц для оставления запаса по отношению к теоретическому пределу. Также наиболее распространено 16-разрядное квантование по уровню, что дает предельное соотношение сигнал/шум около 98 дБ. В студийной аппаратуре используются более высокие разрешения — 18-, 20- и 24-разрядное квантование при частотах дискретизации 56, 96 и 192 кГц. Это делается для того, чтобы сохранить высшие гармоники звукового сигнала, которые непосредственно не воспринимаются слухом, но влияют на формирование общей звуковой картины.

Для оцифровки более узкополосных и менее качественных сигналов частота и разрядность дискретизации могут снижаться; например, в телефонных линиях применяется 7- или 8-разрядная оцифровка с частотами 8. 12 кГц.

Представление аналогового сигнала в цифровом виде называется также импульсно-кодовой модуляцией, так как сигнал представляется в виде серии импульсов постоянной частоты (временная дискретизация), амплитуда которых передается цифровым кодом (амплитудная дискретизация). PCM-поток может быть как параллельным, когда все биты каждого отсчета передаются одновременно по нескольким линиям с частотой дискретизации, так и последовательным, когда биты передаются друг за другом с более высокой частотой по одной линии.

Для улучшения соотношения сигнал/шум и снижения влияния ошибок квантования, которое в случае однобитового преобразователя получается довольно высоким, применяется метод формовки шума (noise shaping) через схемы обратной связи по ошибке и цифрового фильтрования. В результате применения этого метода форма спектра шума меняется так, что основная шумовая энергия вытесняется в область выше половины частоты Fs, незначительная часть остается в нижней половине, и практически весь шум удаляется из полосы исходного аналогового сигнала.

Еще в 60-х годах был принят международный стандарт G. 711 — алгоритм оцифровки голоса под названием импульсно-кодовой модуляции. Прямое аналого-цифровое преобразование является низкоэффективным (т. е. Имеющим малую скорость кодирования при заданном качестве) высококачественным методом кодирования. Кодеки, построенные на базе данного метода, работают на скоростях не ниже 32 кбит/с. При этом полоса входного аналогового сигнала ограничена диапазоном 0,3−3,4 кГц. Для повышения качества преобразования полоса может быть расширена до 6 кГц, что соответствует скорости передачи 88 кбит/с при частоте дискретизации 12 кГц (при дальнейшем расширении полосы качество представления речи не повышается). Оцифровка голосового сигнала включает измерение уровня аналогового сигнала через равные промежутки времени. В соответствии со стандартом G. 711 принимается, что для узнаваемости голоса необходимо обеспечить передачу его частотных составляющих в диапазоне от 200 до 3400 Гц. Известно, что для правильной передачи всех частотных составляющих необходимо измерять уровень сигнала с частотой 8 кГц. В стандарте также принимается, что оцифровка аналогового сигнала производится с восьмиразрядным разрешением. При этом обычно используется один из двух способов установления соответствия между амплитудой звукового сигнала и цифровым значением — либо A-кодирование (оно принято в Европе и Азии), либо мю-кодирование (принятое в США, Канаде и некоторых других странах). Они представляют собой таблицы соответствия между измеряемым значением напряжения и числом, при помощи которого оно кодируется. Для передачи одного голосового канала в цифровом виде требуется пропускная способность 64 кбит/с (8 кГц х 8 разрядов). Именно эта величина и используется в качестве единицы измерения пропускной способности каналов современных цифровых сетей. Во время воспроизведения каждое значение дискретизации преобразует в соответствующее значение напряжения, которое затем усиливается и подается на динамик или наушники. При изменении значения оцифрованного звука меняется напряжение, а динамик преобразует изменение напряжения в изменение звукового давления, которое в виде звуковой волны распространяется в воздухе и достигает уха. Наиболее очевидный подход заключается в использовании линейной связи (linear relation), при которой, например, увеличение значения цифрового представления звука вдвое будет приводить к увеличению напряжения также в два раза. Однако этот подход не эффективен. Человеческое ухо воспринимает звук нелинейно: разница между малыми цифровыми представлениями звукового сигнала может быть слишком велика для слабых звуков, в то время как разница между большими представлениями будет слишком мала, чтобы ухо ее различило. Принимая во внимание указанную природу человеческого слуха вводят логарифмическую шкалу. Соотношения m-Law и A-Law соответствуют этой шкале. Соотношение m-Law используется, прежде всего, в Северной Америке и в Японии.

Соотношения m-Law и A-Law позволяют восьмиразрядные измерения представлять в том же диапазоне, что и линейные 12-разрядные. Таким образом, можно получить более чем 30% сжатия.

На рисунке 1. 1, приведены обобщенные кривые, характеризующие помехоустойчивость различных методов цифрового представления речи:

Рисунок 1.1 Помехоустойчивость различных методов цифрового представления.

· кривая 1 соответствует ИКМ-представлению;

· А -- область нечувствительности к ошибкам;

· В -- слабая чувствительность;

· С -- потеря работоспособности;

· Рош -- вероятность ошибки на символ;

· SNR -- отношение сигнал/шум, рассчитанное через среднеквадратическую ошибку восстановления.

ИКМ-кодеки имеют наихудшие показатели помехоустойчивости. На рисунке можно увидеть, что изо всех кривых (характеристик разных способов цифрового представления речи) самый короткий относительно других типов ЦПР участок, А (нечувствительность к ошибкам в канале) имеет кривая 1. Кодеки могут потерять работоспособность, даже если вероятность ошибки равна 10−5, что соответствует параметрам канала среднего класса. Системы с ИКМ работают только в области нечувствительности к ошибкам в канале, но даже в этом случае вводятся специальные меры для устранения последствий возникновения одиночных ошибок. При использовании алгоритма ИКМ со скоростью передачи 64 кбит/с кодек имеет максимальную область нечувствительности к ошибкам в канале при высоком качестве восстановления. Поэтому данный алгоритм рекомендован для большинства систем цифровой передачи речи в качестве метода предварительного аналого-цифрового преобразования.

Параметры ИКМ при оцифровке речевых сигналов описаны в рекомендациях МККТТ (Международный консультативный комитет по телефонии и телеграфии, CCITT) и, как правило, имеют следующие значения: — частота дискретизации 8000 Гц; - число двоичных разрядов на отсчет 8; - скорость передачи 64 000 бит/c. При этом может быть оцифрован и восстановлен аналоговый сигнал с верхней частотой до 4000 Гц.

При использовании дифференциальной (разностной) ИКМ (ДИКМ, Differencial PCM, DPCM) вместо кодирования отсчетов кодируются разности между соседними отсчетами. Обычно разности отсчетов меньше самих отсчетов. Скорость передачи цифрового потока снижается до 32−56 кбит/c. В системах с логарифмической ДИКМ используют А- и мю законы компандирования для реализации неравномерного квантования. Компандирование — способ преобразования речевого сигнала, при котором на передающем конце тракта происходит сжатие по одному или нескольким измерениям (частотный диапазон, динамический диапазон, временной интервал), а на приёмном — восстановление первоначального объёма сигнала путём соответствующего расширения. Адаптивная ДИКМ (АДИКМ, Adaptive Differencial PCM, ADPCM) — система ДИКМ с адаптацией квантователя (АЦП и ЦАП) и предсказателя. При АДИКМ оцифровывается не сам сигнал, а его отклонение от предсказанного значения (сигнал ошибки, ошибка предсказания). Данный метод предложен в качестве стандарта комитетом CCITT.

Наиболее часто применяются следующие разновидности АДИКМ:

— рекомендация G. 721 МККТТ (скорость передачи 32 кбит/с);

— рекомендация G. 722 МККТТ (частота дискретизации 16 000 Гц);

— рекомендация G. 723 МККТТ (скорость передачи 24 кбит/с);

— Creative ADPCM (4, 2,6 или 2 бита на отсчет);

— IMA/DVI ADPCM (4, 3 или 2 бита на отсчет);

— Microsoft ADPCM.

Рассмотренные выше методы могут вносить незначительные изменения и потери в речевые сигналы (например, сужение динамического диапазона в области высших частот, ограничение крутизны сигнала), которые практически не влияют на аутентичность речи. Один из наиболее общепринятых и давно используемых алгоритмов сжатия речи называется ADPCM, стандарт G. 726 был принят в 1984 году). Этот алгоритм дает практически такое же качество воспроизведения речи, как и PCM, однако для передачи информации при его использовании требуется полоса всего в 32 кбит/с. Метод основан на том, что в аналоговом сигнале, передающем речь, невозможны резкие скачки интенсивности. Поэтому если кодировать не саму амплитуду сигнала, а ее изменение по сравнению с предыдущим значением, то можно обойтись меньшим числом разрядов. В ADPCM изменение уровня сигнала кодируется четырехразрядным числом, при этом частота измерения амплитуды сигнала сохраняется неизменной. Все методы кодирования, основанные на определенных предположениях о форме сигнала, плохо работают в ситуации, когда сигнал может передаваться с резкими скачками амплитуды. Именно такой вид имеет аудиосигнал, генерируемый модемами или факсимильными аппаратами. Современные системы обмена информацией, поддерживающие цифровые линии связи, умеют распознавать факсимильный обмен и передают соответствующие сигналы непосредственно в цифровом виде, не преобразуя их в аудиосигнал. Оба описанных метода кодирования (их называют методами кодирования формы сигнала) работают весьма прямолинейно. Для достижения более высоких степеней сжатия при сохранении пристойного качества звучания необходимы более усложненные методы, основанные на использовании более глубоких особенностей речи. В марте 1995 года ITU принял новый стандарт G. 723, который предполагается использовать при сжатии речи для организации видеоконференций по телефонным сетям. Этот стандарт является частью более общего стандарта H. 324, описывающего подход к организации таких видеоконференций, при этом целью является обеспечение видеоконференций с использованием обычных модемов. Основой G. 723 является метод сжатия речи MP-MLQ (Multipulse Maximum Likelihood Quantization). Он позволяет добиться весьма существенного сжатия речи при сохранении достаточно высокого качества звучания. В основе метода лежит описанная выше процедура оптимизации; с помощью различных усовершенствований можно сжимать речь до уровня 4,8; 6,4; 7,2 и 8,0 кбит/с. Структура алгоритма позволяет на основе программного обеспечения изменять степень сжатия голоса в ходе передачи. Вносимая кодированием задержка не превышает 20 мс. Как показали испытания, проведенные ведущими американскими и европейскими телекоммуникационными компаниями, качество голоса, получаемое при сжатии методом MP-MLQ до уровня 6,4 кбит/с, не ниже того, что дает ADPCM при сжатии до 32 кбит/с.

Согласно рекомендации G. 726 к стандарту, метод ADPCM (АДИКМ) может быть использован для осуществления двустороннего преобразования PCM-сигнала, передаваемого по каналу с пропускной способностью 64 кбит/c, в PCM-сигнал, предназначенный для передачи по каналам с минимальными пропускными способностями 40, 32, 24 или 16 кбит/c.

Во время работы метода адаптивный предсказатель осуществляет предсказание уровня поступающего равномерно квантованного сигнала. Входной сигнал имеет 256 уровней квантования и частоту дискретизации 8 кгц. В сумматоре происходит алгебраическое сложение входного и предсказанного сигнала. Разностный сигнал поступает в адаптивный квантователь, где производится логарифмическое квантование. Число уровней квантования, согласно стандарту, может быть равно 16, 8, 4 или 2. (Соответственно сигнал может быть передан по каналам с минимальными пропускными способностями 40, 32, 24 или 16 кбит/c.) Другие параметры квантования частично определяются в стандарте, а частично зависят от характеристик обрабатываемого сигнала.

С выхода адаптивного квантователя сигнал одновременно поступает в обратный адаптивный квантователь и в канал передачи. Обратный адаптивный квантователь предназначен для перевода логарифмически квантованного PCM-сигнала в равномерно квантованный разностный сигнал. Получаемый разностный сигнал может не совпадать с исходным разностным сигналом. Обратное преобразование необходимо для того, чтобы обеспечить одинаковое предсказание на этапах кодирования и декодирования.

С выхода обратного адаптивного квантователя равномерно квантованный разностный сигнал одновременно поступает на вход адаптивного предсказателя и на вход сумматора. Последний осуществляет суммирование данного сигнала с предсказанным сигналом. Полученный в результате суммирования сигнал также поступает на вход адаптивного предсказателя.

Адаптивный предсказатель осуществляет предсказание на основе 6 последних выборок обрабатываемого сигнала. При этом учитываются особенности данного сигнала. (Учет производится посредствам адаптивного изменения параметров предсказывающей функции.)

Процесс декодирования в методе ADPCM схож с процессом кодирования. ADPCM-сигнал поступает на вход обратного адаптивного квантователя. Равномерно квантованный разностный сигнал одновременно поступает на сумматор и адаптивный предсказатель. На сумматор также поступает предсказанный сигнал. Полученный в результате сложения восстановленный сигнал одновременно поступает в адаптивный предсказатель и синхронизатор. В синхронизатор также поступает входной ADPCM-сигнал. Синхронизатор служит для устранения накопленного временного искажения. С выхода синхронизатора PCM-сигнал поступает в выходной канал с пропускной способностью 64 кбит/c.

Правильное декодирование сигнала становится возможным благодаря одинаковым предсказаниям, вычисляемым адаптивным предсказателем на этапах кодирования и декодирования. Отметим, что одним из важных условий корректного декодирования является отсутствие ошибок в канале передачи.

Метод ADPCM чаще всего применяется для сжатия аудио сигналов и, в особенности, голосовых сообщений. Он нашел свое применение во многих устройствах передачи звуковой информации, начиная с голосовых модемов и заканчивая мобильными телефонами.

АДИКМ является основой стандарта ITU G. 727, который определяет преобразование речи методом EADPCM — Embedded Adaptive Differential Pulse Code Modulation (вложенная адаптивная дифференциальная импульсно-кодовая модуляция). Согласно данному стандарту, речевой сигнал преобразуется в цифровой вид методом АДИКМ. Затем формируется речевой кадр, состоящий из блоков бит, причем первый блок содержит старшие биты всех закодированных отсчетов, второй блок — следующие по убыванию старшинства биты и т. д. В пределах блока, биты упорядочиваются согласно номеру отсчета, который они определяют. Особенность этого метода заключается в том, что некритичная к удалению информация расположена в позициях, где она может быть легко отвергнута (в конце кадра).

Например, в случае преобразования EADPCM (4,2) в речевом кадре будет содержаться четыре блока, и наименее значимые блоки — два последних (блоки расширения), могут отвергаться в случае перегрузки. Эта особенность используется в рекомендации FRF. 11, регламентирующей передачу речи по сети Frame Relay. Согласно Приложению G этой рекомендации сформированный методом EADPCM речевой кадр передается в двух кадрах Frame Relay: основная информация — в кадрах с битом DE=0 (Discard Eligibility — Разрешение Сброса), и информация расширения — в кадрах с установленным битом (DE=1). Это означает что в случае перегрузки, кадры с установленным битом DE могут быть уничтожены.

Все методы кодирования, основанные на определенных предположениях о форме сигнала, не подходят при передаче сигнала с резкими скачками амплитуды. Именно такой вид имеет сигнал, генерируемый модемами или факсимильными аппаратами, поэтому аппаратура, поддерживающая сжатие, должна автоматически распознавать такие сигналы и обрабатывать их иначе, чем речевой трафик.

1. 3 Линейное предсказание

Идея линейного предсказания (ЛП) такова: сформировать из нескольких отсчетов речи линейную комбинацию. Для этого сигнал речи сегментируют на блоки, обрабатывают окном и для каждого блока вычисляют автокорреляционную функцию (АКФ), число отсчетов которой обычно около 10. Оказывается, что такая АКФ содержит исчерпывающую информацию о формантном спектре речи на данном сегменте. На втором шаге находят решение системы линейных уравнений относительно коэффициентов предсказания — тех самых, что нужны для формирования синтезирующего фильтра. Фактически найденные коэффициенты задают спектральную модель голосового аппарата человека, и чем выше порядок ЛП, тем точнее модель. Пропустив исходную речь через фильтр, обратный полученному, мы получаем функцию, близкую к сигналу возбуждения. В ее спектре формантные области сглажены, а спектральный характер напоминает белый шум. Поэтому обратный фильтр также называют отбеливающим. Параметры Л П квантуются, после чего передаются на приемную сторону. А ошибка предсказания (разностный сигнал), обозначенный в формуле 2 через R (n), обрабатывается с целью выделения существенных для человеческого восприятия параметров. Например, в простейших кодеках ЛП передается период ОТ и мощность возбуждающих импульсов. В кодеке RPE-LTP таких импульсов уже несколько, а в кодеках CELP (code-excited linear prediction — ЛП с кодовым возбуждением) вместо передачи самих импульсов подбирается наиболее подходящая запись из набора хранящихся в заранее сформированной кодовой книге. Тогда, вместо самой последовательности можно на прием передать ее порядковый номер в кодовой книге. Однако существуют и другие подходы. В любом случае по каналу связи вместо самой речи передают так или иначе выделенные и квантованные параметры предсказания, интервал и усиление ОТ, параметры возбуждения. В декодере ЛП по принятым параметрам восстанавливают сигнал возбуждения, пропускают его через синтезирующий фильтр и так восстанавливают речь.

В спектре звонкой речи на фоне общего спадания его к верхним частотам просматриваются три резонансные области — в районе 300 Гц, 1700 Гц и 2600 Гц, — описанные выше форманты. Спектр же возбуждения, сохраняя линейчатость (голосовые связки, вспомним, колеблются периодически), выровнен по амплитуде, или, как еще говорят, отбелен. Это происходит потому, что возбуждение носит случайный шумовой характер, хотя и следующий с некоторой периодичностью. Обратите также внимание на то, что энергия возбуждения много меньше энергии самой речи, то есть синтезирующий фильтр помимо спектрального окрашивания еще и усиливает входной сигнал. Говорят, что в ближней зоне сигнал возбуждения декоррелирован (статистически независим), что, кстати, усложняет его сжатие, и, напротив, в дальней зоне корреляция очень высока, достигая максимума в точке, равной периоду ОТ. Последнее свойство очень полезно, так как свидетельствует об избыточности, и в этом заложен большой ресурс для сжатия. Из-за периодичности сигналов присутствующий на показанном участке звонкой речи случайный компонент визуально обнаружить довольно трудно. Но он есть, и именно из-за него спектр речи в областях между гармониками частоты ОТ не спадает до нуля. Опыт разработки кодеков показал, что этот случайный компонент необходим для полноценного восприятия. Без него синтезированная речь звучит неестественно (вспомним, как иной раз разговаривает цифровой сотовый или Интернет-телефон). Артикуляционные изменения характеристик синтезирующего фильтра, формирующие звуки речи, происходят непрерывно, но медленно. Поэтому при сжатии речь сегментируют на короткие блоки (длиной 5−30 мс), в пределах которых параметры этого фильтра считают постоянными (свойство локальной квазистационарности речи). Известно, что значение ОТ для разных голосов может изменяться почти в 10 раз — от 2 до 18 мс. Это обстоятельство создает немало трудностей при оценке ОТ, так как слух очень чувствителен к его искажениям. Методов измерения ОТ известно очень много, и ежегодно на международных конференциях ICASSP (International Conference on Acoustics, Speech and Signal Processing) предлагаются всё новые и новые, так как до сих пор достаточно надежный и простой и, вместе с тем, не требующий чрезмерной задержки метод пока не появился. Что касается сокращенного описания сигнала возбуждения в целом, то с этим дела обстоят еще хуже: эффективных «конструктивных» методов не предложено, и значительная часть вычислительного ресурса CELP-кодеков, к примеру, расходуется именно на кодирование возбуждения.

Возбуждение, хотя и лишенное периодической составляющей, в голосовом тракте получило какое-то спектральное усиление, что отражено на спектре, а в целом, что речь, что возбуждение малокоррелированы. После появления первых вокодеров случилась «пауза»: развитие техники связи и появление многоканальных высококачественных телефонных линий, с одной стороны, и неразвитость цифровой техники, с другой, на некоторое время ослабили интерес к сжатию речи. Вокодеры уцелели только в системах засекреченной военной и правительственной связи, в некоторых каналах спецрадиосвязи, вроде аэродромной. А в нарождающейся цифровой связи господствовали два алгоритма нелинейной ИКМ, обеспечивающие прекрасное телефонное качество. Два — потому, что в Европе («А-закон») и в США («мю-закон») были приняты разные реализации одного и того же стандарта. Отсутствие единого стандарта с развитием международных связей стало очень неудобным, так как требовало перекодировки речи при передаче речевого сигнала из одной сети связи в другую, а с учетом того, что трафик между США и Европой большой, то и перекодировок требовалось немало. Вынужденная перекодировка вносит дополнительные шумы и снижает оценку MOS. Логарифмическая ИКМ никак не использует взаимную корреляцию между соседними отсчетами речи, поэтому первым примером сжимающей обработки стоит считать дифференциальную ИКМ (ДИКМ), при которой осуществляется предсказание речи первого порядка. Предыдущий отсчет берется с определенным весом, формируя прогноз. Разница между предсказанным и реальным отсчетом речи подвергается квантованию. Позднее появилась более продвинутая технология — адаптивная дифференциальная ИКМ (АДИКМ). При АДИКМ размеы шкалы квантования подстраивают в соответствии с энергией речи так, чтобы слабые сигналы квантовались малыми ступенями квантования, а сильные сигналы — большими. Благодаря непрерывной подстройке шага квантования к текущей мощности речи, разрядность шкалы квантования при АДИКМ удалось снизить до четырех бит и получить кодек со скоростью передачи 32 кбит/с и качеством, близким к ИКМ. В качестве входного сигнала в LPC используется та же последовательность цифровых значений амплитуды, однако этот метод применяется не к отдельным цифровым значениям, а к определенным их блокам. Для каждого такого блока значений вычисляются его характерные параметры: частота, амплитуда и ряд других. Именно эти значения и передаются по сети. При таком подходе к кодированию речи, во-первых, возрастают требования к вычислительным мощностям специализированных процессоров, используемых для обработки сигнала, а во-вторых, увеличивается задержка при передаче, поскольку кодирование применяется не к отдельным значениям, а к некоторому их набору, который перед началом преобразования следует накопить в определенном буфере. Задержка в передаче речи при использовании этого метода связана не только с необходимостью обработки цифрового сигнала (эту задержку можно уменьшать, увеличивая мощность процессора), а непосредственно следует из характера метода сжатия. Этот метод позволяет, вообще говоря, достигать очень больших степеней сжатия, которым соответствует полоса пропускания 2,4 или 4,8 кбит/с, однако качество звука здесь сильно страдает. Поэтому в коммерческих приложениях он не используется, а применяется в основном для ведения служебных переговоров.

Более сложные методы сжатия речи основаны на применении LPC в сочетании с элементами кодирования формы сигнала. В этих алгоритмах используется кодирование с обратной связью, когда при передаче сигнала осуществляется оптимизация кода. Закодировав сигнал, процессор пытается восстановить его форму и считает результат с исходным сигналом, после чего начинает варьировать параметры кодировки, добиваясь наилучшего совпадения. Достигнув такого совпадения, аппаратура передает полученный код по линиям связи; на противоположном конце происходит восстановление звукового сигнала. Ясно, что для использования такого метода требуются еще более серьезные вычислительные мощности. Одной из наиболее распространенных разновидностей описанного метода кодирования является метод LD-CELP (Low-Delay Code-Excited Linear Prediction). Этот метод позволяет достичь удовлетворительного качества воспроизведения при пропускной способности 16 кбит/с; он был стандартизован Международным союзом электросвязи (International Telecommunications Union — ITU) в 1992 году как алгоритм кодирования речи G. 728. Алгоритм применяется к последовательности цифр, получаемых в результате аналого-цифрового преобразования голосового сигнала с 16-разрядным разрешением.

Пять последовательных цифровых значений кодируются одним 10-битовным блоком — это и дает те самые 16 кбит/с. Для применения этого метода требуются очень большие вычислительные мощности, в частности, для прямолинейной реализации G. 728 необходим процессор с быстродействием 44 mips.

Более сложные методы сжатия речи основаны на применении метода линейного предсказания речи в сочетании с элементами кодирования формы сигнала. В этих алгоритмах используется кодирование с обратной связью, когда при передаче сигнала осуществляется оптимизация кода. Закодировав сигнал, процессор пытается восстановить его форму и сравнивает результат с исходным сигналом, после чего начинает варьировать параметры кодирования, добиваясь наилучшего совпадения. Достигнув такого совпадения, аппаратура передает полученный код по линиям связи. На противоположном конце происходит восстановление речевого сигнала. Ясно, что для использования такого метода требуются еще более серьезные вычислительные мощности.

1.4 Вокодер

Одним из основных узлов ПО пакетирования речи является вокодер. Вокодер (voice coder) представляет собой устройство (или алгоритм), осуществляющее параметрическое компандирование речевого сигнала. В разработке находятся вокодеры, способные разбивать речь на осмысленные элементы -- фонемы. Это может дать возможность передавать речь по очень узким каналам. Вокодер производит синтез pечи на основе пpоизвольного входного сигнала с богатым спектpом. Речевой синтез pеализуется пpи помощи фоpмантных пpеобpазований, выделение из сигнала с достаточным спектpом нужного набоpа фоpмант с нужными соотношениями пpидает сигналу свойства соответствующего гласного звука. Путем анализа исходного pечевого сигнала из него выделялась инфоpмация, об изменении положений фоpмант (пеpеход от звука к звуку), котоpая кодиpовалась и пеpедавалась по линии связи, а на пpиемном конце блок упpавляемых фильтpов и усилителей синтезиpовал pечь заново.

Изначально вокодеры были разработаны в целях экономии частотных ресурсов радиолинии системы связи при передаче речевых сообщений. Экономия достигается за счет того, что вместо собственно речевого сигнала передают только значения его определенных параметров, которые на приемной стороне управляют синтезатором речи. Основу синтезатора речи составляют три элемента: генератор тонального сигнала для формирования гласных звуков, генератор шума для формирования согласных и система формантных фильтров для воссоздания индивидуальных особенностей голоса. После всех преобразований голос человека становится похожим на голос робота, что вполне терпимо для средств связи и интересно для музыкальной сферы.

Вокодер как необычный эффект был взят на вооружение электронными музыкантами и в последствии стал полноценным эффектом благодаря фирмам-изготовителям музыкального оборудования. Вокодер как музыкальный эффект позволяет перенести свойства одного (модулирующего) сигнала на другой сигнал, который называют носителем. В качестве сигнала-модулятора используется голос человека, а в качестве носителя -- сигнал, формируемый музыкальным синтезатором или другим музыкальным инструментом.

Наиболее эффективными являются вокодеры на основе метода линейного предсказания речи. Вокодеры данного типа работают уже с целыми блоками подготовленных отсчетов. Для каждого такого блока значений вычисляются его характерные параметры: частота, амплитуда и ряд других. Затем из значений этих параметров формируется речевой кадр, готовый для передачи. При таком подходе к кодированию речи, во-первых, возрастают требования к вычислительным мощностям ЦПОС, а во-вторых, увеличивается задержка при передаче, поскольку кодирование применяется не к отдельным значениям, а к некоторому их набору, который перед началом преобразования следует накопить в определенном буфере. Характеристики некоторых основных алгоритмов кодирования речи приведены в таблице 1.2.

Таблица 1.2 Основные характеристики наиболее известных типов вокодеров

Название алгоритма

Рекомендация

Скорость алгоритма (кбит/с)

Размер речевого кадра (октетов)

Задержка накопления (мс)

CS-ACELP

ITU G. 729

8

10

10

PCM

ITU G. 711

64

40

5

56

35

5

48

30

5

ADPCM

ITU G. 726

40

25

5

32

20

5

24

15

5

16

10

5

LD-CELP

ITU G. 728

16

10

5

MP-MLQ

ITU G. 723. 1

06. 03. 08

24

30

ACELP

ITU G. 723. 1

5. 3

20

30

Важной характеристикой любого вокодера является качество воспроизводимой речи. В Таблице 1.3 приведены оценки MOS для различных методов кодирования.

Таблица 1.3 Показатели MOS основных алгоритмов кодирования речи

Название алгоритма

MOS

G. 711 (PCM; 64 кбит/c)

4,1

G. 726 (ADPCM; 32 кбит/c)

3,8

G. 728 (LD-CELP; 16 кбит/c)

3,6

G. 723.1 (ACELP; 5,3 кбит/c)

3,7

G. 723.1 (MP-MLQ; 6,3 кбит/c)

3,9

Наиболее предпочтительным среди приведенных методов кодирования с точки зрения соотношения качество речи / скорость потока является алгоритм G. 723.1. Большинство кодеков, используемых в IP-телефонии, описаны рекомендациями семейства «G» стандарта H. 323

Все методы кодирования, основанные на определенных предположениях о форме сигнала, не подходят при передаче сигнала с резкими скачками амплитуды. Именно такой вид имеет сигнал, генерируемый модемами или факсимильными аппаратами, поэтому аппаратура, поддерживающая сжатие, должна автоматически распознавать сигналы факс-аппаратов и модемов и обрабатывать их иначе, чем голосовой трафик. Многие методы кодирования берут свое начало от метода кодирования с линейным предсказанием LPC (Linear Predicative Coding). В качестве входного сигнала в LPC используется последовательность цифровых значений амплитуды, но алгоритм кодирования применяется не к отдельным цифровым значениям, а к определенным их блокам. Для каждого такого блока значений вычисляются его характерные параметры: частота, амплитуда и ряд других. При таком подходе к кодированию речи, во-первых, возрастают требования к вычислительным мощностям специализированных процессоров, используемых для обработки сигнала, а во-вторых, увеличивается задержка при передаче, поскольку кодирование применяется не к отдельным значениям, а к некоторому их набору, который перед началом преобразования следует накопить в определенном буфере.

Важно, что задержка в передаче речи связана не только с необходимостью обработки цифрового сигнала (эту задержку можно уменьшать, увеличивая мощность процессора), но и непосредственно с характером метода сжатия. Метод кодирования с линейным предсказанием LPC позволяет достигать очень больших степеней сжатия, которым соответствует полоса пропускания 2,4 или 4,8 кбит/с, однако качество звука здесь сильно страдает. Поэтому в коммерческих приложениях он не используется, а применяется в основном для ведения служебных переговоров. Более сложные методы сжатия речи основаны на применении LPC в сочетании с элементами кодирования формы сигнала. В этих алгоритмах используется кодирование с обратной связью, когда при передаче сигнала осуществляется оптимизация кода. Закодировав сигнал, процессор пытается восстановить его форму и сличает результат с исходным сигналом, после чего начинает варьировать параметры кодировки, добиваясь наилучшего совпадения. Достигнув такого совпадения, аппаратура передает полученный код по линиям связи; на противоположном конце происходит восстановление звукового сигнала. Ясно, что для использования такого метода требуются еще более серьезные вычислительные мощности.

Одной из самых распространенных разновидностей описанного метода кодирования является метод LD-CELP (Low-Delay Code-Excited Linear Prediction). Он позволяет достичь удовлетворительного качества воспроизведения при пропускной способности 16 кбит/с. Алгоритм применяется к последовательности цифр, получаемых в результате аналого-цифрового преобразования голосового сигнала с 16-разрядным разрешением. Пять последовательных цифровых значений кодируются одним 10-битовым блоком -- это и дает те самые 16 кбит/с. Для применения этого метода требуются большие вычислительные мощности; в частности, в марте 1995 г. ITU принял новый стандарт -- G. 723, который предполагается использовать при сжатии речи для организации видеоконференций по телефонным сетям. Этот стандарт представляет собой часть более общего стандарта Н. 324, описывающего подход к организации таких видеоконференций. Цель -- организация видеоконференций с использованием обычных модемов. Основой G. 723 является метод сжатия речи MP-MLQ (Multipulse Maximum Likelihood Quantization). Он позволяет добиться весьма существенного сжатия речи при сохранении достаточно высокого качества звучания. В основе метода лежит описанная выше процедура оптимизации; с помощью различных усовершенствований можно сжимать речь до уровня 4,8; 6,4; 7,2 и 8,0 кбит/с. Структура алгоритма позволяет на основе программного обеспечения изменять степень сжатия голоса в ходе передачи. Вносимая кодированием задержка не превышает 20 мс. Повышая эффективность использования полосы пропускания, механизмы сжатия речи в то же время могут привести к ухудшению ее качества и увеличению задержек.

Рекомендация G. 711, утвержденная МККТТ в 1984 г., описывает кодек, использующий ИКМ преобразование аналогового сигнала с точностью 8 бит, тактовой частотой 8 кГц и простейшей компрессией амплитуды сигнала. Скорость потока данных на выходе преобразователя составляет 64 кбит/с (8 битх8 кГц). Для снижения шума квантования и улучшения преобразования сигналов с небольшой амплитудой при кодировании используется нелинейное квантование по уровню (рис. 5. 8) согласно специальному псевдо-логарифмическому закону: А-закон для европейской системы ИКМ-30/32 или ц- закон для североамериканской системы ИКМ-24.

Первые ИКМ кодеки с нелинейным квантованием появились уже в 60-х годах. Кодек G. 711 широко распространен в системах традиционной телефонии с коммутацией каналов. Несмотря на то, что рекомендация G. 711 в стандарте H. 323 является основной и первичной, в шлюзах IP-телефонии данный кодек применяется редко из-за высоких требований к полосе пропускания и задержкам в канале передачи (все-таки 64 кбит/с это много). Использование G. 711 в системах IP-телефонии обосновано лишь в тех случаях, когда требуется обеспечить максимальное качество кодирования речевой информации при небольшом числе одновременных разговоров. Одним из примеров применения кодека G. 711 могут послужить IP-телефоны компании Cisco.

Показать Свернуть
Заполнить форму текущей работой