Обработка сигнала в частотной области при распознавании речи

Тип работы:
Реферат
Предмет:
Языкознание


Узнать стоимость

Детальная информация о работе

Выдержка из работы

УДК 004. 934−004. 912
ОБРАБОТКА СИГНАЛА О ЧАСТОТНОЙ ОБЛАСТИ
ПРИ РАСПОЗНАОАНИИ РЕЧИ1
А. С. Колоколов
Институт проблем управления им. В. А. Трапезникова, г. Москва
Рассмотрены способы обработки речевого сигнала в частотной области, обеспечивающие описание сигнала, устойчивое к частотным искажениям и аддитивным шумам. В их основу положены преобразования логарифмического спектра, реализованные на базе полосовой фильтрации спектральной огибающей. В этих преобразованиях в общих чертах учтены эффект латерального торможения и ответы фазических нейронов в слуховом анализаторе.
ВВЕДЕНИЕ
Распознавание речи представляет собой многоуровневый процесс декодирования речевого сообщения, начинающийся с распознавания фонем. В результате непрерывный речевой сигнал о (Р) представляется цепочкой дискретных элементов — фонем, принадлежащих конечному алфавиту, размер которого не превышает нескольких десятков элементов. Этим достигается резкое сокращение описания сигнала в сравнении с его описанием на уровне акустической волны, представляемой изменением звукового давления в функции времени. Затем по полученной цепочке фонем последовательно декодируются слова, предложения и, наконец, смысл высказывания.
Процессу распознавания фонем предшествует предварительная обработка речевого сигнала в целях сокращения описания речевого сигнала и последующего его представления набором информативных признаков. Однако до сих пор система информативных признаков, обеспечивающих распознавание речевого сигнала на фонетическом уровне, исследователями не найдена. Тем не менее, совокупность имеющихся данных, полученных при исследовании речеобразования и восприятия речи, а также слухового анализатора, позволяет сделать вывод, что передача информации в речевом сигнале осуществляется изменениями его кратковременного амплитудного спектра /(/, Р), отражающими способ и место образования звука в процессе артикуляции [1−4]. Это обусловливает большой интерес к проблеме спектрального анализа речи у исследователей речевого сигнала и разработчиков систем распознавания речи.
В настоящей работе рассматриваются вопросы получения спектрального описания речевого сигнала и при-
1 Работа доложена на Научных чтениях памяти профессора А. М. Петровского, Москва, Ин-т проблем управления, 17 марта 2005 г.
менения специальных преобразований спектра, сокращающих избыточность и повышающих устойчивость спектрального описания.
1. СПЕКТРАЛЬНЫЙ АНАЛИЗ РЕЧЕВОГО СИГНАЛА
Поскольку речевой сигнал представляет собой изменяющийся во времени процесс, то его спектральное описание основывается на концепции кратковременного анализа [5]. Для этого речевой сигнал о (Р) разбивается на равные перекрывающиеся отрезки, называемые фреймами или кадрами, в пределах которых свойства сигнала мало изменяются и его можно считать квазистационарным. Обычно длительность фрейма выбирается равной 10−30 мс, а его формирование осуществляется умножением сигнала о (Р) на окно ^(? — пАТ), где п = 0, 1, 2, … — индекс, определяющий номер фрейма, АТ — интервал между соседними фреймами, составляющий 5−10 мс, обеспечивающий необходимую детальность спектрального описания во времени. Далее для каждого фрейма выполняется спектральный анализ, в результате чего находится последовательность амплитудных спектров /(/, п), где/- частота, п — номер фрейма. Последовательность спектров /(/, п), представляющих речевой сигнал, обычно называется динамической спектрограммой или видимой речью. Найденный спектр /(/, п) отличается от текущего спектра /(/, Р) тем, что представляет последний в дискретные моменты времени пАТ.
Для получения спектров /(/, п) обычно используются разные модификации дискретного преобразования Фурье, применяемые для спектрального анализа с линейной частотной шкалой. В этом случае спектр находится на ряде дискретных, равноотстоящих частот. В последнее время наблюдается значительный интерес к спектральным анализаторам, выполненным на основе гребенки полосовых фильтров, в общих чертах учитывающих особенности частотного анализа звука в слуховой системе. Их особенность состоит в использовании нелинейной частотной шкалы Барков или мелов и срав-
Рис. 1. Спектрограмма слова «четыре»
нительно широкополосных, низкодобротных фильтров с полосами пропускания, выбранными в соответствии с зависимостью критической полосы слуха от частоты [6, 7]. Этим обеспечивается сравнительно низкое разрешение анализатора по частоте, однако достаточное для выделения характерных резонансов речевого тракта, и хорошее разрешение по времени вследствие низкой добротности анализирующих фильтров.
В практике спектрального анализа речи часто используются логарифмическая шкала интенсивности. Ее применение обосновано тем, что кодирование интенсивности в рецепторах подчиняется закону Вебера- Фехнера, согласно которому минимально заметный прирост АI внешнего воздействия на рецептор пропорционален воздействию I, т. е. АI ~ Ар!, где Ар — приращение ответа рецептора. Отсюда р ~1 и, следовательно, ответ рецептора пропорционален логарифму внешнего воздействия.
В настоящей работе для получения спектрограмм речевых сигналов использовалась гребенка из 35-ти цифровых полосовых фильтров, центральные частоты которых /ы, Е = 1, 2, …, 35, располагались равномерно по шкале Барков с шагом 0,57 Барка, начиная с 1,95 Барка, что соответствовало диапазону частот от 200 до 8660 Гц. Частотные характеристики слуховых фильтров аппроксимировались полосовыми фильтрами Баттерворта четвертого порядка с наклонами частотной характеристики 12 дБ/окт и шириной полосы пропускания 1,5 Барка. Последовательные спектры находились с интервалом АТ = 8 мс и таким образом формировалась последовательность спектров /(Е, п), где Е — номер фильтра.
На рис. 1 приведена спектрограмма /(Е, п) слова «четыре», на которой интенсивность спектра выражена в логарифмической шкале и передается уровнем черного. Из спектрограммы видно, что речевой сигнал состоит из ряда квазистационарных сегментов, представляющих отдельные фонемы. При изолированном прослушивании таких сегментов они обычно воспринимаются с определенным фонетическим качеством. Это свидетельствует о том, что в выделяемых сегментах присутствует необходимая фонетическая информация.
Поскольку в кратковременном спектре речевого сигнала содержится информация для его распознавания, может показаться привлекательной распространенная гипотеза о том, что восприятие речи основано на сравнении спектра речи с набором эталонных спектров [8]. Однако в результате частотных искажений вид спектра речевого сигнала может существенно изменяться, что имеет место при использовании микрофонов с различными частотными характеристиками, дифференцировании сигнала, присутствии реверберации и т. д. Тем не менее, во всех перечисленных случаях, несмотря на значительные частотные искажения, разборчивость сиг-
нала не изменяется, а его восприятие сопровождается лишь определенными изменениями тембра звучания, что свидетельствует об устойчивости восприятия речи к частотным искажениям. Таким образом, более интересной представляется гипотеза о том, что информативные признаки, определяющие фонетическое качество звука, связаны с неоднородностями его спектра по частоте и времени [4], представляющими локальные особенности спектра.
Далее рассматриваются способы обработки кратковременного спектра, основанные на локальных свойствах спектра и обеспечивающие выделение информативных признаков речевого сигнала, устойчивых к частотным искажениям.
2. ВЫДЕЛЕНИЕ ЛОКАЛЬНЫХ НЕОДНОРОДНОСТЕЙ СПЕКТРА ПО ЧАСТОТЕ
Выделение спектральных неоднородностей по частоте в слуховом анализаторе связывается с эффектом латерального торможения. Данный эффект обычно объясняется локальной обработкой спектра в слуховом анализаторе, которую можно представить сверткой кратковременного амплитудного спектра /(/, Р) с весовой функцией м (Р), описывающей распределение возбуждающих и тормозных связей, и последующим нелинейным преобразованием. В результате формируется преобразованный спектр
/& amp-, Р) = е (/(/, Р) ® ф (/)), (1)
^ Г т, т & gt- 0
где ® — операция свертки, (Дт) =
[0, т& lt- 0.
Уравнение (1) описывает однородную нейронную сеть, обычно используемую для моделирования эффекта латерального торможения. Как известно, такая сеть при соответствующем подборе функции м (Р) подчеркивает максимумы и резкие перепады в спектре /(/, Р) [9]. Для этих целей используется функция ф (/) = (-5(/ - А/) + + 25 (/) — 5(/ + А/)) & lt-8>- ^(7), где А (/) — дельта функция, м^(/) — сглаживающее окно. В этом случае свертка /(/, Р) ® ф (/) является отрицательной сглаженной второй разностью спектра — А2 /(/, Р) = (-/(/ - А/, Р) + 2/(/, Р) —
— /(/ - А/)) ® ^1(/), приближенно представляющей отрицательную вторую производную — 32/(/, Р)/5/2. Типичный вид функции ф (/) приведен на рис. 2, а. Она имеет центральный положительный лепесток, описывающий распределение возбуждающих связей, и два боковых отрицательных лепестка, характеризующих распределение тормозных связей. На рис. 2, • представлен модуль преобразования Фурье функции м (/), показывающий, что она является импульсной характеристикой полосового фильтра. Поэтому свертку в уравнении (1) можно трактовать как процесс полосовой фильтрации спектра /(/, Р).
Результат такой фильтрации оказывается более интересным [10], если вместо амплитудного спектра /(/, Р) использовать логарифмический спектр & quot-(/, Р) = ^/(/, Р). В этом случае уравнение (1) принимает вид
& quot-К/, Р) = -(& quot-(/, Р) ® ф (/)). (2)
Заметим, что согласно линейной модели рече-образования речевой сигнал в частотной области может быть представлен в виде произведения /(/, Р) = = Н (/, Р) Е (/, Р) 3(/), где Н (/, Р) — частотная характерис-
Рис. 2. Типичный вид весовой функции ф (/) — (я), модуль преобразования Фурье функции ф (f) — (б)
тика речевого тракта, !(/, Р) — спектр шумового или голосового источника, 3(/) — характеристика фильтра, описывающего частотные искажения речевого сигнала. После логарифмирования произведение переходит в сумму & quot-(/, Р) = Ш/ Р) = %Н (/ Р) + Ш/ Р) + 1§ 3(/). При этом составляющие & quot-(/, р) с разной скоростью изменяются с частотой / и могут быть разделены с помощью линейной фильтрации. Составляющая 3(/), связанная с частотными искажениями речи в акустической среде или канале связи, обычно сравнительно медленно изменяется с частотой. В случае шумового источника спектр !(/ Р) медленно убывает с частотой со скоростью −6… −12 дБ/окт. Для голосового источника спектр имеет более сложный вид !(/, Р) = %(/, Р)#(/, Р), где %(/, Р) — спектр почти периодической последовательности & quot--функций, #(/, Р) — спектр импульса голосового источника. Спектр /(/, Р) близок к последовательности гармоник с равной амплитудой и в силу этого быстро изменяется с частотой. Спектр #(/ Р), как и в случае шумового источника, медленно убывает с частотой со скоростью −6… −12 дБ/окт. Скорость изменения составляющей $(/, Р), определяемая резонансами речевого тракта, попадает в область средних скоростей изменения с частотой относительно всех частотных составляющих, рассмотренных ранее. Поэтому, производя полосовую фильтрацию логарифмического спектра & quot-(/, Р), можно в обработанном спектре & quot-1(/ Р) значительно ослабить составляющие, связанные с частотными искажениями и источником, обусловливающие вариации спектра речевого сигнала, и сохранить пики $/, Р), связанные с резонансами речевого тракта. Тем самым оказывается возможным сделать более стабильным сравнение речевого сигнала со спектральными эталонами при распознавании.
Процесс полосовой фильтрации & quot-(/, Р) завершается выполнением нелинейного преобразования 0(х). С его помощью в обработанном спектре & quot-1(/ Р) сохраняются фрагменты & quot-(/ Р), связанные с максимумами (формантами) $(/ Р), где отношение сигнал/шум велико. Отрицательные значения & quot-(/ Р) ® ф (/), соответствующие минимумам или нулям спектра & quot-(/ Р), в значительной степени зависят от уровня аддитивного шума. Поэтому их исключение с помощью нелинейного преобразования 0(х) позволяет обеспечить дополнительную стабилизацию & quot-1(/, Р) при наличии фоновых широкополосных шумов со спектральной плотностью, сравнительно медленно изменяющейся с частотой.
Таким образом, предложенная обработка логарифмического спектра, сочетающая линейную фильтрацию логарифмического спектра с последующей нелинейной
обработкой, позволяет ослабить вариации спектра, вызванные частотными искажениями сигнала, изменениями формы импульса голосового источника и аддитивными шумами.
Заметим, что рассмотренное ранее преобразование спектра (2) является модификацией обработки спектра, основанной на полосовой лифтрации кепстра [11]. Кепстр С (, Р) [12] представляет собой косинус-преобразование Фурье логарифма амплитудного спектра С (, Р) =
ад
= | & quot-(/, Р) соб (2я/)@/, а его лифтрация состоит в умно-
0
жении кепстра на окно 0(). После лифтрации кепстра производится обратный переход в частотную область с помощью косинус-преобразования Фурье. Таким образом находится обработанный спектр
ад
Р (/, Р) = | С (, Р)0()(2я/)@,
0
являющийся результатом лифтрации кепстра. Как известно, умножение Фурье-образа на окно равнозначно линейной фильтрации оригинала этого образа. Умножение С (, Р) на окно, сохраняющее область малых значений, принадлежащих интервалу 0 Р Р 1, приводит к сглаживанию спектра, тогда как применение окна, выделяющего область средних значений, соответствующих интервалу 1 Р Р 2, эквивалентно полосовой фильтрации спектра, подчеркивающей его неоднородности.
Хотя свертка логарифмического спектра & quot-(/, Р) с весовой функцией ф (/) и умножение кепстра С (, Р) на окно 0() эквивалентны фильтрации спектра & quot-(/, Р), использование для фильтрации свертки имеет ряд преимуществ:
— сокращаются требуемые вычислительные ресурсы, так как вычисление прямого и обратного преобразований Фурье заменяется вычислением короткой свертки-
— в отличие от лифтрации кепстра, фильтрация в частотной области с помощью свертки не ограничивается одними симметричными весовыми функциями ф (/).
Поэтому с помощью фильтрации возможно подчеркивание в спектре не только его максимумов, но и других его локальных неоднородностей, например, резких спектральных наклонов, замечаемых при прослушивании звуков. Наконец, использование нелинейного преобразования после фильтрации спектра позволяет несколько повысить устойчивость к шумам.
Эффективность преобразования (2) была проверена на реальных фрагментах речевого сигнала, которые искажались с помощью дифференцирования. Спектральный анализ сигналов проводился с помощью рассмотренной ранее модели слухового частотного анализатора, реализованной с помощью гребенки из 35-ти цифровых полосовых фильтров. С ее помощью для отдельных фреймов речевых сигналов находились логарифмические спектры & quot-(/), где / - номер фильтра. Для фильтрации спектра использовалась симметричная весовая функция ф (/) = -0,255^(/ - 2) + 0,55^(/) + 0,255^(/ + 2), где А^(/) — функция Кронекера, / = … -2, -1, 0, 1, 2, …, и вычисление свертки сводилось к суммированию взвешенных спектральных отсчетов.
На рис. 3, а приведены спектры & quot-(/) и & quot-1(/) для гласного «ы» в слове «четыре». На рис. 3, • даны спектры для продифференцированного сигнала гласного. Легко видеть, что дифференцирование приводит к существенно-
Рис. 3. Логарифмический амплитудный спектр & amp-(/) для гласного «ы» в слове «четыре» и результат его обработки & amp-1(і) (отмечен крестиками) (я), те же зависимости после дифференцирования сигнала (б)
му искажению спектра & quot-(/), однако это различие практически отсутствует у обработанных спектров & quot-1(/).
Полученные результаты показывают, что для проведения сравнения речевых образцов с эталонами использование обработанного логарифмического спектра & quot-1(У, Р) имеет явное преимущество перед использованием спектра & quot-(/, Р), обеспечивая устойчивость к частотным искажениям речевого сигнала.
3. ВЫДЕЛЕНИЕ ЛОКАЛЬНЫХ НЕОДНОРОДНОСТЕЙ СПЕКТРА ВО ВРЕМЕНИ
Выделение слуховым анализатором спектральных неоднородностей сигнала во времени подтверждается наличием в слуховой системе фазических нейронов, избирательно реагирующих на начало и конец акустического стимула. Такие реакции нейронов обычно объясняются обработкой спектра /(/, Р) временным окном Ф1(Р), являющимся импульсной характеристикой дифференцирующего фильтра, вычисляющего сглаженную разность первого порядка. В результате получается обработанный спектр
?2(/& gt- Р) = /(/, Р) ® Ф1(Р) | 5/(/ Р)/5Р.
Типичный вид функции ф1(Р) приведен на рис. 4, а. На рис. 4, • показан модуль преобразования Фурье ф1(Р), свидетельствующий о том, что ф1(Р) является импульсной характеристикой полосового фильтра. Учитывая сказанное, можно заключить, что рассмотренная ранее обработка спектра сводится к нахождению скорости изменения огибающей амплитудного спектра по времени д/(/, Р)/5Р и представляет собой разновидность полосовой фильтрации временной огибающей амплитудного спектра /(/, Р), реализующей нахождение сглаженной разности спектра по времени АР/(/, Р) = (/(/, Р + АР) —
— /(/, Р — АР)) ® w2(P), где w2(P) — сглаживающее окно.
Результат рассмотренной обработки получится более интересным, если ее применить к логарифмическому спектру & quot-(/, Р) и найти скорость изменения во времени огибающей логарифмического спектра
& quot-2(/, Р) = & quot-(/, Р) ® ф!(Р). (3)
В этом случае огибающая & quot-2(/, Р) становится независимой от частотных искажений и интенсивности сигнала о (Р). Действительно, при наличии частотных искажений спектр сигнала представляет собой произведение /(/ Р) 3(/), где 3(/) — частотная характеристика, оп-
ределяющая частотные искажения сигнала. Поэтому & quot-(/, Р) = ^/(/, Р) + log 3(/) и функция & quot-2(у- Р) оказывается не зависящей от характеристики 3(/). Кроме того, при обработке логарифмического спектра окном фх (Р) происходит удаление фоновой стационарной шумовой компоненты, присутствующей в речевом сигнале.
Для демонстрации особенностей преобразования (3) был применен рассмотренный ранее спектральный анализатор, реализованный на основе гребенки из 35-ти полосовых фильтров. С его помощью получались логарифмические спектры & quot-(і, п), где і = 1, 2, …, 35 — номер фильтра анализатора, п — номер спектра. Спектры находились в моменты пД0, где п = 0, 1, 2, …, Д0 = 8 мс, чем обеспечивалась необходимая точность воспроизведения логарифмических огибающих в частотных каналах анализатора. Для обработки спектра & quot-(і, п) использовалась весовая функция
[-1, і = -5,…, -2, -1 Фі(і) = іт=т- |і, і = 1, 2,5
^ і [ 0, в остальных случаях.
і = -5
Особенности преобразования (3) на примере слова «шесть» поясняются на рис. 5. В верхней части рисунка приведены логарифмический спектр & quot-(і, п) и обработанный спектр & quot-2(і, п), значения которых переданы уровнем черного. Под ними представлены спектральные огибающие & quot-(4, п) и & quot-(34, п), полученные в низкочастотном и высокочастотном каналах анализатора, а также результаты обработки огибающих & quot-2(4, п) и & quot-2(34, п). Из рис. 5 видно, что спектр & quot-(і, п) имеет хорошо выраженную сегментную структуру, отражающую фонемный состав слова. В обработанном спектре & quot-2(і, п) начала сегментов представлены вертикально ориентированными темными областями, а концы сегментов — вертикально ориентированными светлыми областями. Пики функций & quot-2(4, п) и & quot-2(34, п) отмечают границы квазистаци-онарных сегментов огибающих & quot-(4, п) и & quot-(34, п), представляющих отдельные фонемы, причем положительные пики отмечают начала сегментов, а следующие за ними отрицательные пики — их концы. Таким образом, с помощью преобразования (3) в речевом потоке выделяются границы фонемных сегментов и становится возможным измерение длительности акустических событий, являющейся важной характеристикой способа образования согласных звуков и ударности гласных.
Рис. 4. Типичный вид весовой функции фх (f) — (я), модуль преобразования Фурье фх (/) — (б)
Рис. 5. Обработка логарифмического спектра & quot-(г, т) окном ф1(Т) для слова «шесть»:
а — спектрограмма & quot-(г, и) — • - результат обработки & quot-2(г, и) — в — спектральная огибающая & quot- (4, и) — г — обработанная огибающая & quot-2(4, и) — д — спектральная огибающая & quot-(34, и) — е — обработанная огибающая & quot-(34, и)
Поскольку фонемы занимают различные частотные области, то информация об их границах может присутствовать в разных компонентах функции & quot-2(г, и). Из рис. 5 видно, что информация о границах гласного «э» присутствует в функции & quot-2(4, и), тогда как границы согласных «ш», «с» и «т» (знак «» обозначает мягкие согласные) отчетливо выражены в функции & quot-2(34, и). В связи с этим для описания границ речевых звуков более удобно использовать специальную сегментирующую функцию, обобщающую информацию о границах квази-стационарных речевых сегментов в различных составляющих & quot-2(г, и). Для этого можно использовать сегментирующую функцию вида
# (и) =
_!
35
¦?'- = 35
½
(4)
На рис. 6, а и • приведены примеры спектра & quot-2(г, и) и функции #(и), полученные для случая произнесения
слова «шесть». Можно видеть, что функция С (и) имеет характерные положительные пики, положение которых отмечает границы звуков. Недостаток сегментирующей функций С (и) состоит в том, что в ней, в отличие от спектра & quot-2(г, и), теряется информация о начале и конце артикуляции звука, что не позволяет выделять такие объекты речевого сигнала как смычка, возникающая в результате произнесения взрывного согласного, или провал в огибающей сигнала при артикуляции сонанта «р».
Чтобы обойти это ограничение, можно модифицировать функцию сегментации (4). Для этого ее следует разделить на положительную и отрицательную составляющие, вычислив две функции
#+(и) =
#_(и) =
_! 3 5
35
I & quot-2 (г, и)
I = 1
½
при & quot-2(г, и) & gt- 0
35
I & quot-2 (и)
г = 1
½
при & quot-2(г, и) & lt- 0
0, иначе.
Рис. 6. Сегментация слова «шесть»:
а — спектрограмма & quot-(г, и) — • - функция б (и) — в — функции б+(и) и б_(и) — г — функции б+(и) и б_(и), модифицированные введением порога = 0,8- д — функция б+(и) и б_(и) для порога _р0 = 0,8 в случае дифференцирования сигнала
На рис. 6, в показаны функции #+(и) и #_(и), полученные при произнесении слова «шесть». Из этого примера видно, что начало артикуляции каждого звука отмечается положи тельным пиком в функции #+(и), а конец его артикуляции отмечается следующим за ним отрицательным пиком в функции #_(и). Кроме того, глухая смычка (короткая пауза в речевом сигнале) перед артикуляцией взрывного согласного «т «отмечается отрицательным пиком в функции #_(и) с последующим положительным пиком в функции #+(и).
Можно улучшить выраженность пиков в функции сегментации и подавить небольшие ложные пики введением фиксированного порога р0. Для этого при получении функций #+(и) и #_(и) следует суммировать не
величины & quot-22 (г, и), а (|& quot-2(г, и)| - р0)2, для которых модуль |& quot-2(г, и)| & gt- р0. На рис. 6, г приведен вид функций #+(и) и #_(и) в случае введения порога р0 = 0,8. Видно, что введение порога заметно улучшает выраженность пиков в б+(и) и #_(и). На рис. 6, д показаны те же функции #+(и) и #_(и) при р0 = 0,8 в случае дифференцирования сигнала. Можно видеть, что они практически идентичны функциям #+(и) и #_(и) на рис. 6, г.
Отметим, что все рассмотренные ранее функции сегментации, полученные на основе обработки логарифмического спектра (3), практически не изменялись при наличии частотных искажений речевого сигнала, вызываемых акустикой помещения, регулировкой тембра, сменой микрофона и т. п. Это значит, что с их помощью возможно устойчивое членение речевого потока, предшествующее его фонетической разметке, в присутствии частотных искажений сигнала.
ЗАКЛЮЧЕНИЕ
В настоящей работе рассмотрены два преобразования логарифмического кратковременного спектра речевого сигнала, основанные на полосовой фильтрации, которые учитывают особенности анализа звука в слуховой системе. Их применение в процессе обработки речи снижает вариации спектра, обусловленные характеристиками среды и речевым источником. Эффективность рассмотренных преобразований подтверждается примерами их применения при обработке реальных речевых сигналов.
Первое преобразование выделяет локальные неоднородности логарифмического спектра по частоте и позволяет получить частотное описание речевого сигнала, устойчивое к частотным искажениям и широкополосным аддитивным шумам. Таким образом, в результате применения преобразования становится возможным более надежное сравнение с эталонными описаниями речевых фрагментов при распознавании речи. В основе преобразования лежит разновидность полосовой фильтрации спектра по частоте, используемая для нахождения второй сглаженной разности спектра, и последующая нелинейная обработка, совместно имитирующие эффект латерального торможения в слуховом анализаторе, подчеркивающий максимумы и резкие срезы спектра.
Второе преобразование выделяет локальные неоднородности спектра по времени и может быть применено для сегментации речевого сигнала. Оно представляет собой вариант полосовой фильтрации спектра, реализующей нахождение сглаженной первой разности логарифмической огибающей спектра по времени. В результате преобразования отмечаются моменты начала и конца артикуляторных событий. Подобное преобразование спектра имеет место в слуховом анализаторе, о чем свидетельствует присутствие так называемых тонических нейронов, избирательно реагирующих на начало и конец акустического стимула. На основе преобразования предложена устойчивая к частотным искажениям процедура сегментации речевого сигнала, позволяющая выделять в непрерывном речевом сигнале последовательные квази-стационарные сегменты, необходимые для его фонетической разметки.
Возможные области применения рассмотренных преобразований — распознавание речи, идентификация и верификация диктора, и др.
ЛИТЕРАТУРА
1. Фант У Акустическая теория речеобразования. — М.: Наука, 1964.
2. Фланаган Дж. Анализ, синтез и восприятие речи. — М.: Связь, 1968.
3. /fevms К. N. Acoustic correlates of some phonetic categories // J. Acoust. Soc. Amer. — 1980. — Vol. 68. — P. 836−842.
4. Физиология речи. Восприятие речи человеком / Л. А. Чис-тович, А. В. Венцов, М. П. Гранстрем и др. // В серии «Руководство по физиологии». — Л.: Наука, 1976.
5. Р/соие & amp-. W. Signal modeling techniques in speech recognition // Proc. IEEE. 1993. — Vol. 81. — N 9. — P. 1215−1247.
6. Zw/cGer 7егйагА !. Analytical expressions for critical — band rate and critical bandwidth as a function of frequency // J. Acoust. Soc. Amer. — 1980. — Vol. 68. — N 5. P. 1523- 1525.
7. 7& gt-аиити//ег $. Analytical expressions for the tonotopic sensory scale // Ibid. — 1990. — Vol. 88. — N 1. — P. 97−100.
8. 5а-шавский X. А., Уистович X. А. Средние спектры русских гласных фонем // Проблемы физиологической акустики. — 1959. — Т. IV. — С. 181−186.
9. Логинский С А., Лозин 1 5., Яшо 5. Л. Анализ моделей однородного нейронного слоя с латеральными связями // Автоматика и телемеханика. — 1967. — № 10. — С. 168−181.
10.. Колоколов А. С. Предварительная обработка сигнала для распознавания речи // Автоматика и телемеханика. — 2002. — № 3. — С. 190−198.
11. /иаи?5. $.,. ай/иегХ. ., З/Нрои & amp-. G. On the use of bandpass liftering in speech recognition // IEEE Trans. on Acoust., Speech, and Signal Proc. — 1987. — Vol. 35. — N 7. — P. 947−954.
12. Уайлде-с Д. Дж., Скинне- Д Л., Келе-е-т У Кепстр и его применение при обработке данных // ТИИЭР. — 1977. — Т. 5. — № 10. — С. 5−23.
13. Колоколов А. С. Предварительная обработка и сегментация речевого сигнала в частотной области для распознавания речи // Автоматика и телемеханика. — 2003. — № 6. — С. 152−162.
в (?95- 554-& amp-?-9/
!-даа//: ?о/о?о/о@/ри. тг>-и ?
18
CONTROL SCIENCES № 3 • 2000

ПоказатьСвернуть
Заполнить форму текущей работой