Метод сепарации речевых сигналов на вокализованные и шумовые сегменты на основе времени корреляции

Тип работы:
Реферат
Предмет:
Кибернетика


Узнать стоимость

Детальная информация о работе

Выдержка из работы

ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА
И УПРАВЛЕНИЕ
А. А. Гущина,
кандидат технических наук
А. Н. Голубинский,
доктор технических наук, доцент

В. С. Зарубин,
доктор технических наук, профессор
МЕТОД СЕПАРАЦИИ РЕЧЕВЫХ СИГНАЛОВ НА ВОКАЛИЗОВАННЫЕ И ШУМОВЫЕ СЕГМЕНТЫ НА ОСНОВЕ ВРЕМЕНИ КОРРЕЛЯЦИИ
METHOD FOR THE SEPARATION SPEECH SIGNALS ON VOICED AND NOISE SEGMENTS BASED ON THE CORRELATION TIME
Предложен способ сепарации речевого сигнала на вокализованные и шумовые сегменты на основе оценки времени корреляции речевых сигналов конечной длительности. Рассчитаны численные значения относительного времени корреляции.
A method of separating speech signal on voiced and noise segments based on the evaluation of the correlation time of speech signals offinite duration is proposed. The numerical values of relative time correlation are calculated.
Введение. Речевой сигнал, как средство передачи информации, используется для создания естественных интерфейсов связи с машиной. Создание систем распознавания речи, вокодерной телефонии, идентификации диктора по голосу связано с необходимостью выделения признаков речевого сигнала в условиях реальной речевой обстановки [1]. Одной из основных задач систем обработки речевого сигнала является распознавание произнесенной фразы и извлечение смысла принятого сообщения.
Первичной процедурой в задаче обработки речевого сигнала является акустическая обработка, заключающаяся в сопоставлении каждому фрагменту сигнала набора признаков, в которых содержится фонетическая информация. Необходимым условием
141
на пути к созданию набора параметров для каждого фрагмента сигнала является разработка системного подхода к задаче автоматической сегментации речевого сигнала. Сложная структура речевого сигнала требует разного подхода к обработке временных сегментов, входящих в него, поэтому выделение в речи «типовых» участков и временная разметка речевого сигнала являются необходимыми этапами обработки сигнала при анализе.
Так как строение речевого тракта определяет особенности спектральных составляющих звуков, особое внимание уделяется разработке методов, чувствительных к изменениям фонетической структуры, и в то же время устойчивых к шумовым искажениям сигнала. Устойчивость к шумовым искажениям означает, что изменение уровня помех не приводит к существенному изменению вычисляемых признаков [2].
Одной из трудностей, возникающих при сегментации устного текста, является выделение минимально достаточных единиц с выраженной фонетической структурой. Звук речи — кратчайшая, далее неделимая звуковая единица, произнесенная за одну артикуляцию, с присущими ей физическими признаками [1]. Все звуки речи создаются комбинированием тональных, динамических и временных характеристик, которые тесно связаны между собой, и их изменение вызывает новую реализацию звука. В качестве основных характеристик (параметров) звуков речи (речевого сигнала) часто используются [2]: средние значения частоты основного тона (ЧОТ) и частот обертонов речевого сигнала, амплитуды гармоник несущего колебания речевого сигнала, среднее значение спектральной плотности энергии речевого сигнала, коэффициенты дискретного преобразования Фурье, среднее и нормированное значение спектральной плотности мощности речевого сигнала, коэффициенты линейного предсказания речевого сигнала, функция корреляции (коэффициент корреляции) речевого сигнала и др. При этом если тональные характеристики звука являются первичными информативными признаками, то длительность или скорость изменения звука — вторичным ключевым параметром в корреляциях с ЧОТ, интенсивностью либо с двумя признаками одновременно [3]. Длительность звуков зависит от их открытости или закрытости, а также от позиции во фразе, в которую он входит. Поэтому необходимо знать временной интервал, на котором оценки параметров будут эффективны и состоятельны.
Одним из достаточно простых, но эффективных способов определения типовых фрагментов речевого сигнала является использование методов корреляционной обработки, реализуемой на коротких временных интервалах (10−20 мс). Методами корреляционного анализа решаются такие задачи, как предсказание характера изменения процесса во времени, выделение слабых акустических сигналов на фоне помех, измерение искажений вещательных сигналов при их передаче электроакустической системой и др. По корреляционным функциям могут быть найдены многие физические характеристики акустических процессов, систем и звуковых полей, представляющие практический интерес. В связи с этим актуальной научной задачей является оценка временного интервала (сегмента), на котором корреляционные связи в речевом сигнале заметны.
Цель работы — разработка метода сепарации речевого сигнала на вокализованные и шумовые сегменты, основанного на использовании времени корреляции.
Теоретический анализ. В работе [4] был предложен метод сепарации речевого сигнала по значениям номеров отсчетов коэффициента корреляции (КК) участка речевого сигнала, обеспечивающий однозначную декомпозицию сигнала на соответствующие вокализованные, импульсные и шумовые сегменты. Следует отметить, что время
(интервал) корреляции определяется как характерное время спадания до нуля коэффициента корреляции (среднее значение интервала времени, в пределах которого эта зависимость сохраняется). Таким образом, целесообразно рассмотреть время корреляции в качестве параметра, на основе которого однозначно можно определить тип анализируемого речевого сегмента. Заметим, что решение задачи сепарации будет сильно зависеть от количественного определения времени корреляции [5].
Время корреляции тк характеризует степень взаимосвязанности двух значений случайного сигнала, разделенных интервалом т- чем быстрее убывает коэффициент корреляции г (т), тем меньшей становится статистическая связь между мгновенными значениями случайного сигнала в два несовпадающих момента времени. Если известна информация о поведении какой-либо реализации в «прошлом», то можно вероятностно прогнозировать его поведение на время порядка тк. Величина тк дает ориентировочное представление о том, на каком интервале времени в среднем имеет место коррелиро-ванность между значениями случайного процесса. На этом интервале возможна строгая оценка параметров сигнала одной выборки, а также оценка статистических параметров погрешности определения математического ожидания значений сигнала х (^).
Для оценки временного интервала (сегмента), на котором корреляционные связи в речевом сигнале являются заметными, предлагается использовать следующий подход.
В ряде работ [4, 5] показано, что речевой сигнал можно рассматривать как некоторый квазистационарный случайный процесс. Для определения информативных статистических характеристик сигналов, имеющих квазидетерминированную структуру на интервале идентификации, будем использовать коэффициент корреляции случайного процесса г (т).
Определим время корреляции тк (при этом будем считать, что сегмент речевого сигнала х (^) обладает свойствами стационарности и эргодичности):
тк = {|г (т)|ёт. (1)
0
Для процессов, заданных в дискретные моменты времени, время корреляции Тк:
N -1
тк =ДЕ11, (2)
1=0
где, А — интервал дискретизации. Коэффициент корреляции случайного процесса (центрированного):
Я, — Я, — -
г- = -Я- = --, — = 0 3, (3)
Я0 а2
2
где Я — и, а — соответственно функция корреляции (ФК) и дисперсия случайного
-
процесса-
2 N-1
3 — число отсчетов КК для центрированной реализации у^ = х^ - х- у = - ^ у = 0.
^=0
N-1
При этом х^ = х (гА) — начальные отсчеты речевого сигнала, х = - ^ х^ -
N 1=0
N — число отсчетов речевого сигнала, / = 0, N — 1.
ж
ФК для эргодического стационарного в широком смысле случайного процесса:
Я, — =
1
N-1-]
1
N-1-]
N -1-]
] N —
— 2 (У? — У)(Уг+ ] - У) 2 (У? — У)(У'-+ ] - У) =Тт 2 УгУг-] 1 ?=0 ^ ?=0 ^ ?=0
(4)
Следует полагать, что время корреляции вокализованных сегментов должно быть больше времени корреляции шумовых сегментов речи.
Методика. Рассчитав К К сегмента речевого сигнала x (t) на интервале ти, можно
вычислить значение интервала корреляции тк. Введем удобный на практике параметр — относительное время корреляции:
(5)
к, =
который численно отражает корреляционные свойства сигнала на интервале измерения.
Проведем оценку тк и кт для вокализованных и шумных звуков речи. При обработке использовались отрезки речевых сигналов, соответствующие шумным и вокализованным звукам речи, записанные с частотой дискретизации =8000 Гц. Длительность импульса (время произнесения звуков) была задана ти & lt- 0,15 с, при данном интервале дискретизации, А = 1/ fd речевой сигнал имеет N = 1200 отсчетов.
В качестве нулевых границ КК на практике целесообразно использовать доверительные границы Бартлетта ± 3аг, где аг определяется по формуле [6]:
С =
(н Л 1 + 22 (Г])2 ] =1
(6)
здесь N — количество отсчетов речевого сигнала- H — значение количества отсчетов КК, равные N/4 [6]. В связи с этим для определения времени корреляции рационально использовать количество отсчетов КК, равное J= N/4.
В табл. 1 представлены значения тк, рассчитанные по реализациям диктора
(женский голос) при J = N (? = 0, N -1) и J= N/4 (? = 0, N/4 -1)
Таблица 1
Значение времени корреляции, тк Гласные звуки Шумные
/а/ /о/ /и/ /у/ /ы/ /э/ /ш/ /х/
Тк (J = N 0,01 0,01 0,009 0,009 0,02 0,01 0,005 0,007
Тк / = N/4) 0,007 0,006 0,006 0,006 0,01 0,006 0,002 0,004
В табл. 2 представлены значения относительного времени корреляции kт по реализациям одного диктора (женский голос) при J = N и J= N/4. Таблица 2
Относительное время корреляции, кт = тк / ти Гласные звуки Шумные
/а/ /о/ /и/ /у/ /ы/ /э/ /ш/ /х/
К (/=N 0,07 0,07 0,06 0,05 0,15 0,07 0,03 0,04
кт (/ = N/4) 0,04 0,04 0,035 0,06 0,1 0,035 0,017 0,029
г
и
Результаты. На основе данных, приведенных в табл. 1 и 2, можно убедиться в справедливости гипотезы о том, что время корреляции и относительное время корреляции вокализованных сегментов больше, чем у шумовых. Время корреляции вокализованных сегментов в среднем на 30% больше времени корреляции шумовых звуков. Таким образом, использование времени корреляции для сегментации речевого сигнала позволяет обеспечить однозначную декомпозицию на шумные и гласные звуки. При этом пороговые значения критерия сепарации на основе относительного времени корреляции можно определить следующим образом:
1) 0,04 & lt- квТ для J = N и 0,03 & lt- кв для J = N/4 — данный речевой сегмент можно считать вокализованным (соответствующим гласным звукам) —
2) 0 & lt- кШ & lt- 0,04 для J = N и 0 & lt- к^ & lt- 0,03 для J = N/4 — данный речевой сегмент можно считать шумовым невокализованным.
Стоит отметить, что при расчете времени корреляции целесообразно использовать J = N/4, так как значения ФК, начиная с отсчета N/4, как правило, заходят в доверительные границы Бартлетта.
Способ сепарации речевого сигнала на вокализованную и шумовую компоненты с использованием корреляционного анализа речевых сегментов дает возможность повышения эффективности разрабатываемых устройств при решении ряда практических задач, например совершенствование моделей распознавания речи без использования больших объемов словарей. Несомненным преимуществом времени корреляции является очевидный физический смысл данного параметра, а также то, что, например, в отличие от коэффициента корреляции — это один численный параметр, а не характеристика с набором численных значений.
Таким образом, время корреляции или относительное время корреляции целесообразно использовать в качестве существенного параметра меры различимости в критерии для метода сепарации речевых сигналов на вокализованные и невокализованные (импульсные, шумовые) сегменты, при этом практические численные оценки характерных значений (для соответствующих сегментов) относительного времени корреляции будут играть роль пороговых значений в данном критерии.
ЛИТЕРАТУРА
1. Михайлов В. Г. Из истории исследований преобразования речи // Речевые технологии. — 2008. — № 1. — С. 93−113.
2. Голубинский А. Н., Гущина А. А. Дикторонезависимое распознавание гласных звуков на основе меры различимости спектральных составляющих // Телекоммуникации. — 2013. — № 12. — С. 4−10.
3. Григорьев Е. И. Компоненты просодической организации иллокутивных высказываний // Вестник Тамбовского университета. Серия: Гуманитарные науки. — 1998. — № 3. — С. 74−81.
4. Гущина А. А., Голубинский А. Н. Обобщенная математическая модель речевого сигнала для задач анализа и синтеза речи // Системы управления и информационные технологии. — 2014. — № 1. 1(55). — С. 131−135.
5. Голубинский А. Н. Об оценке времени корреляции речевых сегментов // Вестник Воронежского института МВД России. — 2014. — № 4. — С. 128−133.
6. Бокс Дж., Дженкинс Г. Анализ временных рядов. Прогноз и управление. — М.: Букинист. — Вып. 2. — 1974. — 198 с.
REFERENCES
1. Mihaylov V.G. Iz istorii issledovaniy preobrazovaniya rechi // Rechevyie tehnologii. — 2008. — # 1. — S. 93−113.
2. Golubinskiy A.N., Guschina A.A. Diktoronezavisimoe raspoznavanie glasnyih zvu-kov na osnove meryi razlichimosti spektralnyih sostavlyayuschih // Telekommunikatsii. — 2013. — #12. — S. 4−10.
3. Grigorev E.I. Komponentyi prosodicheskoy organizatsii illokutivnyih vyi-skazyivaniy // Vestnik Tambovskogo universiteta. Seriya: Gumanitarnyie nauki. — 1998. — # 3. — S. 74−81.
4. Guschina A.A., Golubinskiy A.N. Obobschennaya matematicheskaya model re-chevogo signala dlya zadach analiza i sinteza rechi // Sistemyi upravleniya i informatsionnyie tehnologii. — 2014. — #1. 1(55). — S. 131−135.
5. Golubinskiy A.N. Ob otsenke vremeni korrelyatsii rechevyih segmentov // Vestnik Voronezhskogo instituta MVD Rossii. — 2014. — #4. — S. 128−133.
6. Boks Dzh., Dzhenkins G. Analiz vremennyih ryadov. Prognoz i upravlenie. — M.: Bukinist, Vyip.2. — 1974. — 198 s.
СВЕДЕНИЯ ОБ АВТОРАХ
Гущина Анастасия Александровна. Преподаватель кафедры радиотехники и электроники. Кандидат технических наук.
Воронежский институт МВД России.
E-mail: a. gushchina@rambler. ru
Россия, 394 065, г. Воронеж, проспект Патриотов, 53. Тел. 8 9 056 538 799.
Голубинский Андрей Николаевич. Начальник кафедры радиотехники и электроники. Доктор технических наук, доцент.
Воронежский институт МВД России.
E-mail: annikgol@mail. ru
Россия, 394 065, г. Воронеж, проспект Патриотов, 53. Тел. (473)200−52−54.
Зарубин Владимир Сергеевич. Профессор кафедры вневедомственной охраны. Доктор технических наук, профессор.
Воронежский институт МВД России.
E-mail: zarvs@mail. ru
Россия, 394 065, Воронеж, Проспект патриотов, 53. Тел. (473) 200−52−80.
Gushchina Anastasia Alexandrovna. Lecturer of the chair of Radio engineering and electronics. Candidate of technical sciences.
Voronezh Institute of the Ministry of the Interior of Russia.
E-mail: a. gushchina@rambler. ru
Work address: Russia, 394 065, Voronezh, Prospect Patriotov, 53. Tel. 8 9 056 538 799.
Golubinskiy Andrey Nikolaevich. Chief of the chair of Radio engineering and electronics. Doctor of technical sciences, assistant Professor.
Voronezh Institute of the Ministry of the Interior of Russia.
E-mail: annikgol@mail. ru
Work address: Russia, 394 065, Voronezh, Prospect Patriotov, 53. Tel. (473) 200−52−54.
Zarubin Vladimir Sergeevich. Professor of the chair of Non-department Units. Doctor of technical sciences, professor.
Voronezh Institute of the Ministry of the Interior of Russia.
E-mail: zarvs@mail. ru
394 065, Russia, Voronezh, Prospect Patriotov, 53. Tel. (473) 200−52−80.
Ключевые слова: сепарация- речевой сигнал- время корреляции- автокорреляционная функция. Key words: separation- speech signal- correlation time- autocorrelation function. УДК 621. 39

ПоказатьСвернуть
Заполнить форму текущей работой