Исследование решающей функции максимальной чувствительности к изменению частей энергии в частотных интервалах

Тип работы:
Реферат
Предмет:
Общие и комплексные проблемы естественных и точных наук


Узнать стоимость новой

Детальная информация о работе

Выдержка из работы

УДК 621. 391
ИССЛЕДОВАНИЕ РЕШАЮЩЕЙ ФУНКЦИИ МАКСИМАЛЬНОЙ ЧУВСТВИТЕЛЬНОСТИ К ИЗМЕНЕНИЮ ЧАСТЕЙ ЭНЕРГИИ В ЧАСТОТНЫХ ИНТЕРВАЛАХ
С.П. БЕЛОВ А.А. ФИРСОВА
e-mail:
Belov@bsu. edu. ru Firsova_A@bsu. edu. ru
В статье рассмотрена решающая функция максимальной чувствительности к изменению частей энергии в частотных интервалах. Проведена оценка чувствительности решающей функции на участке, соответствующем шуму в помещении, к увеличению энергии сигнала на всем диапазоне частот и оценка чувствительности решающей функции на участке, соответствующем звуку речи, к увеличению отношения шум/сигнал.
Ключевые слова: речевой сигнал, частотные представления, алгоритм обнаружение пауз в речевых сигналах, решающая функция.
Речевой сигнал состоит из участков, соответствующих шумам в паузах между звуками речи, а также участков, соответствующих сумме сигналов шумов и сигналов звуков речи. В различных алгоритмах обработки речевых сигналов на первом этапе используется алгоритм обнаружения пауз [1. 2]. Алгоритмы обнаружения пауз используются при реализации алгоритмов сжатия, очистки от шумов, сегментации и распознавании речевых сигналов. При реализации алгоритма обнаружения пауз используются различия отрезков сигналов, соответствующих звукам речи, и сигналов, соответствующих шумам в паузах.
Исследования особенностей распределения энергии звуков русской речи и различных типов шумов показывает, что энергия сигналов, соответствующих звукам русской речи сосредоточена в достаточно узком частотном интервале, в то время как энергия сигналов, соответствующих шумам в паузах распределена более равномерно по всему частотному диапазону. Анализ распределения энергии отрезков сигнала, соответствующего шуму в паузе показывает, что различные отрезки имеют различное распределение энергии по частотным интервалам. При этом отклонение в распределении энергии каждого отрезка шума имеют меньшее отклонение от усредненного зн а-чения распределения энергии, чем отклонение суммы сигналов шума и звука речи.
На первом этапе формулируется нулевая гипотеза H0: анализируемый отрезок сигнала относится к шумам в паузе между звуками речи. В качестве решающей функции предлагается использовать выражение вида [3]:
* (P & quot-
S = max —
r=!,… /?(Por
(1)
где Рг — энергия анализируемого отрезка сигнала в г-ом частотном интервале,
Р0, г — значение энергии в г-ом частотном интервале, полученное в результате усреднения по большому количеству отрезков сигнала, соответствующего шуму:
N
1 Po
ot, r
P0r =
ot=1
N,
(2)
ot
где
r=1,…, R — количество интервалов, на которые разбивается ось частот. Not — количество окон анализа,
Pot, г — энергия в r-ом частотном интервале отрезка ot.
Для оценки распределения энергии сигнала по частотным интервалам предлагается использовать выражение вида [3]:
Pr =11 Уг
1 Jr r т
I 2= 1 oi),
к=1
где
yrk
=?rk (г
rk'-
(3)
(4)
где r=1,…, R — частотных интервалов,
k =1,…, J — собственных чисел
qrk — собственный вектор субполосной матрицы Ar, x — анализируемый отрезок сигнала.
Решение о принадлежности отрезка сигнала к участку шума в паузах или звуку речи осуществляется на основе неравенства:
S & gt- ha, (5)
где ha — пороговое значение, обеспечивающее заданное значение вероятности ложной тревоги а.
Если неравенство (5) выполняется, то нулевая гипотеза отвергается, и анализируемый отрезок сигнала относится к участку смеси звука речи и шума. В противном случае, анализируемый отрезок сигнала относится к шуму в паузах.
Пороговое значение определяется на основе анализа достаточно большого количества отрезков сигнала, относящегося к шуму в паузе. Для оценки порогового значения ha используются математическое ожидание и дисперсия решающей функции вида (1), рассчитанной для всех отрезков сигнала шума, используемого для обучения:
SП = 2 (S П) / Not, (6)
k=1
N t _
D П = (Skn) 2 / Not- S П, (7)
к=1
где S ^ - значения решающей функции, рассчитанной для обучающей выборки сигнала, соответствующего шуму,
S П — математическое ожидание решающей функции,
DП — дисперсия решающей функции.
Оценка порогового значения при заданном уровне вероятности ложной тревоги осуществляется на основе неравенства Чебышева:
ha & lt- SП + DП / a4а. (8)
где S п — математическое ожидание решающей функции,
Dn — среднеквадратическое отклонение решающей функции, a — значение, превышающее 2, уточняется в процессе обучения, а — значение вероятности ложной тревоги.
Эффективность работы представленного алгоритма зависит от отношения шум/сигнал, а также от изменения уровня шумов.
Для исследования чувствительности алгоритма обнаружения пауз к увеличению отношения шум сигнал были оценены зависимости вероятности ошибочного принятия решения на участке, соответствующем шуму в помещении, к увеличению энергии сигнала на всем диапазоне частот и на участке, соответствующем звуку речи, к увеличению отношения шум/сигнал.
Для исследования зависимости вероятности ошибочного принятия решения на участке, соответствующем шуму в помещении, к увеличению энергии сигнала на всем диапазоне частот в качестве исходного сигнала был использован отрезок шума в комнате длительностью Dl=25 000 отсчетов (3, 125 с). Оценка вероятностей ошибок первого рода оценивалась на основе анализа 24 900 отрезков сигнала, соответствующего шуму в помещении. При этом производилась оценка пороговых значений для исходного сигнала, а затем энергия каждого отсчета шума увеличивалась в K раз. На рис. 1, 2 представлены графики зависимостей вероятности ошибки первого рода от коэффициента K при различных параметрах алгоритма.
Анализ рис. 1 показывает, что для параметров N=65, R=l6 c увеличением коэффициента K от 1,1 до 3 вероятность ошибочного принятия решения о наличии сигнала увеличивается от 0,0001 до 0,0061. Значение вероятности ошибки первого рода при значении коэффициента K=3 (0,0061) является приемлемым для алгоритма обнаружения пауз. На рисунке можно выделить три области: две области нечувствительности к изменению коэффициента K (от 1,1 до 1,2 и от 1,6 до 3) и одну область чувствительности к изменению коэффициента K (от 1,2 до 1,6). При этом важно отметить, что наибольшее изменение наблюдается при увеличении коэффициента от 1,2 до 1,3. В данном случае вероятность ошибки первого рода увеличивается на 52,32% (от 0,0006 до 0,0038). В свою
очередь в остальных случаях увеличение коэффициента на 0,1 приводит к увеличению вероятности ошибки первого рода в среднем на 2,51%.
Рис. 1. График зависимости вероятности ошибки I рода от коэффициента К (N=65, Д=16)
Рис. 2. График зависимости вероятности ошибки I рода от коэффициента К (N=129, ^=32)
Анализ рис. 2 показывает, что при выборе параметров N=129, Л=32 вероятность ошибки первого рода при увеличении коэффициента от 1,1 до 3 изменяется в диапазоне от 0,0001 до 0,0113. На графике можно выделить три области: две области нечувствительности к изменению коэффициента К (от 1,1 до 1,4 и от 1,7 до 3) и одну область чувствительности к изменению коэффициента К (от 1,4 до 1,7). Наибольшее изменение наблюдается при увеличении коэффициента от 1,5 до 1,6. В этом случае вероятность ошибки увеличивается на 74,02% (от 0,0013 до 0,0097). В остал ь-ных случаях увеличение коэффициента на 0,1 приводит к увеличению вероятности ошибки в среднем на 1,37%.
Для принятия решения о принадлежности анализируемого отрезка к речевому сигналу или к паузе предварительно было оценено пороговое значение при вероятности ошибки первого рода равной 0,002. Пороговое значение при N=65 составляет 397, а при N=129 — 330. На ри. 3 представлены графики зависимости порогового значения от коэффициента К при достижении вероятности ошибки первого рода 0,002 для различных параметров алгоритма.
Рис. 3. Графики зависимости пороговых значений от коэффициента К при:
— N=129, Я=32-
-- N=65, Я=16
Анализ рисунков показывает, что графики зависимостей имеют одинаковый характер. При этом крутизна графика зависимости порогового значения от коэффициента изменения К при N=65, Я=16 больше, чем при N=129, Л=32.
На втором этапе исследований была оценена вероятность ошибочного принятия решения на участке, соответствующем звуку речи, к увеличению отношения шум/сигнал. Для исследования зависимости ошибки второго рода от отношения шум/сигнал использовались сигналы, соответст-
вующие звукам русской речи. На рис. 4, 5 представлены графики зависимостей вероятности ошибки второго рода от отношения шум/сигнал для звука «а» при различных параметрах.
0. 07
I °-°в
В
| 0. 05
х а
= 0. 04
0.6 0.8 1 1.2 1.4 Омушошение шум. сигнал
0.6 0.8 1 1.2 1.4 Сдашошение шум ••ипчп
Рис. 4. График зависимости вероятности ошибки второго рода для звука «а» (N=65,^=16, а=0,002)
Рис. 5. График зависимости вероятности ошибки второго рода для звука «а» (N=129,^=32, а=0,002)
Анализ результатов экспериментов показывает, что при выборе длины окна анализа N=65, вероятность ошибки второго рода резко возрастает при отношении шум/сигнал больше 1,2 для звуков: «з», «р», «п" — 1,3: «л" — 1,4: «д», «т», «ф», «э" — 1,5: «а», «г», «е», «й», «к», «о», «с», «ц" — 1,6: «б», «в», «ж», «и», «у», «х», «ч», «щ" — 1,7: «м», «ы», «ю», «я" — 1,8: «н», «ш" — 1,9: «е». При выборе длины окна анализа N=129 вероятность ошибки второго рода меньше, чем для тех же звуков при выборе длины окна анализа N=65. Увеличение отношения шум/сигнал до 2 не приводит к увеличению вероятности ошибки второго рода для таких звуков как: «б», «в», «г», «е», «м», «н», «у», «ш», «ы», «ю», «я». При значении отношения шум/сигнал большем, чем 1,4 вероятность ошибки второго рода резко возрастает для таких звуков, как: «р" — 1,5: «з», «п" — 1,6: «с», «т», «ц" — 1,7: «а», «ж», «л», «о», «ф», «х», «ч», «щ», «э" — 1,8: «д», «и», «й», «к" — 1,9: «е». Сравнение результатов показывает, что выбор длины окна анализа N=129 позволяет уменьшить вероятность ошибочного принятия решения второго рода.
На рис. 6 представлены результаты усреднения значений вероятностей ошибки второго рода по всем звукам русской речи при различных отношениях шум/сигнал.
Усреднение осуществлялось с использованием выражения:
м
2 Р2 (Ф ¦ Рг
г=1_, (9)
Г2(д) ='-
м 2 Рг г =1
где
М — количество звуков русской речи- Р2-^) — вероятность ошибки второго рода для г-го звука при отношении шум/сигнал q- рг — вероятность появления г-го звука. Вероятности появления звуков представлены в табл. 1 [4].
Вероятность появления звуков русской речи
Таблица 1
звук Р звук Р звук Р звук Р
а 0,121 з 0,016 п 0,023 ч 0,012
б 0,014 и 0,062 р 0,04 ш 0,006
в 0,038 й 0,01 с 0,045 щ 0,003
г 0,013 к 0,028 т 0,053 ы 0,016
д 0,025 л 0,035 у 0,021 э 0,086
е 0,072 м 0,026 ф 0,002 ю 0,006
ё 0,046 н 0,053×0,009 я 0,018
ж 0,007 о 0,09 ц 0,004
На рис. 6, 7 представлены совмещенные графики зависимостей вероятности ошибки первого и второго рода при различных параметрах алгоритма.
0. 35 0. 3
I 0. 1
0. 05
0
ш
/
/& quot-
/
/
/
/
/
/
/ /

О 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1. Е Отношение шум/сигнал
Рис. 6. Графики зависимости значений вероятностей Рис. 7. Графики зависимости значений вероятностей
ошибки первого рода от коэффициента К при: ошибки второго рода от отношения шум/сигнал при: — N=129, Я=32- - N=129, Я=32- --N=65, Я=16 --N=65, Я=16
Сравнение графиков, представленных на рис. 6, показывает, что при малых значениях ко- эффициента (1,1'-1,5) вероятность ошибки первого рода меньше при N=129, R=32. При увеличении значения коэффициента вероятность ошибки первого рода для N=129, R=32 значительно превы- шает значение вероятности ошибки первого рода для N=65, R=16. Величина ошибки первого рода при N=129, R=32 на этом участке является неприемлемой. Анализ рис. 7 показывает, что при лю- бом значении отношения шум/сигнал вероятность ошибки второго рода бо льше при длине окна анализа N=65. При выборе длины окна анализа N=65 алгоритм может быть использован при соот- ношении шум/сигнал не более 1,2, а при выборе длины окна анализа N=129: не более 1,6.
Таким образом, исследование решающей функции максимальной чувствительности к изменению частей энергии в частотных интервалах показало, что при использовании
представленн

Статистика по статье
  • 13
    читатели
  • 13
    скачивания
  • 0
    в избранном
  • 0
    соц. сети

Ключевые слова
  • РЕЧЕВОЙ СИГНАЛ,
  • ЧАСТОТНЫЕ ПРЕДСТАВЛЕНИЯ,
  • АЛГОРИТМ ОБНАРУЖЕНИЕ ПАУЗ В РЕЧЕВЫХ СИГНАЛАХ,
  • РЕШАЮЩАЯ ФУНКЦИЯ

Аннотация
научной статьи
по общим и комплексным проблемам естественных и точных наук, автор научной работы & mdash- Белов С. П., Фирсова А. А.

В статье рассмотрена решающая функция максимальной чувствительности к изменению частей энергии в частотных интервалах. Проведена оценка чувствительности решающей функции на участке, соответствующем шуму в помещении, к увеличению энергии сигнала на всем диапазоне частот и оценка чувствительности решающей функции на участке, соответствующем звуку речи, к увеличению отношения шум/сигнал.

ПоказатьСвернуть
Заполнить форму текущей работой