Алгоритм текстонезависимой идентификации человека по голосу

Тип работы:
Реферат
Предмет:
Общие и комплексные проблемы технических и прикладных наук и отраслей народного хозяйства


Узнать стоимость

Детальная информация о работе

Выдержка из работы

Г. О. Фролов
АЛГОРИТМ ТЕКСТОНЕЗАВИСИМОЙ ИДЕНТИФИКАЦИИ ЧЕЛОВЕКА ПО ГОЛОСУ Волгоградский государственный технический университет
frolovgo@gmail. com
Рассмотрен языко- и текстонезависимый метод идентификации человека по голосу, основанный на выделении из речевого сигнала признаков, характеризующих усредненную энергию вейвлет-коэффициентов пакетного вейвлет-преобразования с пятью уровнями декомпозиции по базису Добеши двадцатого порядка. На основе векторов признаков построена модель диктора с помощью алгоритма k ближайших соседей. Идентификация образцов голоса осуществляется путем выбора модели, имеющей максимальную апостериорную вероятность соответствия анализируемому образцу.
Ключевые слова: идентификация по голосу, верификация, вейвлет-анализ, пакетное вейвлет-преобразование, метод ближайшего соседа.
G. O. Frolov
TEXT-INDEPENDENT SPEAKER RECOGNITION ALGORITM Volgograd State Technical University
A text independent method of speaker identification, based on the selection of the speech signal features that characterize the averaged energy of the wavelet coefficients of the wavelet packet transform with five levels of decomposition on the basis of Daubechie-20 order is proposed. On the basis of feature vectors, a model speaker with an algorithm k nearest neighbors is constructed. Identification of voice samples perform by selecting a model having the maximum posterior probability of matching the analyzed sample.
Keywords: voice identification, verification, wavelet analysis, packet wavelet transform, nearest neighbor classifier.
Введение
Для параметризации образцов человеческого голоса предлагается использовать пакетное вейвлет-преобразование. Традиционными для решения таких задач оказываются алгоритмы, использующие преобразование Фурье. Наиболее известными из них являются алгоритмы MFCC[6] и LPCC[6]. В основе этих алгоритмов лежит предположение о том, что человеческий голос можно считать стационарным сигналом на интервалах порядка 20−40 мс, что верно далеко не всегда. Опубликованные результаты практических испытаний систем, использующих для параметризации сигналов эти алгоритмы, свидетельствуют о том, что доля верно идентифицированных дикторов превышает 98% [5]. При этом, как правило, разработчики умалчивают о том, что результататы достигаются для образцов голоса, записанных в условиях звукозаписывающей студии при помощи профессиональных микрофонов. Результаты, полученные независимыми исследователями, такими как National Institute of Standards and Technology (NIST), показывают, что при использовании образцов, записанных в реальных каналах связи, точность идентификации редко превышает 90% даже для текстозависимых систем идентификации [9].
Используемое такими популярными алгоритмами параметризации, как MFCC и LPCC,
кратковременное преобразование Фурье с длительностью окна от 20 до 50 мс с перекрытием до 25% позволяет довольно точно выделить спектральные максимумы, характеризующие резонансные частоты голосового тракта человека для отдельных звуков, обусловленные индивидуальными анатомическими особенностями голосового тракта. Но признаки такого рода легко искажаются шумами и изменениями в голосовом тракте, вызванными физическим состоянием человека.
Поэтому, для повышения точности идентификации по голосу, был разработан метод параметризации сигналов, использующий вейвлет-преобразования и позволяющий выделить просодические характеристики речи, малочувствительные к шумам и искажениям в канале связи, из ее нестационарных фрагментов в моменты коартикуляции.
Метод параметризации речевых сигналов
Как утверждалось выше, голосовой сигнал имеет нестационарный характер, обусловленный постоянной перестройкой голосового тракта в процессе слитной речи.
На рис. 1 представлен фрагмент записи голоса диктора в момент перехода звука «Т» к звуку «О» при произношении слова «стоп». Сигнал на этом участке нестационарен.
60 мс
Фонема X М*"фон*ммый П4|: *од Фонема О

-I
7 і '-





Рис. 1. Пример нестационарного фрагмента в речевом сигнале
Фурье-анализ малопригоден для анализа подобных сигналов и не может различить сигнал из нескольких одновременно действующих гармоник, и сигнал, составленный из этих же гармоник, разнесенных во времени, при условии, что исследуемые фрагменты имеют одинаковую длительность. Использование оконного преобразования Фурье порождает проблемы другого характера — при уменьшении размера окна падает разрешение по частоте, спектральные максимумы расплываются, и определить наличие конкретных частот становится невозможно.
Вейлвет-анализ лишен данных недостатков за счет возможности использовать переменный масштаб для разных диапазонов частот.
Схема разработанного алгоритма параметризации, использующего вейвет-преобразова-ние, приведена на рис. 2.
На этапе препроцессинга выполняется пре-дусиление высокочастотных гармоник сигнала для выравнивания спектра, так как огибающая спектра человеческого голоса имеет спад в сторону высоких частот с крутизной около 6 дБ/окт [3].
Сигнал с микрофонсі или из файла (N отсчётов) _________1______
Прсп роцоссинг
-
Кадри ров анис длина кадра 1 = 1024 отсчстог ___________сигнала)___________
& lt-
X
От кадра 1 до кадра
& gt-

Вычисление пакетного вейвлет-преобразования (5 уровней декомпозиции)

Вычисление компонент результирующих векторов для каждого кадра
/ = 1°8іо (М~ Е |К (к))2 _ ^(к ~ !)* ^(к +1)|)'
Мі к =1
(3)
где / - і-й компонент параметрического вектора-г (к), м& gt-і(к+), м& gt-і(к-) — соответственно к-й, к+1-й и к-1-й компоненты і-го поддиапазона 5-го порядка вейвлет-разложения.
N,-1
і
Рис. 2. Схема разработанного алгоритма
Для предусиления к сигналу применяется фильтр вида:
y (n) = y (n)-ay (n-1), (1)
где a = 0,97 — коэффициент, подобранный экспериментально.
После предусиления выполняется нормализация, направленная на устранения влияние различных уровней громкости образцов:
y (n) = (y (n)-^)/o, (2)
где ц — среднее арифметическое отсчетов сигнал- о — среднеквадратичное отклонение, соот-ветсвенно.
После выполнения первичной обработки сигнал разбивается на окна длиной 1024 отсчета сигнала. Для каждого окна вычисляется пять уровней пакетного вейвлет-преобразования [S] по базису Добеши двадцатого порядка, в результате чего получется 32 поддиапозона по 32 вейвлет-коэффициента в каждом.
Для формирования результирующего параметрического вектора используется оператор специального вида, называемый TKEO (Teager Kaiser Energy Operator) [7] и применяемый к каждому поддиапазону. Компоненты результирующего параметрического вектора формируются следующим образом:
Конечным результатом работы алгоритма параметризации является 32-мерный характеристический вектор для каждого кадра сигнала.
В качестве модели диктора в полном объеме сохраняются характеристические векторы для всего объема обучающих голосовых материалов.
В процессе идентификации вероятность принадлежности i-го вектора тестового образца модели диктора j определяется как
Pj) = Kijk, (4)
где Kj — количество векторов среди найденных K ближайших соседей, принадлежащих классу j.
Каждый вектор тестового образца сравнивается с каждым вектором всех шаблонов. Тестовый образец классифицируется по правилу:
N
С = argmax? P (C} | у,), (5)
1& lt-j<-N 1=1
где N — длина тестовой последовательности в кадрах.
Данный алгоритм классификации известен как алгоритм K ближайших соседей (K nearest neighbor — KNN) [6].
Результаты тестирования разработанного метода
Алгоритм, описанный выше, был реализован при помощи в качестве расширения свободно распространяемого каркаса программного обеспечения с открытым исходным кодом Recspe[4], в состав которого входят реализации нескольких популярных алгоритмов параметризации голосовых образцов и классификации моделей дикторов, в частности, алгоритмы KNN, MFCC и LPCC. Образцы голосов дикторов для тестирования были взяты из свободного корпуса дикторов Chains[2], включающего в себя образцы голосов 36 мужчин и женщин, записанных в различных условиях. Для каждого диктора записано около 50 минут голоса.
Для обучения системы идентификации использовались фрагменты длиной 2,5 минуты для каждого диктора. В качестве классификатора во всех случаях применялся алгоритм KNN с числом k=32.
Первый этап тестирования проводился с использованием 36 фрагментов голоса для каждого диктора длиной от 4 с до l0 с, записанных в студийных условиях.
Точность идентификации, достигнутая при использовании разработанного алгоритма (обозначен «daub20») соизмерима с другими участниками тестирования.


5
го & quot- 1
-(c) — '- 1

ct '-
?
О


daub20. PC MFCC LPCEPSTR Метод параметризации FBANK
Рис. 3. Результаты тестирования алгоритмов параметризации при использовании образцов голоса,
записанных в студийных условиях
100,00
S
03 1 1
1
5 DU/vJVJ 1
cC '- 1
1-
q jU, UU X
Q Z. J 1-
0,00 — і 1 1 1
daub20 LPC MFCC LPCEPSTR FBANK
Метод параметризации
Рис. 4. Результаты тестирования алгоритмов параметризации при использовании образцов голоса,
записанных в телефонном канале
При переходе к образцам голоса, записанным в телефонном канале (S000 Гц/8 бит), разработанный алгоритм выходит на первое место среди рассмотренных аналогов.
Разработанный алгоритм применим для построения систем текстонезависимой идентификации по голосу, в тех случаях, когда необходимость работы с голосовыми материалами низкого качества не позволяет использовать менее робастные алгоритмы.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Chen, S.H. Speaker Verification Using MFCC and Support Vector Machine / S.H. Chen, Y.R. Luo // IMECS 2009. — Hong Kong, 2009. — С. 532−535. — Англ.
2. Cummins, F. The CHAINS Speech Corpus: CHAracterizing Individual Speakers [Электронный ресурс] - 200б. -Режим доступа: http: //chains. ucd. ie/docs/chains_corpus_spe-com2006. pdf
3. Furui, S. Cepstral analysis technique for automatic speaker verification // IEEE Trans. Acoustics, Speech, Signal Processing, ASSP-29, 1981. — С. 254−272. — Англ.
4. Kral, P. About RecSpe — Automatic Speaker Recognition Toolkit [Электронный ресурс] - 2010. — Режим доступа: http: //home. zcu. cz/~pkral/sw/recspe. html
5. Matsui, T. Comparison of text-independent speaker recognition methods using VQ-distortion and discrete/continuous HMMs / T. Matsui, S. Furui // Proc. ICSLP, 1992. -C. 157−160. — Англ.
6. Reynolds, D.A. An Overview of Automatic Speaker Recognition Technology // Proc. International Conference on Acoustics, Speech, and Signal Processing, 2002. — Orlando. -FL. IV. — C. 4072−4075. — Англ.
7. Solnik, S. Teager-Kaiser energy operator signal conditioning improves EMG onset detection [Электронный ресурс] - 2010. — Режим доступа: http: //www. ncbi. nlm. nih. gov/pmc/articles/PMC2945630/
8. Добеши, И. Десять лекций по вейвлетам. — Ижевск: Регулярная и хаотическая динамика, 2001. — 464 с.
9. Сорокин, В. Н. Верификация диктора по спектрально-временным параметрам речевого сигнала / В. Н. Сорокин, А. И. Цыплихин // Информационные процессы. -М. — Вып. 10, № 2. — С. 87−104.
10. Фролов, Г. О. Применение вейвлет-преобразования в задачах идентификации по голосу / Г. О. Фролов // Современные научные исследования и инновации [Электронный ресурс]. — 2013. — Режим доступа: http: //web. snauka. ru/issues/2013/05/24 295

ПоказатьСвернуть
Заполнить форму текущей работой