Один метод модуляции речевого сигнала по амплитуде и его применение в системах синтеза и клонирования речи

Тип работы:
Реферат
Предмет:
Физико-математические науки


Узнать стоимость

Детальная информация о работе

Выдержка из работы

Вычислительные технологии
Том 15, № 1, 2010
Один метод модуляции речевого сигнала по амплитуде и его применение в системах синтеза и клонирования речи
E.H. Амиргалиев, P.P. Мусабаев КазНТУ им. К. И. Сатпаева, Алматы, Казахстан e-mail: amir_ed@mail. ru, rmusab@gmail. com
Рассматривается метод модуляции речевого сигнала по амплитуде. Основное назначение метода — модификация интонационных характеристик речевого сигнала.
Ключевые слова: синтез речи, клонирование речи, речевой сигнал, ТТБ, интонация, просодия, преобразование текста в речь.
Введение
Существует задача синтеза речевого сигнала с изменяющейся интонацией. Эта задача наиболее часто решается в рамках систем речевого синтеза по тексту, когда на вход системы подается произвольная текстовая информация, а на выходе получается соответствующий речевой сигнал, максимально приближенный к естественной человеческой речи. Имеются также ряд задач по клонированию речевого сигнала, в рамках которых не просто синтезируют качественный речевой сигнал, но стремятся придать ему максимальное сходство с персональными характеристиками речи [1]. Эта технология является технологией двойного назначения.
По данной проблеме известны классические работы ряда зарубежных ученых: Г. Фанта [2], Дж. Фланагана [3], С. Фуру и [4], П. Тэйлора [5], X. Хуанга [6]. Подобные вопросы изучаются также в работах белорусских и российских ученых: Б. М. Лобанова [1], М. А. Сапожкова [7] и др.
1. Предлагаемый метод
В случае компилятивного синтеза речи в системе присутствует конечное множество базовых фрагментов речевого сигнала: ^ = {/- /2-…- /п}, где п — общее количество фрагментов. Эти фрагменты получаются в процессе записи речи диктора и последующего автоматического либо ручного их выделения специалистами по фонетике [8]. Размерность базового фрагмента и их количество зависят от выбранного подхода. Наиболее часто используются речевые фрагменты следующих размерностей:
1) полуфон — половина фонемы-
2) фонема — целая элементарная единица-
© ИВТ СО РАН, 2010.
3) дифон — два смежных полуфона различных фонем е переходной областью между ними-
4) слоги, слова, фразы и т. д.
Общее количество выделенных звуковых фрагментов в системе может колебаться от нескольких сотен до нескольких десятков тысяч. Для повышения качества синтеза достаточно увеличивать количество используемых базовых фрагментов, что приводит к увеличению используемых ресурсов и времени синтеза,
В компилятивной системе речевого синтеза одновременно используются различные типы базовых фрагментов, составляющие конечное множество типов: Т = {?^ ?2-…- ?п}, где п — общее число используемых типов. Например, можно выделить следующие типы базовых фрагментов Т = {V- N- Е- Р}: V — вокализированные, N — шумовые, Е — взрывные и щелкающие, Р — паузы. Каждому из данных типов соответствует множество объединенных под ним звуковых фрагментов.
Для каждого типа базовых фрагментов устанавливается свой набор правил модификации его интонационных характеристик Я = {г1- г2-…- гп}, а также множество методов модификации М = {ш1(ри-Р12-. -Р1к) — ^(рп-Р22-… -Р21)-.- т, п (рпъРп2-… -рп)}, которыми оперируют данные правила. Каждое правило оперирует одним либо несколькими методами с заданным набором параметре в {р11- р12-.- р1к}. Правила оперируют также множеством характеристик С = { {с%- с%-…- с^} - {е^- с^-…- сЕ}} как самого базового фрагмента с^, так и его контекстного окружения сЕ. Различным комбинациям данных характеристик могут быть сопоставлены различные методы интонационной модификации, В общем случае при реализации системы синтеза речи по компилятивному принципу необходимо оперировать следующим комплексным множеством:
X = ({Л- Т1- Я1- М1- С1} - {^2- Т2- Я2- М2- С2} -…- {ЯП- Тп- ЯП- МП) СП}).
Как известно [1], модулирование интонации производится методом изменения длительностей и частотных характеристих различных фрагментов речевого сигнала (в основном это фонемы), а также расстановкой пауз между фонемами, В речевом сигнале наибольшую интонационную составляющую имеют вокализированные участки, что обусловливает особую значимость регулирования их длительностей и частотных характеристик, Для таких типов речевых фрагментов как шумовые участки и паузы можно ограничиться регулированием лишь их длительностей без особого ущерба для общего качества синтеза. Таким образом, для проведения качественного синтеза необходимо оперировать набором методов модификации следующих параметров речевого сигнала:
1) контура частоты основного тона [9]-
2) длительностей фонем [10]-
3) амплитудной огибающей,
В данной статье предлагается подход для осуществления модификации амплитудной огибающей вокализированных составляющих речевого сигнала. Данный подход был апробирован и успешно применяется в одной из существующих систем синтеза и клонирования речи [11]. Для использования данного метода необходимо предварительно произвести разметку речевого сигнала по частоте основного тона (ЯО) для элементов множества Я Е V. В результате получаем множество сегментов Б = ((г1- к1) — (г2- к2)-…- (гп- кп)), которые задаются индексом начальной выборки 1п и количеством входящих выборок (рис, 1),
Б
де. Для этого используются гп- и гп+1-индекеы граничных выборок нормализируемого
микросегмента, Форма сигнала изменяется таким образом, чтобы выровнять выборку с индексом %п+1 до уровня выборки %п, Новое значение амплитудного уровня Дх для каждой выборки с индексом %Х € [%п- вычисляется следующим образом:
— Дг 1 + х-
1
%п+1
Дп

-1
п+1
где ДХ — значение амплитудного уровня для рассматриваемой выборки, х € [0- %п+1 — %п], Дп и Дп+1 — соответственно значения дискретных выборок сигнала с индексами %п и %п+ь %п+1 — %п & gt- 0 Дп+1 = 0, Затем граничные выборки приводятся к заданному амплитудному уровню Ь, а промежуточные также пропорционально увеличиваются:
Дх
если Дп = 0, то Дх =
Ь
Дп
иначе
Дх — Дх •
На рис, 2 проиллюстрирован процесс нормализации сигнала, но амплитудному уровню, в итоге которого к1 = = Л-з = |Л, 4| = Ь, Амплитудная нормализация сигнала позволяет «последствие применить к нему произвольную огибающую амплитудного уровня и таким образом производить модуляцию сигнала, но громкости. Дня задания плавных огибающих используются параметрические кривые Безье |12|, С помощью кривой Безье можно аппроксимировать сложные непрерывные формы колебаний, задав всего несколько опорных (характерных) точек, через которые должна пройти данная кривая,
1 кг ь к2 … 1″ к»
Рис. 1. Исходное сегментированное множество выборок речевохх) сигнала
Рис. 2. Процесс нормализации вокализированшнх) микроеегмента речевохх) сигнала, но амплитудному уровню: а исходный микроеегмент, б нормализация граничных уровней, е приведение общмх) уровня к заданному
С возрастанием сложности форм аппроксимируемых колебаний необходимо увеличи-
п
вать количество опорных точек. Кривая Безье задается выражением: В (?) = ^ РА, п (?),
i=0
0 & lt-? & lt- 1, где Р, является функцией компонент векторов для опорных точек, Ь, п (?) базисные функции кривой Безье (полиномы Бернштейна):
ад*) = (& quot- V4 а — (п Л п1
г) '- ^ / г! (п — г)!'-
здесь п — степень полинома, г — порядковый помер опорной точки, С помощью параметра? определяется точка, принадлежащая кривой. При этом за единицу принимается вся протяженность кривой от начальной до конечной точки.
Координаты (Х, У) произвольной точки, заданной параметром 0 & lt-? & lt- 1, вычисляются следующим образом:
г = т ¦ А (+1 + (1 — Т) ¦ АГ + (Т) + / (1 — Т) -Ггр] ,
г
А (Х, Г), соответствующей
условиям г-- '- / п • / • 1) -- & gt- /:. «, х — длина множества Аза минусом
& quot-шах & quot-шах
единицы- Ах и АГ — г-й элемент множества
А (Х, Г задающий координаты X и У г-й
опорной точки параметрической кривой
/(х) = х3-х, т = мтах (г-о 1
шах
& quot-шах
Б = } если ?& quot-шах & gt- 0 ИШ1С (?& quot-шах) = 0, ТОшах = ?& quot-шах — 1,
иначе Дшах = ?гипс (?& quot-шах),
здесь 1-гапе (ж) — функция округления дробного числа до целой части в меньшую сторону.
Перед непосредственным вычислением координат (X- У) произвольной точки кривой производится предварительное вычисление величин Хр при измене пни г в диапазоне [& quot-шах — 1- 1]:
= = О,
где Хр = 0 У0Р = 0 Хр шах = 0 Ур шах = 0 Значения Ж, х, Б, вычисляются
последовательно при изменении г в днапазоне [1- & quot-шах — 2]:
= = А+1 = А+1 —
г [1- & quot-шах — 1]
ЖХ = 6 ((АХ+1 — АХ) — (АХ — АХ-!)), Ж, Г = 6 ((АГ+1 — АГ) — (АГ — А^)), А = 4.
+ 50 II
— 50 Щ
Рис. 3. Процесс модификации амплитуды иеходжих) речевохх) сигнала, но огибающей, заданной набором параметрических кривых Безье
Множества Xр, Ур, ЖГ, и Д имеют размерность, равную размерности множества
Таким образом, имея множество нормализированных дискретных выборок речевого сигншта Д = (г0- г1-…- гп-1}, где п — количество выборок, а также функцию Безье Вг (А (Х'-Г) — ?), которая задается множеством опорных точек
А (Х'-Г) = { (АХ- АГ) — (АХ- АГ) — …- - А?) } ,
где т — количество опорных точек, можно осуществить амплитудную модуляцию сигнала, представленного множеством Д:
Zi = z? -Bz (A (X, Y) — t), t
1
i — h
L — 1 V ho — h
Ni
где L — общее количество опорных точек, Д и h2 — индексы дискретных выборок, соответствующие ближайшей левой и правой опорным точкам для выборки z?, hi? [0- n — 1], h2? [0- n — 1], N1 — номер ближайшей слева опорной точки для выборки z?, Ni? [0- Nmax],
На рис. 3 проиллюстрирован процесс модификации амплитуды исходного речевого сигнала по огибающей, заданной набором параметрических кривых Безье. Здесь для каждой фонемы (L, AY1, X, ERO) задается собственная амплитудная огибающая. При этом комплексная огибающая плавно задается общим множеством огибающих каждой из фонем. В приведенном примере
AL = { (0−0) (0. 6- 0. 1) (1- 0. 2) } =. AAY = { (0- 0. 2) (0. 5- 0. 35) (1- 0. 2) } A = 4 AN = { (0−0) (0. 5- 0. 1) (1- 0. 2) } AER = { (0- 0) (0. 5- 0. 21) (1−0)}
Заключение
У рассмотренного метода имеются аналоги. Наиболее часто в компилятивных системах синтеза и клонирования речи установка амплитуд фонем осуществляется усилением (ослаблением) сигналов фонем путем умножения всех значений сигнала па единый
Результаты оценки трудоемкости и разборчивости синтезированного сигнала
методов амплитудной модуляции
Метод Трудоемкость Разборчивость, %
Модуляция кривой 12 503 93
Безье
Умножение сигнала 1000 87
на коэффициент
коэффициент, задаваемый энергетическим портретом [1]. В ходе проведенного сравнительного анализа методов получены результаты, представленные в таблице.
Трудоемкость метода оценивалась количеством элементарных операций на языке высокого уровня, затрачиваемых на обработку 500 дискретных выборок сигнала. Разборчивость результатов синтеза оценивалась по методике, предложенной в ГОСТ Р 50 840−95 [13]. Синтез осуществлялся с помощью одного синтезатора, но с использованием различных методов амплитудной модуляции. По результатам оценок видно, что применение предложенного метода позволяет добиться большей разборчивости синтезированного сигнала. При этом затраты вычислительных ресурсов также значительно увеличиваются.
Список литературы
[1] Лобанов Б. М., Цирульник Л. И. Компьютерный синтез и клонирование речи. Минск: Белорусская наука, 2008.
[2] Fant G. Speech Acoustics and Phonetics. Dordrecht: Kluwer Acad. Publ., 2004.
[3] Фланаган Дж. Анализ, синтез и восприятие речи. !.. 1968.
[4] Furui S. Digital Speech Processing, Synthesis, and Recognition. N.Y.: Marcel Dekker Inc., 2001.
[5] Taylor P. Text to Speech Synthesis. Univ. of Cambridge, 2007.
[6] Xuedong Huang, Alex Acero, Raj Reddy. Spoken Language Processing: A Guide to Theory, Algorithm and System Development. Prentice Hall PTR, 2001.
[7] Сапожков M.А. Речевой сигнал в кибернетике и связи. !.. 1968.
[8] Амиргалиев E.H., Мусаваев P.P. Алгоритмы выделения и классификации фонем в системах синтеза искусственной речи // Проблемы автоматики и управления: Научно-техн. журн. / Национальная академия наук Кыргызской Республики. Бишкек: Илим, 2008. С. 32 35.
[9] Амиргалиев E.H., Мусаваев P.P. Определение структуры и способов модификации множества эталонных речевых сигналов в системах синтеза речи // Вестник КазНТУ. 2008. № 6/1(70). С. 25−28.
[10] Мусаваев P.P. Технологические особенности модуляции продолжительности речевого сигнала в системах синтеза речи // Сб. тр. междунар. науч. -практ. конф. & quot-Современные проблемы математики, информатики и управления& quot-. Алматы, 2008. С. 98−100.
[11] Амиргалиев E.H., Мусаваев P.P. Вопросы разработки информационной системы синтеза и распознавания казахской речи // Вестник КазНТУ. 2008. № 6/1(70). С. 28−34.
[12] Мусаваев P.P. Использование сплайнов при решении задач генерации речевого сигнала // Вестник КазНУ. 2008. № 4(59). С. 173−175.
[13] Передача речи по трактам связи. Методы оценки качества, разборчивости и узнаваемости. ГОСТ Р 50 840−95. Введ. 21. 11. 95. М.: Госстандарт России, 1995. 229 с.
Поступила в редакцию 30 марта 2009 г., в переработанном виде — 1 сентября 2009 г.

ПоказатьСвернуть
Заполнить форму текущей работой