Построение модели эмоций по речи человека

Тип работы:
Реферат
Предмет:
Языкознание


Узнать стоимость

Детальная информация о работе

Выдержка из работы

УДК 004. 81:159. 942. 52
В. Л. Розалиев
ПОСТРОЕНИЕ МОДЕЛИ ЭМОЦИЙ ПО РЕЧИ ЧЕЛОВЕКА
Волгоградский государственный технический университет (rozaliev_v@mail. ru)
Данная работа направлена на рассмотрение одного из видов невербальной коммуникации — передачи эмоций в речи, и связь ее с акустическими и лингвистическими характеристиками. Описывается аналитическое обеспечение для нахождения эмоциональности речи и формализованная модель эмоций. Предлагаются основные направления, где может быть использованы полученные результаты.
Ключевые слова: речевые технологии, распознавание речи, акустические параметры, лингвистические переменные, & quot-доминирующая"- эмоция, нечеткие правила.
V. L. Rozaliev
CONSTRUCTION THE MODEL OF EMOTIONS ON SPEECH OF THE PERSON
The given work is directed on consideration of one of kinds the nonverbal communications — transfers of emotions to speeches, and its communication with acoustic and linguistic characteristics. Analytical maintenance is described for a finding emotional speeches and the formalized model of emotions. The basic directions where can be used are offered the received results.
Speech technologies, recognition of speech, acoustic parameters, the linguistic variables, & quot-dominating"- emotion, indistinct rules.
Данная работа направлена на рассмотрение скими и лингвистическими характеристиками.
одного из видов невербальной коммуникации — Действительно, воспринимая слухом речь, мы
передачи эмоций в речи, и связь ее с акустиче- получаем информацию, как о смысле речи, так
и об эмоциональном содержании. Следовательно, эмоции кодируются определенными акустическими параметрами в речевом сигнале. Понимание этих особенностей акустического кодирования эмоций позволит понять сам механизм восприятия эмоций, их выражения. Позволит помочь людям, страдающим аутизмом и не способным самостоятельно воспринимать эмоции окружающих. Позволит лекторам, менеджерам, публичным ораторам иметь эффективное средство контроля, того с каким эмоциональным настроем подается их речь, и какова заинтересованность аудитории. Так же данное исследование важно для повышения эффективности распознавания речи. А постепенное повсеместное внедрение роботов, делает результаты данной работы важными для повышения уровня взаимодействия человека и машины.
Формализованная модель эмоций в речи представима в следующем виде: Model = & lt-Prichina, Proavlenie, Emotion, F: Proavlenie ^ Emotion& gt-, где Prichina — это причина эмоционального состояния, примем за причину время появления изменений в текущем эмоциональном состоянии, сохраняя таким образом пользователю право на окончательное решение- Proavlenie — это множество параметров, характеризующих звуковой сигнал речи человека, т. е. все множество акустических, лингвистических параметров, т. е. Proavlenie = {AcusticParam, LingvisticParam}, где AcusticParam — это акустические параметры- LingvisticParam — это лингвистические параметры- Y — множество эмоциональных состояний- F — функциональные зависимости Y от X.
Известно множество цифровых методов выделения признаков из речевого сигнала [1- 2] Однако зачастую качество поступающего звука, делает невозможным применение некоторых параметров. Поэтому могут использоваться только параметры, инвариантные к действию повышенного уровня сигнала. При вычислении акустических параметров (AcusticParam) речевой поток рассматривается как некоторый ква-зистационарный процесс. В качестве интегральных признаков речевого потока (т. е. при произвольном контексте речи) используются статистические оценки распределения параметров текущего спектра речи (спектральные признаки) и частоты основного тона, характеризующие этот поток в целом за определенный промежуток времени. При вычислении спектральных признаков речевой сигнал представ-
ляется в виде дискретной последовательности цифровых значений амплитуды речевой волны, подвергается спектральному анализу посредством быстрого преобразования Фурье (БПФ). С помощью БПФ спектры вычисляются последовательно по речевому потоку с применением набора фильтров, соответствующих критическим полосам. Критическая полоса (ее так же называют полосой равной разборчивости) — это минимальная полоса частот, которая возбуждает одну и ту же часть базилярной мембраны. В частотном промежутке от 0 до 16 кГц опытным путем были определены 24 критические полосы. Для удобства работы с критическими полосами используется специальная единица измерений — Барк. [3- 4]
В качестве интегральных спектральных признаков выбраны следующие группы индивидуальных признаков:
1) средние значения спектра анализируемого речевого сигнала-
2) нормализованные средние значения спектра-
3) относительное время пребывания сигнала в полосах спектра-
4) нормализованное время пребывания сигнала в полосах спектра-
5) медианные значения спектра речи в полосах-
6) относительная мощность спектра речи в полосах-
7) величины вариации огибающей спектра речи-
8) нормализованные величины вариации огибающих спектра речи-
9) значения коэффициентов кросскорреляции спектральных огибающих между полосами спектра.
Таким образом, признаки 1−7 — отражают своеобразие формы спектра голосовых импульсов у разных лиц и особенности фильтрующих функций их речевых трактов. Признаки 7−8 характеризуют особенности речевого потока, связанные с динамикой перестройки артикуляционных органов речи говорящего. Коэффициенты кросскорреляции, признак 9 — являются интегральными характеристиками речевого потока, отражающими своеобразие взаимосвязи или синхронности движения артикуляционных органов речи говорящего. Фактически, 1−2 определяют интенсивность сигнала. Изменение интенсивности речевого сигнала, вызванное как временными изменениями подсвязного давле-
ния, так и изменениями формы голосового тракта, информативны при анализе активности ударных и безударных звуков.
Все признаки вычисляются на отрезках длительностью 10 с. Время выбрано экспериментально. Вычисление интегральных признаков на отрезках речи длительностью 10 с вызвано требованием сопоставимости статистических оценок при сравнении речевых сигналов как очень малой, так и большой длительности.
В процедуре вычисления индивидуальных признаков важное место занимает метод отбраковки участков сигнала, имеющих малый уровень, поскольку эти данные не несут информации об индивидуальной речи диктора. Если энергия спектрального среза меньше некоторого порога отбраковки, то этот спектральный срез не участвует в вычислении интегральных признаков.
Опыт криминалистической практики показывает, что индивидуальные акустические признаки, вычисленные на отрезках речи с сопоставимым контекстом, более информативны, чем признаки, вычисленные на отрезках речи с произвольным контекстом. Поэтому мы, воспользовавшись некоторыми лингвистическим параметрами при определении эмоционального состояния, находим слова, однозначно характеризующие эмоциональное состояние человека и на них вычисляем векторы признаков 1−9 при длительности участков 10 с.
Введем признаки, характеризующие отдельные звуки. Необходимость таких признаков обусловлена проведением более глубокого микроанализа. И если слова, характеризующие эмоциональное состояние мы можем и не найти, то такие звуки легче найти в речи. Вычисление акустических признаков микроанализа проводится на наиболее информативных (с точки зрения проявления индивидуальности гласных звуках [А], [О], [Е], [И]). Немаловажную роль в выборе этих звуков оказывает обстоятельство, что они имеют наибольшую частоту встречаемости в устной русской речи.
Основными индивидуализирующими параметрами для звуков являются:
1) значение частоты основного тона (^0) на гласных-
2) значение четырех формантных частот (^1, F2,з, ^4) гласных звуков-
3) величина длительности гласных (Гг).
Частота основного тона0 связана с индивидуальными физиологическими характери-
стиками голосовых связок говорящего, в частности, длиной связок, их толщиной и эластичностью.
Формантные частоты F1, F2, F3, F4 являются первыми по порядку резонансными частотами спектров гласных звуков. На этих частотах концентрируется большая часть энергетического спектра гласных. Частоты формант отражают индивидуальные физиологические особенности речеобразующих органов говорящего, в частности, они связаны с формой и размерами рта, языка, зубов.
Для вычисления точных значений формантных частот и частоты основного тона их измеряют в середине гласного звука — в ее квазиста-ционарной части.
Полное множество лингвистических переменных (LingvisticParam) для нашего исследования избыточно, выделим необходимые нам переменные. Мы выделяем: изменение мелодики (Ml), темп речи™, сила голоса (Fr), эмоциональность речи (Em).
Способы выражения эмоций являются общечеловеческими, то есть можно предположить, что существует некий единый код [5]. Поскольку при речевом общении основной задачей является передача смыслового содержания, то эмоциональный аккомпанемент является как бы вторым планом, воспринимаемым нашим подсознанием. Это связано с тем, что невербальные способы общения имеют более древнее эволюционное происхождение [6]. Деление эмоций на первичные (фундаментальные, базовые, основные) и вторичные (производные), основано на утверждении, что существует некоторое количество эмоций, которые появились у человека врожденно (без влияния социума), они являются универсальными для всех людей и имеют одинаковое выражение, и вторичные — производные от первичных, возникшие в результате смешения первичных. Исследователи отмечают & quot-групповой"- характер эмоций, проявляющийся в способности эмоциональных состояний к объединению, & quot-базированию"- вокруг некоторых основных, & quot-доминирующих"- эмоций на основе
когнитивного опыта человека.
Таким образом, характеристиками таких групп будут:
1) Группировка происходит вокруг одного эмоционального состояния, доминанты, по которому и называется вся группа.
2) Доминанты почти всегда лексемы первого плана, наиболее обработанные в языке и наибо-
лее укорененные во всей отраженной в ней словесной культуре.
3) Эмоциональные состояния внутри группы связаны отношениями, основанными на семантической общности и образуют синонимичные ряды.
Основанием для объединения эмоций в пределах единой семантической группы является:
1) Синонимичный характер толкования эмоций.
2) Общее представление о типовом сценарии возникновения, развития и протекания эмоционального состояния. При этом сценарий представляется в виде, причина — проявления.
3) Общность причины эмоционального состояния.
Таким образом, выходными значениями будут: Emotion = {уь у2, у3}, где y1 = & quot-Радость"-. Фактически это можно назвать совокупность положительных эмоций- у2 = & quot-Нейтральное состояние& quot-- у3 = & quot-Отрицательные эмоции& quot- y3 = {у31, y32, Узз}, где y3i = & quot-Гнев"-- y32 = & quot-Страх"-- y33 = & quot-Горе"-.
Несложно заметить, что положительные эмоции меньше представлены в системе эмоциональных состояний, на самом деле, в речи значительно более выражены и проще определяемы отрицательные эмоции, а положительные очень сложно выделяемы. Возможно, это связано с тем, что визуально человек легче и эффективнее определяет положительные эмоции.
Установим функциональные зависимости акустических параметров и выходных параметров. Функциональная зависимость от акустических параметров имеет вид:
у = -195,097 + 0,353 • XН + 0,614 • tH +
+ 0,344 • PH — 0,162 • XН2 —
— 0,751 • XН • tH — 0,314 • XН • PH —
— 0,0146 • tH2 + 0,71 • ^ • PH — 0,189 • PH2, где ХН — нормированные значения спектра- tH -нормированное время пребывания сигнала в полосах спектра- PH — относительная мощность спектра речи в полосах.
Таким образом, для каждой полосы мы должны вычислить значение у, найти среднеарифметическое по кадру в целом, и посмотреть какое значение будет принимать у. Если у выходит из интервала [-4- 4], то требуются дополнительные вычисления, а именно исследование параметров отдельных звуков ([А], [О], [Е], [И]).
При этом стоит отметить, что фактически оказались не используемыми вариация огибающих спектра и коэффициент кросскореляции.
Первые параметры показали низкую корреляционную зависимость от у. И поэтому были выведены из рассмотрения. Однако эти параметры имеют важное значение для установки индивидуальности диктора и потому их влияние оставлено на перспективу дальнейших исследований.
Используя параметры, определенные на гласных звуках и лингвистические параметры, мы разделяем пространства входных и выходных сигналов на области. Вторым шагом является построение обучающих правил на основе обучающих данных. Третьим шагом является создание базы нечетких правил. Причем при создании мы учитываем степень истинности нечетких правил. По нечетким правилам производится вывод и определяется эмоциональное состояние.
Последовательность определения эмоционального состояния человека по речи будет следующей. После квантования и фильтрации гребенкой из 24 фильтров, речевой сигнал представляется в виде последовательности значений кратковременных энергетических спектров, измеренных в моменты времени j = 1, 2, …, J каждые 5,7 мс. Значение 5,7 мс выбрано экспериментально. Таким образом, речевой сигнал представим в виде: {x (0j), …, x (ij), …, x (23j)}, j = 1, 2 … J, где x (i, j) — значение сигнала на выходе i-го полосового фильтра в j-м кратковременном энергетическом спектре- J — общее количество спектральных срезов на анализируемом отрезке. После разделения на полосы некоторые полосы отбраковываются. После этого находятся параметры, характеризующие речевой поток и по функциональной зависимости находится соответствующая параметрам эмоция.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Рамашвили, Г. С. Автоматическое опознавание говорящего по голосу / Г. С. Рамашвили. — М., 1981. — 416 с.
2. A tutorial on hidden Markov models and selected appli-
cations in speech recognition [Электронный ресурс]. — [2000]. -Режим доступа: http: //www. cs. berkeley. edu/~murphy k/
Bayes/rabiner. pdf.
3. Радзишевский, А. Ю. Основы аналогового и цифрового звука / А. Ю. Радзишевский. — М.: Издательский дом & quot-Вильямс"-, 2006. — 288 с.
4. Noguerias, A. «Speech emotion Recognition Using Hidden Markov Models» / A. Noguerias, A. Moreno, A. Bon-afonte. — Paris: Eurospeech, 2001. — 245 p.
5. Morozov, V. P. Emotional expressiveness of the Singing Voice: the role of macro structural and micro structural modifications of spectra / V. P. Morozov // Scand Journ. Log. Phon. MS. — № 150, 1996. — P. 1−11.
6. Связь акустических параметров с эмоциональной выразительностью речи и пения. — [Электронный ресурс]. — [2003]. — Режим доступа: http: //rus. 625-net. ru/ audioproducer/ 2003/02/aldo. htm.

ПоказатьСвернуть
Заполнить форму текущей работой