Разработка биотехнической системы для распознавания фонем русской речи по изображениям губ

Тип работы:
Дипломная
Предмет:
Программирование


Узнать стоимость

Детальная информация о работе

Выдержка из работы

Оглавление

1. Введение

2. Распознавание речи по губам

2.1 Строение артикуляционного аппарата с точки зрения возможности распознавания речи по артикуляции.

3. Перечень фонем русской речи

3.1 Классификация звуков русского языка

3.2 Особенности визуализации произносимых фонем.

3.3 Задача считывания речи с губ.

4. Разработка алгоритма распознавания фонем русской речи

4.1 Обзор

4.1.1 Гибкие контурные модели

4.1.2 Представление контуров губ в виде векторов признаков

4.1.3 Исследование поверхности для применения к чтению по губам.

4.2 Комплекс параметров артикуляции на основе контура внутренней области губ

4.3 Алгоритм выделения внутренней области губ и аппроксимации области эллипсом

4.4 Описание исследования распознавания фонем

5. Разработка биотехнической системы

5.1 Качество изображения

5.2 Требования к условиям регистрации изображения

5.2.1 Требования к геометрическим размерам лица на изображении

5.2.2 Требования к положению головы

5.3 Требования к характеристикам изображения лица

5.3.1 Требования к контрасту изображения

5.3.2 Требования к разрешению изображения

5.3.3 Требования к частоте кадров видеоизображения

5.4 Разработка структурно-функциональной схемы системы и схемы БТС. Формирование требований к подсистемам

5.5 Реализация модуля распознавания фонем русской речи по изображениям губ

6. Список использованной литературы

1

1. Введение

Развитие компьютерной техники ведет к усовершенствованию интерфейсов между человеком и компьютером. Один из важнейших способов человеческой коммуникации — речь, поэтому надежный ввод речевой информации является важным направлением усовершенствования человеко-машинных интерфейсов. Существующие системы распознавания речи, основанные на звуке, недостаточно надежны, так как их точность резко ухудшается при искажении звуковой информации шумами различной природы, например, в аэропортах, метро. При некоторых болезнях речевого аппарата, когда «пропадает голос». Кроме того, при наличии нескольких говорящих система распознавания речи сталкивается с проблемой идентификации говорящего в данный момент. Поэтому целесообразно одновременное использование видеоинформации, то есть чтения по губам, что также является важной частью человеческого восприятия речи. Разрабатываемая мультимодальная система распознавания речи так же может активно использоваться для решения экспертно-криминалистических задач, таких как сопоставление видеоизображения и аудио-сигнала, что достаточно часто необходимо при получении достоверной информации. И в случаях отсутствия приемника аудио-сигнала в системах видеонаблюдения. Создание системы распознающей все виземы русской речи является актуальной задачей. В рамках данной работы предполагается разработать систему распознавания визем по видеоизображению, в первую очередь используемых слабослышащими при чтении по губам. Целью квалификационной работы является разработка биотехнической системы для распознавания фонем русской речи по изображениям губ.

Для этого необходимо реализовать следующие задачи:

— Определить характерные особенности фонем русского языка;

— Разработать алгоритм вычисления параметров артикуляции;

— Провести исследование по распознаванию фонем.

2. Распознавание речи по губам

2. 1 Строение артикуляционного аппарата с точки зрения возможности распознавания речи по артикуляции

Для исследования возможности распознавания речи по артикуляции рассмотрим строение речевого аппарата с точки зрения данной задачи.

Артикуляционный аппарат или речевой тракт человека содержит три основных компонента, обеспечивающих образование членораздельной речи:

— дыхательные органы, работа которых во время речепроизводства создает необходимые аэродинамические условия;

— гортань и голосовые связки, поведение которых определяет характер произносимого звука (гласный, сонант, звонкий согласный, глухой согласный) и мелодику высказывания в целом;

— надгортанные полости -- полость глотки, ротовая полость, полость носа.

При описании артикуляции самое большое внимание обычно уделяют конфигурациям надгортанных полостей. Именно движения в этой части речевого тракта и называют артикуляторными.

Рисунок 1 — Речевой тракт человека

С точки зрения речеобразования, каждый звук может быть описан уникальной комбинацией нескольких основных состояний артикуляционной системы — параметрами артикуляции:

— Наличие или отсутствие вокализованности (работы голосовых связок);

— Положение языка;

— Параметры раскрытия рта (ширина, высота);

— Округление и вытянутость губ.

При решении задачи — создание системы распознавания русской речи по артикуляции, необходимо учитывать только видимые параметры артикуляции.

Как показали исследования, для русской речи практически полностью скрытой остаётся динамика движения тела, кончика и боковинок языка, нёбной занавески, голосовых связок. Обозрению доступны лишь движения губ и нижней челюсти. Наиболее чётко они проявляются при образовании гласных (Рисунок 2), а также губных согласных (Рисунок 3). Не столь сильное различие, однако, достаточно заметное, наблюдается между твёрдыми и мягкими согласными, а также между заднеязычными и другими негубными согласными (Рисунок 3).

«А»

«Э»

«И»

«Ы»

«О»

«У»

Рисунок 2- Виземы гласных фонем [Ошибка!Источник ссылки не найден. ]

Тип фонемы

Губные

Переднеязычные

Заднеязычные

Твёрдые

Мягкие

Рисунок 3 — Виземы групп согласных фонем [Ошибка!Источник ссылки не найден. ]

Наиболее яркие различия в виземах связаны с изображениями губ говорящего (Рисунок 414). При этом проявляются три характерных координаты движения губ:

— степень растягивания — координата X (наибольшее значение у гласной «И»),

— степень раскрытия — координата Y (наибольшее значение у гласной «А»),

— степень выпячивания — координата Z (наибольшее значение у гласной «У»).

Рисунок 41 — Изображение губ, характерное для гласных фонем [Ошибка!Источник ссылки не найден. ]

3.

3. Перечень фонем русской речи

3.1 Классификация звуков русского языка

Минимальная единица звукового строя языка называется фонемой. В русском языке имеется 42 фонемы: 6 гласных (а, и, о, у, ы, э) и 36 согласных (б, б', в, в', г, г', д, д', ж, з, з', э (й), к, к', л, л', м', м, н, н', п, п', р, р', с, с', т, т', ф, ф', х, х', ц, ч, ш, щ).

Классификация звуков по отсутствию или наличию преграды в ротовой полости:

гласные — [а], [э], [и], [ы], [о], [у];

согласные — все остальные.

Классификация звуков по участию в артикуляции мягкого нёба:

носовые — [м], [м`], [н], [н`];

ротовые — все остальные.

Классификация звуков по работе голосовых складок:

гласные — [а], [э], [и], [ы], [о], [у];

сонорные (в образовании звука практически не участвует шум, они не имеют пары среди глухих согласных, т. е. являются непарными по глухости/звонкости) — [й], [м], [м`], [н], [н`], [л], [л`], [р], [р`];

звонкие (в образовании звука участвуют голосовые связки) — [в], [в`], [з], [з`], [ж], [б], [б`], [д], [д`], [г], [г`];

глухие (в образовании звука не участвуют голосовые связки) — [ф], [ф`], [с], [с`], [ш], [п], [п`], [т], [т`], [к], [к`], [х], [х`], [ч], [щ].

Классификация согласных звуков по степени напряжения средней части спинки языка:

мягкие (качество согласных, обусловленное наличием дополнительной средненёбной (йотовой) артикуляции, которая соединяется с основной артикуляцией согласных, что резко повышает характерный тон и шум) — [й], [щ], [ч], [т`], [д`], [н`], [б`], [в`], [г`], [с`], [р`];

твёрдые — [ш], [ж], [ц], [т], [д], [н], [б], [в], [г], [с], [р].

Классификация гласных звуков по степени подъёма языка в ротовой полости:

верхний подъём — [и], [ы], [у];

средний подъём — [э], [о];

нижний подъём- [а].

Классификация гласных звуков по участию в артикуляции разных частей языка:

гласные переднего ряда — [и], [э];

гласные среднего ряда — [ы], [а];

гласные заднего ряда — [у], [о].

Классификация гласных звуков с учётом лабиализации:

лабиализованные (артикуляция звуков, при которой губы вытягиваются вперед и принимают форму круглого отверстия (колечка); при этом увеличивается передняя часть резонатора, что понижает резонаторный тон (лабиализованные гласные ниже нелабиализованных)) — [о], [у];

нелабиализованные — [и], [э], [ы], [а].

Таблица 1 — Сводная таблица классификации согласных звуков русского языка по способу и месту образования.

Способ образования ->

Щелевые (фрикативные)

Смычные

Место

образования

взрывные

аффрикаты

носовые

боковые

дрожащие

губные

губно-губные

[б]-[б'], [п]-[п']

[м]-[м']

губно-зубные

[в]-[в'], [ф]-[ф']

язычные

Переднее-язычные

зубные

[з]-[з'], [с]-[с']

[д]-[д'], [т]-[т']

[ц]

[н]-[н']

[л]-[л']

передненебные

[ж], [ш], [щ']

[ч']

[р]-[р']

среднеязычные

[j']

заднеязычные

[х]-[х']

[г]-[г'], [к]-[к']

3.2 Особенности визуализации произносимых фонем

Реализация фонемы, обусловленная конкретным фонетическим окружением, называется аллофоном. Последовательность из двух аллофонов называется дифоном.

Однако, как показали исследования, между произнесенной фонемой и ее визуальным отображением нет однозначного соответствия. Визуальное отображение фонемы называется виземой (состояние губ, соответствующее фонемам устной речи).

Если рассматривать задачу «чтения речи по губам» человеком (в частности, людьми с проблемами слуха), то, по мнению Мироновой Э. В. (к.п.н., педагог Института коррекционной педагогики РАО), заметно для глаза произнесение только двенадцати фонем, которым соответствуют шесть визем:

«А» — губы не напряжены, рот раскрывается довольно широко;

«О» — губы округляются, ротовое отверстие меньше, чем при «А»;

«У» — губы вытягиваются трубочкой, ротовое отверстие маленькое, круглое;

«П», «Б», «М» — губы смыкаются и затем размыкаются;

«Ф», «В» — нижняя губа приближается к верхним зубам;

«Ш», «Ж», «Ч», «Щ» — губы округляются и раскрываются «рупором».

При исследовании вопроса фонемного и виземного состава русского языка для задачи мультимодального распознавания речи Карпов А. А. и др. признали оптимальным по критерию точности набор из 10 визем (включая паузу) (Таблица 2).

Таблица 22 — Соответствие фонем и визем при мультимодальном распознавании речи.

Виземы

Фонемы

Виземы

Фонемы

Виземы

Фонемы

a

а, а!, е, е!

v

ф, ф', в', в'

t

т, т', д, д', н, н', к, к', г, г'

i

и, и!, ы, ы!

z

з, з', с, с', ц, ч

l

л, л', р, р'

o

о!, у, у!

p

м, м', б, б', п, п'

j

ж, щ, х, х', ш, й

Для задачи аудиовизуального синтеза речи Карповым А. А. и др. был выбран необходимый и достаточный набор визем русской речи, представленный в

Таблица 313. Индексы при гласных в таблице указывают на степень их позиционной редукции: 0 — полноударная гласная, 1 — частично ударная, 2 — предударная, 3 — заударная. Символ «'» после согласной обозначает её мягкость.

Таблица 31 — Соответствие «фонема-визема» для аудиовизуального синтеза речи

Визема

Аллофоны фонем

Визема

Аллофоны фонем

V1

А0, А1

V8

Б', П', М'

V2

Е0, Е1

V9

Ф, В

V3

И0, И1, И2, И3

V10

Ф', В'

V4

О0, О1

V11

Ц, С, З, Ш, Ж, Д, Т, Л, Р, Н

V5

У0, У1, У2, У3

V12

С', З', Ч', Ш', Д', Т', Л', Р', Н`

V6

Ы0, Ы1, Ы2, Ы3, А2, А3, Е2, Е3, пауза

V13

Г, К, Х

V7

Б, П, М

V14

Г', К', Х', Й'

При изучении асинхронности произношения звука и его отображения, Карпов А. А. выделяет набор из 18 визем (Таблица 4).

Таблица 4 — Набор визем, выделяемый при исследовании асинхронности произношения и визуального отображения звука

1

Ударные нелабиализованные гласные: /a0/, /a1/

2

Безударные нелабиализованные гласные: /e0/, /e1/

3

Ударные нелабиализованные гласные: /i0/, /i1/

Безударные нелабиализованные гласные: /i2/, /i3/

4

Ударные лабиализованные гласные: /o0/, /o1/

5

Ударные лабиализованные гласные: /u0/, /u1/

Безударные лабиализованные гласные: /u2/, /u3/

6

Ударные нелабиализованные гласные: /y0/, /y1/

Безударные нелабиализованные гласные: /y2/, /y3/, /a2/, /a3/, /e2/, /e3/

7

Твердые губные согласные: /b/, /p/, /m/

8

Мягкие губные согласные: /b'/, /p'/, /m'/

9

Твердые губно-зубные согласные: /f/, /v/

10

Мягкие губно-зубные согласные: /f'/, /v'/

11

Твердые зубные согласные: /c/, /s/, /z/, /d/, /t/, /n/

12

Мягкие зубные согласные: /s'/, /z'/, /d'/, /t'/, /n'/

13

Твердые задненебные согласные: /g/, /k/, /h/

14

Мягкие задненебные согласные: /g'/, /k'/, /h'/, /j/

15

Альвеолярные согласные: /ch/, /sh/, /zh/, /sh'/

16

Твердые звонкие согласные: /l/, /r/

17

Мягкие звонкие согласные: /l'/, /r'/

18

Акустическая пауза: / # /

Из приведенных примеров видно, что для различных задач выделяются разные группы визем. При разработке визем необходимо учитывать положение и движение артикуляторных органов, доступных обозрению

3.3 Задача считывания речи с губ

На основе литературных данных можно сформулировать основные проблемы, усложняющих задачу считывания речи с губ:

1. Ограниченное и небольшое количество видимых звуков. На месте невидимого звука на губах заметна пауза в движениях;

2. Видимые движения губ многозначны (одной виземе может соответствовать несколько фонем);

3. Слова в речи слиты в группы и артикуляция не прекращается с окончанием каждого отдельного слова (проблема разделения слов);

4. Ударные и безударные слоги (артикуляция ударных гласных значительно по размерам больше, чем артикуляция безударных);

5. Фонемы различаются по длительности. Средняя длительность разных фонем колеблется, по данным Л. А. Варшавского и И. М. Литвака, от 20 до 260 мсек. Длительность гласных также значительно варьирует в зависимости от позиционных условий (от степени ударности). ВТаблица525 приведены значения относительной длительности аллофонов (в %) при изменении темпа речи, а также их абсолютная длительность в миллисекундах (мс) и в числе видеокадров (кд) (при скорости съемки 25 кд/сек).

Таблица 52 — Относительные (%) и абсолютные (мс, кд) длительности звуков при изменении темпа речи

Тип звуковых единиц

Медленный темп (%- мс — кд)

Средний темп (%- мс — кд)

Быстрый темп (% - мс — кд)

Паузы

250 — 650 — 16

100 — 260 — 7

20 — 50 — 2

Ударные гласные

200 — 320 — 8

100 — 160 — 4

50 — 80 — 2

Предударные гласные

200 — 160 — 4

100 — 80 — 2

80 — 64 — 2

Заударные гласные

200 — 80 — 2

100 — 40 — 1

80 — 20 — 1

Сонанты

140 — 110 — 3

100 — 80 — 2

80 — 64 — 2

Звонкиевзрывныеищелевые

120 — 120 — 3

100 — 100 — 3

80 — 80 — 2

Глухие взрывные

130 — 160 — 4

100 — 120 — 3

85 — 100 — 3

Глухиещелевые

130 — 180 — 4

100 — 140 — 4

85 — 120 — 3

6. Следует учитывать явление коартикуляции гласных и согласных фонем. На визуальном уровне это явление проявляется в том, что в слогах типа «согласная-гласная» характерный артикуляционный уклад гласной фонемы устанавливается не только на самой гласной, но и на большей части согласного. При этом для различных комбинаций «согласная-гласная» проявление эффекта коартикуляции может быть различным. Для заднеязычных согласных — «Х», «Г», «К» — эффект коартикуляции проявляется в комбинации с любой из гласных, в то время как для остальных согласных — только в сочетании с губными гласными «У» и «О».

При обучении слабослышащих или глухих людей искусству чтения по губам в первую очередь их обучают распознавать опорные виземы, т. е. виземы — хорошо различимые глазом при произношении. Выше было описано 6 визем, соответствующих 12 фонемам. И так как в речи мы редко произносим фонемы по отдельности, а чаще всего используем их в различных сочетаниях, то опорными для слабослышащих становятся сочетания таких фонем. В данной работе для исследования были выбраны сочетания фонем, которые распознаются легче всего, а конкретно различные сочетания губных фонем с гласными.

Таблица 6-Таблица опорныхвизем, выбранных для исследования

Губно-губные

Губно-зубные

взрывные

-бе (пе) — -еб (еп) —

-бо (по) — -об (оп) —

-бу (пу) — -уб (уп) —

-ба (па) — -аб (ап) —

-би (пи) — -иб (ип) —

щелевые

-ве (фе) — -ев (еф

-во (фо) — -ов (оф) —

-ву (фу) — -ув (уф) —

-ва (фа) — -ав (аф) —

-ви (фи) — -ив (иф) —

носовые

-ме- -ем-

-мо- -ом-

-му- -ум-

-ма- -ам-

-ми- -им-

4.

4. Разработка алгоритма распознавания фонем русской речи

4.1 Обзор

При разработке алгоритма распознавания фонем по изображению губ, нам предстоит столкнуться с рядом задач.

— Задача выделения области губ на изображении.

— Задача выделения внутреннего контура губ.

Проведем обзор алгоритмов выделения областей и контуров при обработке изображений.

4.2 Гибкие контурные модели

4.2. 1 Деформируемые модели

Это класс эффективных инструментов для решения различных задач обработки изображений и машинного зрения, таких как выделение краев, моделирование форм (как двумерных, так и трехмерных), сегментация, определение границ объекта. Деформируемые модели — широкий спектр эффективных методов решения задач распознавания образов. Наиболее общим образом деформируемую модель можно описать как объект, динамически меняющий форму под действием различных сил, называемых энергиями. Внутренняя энергия соответствует геометрической мере соответствия текущей формы модели некоторой идеальной форме объектов такого класса, а внешняя — мере точности распознавания. Обе меры соответствия комбинируются для получения общей меры. Набор параметров, оптимизирующий целевую функцию, описывает искомый деформированный шаблон. Значение целевой функции является мерой корректности распознавания. Общим недостатком семейства методов является сильная зависимость от инициализации.

Деформируемая модель (deformabletemplatemodel) представляет собой шаблон некоторой формы (для двумерного случая — открытая либо замкнутая кривая, для трехмерного — поверхность). Наложенный на изображение, шаблон деформируется под воздействием различных сил, внутренних (определенных для каждого конкретного шаблона) и внешних (определенных изображением, на которое наложен шаблон) — модель меняет свою форму, подстраиваясь под входные данные. В результате из шаблона, инициированного в приблизительном местонахождении искомого объекта, получаем явное описание границы объекта. Задачи поиска границы объекта при наличии информации о его приблизительном положении широко распространены в области создания естественных интерфейсов человек-компьютер (отслеживание положения руки, чтение по губам, распознавание черт лица), в задачах трэкинга (отслеживания) объектов. (см. рис. 5)

По типу задания шаблона деформируемые модели делятся на параметрически заданные модели (parametricdeformationmodels) и модели свободной формы (freeformdeformationmodels). (см. рис. 7)

Рисунок 7 — Типы деформируемых моделей

Под моделями свободной формы подразумеваются модели, шаблон которых не имеет четко определенной структуры — в процессе деформации модель может принимать совершенно разные формы. Единственным ограничением является требование непрерывности и гладкости контура искомого объекта.

Из-за отсутствия общей структуры модели свободной формы можно использовать для распознавания широкого спектра объектов.

Для параметрических деформируемых моделей шаблон задается с помощью набора параметров, описывающих форму объекта. Параметрические модели используются в тех случаях, когда заранее известна четкая геометрическая структура искомого объекта.

Изменения деформируемой модели можно описать аналитической функцией, аргументом которой служит текущая геометрическая форма модели, входное изображение играет роль параметра, а значением функции является мера несоответствия модели на текущей стадии деформации искомому объекту на входном изображении. Чем меньше значение функции — тем ближе модель к тому, что требуется найти. В этом случае задача поиска искомого контура может быть переформулирована в задачу оптимизации этой функции, то есть поиска такого набора аргументов, при котором функция при текущих значениях параметра достигает своего оптимального значения. Такая функция в литературе носит название функция энергии (energy). Силы, действующие на деформируемую модель, выражены в функции энергии как комбинация ограничений на форму модели (внутренние силы) и свойств искомого контура (внешние силы).

1. Внутренняя энергия (internalenergy) является мерой соответствия геометрической формы деформированного шаблона некоторой идеальной форме искомого объекта. Внутренняя энергия является свойством модели, и не зависит от входных данных

А) В моделях свободной формы внутренняя энергия соответствуют общим ограничениям на форму шаблона — гладкость и компактность контура.

Б) В аналитически заданных деформируемых моделях внутренняя энергия описывает геометрическую форму и взаимное расположение составных частей шаблона.

В) В деформируемых моделях, основанных на прототипах, внутренняя энергия оказывает влияние на выбор геометрической формы модели. Например, она может определять штраф за отклонение от ожидаемой формы.

2. Внешняя энергия (externalenergy) является мера < похожести> деформированного шаблона на искомый объект. С помощью внешней энергии деформируемая модель взаимодействует с данными, притягивается к искомым контурам на изображении. Внешняя энергия — это мера точности соответствия деформируемой модели входному изображению.

На примере (рис. 8) приведена модель свободной формы. Внутренняя энергия для нее — условие гладкости контура. Внешняя энергия — условие резкого перепада яркости на границе объекта. При разных деформациях модели получаем разные значения для внутренней и внешней энергий.

Рисунок 8 — Внутренняя и внешняя энергии.

1. Деформируемые модели свободной формы

Деформируемые модели свободной формы характеризуются отсутствием строго заданной формы шаблона — вводятся лишь общие ограничения, такие как непрерывность и гладкость контура. Наиболее известным типом деформируемой модели свободной формы является активная контурная модель (activecontourmodel), также в литературе называемыйзмеей (snake).

2. Активные контурные модели

Активная контурная модель, или змея — это деформируемая модель, шаблон которой задан в форме параметрической кривой, инициализированный вручную набором контрольных точек, лежащих на открытой или замкнутой кривой на входном изображении. Обозначим массив контольных точек

C = { c (s) } = { (x (s), y (s)), s= 1,…, n }.

Функция энергии активной контурной модели выглядит следующим образом:

где E1 — внутренняя энергия, а E2 — внешняя.

Условие непрерывности и гладкости контура можно записать:

Параметр w2 регулирует жесткость контура. При w2(s) = 0 контур образует угол в точке (x (s), y (s)) (нарушается условие гладкости). Параметр w1 регулирует эластичность контура. При w1(s) = w2(s) = 0 в точке (x (s), y (s)) происходит разрыв контура (нарушается условие непрерывности). В простейшем случае параметры могут быть одинаковыми для всех точек контура.

Внешняя энергия выглядит следующим образом:

где P (c (s)) — потенциальное поле силы, ассоциированной с входным изображением. Каждая точка входного изображения обладает силой, притягивающей или отталкивающей деформируемую модель. Например, в случае когда с помощью активной контурной модели производится поиск краев (резких перепадов яркости) изображения, потенциальное поле силы имеет такую форму:

Здесь I — яркость изображения.

Для решения задачи минимизации функции энергии применяется метод ветвей и границ. Алгоритм циклический. Для всех контрольных точек c (s), s=1,…, n вычисляем E1, E2 и E во всех точках некоторой окрестности текущей контрольной точки c (i), 1? i? n, после чего выбираем ту точку этой окрестности, которая минимизирует функцию энергии E — эта точка становится контрольной точкой c (s) на следующем шаге (см. рис. 9). Для полученного набора контрольных точек проводим ту же операцию. Алгоритм заканчивает свою работу когда на очередном проходе ни одна контрольная точка не поменяла своего положения.

Рисунок 9 — Активные контурные модели: метод ветвей и границ

Активные контурные модели являются эффективным, но «близоруким» средством — метод ветвей и границ чувствителен к присутствию локального оптимума, может принять локальный минимум за финальный результат. Поэтому активные контурные модели чувствительны к шуму на входных изображениях (шум добавляет локальные перепады яркости на изображение) и к инициализации (при плохой инициализации между инициированным контуром и желаемым результатом может оказаться локальный минимум). Для достижения стабильности и точности необходимо проведение подготовительных мер с входным изображением — например размытие для устранения шума. Также можно достичь большей стабильности используя другие методы решения задачи оптимизации — например, динамическое программирование.

3. Деформируемые модели, основанные на сплайнах.

Другим примером деформируемой модели свободной формы являются деформируемые модели, основанные на сплайнах.

Модель, основанная на сплайнах, обладает более четко определенной структурой чем змея. Шаблон основанной на сплайнах модели выражается линейной комбинацией набора базисных функций, и его форма определяется коэффициентами этих функций. В качестве базиса сплайна может быть использован как базис В-сплайна, так и тригонометрический базис, и вейвлеты.

Несмотря на более четкую структуру, основанные на сплайнах модели относятся к моделям свободной формы. Причина этого в том что в отличие от параметрически заданных моделей, шаблон которых при деформации сохраняет класс формы (см. ниже), линейные комбинации базисных функций при различных коэффициентах сильно варьируются, из-за чего угадать их общую структуру практически невозможно.

4. Параметрические деформируемые модели.

Параметрическая деформируемая модель — это модель формы некоторого класса, представленная параметрически. Под классом (типом, видом) формы подразумевается априорное знание о структурных свойствах класса объектов. На (см. рис. 10) представлен класс формы рыбы. Рыба может иметь разные пропорции, размер и ориентацию. Рыбы одного вида имеют идентичную форму, рыбы разных видов — похожие формы, а животные имеют совершенно иную форму. При деформации параметрической модели рыбы мы никогда не сможем получить форму кота.

Параметрические деформируемые модели используются в тех случаях, когда искомый объект обладает четкой геометрической структурой, известной нам априори.

Для получения компактного представления класса формы в рамках подхода деформируемых моделей производится параметризация шаблона.

5. Аналитические параметрические деформируемые модели.

Представляя класс формы в виде набора параметрически заданных кривых, получим аналитическую параметрическую деформируемую модель, основанную на форме (AnalyticalForm-basedParametricDeformableModels).

Например, если искомый объект имеет форму двух концентрических окружностей, то параметрами аналитической деформируемой модели могут быть координаты центров и радиусы окружностей. Выражая через эти параметры свойства искомого объекта (например, < на границах окружностей должен наблюдаться резкий скачок яркости>), получим внешнюю энергию. Внутреннюю энергию получим при описании взаимного расположения частей шаблона — < координаты центров концентрических окружностей находятся в одной точке.

Для аналитических деформируемых моделей необходима хорошая инициализация. Приблизительное положение, ориентация и масштаб искомого объекта должны быть известны, либо представлены одним или несколькими параметрами. Применимость параметрических деформируемых моделей ограничена из-за того что искомые формы должны быть настолько четко определены чтобы их можно было представить набором как можно меньшего числа параметров.

6. Параметрическая деформируемая модель, основанная на прототипе.

Альтернативный подход параметризации деформируемой модели состоит в задании прототипа формы (характерной геометрической структуры) и набора параметрических деформаций, которые могут изменять прототип. На наборе трансформаций может быть определена вероятность возникновения каждой конкретной трансформации. Такие модели называют параметрическую деформируемую модель, основанную на прототипе (Prototype-basedParametricDeformableModels). При такой параметризации все объекты одного класса имеют схожую структуру, но у каждого возможны индивидуальные отклонения от < стандартной> формы.

Прототипный шаблон выбирается на основе априорного знания объекта интереса. Это знание может быть получено либо в результате обработки изображения более высокого уровня либо получено путем тренировки.

4.2. 2 Представление контуров губ в виде векторов признаков

В данной задаче распознавания контуров губ в видеопотоке предметом анализа являются цветные изображения при условии фронтального расположения лица. Кроме того, рассматривается видеопоток низкого разрешения, характерный для бытовых видеокамер. Такая постановка задачи накладывает ограничения на скорость работы алгоритма, распознавание контуров должно оставлять достаточно времени для распознавания речи. Важными факторами для разрешения этой задачи являются использование цвета в качестве главного источника информации, устойчивость архитектуры, а также применение быстрого алгоритма поиска контуров.

Для распознавания используется цветовая информация. Выделение по цвету человеческой кожи и губ достаточно устойчиво, их цветовые характеристики практически не зависят от освещения. Поэтому цветовое пространство, в котором будет осуществляться поиск, не должно учитывать освещение. Этому условию удовлетворяет цветовое пространство (r/g, b/g), которое используется при построении цветовых классов.

Для улучшения качества распознавания выделяются два цветовых класса — кожа и губы. В используемом двухмерном цветовом пространстве на основе выделенных на изображениях областей строятся двухмерные гистограммы (рис. 13). Предполагая нормальное распределение цветов, можно сократить описание цветовых классов с двухмерной гистограммы до пяти параметров. Функция принадлежности цветовому классу имеет значения в диапазоне [0,1].

На основе определенных цветовых классов строится оценочная функция; функция принадлежности цветовому классу кожи учитывается с обратным знаком. Несмотря на возможность использования обобщенных цветовых классов, для получения лучших результатов используется предварительная подстройка под пользователя. Устойчивость алгоритма обеспечивает архитектура IFA, при которой алгоритм разделен на несколько этапов. Данные, полученные на предыдущем этапе, уточняются на следующем, и, таким образом, неуспешный поиск на текущем этапе означает возврат к предыдущему. В соответствии с архитектурой IFA решение задачи распознавания контуров разбито на три этапа. Первый этап — приблизительный поиск области губ на изображении, второй — ограничение контура губ эллипсом, третий — уточнение контура алгоритмом, основанном на радиальном расширении.

r/g

b/g

Рисунок 13 — Двухмерная гистограмма, губы

Для распознавания важно, чтобы характеристики губ, полученные в результате, были инвариантны относительно освещения и положения лица на изображении. Первый этап — это предварительный поиск положения губ на изображении. На этом этапе происходит поиск начального приближения. Предполагая приблизительный размер области губ, на изображении осуществляется поиск области соответствующей площади. На этом этапе вычисляются приблизительные координаты центра области губ.

Предполагая работу в реальном времени, задачу поиска положения можно упростить, так как она может проводиться не во всех кадрах. Для работы в каждом кадре используются в качестве начального значения результаты поиска положения на предыдущем кадре.

На втором этапе область губ ограничивается эллипсом с помощью статистических методов. Рассматриваются значения оценочной функции в области, найденной на предыдущем этапе. Рассматриваются точки, в которых оценочная функция выше порогового значения. Значение f оценочной функции в точке изображения (xi, yi) интерпретируется как количество попаданий случайных величин X и Y в заданный диапазон. Для случайных величин X и Y вычисляются математические ожидания и матрица ковариации. Оси координат совмещаются с направлениями, соответствующими собственным векторам матрицы. Для случайных величин X' и Y', соответствующих новой системе координат, считается среднеквадратическое отклонение. Математические ожидания xm, ym, угол поворота б и среднеквадратические отклонения dx, dy однозначно определяют эллипс с центром в (xm, ym), повернутый относительно оси на угол б и с радиусами dx и dy.

На третьем этапе определяются характеристики формы губ, нужных для последующего распознавания. Контур уточняется с помощью алгоритма радиального расширения. В качестве начального приближения для контура используются точки на эллипсе, полученном на предыдущем этапе. Точки на эллипсе берутся в соответствии с точками спецификации MPEG4. Точки перемещаются по радиусам эллипса в зависимости от действия сил. Силы для точки xiопределяются как

iint=-kint

Где k — коэффициент, vi- направление перемещения точки xi.

За счет наложения более жестких ограничений на форму контура данный алгоритм позволяет производить более точное и быстрое распознавание, чем алгоритмы на основе активных контурных моделей. Количество итераций также сокращается за счет получения хорошего начального приближения на втором этапе.

В результате работы построен эффективный алгоритм поиска контуров губ для задачи распознавания речи. В отличие от алгоритмов на основе активных контурных моделей, этот алгоритм дает приемлемые результаты при меньшем числе итераций (4−8). Алгоритм позволяет надежно и быстро искать контуры губ в видеопотоке, освобождая больше времени для задачи чтения по губам.

7. Применение скрытых Марковских моделей

Первым этапом решения задачи чтения по губам является выделение контуров губ; это производится с помощью алгоритма выделения контуров губ на цветном изображении, основанного на алгоритме радиального расширения, описанного выше.

Схема алгоритма удобна для применения к видеопоследовательностям. В этом случае вместо первого шага для поиска положения центра области губ можно воспользоваться положением центра области губ на предыдущем кадре видеопоследовательности. Процедура выделения контуров губ определяет эллипс, описывающий область рта и набор координат точек. Контур выделяется на наборе изображений, отражающем большинство возможных состояний губ. Для распознавания движений губ необходимо выделить вектора признаков из полученных данных.

Процедура поиска контура губ находит n точек, пронумерованных от p1 до pnпо часовой стрелке. Используемые координаты точек нормализуются: средняя точка эллипса считается началом координат, ось x направлена по направлению большего радиуса эллипса, большой радиус эллипса считается единицей. Кроме координат точек, в процессе выделения контуров губ находятся параметры эллипса, описывающего область губ на исходном изображении. Параметры эллипса позволяют сделать выводы о таких общих параметрах области рта, как открыт рот или закрыт. Нумерация контура начинается с места пересечения контура губ левым большим радиусом эллипса.

8. Поиск углов

Среди полученных точек необходимо определить правый и левый угол. Несмотря на нумерацию точек, это не всегда точки p1 и pn/2. Правым углом считается точка, находящаяся в правой половине контура (между pn/4 и p3n/4), у которой угол б является наименьшим. Угол б — это угол между среднимиqnextи qprev. Здесь qnext= (pi+1+…+ pi+k)/k, qprev=(pi-1+…+ pi-k)/k, k=n/5. Аналогичное правило используется для левого угла.

9. Векторы признаков

Следующим шагом после нахождения углов является преобразование набора исходных данных в набор векторов признаков. В качестве нескольких первых элементов в векторе признаков используются признаки, полученные отдельно от координат — отношение высоты эллипса области губ к его ширине. Дальнейшие элементы вектора признаков — это координаты левого и правого угла контура, координаты верхней и нижней точек контура, координаты остальных точек контура. Рассмотрим варианты анализа полученных данных методом главных компонент. Выделение базиса методом главных компонент позволяет найти основные направления, по которым изменяются вектора признаков. Это дает возможность значительно понизить размерность векторов признаков. Метод главных компонент применяется к набору векторов признаков, полученных из набора данных, отражающих большинство возможных состояний губ.

10. Квантование векторов признаков

Каждому вектору признаков необходимо поставить в соответствие символ скрытой Марковской модели. Для этого используем метод векторной квантизации. С помощью этого метода пространство векторов признаков разбивается на кластеры, по принципу близости к центрам кластеров — кодовым словам. Набор кодовых слов называется кодовой книгой. Основная сложность метода состоит в построении кодовой книги векторов. Размер кодовой книги определяется количеством состояний губ в исходных данных. Кодовая книга известного размера k строится алгоритмом K средних.

На первом шаге алгоритма случайным образом выбираются k векторов, считающихся кодовыми словами (центрами кластеров). На следующем шаге каждый входной вектор приписывается к тому кластеру, чье кодовое слово находится на наименьшем расстоянии от него. На третьем шаге кодовые слова каждого кластера пересчитываются. Каждое кодовое слово делается равным среднему арифметическому среди всех векторов кластера. Второй и третий шаги повторяются до тех пор, пока изменения кодовых слов не станут достаточно малы.

Этот алгоритм медленный, но применение анализа главных компонент перед квантованием позволяет понизить размерность и, тем самым, значительно ускорить процесс построения кодовой книги. Новые исходные данные перед использованием в процессе распознавания квантуются: каждому вектору ставится в соответствие ближайший вектор из кодовой книги, и в дальнейшем вместо вектора в качестве символа скрытой Марковской модели используется его индекс в кодовой книге.

11. Обучение системы скрытых Марковских моделей

Распознавание по изображению не может работать на уровне визем, так как виземы для различных фонем достаточно близки. При этом распознавание на основе последовательностей визем — дифонов, трифонов — гораздо более надежно. Для распознавания используется система эргодических скрытых Марковских моделей. Каждому дифону соответствует своя СММ. СММ инициализируются равными вероятностями для символов и переходов между состояниями. Обучение системы СММ производится с помощью последовательности квантованных векторов признаков. Исходные данные вручную разбиваются по обучаемымдифонам, после чего соответствующая СММ обновляется по алгоритму Баума-Велша. Результирующая СММ выдает максимальные значения вероятности на последовательностях, близких к набору для обучения своего дифона.

12. Результаты

В результате работы строится эффективный алгоритм построения векторов признаков губ для задачи распознавания речи. Алгоритм позволяет преобразовать данные контуров губ в наборы признаков, пригодных для распознавания. Алгоритм обладает свойствами надежности и устойчивости и легко интегрируется с системой распознавания речи на основе скрытых Марковских моделей.

4.3 Исследование поверхности для применения к чтению по губам

4.3. 1 Исследование поверхности

Отображения являются соответствующими изображениями для систем, чьи переменные величины легко разделяются на «входные» и «выходные». Для использования исследуемого отображения должны быть известны входные переменные без ошибок, а единая выходная величина должна оцениваться для каждой входящей переменной. Многие задачи зрительной робототехники и контроля должны сохранять взаимосвязь между переменными, которые не разделяются свободно таким способом. Вместо этого существует нелинейная ограниченная поверхность, на которой для расположения значения переменных совместно ограничен. Мы предлагаем изображения для таких поверхностей, которые поддерживают широкий круг запросов и которые могут быть легко исследованы исходя из имеющихся данных.

Рисунок 15 — Использование ограниченной поверхности для снижения неопределенностей двух переменных

Рисунок 16: Нахождение ближайшей к заданной точки на поверхности

Простейшими запросами являются «запросы завершения». В этих запросах значения некоторых переменных определены, а значения (или ограничения значений остальных переменных) должны быть установлены. Это сводится к обычному запросу отображения, если «входные» переменные определены и система сообщает значения соответствующих «выходных» переменных. Такие запросы также могут использоваться для инвертирования отображений, однако, с указанием «выходных» переменных в запросе. На Рисунке 15 показано обобщение, в котором, как известно, переменные лежат в определенных диапазонах и ограниченная поверхность используется для дальнейшего ограничения этих диапазонов.

Для задач распознавания запросы ближайшей точки, в которую система должна вернуть точку поверхности, ближайшую к установленной точке образца, очень важны (Рисунок 16). Например, симметрично инвариантная классификация может быть представлена посредством взятия поверхности для создания путем применения всех операций симметрии к прототипам класса (например, переводы, вращения и масштабирования характеристик образца в системе OCR). На нашем изображении мы можем рационально находить глобальную ближайшую точку поверхности при запросе такого рода.

Другим важным классом запросов является «запросы интерполяции» и «запросы прогнозирвоания». Для них, определяются две или более точек на кривой, а цель заключается в интерполяции между ними или экстраполяции за их пределами. Обладание знанием об ограниченной поверхности может значительно повысить производительность по сравнению с подходами «без знания», таких как линейная или сплайн-интерполяция.

В дополнение к поддержке данных и других запросов, хотелось бы иметь изображение, которое можно эффективно исследовать. Данные исследования представляют собой множество точек, случайным образом выбранных с поверхности. Система должна обобщить эти точки исследования для формирования изображения поверхности (Рисунок 17). Эта задача более сложна, чем исследование отображения, по нескольким причинам: 1) Система должна установить размерность поверхности. 2) Поверхность может быть топологически сложной (например, тором или сферой) и может не поддерживать единое множество координат. 3) Должен поддерживаться и более широкий диапазон запросов, описаных выше.

Рисунок 17 — Исследование поверхности

Наш метод начинается с того наблюдения, что если данные точки были получены с линейной поверхности, тогда может использоваться анализ главных компонент для определения размерности линейного пространства и для нахождения лучшего линейного пространства данной размерности. Крупнейшие основные вектора будут перекрывать пространство, и будет иметь место стремительное падение основных значений размерности пространства. Анализ основных компонент более не будет применяться, однако, если поверхность нелинейна, так как даже кривая размерности может быть внедрена таким образом, чтобы перекрывать все размерности пространства.

Если нелинейная поверхность гладкая, если каждый локальный участок стремится к линейности при увеличении. Если мы рассматриваем только эти данные точки, лежащие в пределах локальной области, тогда при надлежащей аппроксимации они происходят из линейного участка поверхности. Главные величины могут использоваться для определения наиболее вероятной размерности поверхности и это количество ключевых компонентов охватывают касательную поверхность. Основная идея наших отображений заключается в соединении этих локальных участков вместе, используя метод разбиения единицы.

Мы изучаем несколько реализаций, но все результаты, представленные здесь, происходят из отображения на базе запроса «ближайшей точки». Поверхность представлена в виде изображения из пространства вложения в самого себя, которое извлекает каждую точку к ближайшей точке поверхности. K-means кластеризация применяется для определения исходного набора прототипов центров из данных точек. Анализ главных компонент осуществляется при определенном количестве ближайших соседей каждого прототипа. Эти результаты «локального PCA» используются для оценки размерности поверхности и нахождения лучшего линейного проецирования окрестности соседнего прототипа i. Влияние этих локальных моделей определяется гауссовскимиситемами, соредоточенными в расположении прототипа с дисперсией, определяемой плотностью локального образца. Проекция на поверхность устанавливается с помощью формирования разбиения единицы из этих гауссовских систем и исполльзования этого для создания выпуклой линейной комбинации локальных линейных проекций:

Рисунок 18: Исследование 1-мерной поверхности. a) Поверхность к исследованию, b) Локальные участки и диапазон их функций влияния, с) Изученная поверхность.

артикуляция губа фонема русский

Данная первоначальная модель затем очищается для минимизации среднеквадратической ошибки между исследуемыми образцами и ближайшими точками поверхности при помощи EM оптимизации и падения градиента.

13. Искусственные Образцы

Чтобы увидеть, как работает данный подход, рассмотрим 200 образцов, полученных из одномерной кривой в двумерном пространстве (Рисунок 18а). 16 центров прототипов выбраны согласно К-means кластеризации. В каждом центре локальный анализ главных компонент проводится на ближайших 20 исследуемых образцах. На Рисунке 18b центры прототипа и две главные локальные компоненты показаны как прямые линии. В этом случае большая главная величина в несколько раз больше, чем другая. Поэтому система пытается построить одномерную исследуемую поверхность. Круги на Рисунке 18b показывают степень функций влияния Гаусса для каждого прототипа. На Рисунке 18с показаны результаты исследуемой поверхности. Она была создана путем случайного отбора 2000 точек. Соседних от поверхности, и проецирования их в соответствии с исследуемой моделью.

Рисунок 19 показывает тот же процесс, применяемый к исследованию двумерной поверхности, встроенной в три измерения.

Для количественной оценки эффективности этого алгоритма исследования мы изучили влияние различных параметров на изучение двумерной сферы в трех измерениях. Легко сравнить результаты исследования с корректными в данном случае. Рисунок 20а показывает то, как эмпирическая ошибка в запросе ближайшей точки уменьшается, как функция количества исследуемых образцов. Мы сравнили ее с ошибкой. Сделанной в алгоритме ближайшего соседа. С исследуемыми образцами наш подход выдает ошибку, которая составляет одну четвертую. На Рисунке 20b показано, как средний размер локального участка зависит от количества включенных ближайших соседей. Из-за того, что это двумерная поверхность, 2 большие величины хорошо отличны от третьей большей. Темпы роста главных величин используются для определения размерности поверхности при наличии шума.

Рисунок 19 — Исследование двумерной поверхности в трех измерениях. а) 1000 случайных образцов на поверхности. b) Две главные локальные компоненты в каждом из 100 центров прототипа, основанные на ближайших 25 соседях.

Рисунок 20 — Количественная оценка эффективности исследования двумерной сферы в трех измерениях. a) среднеквадратическая ошибка запросов ближайших точек как функция количества образцов для исследуемой поверхности против ближайшей исследуемой точки. b) корень из среднего квадрата трех главных величин как функция количества соседей, включенных в каждый локальный PCA.

14. Моделирование пространства губ

Мы используем эту технику как часть системы для «чтения по губам». Для обеспечения возможности проведения «виземной классификации» (виземы являются визуальными аналогами фонем) мы хотели бы иметь систему с надежным отслеживанием формы губ диктора на видео изображениях. Она должна быть способна находить уголки губ и оценивать ограничивающие кривые при различных изображениях и условий освещения. Два подхода ктакого рода задач отслеживания являются «змейками» и «деформируемые шаблоны». Оба подхода минимизируют «энергетическую функцию», которая представляет из себя сумму внутренней энергии модели и энергии, затрачиваемой при сравнении с внешними признаками изображения.

Например, для использования метода «змейки» для отслеживания губ мы создадим внутреннюю энергию из первой и второй производных от координат вдоль змейки, отдавая предпочтение болеее гладкой змейке. Внешняя энергия формируется из оценки отрицательного градиента изображения вдоль змейки. На Рисунке 21а показана змейка, которая правильно очерчивает контур губ. Однако, эта энергетическая функция не совсем характерна для губ. Например, внутрення энергия делает змейку только контролируемой непрерывной сплайновой кривой. «Змейки-губы» иногда очерчивают нежелательные локальные минимумы, как это показано на Рисунке 21b. Модели, основанные на деформируемых шаблонах, позволяют исследователю сильнее ограничивать форму пространства (как парвило, с помощью закодирвоанных вручную квадратичных связующих полиномов), но тяжелы для использования при отображении мелкими зернами черт губ.

Наш подход заключается в использовании исследуемой поверхности, как описано выше, для построения модели пространства губ. Мы можем заменять внутреннюю энергию, приведенную вышы, величиной, вычисляемой из расстояния до исследуемой поверхности пространства черт губ.

Наш набор для исследования состоит из изображений диктора, произносящего случайные слова. Изображения для исследования изначально «отмечены» обычным алгоритмом змейки.

Рисунок 22 — Две главные оси локального участка пространства губ. a, b и с являются очертаниями вдоль первой главной оси, в то время, как d, e и f — вдоль третьей оси

Неверно выровненные змейки удаляются из базы данных вручную. Форма контура параметризуется по координатам x и y, 40 равномерно распределенных точек вдоль змейки. Все значения нормированы так, чтобы ширина губ равнялась 1. Следовательно, каждый контур губ является точкой в 80-мерном «пространстве губ». Очертания губ, которые фактически лежат на поверхности более низкой размерности, встроены в это пространство. Наши эксперименты показали, что 5-мерная поверхность в 80-мерном пространстве губ достаточна для описания контуров с одним пикселем соответствия на изображении. На Рисунке 22 представлены некоторые модели губ по двум главным осям в локальной окрестности одного из участков. Система распознавания губ использует эту исследуемую поверхность для улучшения эффективности отслеживания для новых последовательностей изображений.

ПоказатьСвернуть
Заполнить форму текущей работой