Проектирование интерактивных приложений c многомодальным интерфейсом

Тип работы:
Реферат
Предмет:
ТЕХНИЧЕСКИЕ НАУКИ


Узнать стоимость

Детальная информация о работе

Выдержка из работы

УДК 004. 5
А. Л. Ронжин, А.А. Карпов
Проектирование интерактивных приложений c многомодальным интерфейсом*
Рассматриваются основные типы ограничений, влияющих на организацию человеко-машинного взаимодействия и конфигурирование программно-аппаратных решений при проектировании многомодальных интерфейсов интерактивных приложений. Ключевые слова: многомодальный интерфейс, интерактивные приложения, окружающее интеллектуальное пространство, распознавание речи.
С усложнением и увеличением функциональности систем средства человеко-машинного взаимодействия становятся узким местом из-за того, что не могут обеспечить интерактивный диалог с пользователем с необходимой эффективностью и естественностью [1]. В отличие от традиционных интерфейсов на основе клавиатуры и мыши или одномодаль-ных интерфейсов, многомодальные системы обеспечивают более гибкое использование потоков информации. Это дает возможность человеку выбирать наиболее удобный способ передачи/приема информации.
В зависимости от использованных входных и выходных модальностей выделяют несколько основных типов многомодальных интерфейсов (речь+жесты, речь+чтение по губам, направление взгляда+указание+речь и т. д.). Также выделяют интерактивные и неинтерактивные многомодальные приложения [2]. В неинтерактивных приложениях процесс выполнения задачи определен заранее, и пользователь не может на него повлиять, например при автоматическом транскрибировании записей (заседаний, семинаров), автоматическом индексировании мультимедийных данных (радио, телевизионных новостей) [3]. Напротив, в интерактивных приложениях пользователь в ходе диалога с машиной получает необходимый ему сервис и сам определяет ход работы приложения. Примерами таких приложений являются интерактивное телевидение, справочные диалоговые системы, управление техническими системами, информационная поддержка совещаний [4].
Проектирование многомодальных интерактивных приложений
При построении многомодального интерактивного приложения необходимо определить: 1) кто его будет использовать- 2) какие возможности имеют клиентские устройства- 3) в каких условиях будет проходить взаимодействие- 4) какой тип сервиса будет предоставлять приложение. Организовать взаимодействие представляется возможным только в том случае, если клиентские устройства находятся в зоне взаимодействия с пользователем и связи с информационно-телекоммуникационными сервисами, а их пользовательские интерфейсы соответствуют физическим возможностям и предпочтениям пользователя и могут обеспечить коммуникацию в текущих условиях окружающего пространства для решения актуальных целей пользователя.
Для формализации и решения задачи построения многомодального интерактивного приложения была предложена концептуальная и теоретико-множественная модель, включающая следующие элементы:
— множество целей пользователей P = {pi, i е N}, N = {1,… n}, на удовлетворение которых направлено множество сервисов S = {sg, gеM}, M = {1,… m}, использующих информационно-коммуникационные ресурсы R = {rfe, k е C}, C = {1,… с}-
— множество устройств, доступных пользователю: D = {db, b е H}, H = {1,… h}-
— множество моментов времени T = {t} -
— множество преобразований W = {Wf, f е O}, O = {1,… о}, выполняемых в ходе предоставления сервиса-
— множество потоков искусственных AS = {asq, q е E}, E = {1,… е} и естественных сигналов NS = {nsa, a е U}, U = {1,… ы}, использующихся при распознавании входных IM = {IM1, IM2,.. IMNim } и синтезе выходных модальностей OM = {OM1, OM2,.. OMNom }-
*Работа выполнена в рамках ФЦП «Научные и научно-педагогические кадры инновационной России» (ГК №П2360, №П2579) и гранта РФФИ № 10−08−199-а.
— множество вариантов многомодальных интерфейсов, строящееся путем целенаправленного перебора возможных комбинаций входных и выходных модальностей: NM = {1М1ОМь1М1ОМ2,…, 1М^М^М,…, ШМшOMNoм ,…, 1М1… ШМшOMl… ОМ^М}-
— множество допустимых системотехнических решений Да, включающее в себя
множества математических моделей MM, методов MO, алгоритмов АЬ, аппаратно-программных реализаций АР многомодальных интерактивных приложений, представленное в следующем виде: Да = |а = 1тт, то, а1, ар | тт е ММ, то е МО, а1 е АЬ, ар е АР}.
Учитывая, что в интерактивных системах обработка сигналов должна проводиться в режиме, близком к реальному времени, исходное множество преобразований W должно
удовлетворять: W (а): А3(а) х ^(а) х Т ^ А^а) х ^(а).
Также введены четыре вида ограничений (характеристик), влияющих на процессы организации взаимодействия: 1) ограничения на способы ввода и вывода со стороны пользователя, связанные с его/ее навыками использования клиентских устройств, информационных технологий, личными предпочтениями и психофизическими ограничениями: иС = {и), г е X}- 2) ограничения на способы ввода и вывода со стороны клиентского устройства, связанные с размерами, вычислительными и сетевыми возможностями, а также аппаратной частью, реализующей сенсорные и мультимедийные функции устройства: DC = {DCj,] е Y}- 3) множество ограничений среды, в которой планируется организовать
взаимодействие, это: уровень шумов, физические параметры атмосферы, тип помещения, число пользователей, расстояние между пользователем и клиентским устройством, наличие доступа к сетевым ресурсам и др: ЕС = {ЕС^, к е Z} - 4) наконец, ограничения самих сервисов, связанные с предметной областью и типом обрабатываемых информационно-коммуникационных ресурсов: SC =, 1 е V}.
Для формирования множества допустимых системотехнических решений Да вводятся
соответствующие подмножества декартовых произведений исходных множеств, определяющих все потенциальное пространство проектных альтернатив:
FUC С Ра х Sа х Да х Ба х ASа ха- Б С Ра х Sа х Rа х Ба х ASа х NSа-
FEiC С Ра х Sа х Да х Ба х ASа х NSа- F^CC С Ра х Sа х Да х Ба х ASа х NSа. Таким образом, задача проектирования многомодального интерфейса сводится к поиску конструктивных путей формирования множества допустимых системотехнических решений Да, удовлетворяющих ограничениям иС, ВС, ЕС, БС:
/"а «а ла «а""а ««а
Р1 ^ Л г а^у ¦ ф (а): FUaC П FDac) П FEaC П FSC) ^ Вт
Ж (а): AS (а) х NS (а) х Т ^ AS (а) х NS (а) I
Дгез = '--«ГУ
где элементы множеств Вт, ВЛ принимают значения {0,1}. Выбор полной комбинации модальностей, допустимых в проектируемом приложении, будет определяться следующим образом: Д8 = {(c)а№М)?(а): (c)а (NM)хД8 }, где (c)а (NM) — множество комбинаций модальностей. На основе разрабатываемого подхода производился обоснованный выбор
конкретных вариантов реализаций отображений ф (а), ^(а). Окончательное решение о структуре и функциях многомодального интерфейса и программно-аппаратном обеспечении, необходимом для его реализации, принималось с учетом стоимостных затрат.
Многомодальные приложения в интеллектуальном зале
На основе предложенного методологического и математического обеспечения проектирования многомодальных интерактивных приложений и конфигурирования программно-аппаратных ресурсов были разработаны приложения, относящиеся к различным классам интерактивных информационно-управляющих сервисов: справочный многомодальный киоск [5], интеллектуальный зал.
Разработанный интеллектуальный зал представляет собой распределённую систему, которая содержит сеть интеллектуальных программных модулей, активационных устройств, мультимедийных средств и аудиовизуальных сенсоров (рис. 1). Среди наиболее
важных примененных технологий следует отметить автоматическое распознавание речи, идентификацию диктора, локализацию источников звука, определение положения и слежение за подвижным объектом и лицом человека, определение позы человека. Кроме того, в разработанных интерактивных приложениях используется технология аудиовизуального синтеза русской речи «говорящая голова», созданная в ходе совместных проектов с ОИПИ НАН Беларуси и университетом Западной Богемии.
Основная задача зала — обеспечение участников совещания или лекции необходимыми сервисами на основе автоматического анализа текущей ситуации. Осведомлённость зала о пространственном положении участников, их текущих действиях, роли в текущем мероприятии и их предпочтениях помогает более точно предсказать намерения и потребности участников. Применение многомодального пользовательского интерфейса, использующего речь, движения, позы и жесты участников для выявления их потребностей, обеспечивает естественный способ взаимодействия с интеллектуальным залом.
L1- группа света 1
L2- группа света 2
L3- группа света 3
L4- группа света 4
R1 — привод штор
R2- привод экрана

Активаторы
Приложения
СИСТЕМА УПРАВЛЕНИЯ ИНТЕЛЛЕКТУАЛЬНЫМ ЗАЛОМ
Слежение за подвижным объектом
Слежение за лицом человека
Детектор
позы человека
Локализация источников звука
Дистанционное распознавание речи
Идентификация диктора
# W X X
Cam1_Cam2 СатЗ Сат4 Сат5
Сатб ¦ ¦ ¦ Сат15
J
М1. М2. МЗ. М4 М5. М6. М7. М8 М9. М10. М11. М12
Видеосенсоры Аудиосенсоры
Рис. 1. Технологическая инфраструктура интеллектуального зала
Дистанционное распознавание голосовых команд, записанных с использованием массивов микрофонов, позволяет управлять освещением, шторами, проекционным экраном, поворотом камер и более сложными приложениями, например телевизором, радио-, аудио-, видеоплеером. Реализованы многомодальные приложения «Справочная СПИИРАН», предлагающее в интерактивном режиме информацию о сотрудниках института, научных подразделения и текущих мероприятиях, и «Карта Санкт-Петербурга», где посредством голосового дистанционного запроса производятся поиск улицы и вывод на экран сенсорного монитора интересующего участка карты города. Приложение «Умная доска» позволяет делать рукописные записи на сенсорной плазменной панели и с помощью голосовых команд управлять графическим интерфейсом. В приложении «Монитор состояния зала» на экран выводится информация о состоянии оборудования, пространственном положении пользователей, их речевой активности, а также реализовано сенсорное управление оборудованием.
Заключение
Разработка сети интеллектуальных залов позволит организовать совещания для участников, разделенных пространством, будет способствовать повышению сотрудничества между различными коллективами, позволит сократить расходы на транспорт и обслуживающий персонал, повысит качество образования за счет автоматизированного непрерывного контроля над каждым участником. Изучение различных комбинаций многомодальных интерфейсов для управления оборудованием интеллектуального зала помогает разрешить фундаментальные вопросы человеко-машинного взаимодействия и является богатейшим ресурсом для новых прикладных моделей в области безопасности, медицины, робототехники, логистики и других научных направлений.
Литература
1. Юсупов Р. М. От умных приборов к интеллектуальному пространству / Р. М. Юсупов, А. Л. Ронжин. — Вестник Рос. академии наук: научный и общественно-политический журнал. — 2010. — Т. 80, вып. 1. — C. 45−51.
2. Quickset: Multimodal interaction for distributed applications. Proceedings of the Fifth ACM International Multimedia Conference / P.R. Cohen, M. Johnston, D. McGee et al. -New York: ACM Press, 1997. — P. 31−40.
3. Tranter S. An Overview of Automatic Speaker Diarization Systems // S. Tranter, D. Reynolds. — IEEE Trans. ASLP. — 2006. — Vol. 14, № 5. — P. 1557−1565.
4. Akker R. Supporting Engagement and Floor Control in Hybrid Meetings / R. Op den Akker, D. Hofs, H. Hondorp et al. // Springer. — 2009. — LNAI 5641. — P. 276−290.
5. Ронжин А. Л. Исследование многомодального человеко-машинного взаимодействия на базе информационно-справочного киоска / А. Л. Ронжин, А. А. Карпов // Информационно-измерительные и управляющие системы. — 2009. — Т. 7, № 4. — С. 22−26.
Ронжин Андрей Леонидович
Канд. техн. наук, доцент, зав. лабораторией речевых и многомодальных интерфейсов, Учреждение Российской академии наук,
Санкт-Петербургский институт информатики и автоматизации РАН
Тел.: (812−3) 28−70−81
Эл. адрес: ronzhin@iias. spb. su
Карпов Алексей Анатольевич
Канд. техн. наук, сотр. лаборатории речевых и многомодальных интерфейсов, Учреждение Российской академии наук,
Санкт-Петербургский институт информатики и автоматизации РАН
Тел.: (812−3) 28−70−81
Эл. адрес: karpov@iias. spb. su
A.L. Ronzhin, A.A. Karpov
Development of interactive applications with multimodal interface
Main types of constraints influenced on arrangement of human-machine interaction and configuration of hardware-software complexes at development of multimodal interfaces of interactive application are considered.
Keywords: multimodal interface, interactive applications, ambient intelligent space, speech recognition.

ПоказатьСвернуть
Заполнить форму текущей работой