Метод фонетического декодирования слов в информационной метрике Кульбака лейблера для систем автоматического анализа и распознавания речи с повышенным быстродействием

Тип работы:
Реферат
Предмет:
Кибернетика


Узнать стоимость

Детальная информация о работе

Выдержка из работы

УДК 004. 934
метод фонетического декодирования слов в информационной метрике кульбака — лейблера для систем автоматического анализа и распознавания речи с повышенным быстродействием
В. В. Савченко,
доктор техн. наук, профессор
Нижегородский государственный лингвистический университет А. В. Савченко, канд. техн. наук
Национальный исследовательский университет Высшая школа экономики, г. Нижний Новгород
Предложена новая разновидность метода фонетического декодирования слов в расчете на ограниченное множество минимальных звуковых единиц типа отдельных фонем как альтернатива большинству известных методов распознавания речи, основанных на скрытых марковских моделях речевых сигналов. В ее основе используется идея многократного (на порядок и более) сжатия данных за счет того, что слова и фразы из словаря отображаются на последовательность фонетических кодов. Достигаемый эффект, подтвержденный результатами экспериментальных исследований, состоит в увеличении скорости автоматической обработки речевого сигнала при сохранении достаточной точности и надежности распознавания речи.
Ключевые слова — автоматическое распознавание речи, распознавание образов, распознавание с обучением, критерий минимума информационного рассогласования.
Введение
Метод фонетического декодирования слов (МФДС) предложен в работах [1, 2] со ссылкой на новый математический аппарат информационной теории восприятия речи [3] как альтернатива большинству известных методов [4−6] автоматического распознавания речи (АРР) [7] с точки зрения вычислительных затрат на реализацию в режиме реального времени. Канонический подход к АРР основывается, как известно [7−13], на аппарате скрытых марковских моделей речевого сигнала [14] и поэтому неразрывно связан с многозатратной процедурой динамического выравнивания слов по темпу речи диктора. Неудивительно поэтому, что вопросу об увеличении скорости вычислений уделяется в настоящее время все большее внимание. Действительно, в тех случаях, когда объем рабочего словаря составляет несколько тысяч единиц, большинство известных алгоритмов, работающих на основе сегмен-
тирования слов на отдельные фонемы и их последующего выравнивания по динамике, для реализации в режиме реального времени требуют мощности, значительно превосходящей возможности современного персонального компьютера и тем более сотового телефона. В результате точная реализация классического подхода стала возможной лишь в проектах таких крупнейших корпораций, как Microsoft [4], Google [5], Apple [15] и Nuance Comminications [6]. При этом для распознавания в режиме реального времени и малопроизводительного оборудования используются облачные вычисления и технология клиент-сервер. К сожалению, клиент-серверный подход является недостаточно гибким: невозможна настройка системы на конкретную группу дикторов, рабочий словарь жестко фиксируется, работа системы требует подключения клиента к сети Internet, отсутствуют гарантии конфиденциальности.
Метод фонетического декодирования слов в своей первоначальной формулировке [1] также
использовал данную процедуру, хотя и в существенно более сжатом виде, рассчитанном на ограниченный объем R фонетической базы данных национального языка. Принцип действия предложенной ниже новой разновидности МФДС усилил эти различия: динамическое выравнивание слов в данном случае не предусматривается в принципе. В итоге вычислительные затраты на реализацию метода сократились на порядок и более, пропорционально повысилось его быстродействие в режиме реального времени. Исследованиям в этом актуальном направлении АРР и посвящена предлагаемая статья. Полученные результаты и сделанные по ним выводы рассчитаны на широкий круг специалист

Статистика по статье
  • 111
    читатели
  • 30
    скачивания
  • 0
    в избранном
  • 1
    соц. сети

Ключевые слова
  • АВТОМАТИЧЕСКОЕ РАСПОЗНАВАНИЕ РЕЧИ,
  • РАСПОЗНАВАНИЕ ОБРАЗОВ,
  • РАСПОЗНАВАНИЕ С ОБУЧЕНИЕМ,
  • КРИТЕРИЙ МИНИМУМА ИНФОРМАЦИОННОГО РАССОГЛАСОВАНИЯ,
  • AUTOMATIC SPEECH RECOGNITION,
  • PATTERN RECOGNITION,
  • SUPERVISED LEARNING,
  • MINIMUM INFORMATION DISCRIMINATION CRITERION

Аннотация
научной статьи
по кибернетике, автор научной работы & mdash- Савченко Владимир Васильевич, Савченко Андрей Владимирович

Предложена новая разновидность метода фонетического декодирования слов в расчете на ограниченное множество минимальных звуковых единиц типа отдельных фонем как альтернатива большинству известных методов распознавания речи, основанных на скрытых марковских моделях речевых сигналов. В ее основе используется идея многократного (на порядок и более) сжатия данных за счет того, что слова и фразы из словаря отображаются на последовательность фонетических кодов. Достигаемый эффект, подтвержденный результатами экспериментальных исследований, состоит в увеличении скорости автоматической обработки речевого сигнала при сохранении достаточной точности и надежности распознавания речи.

ПоказатьСвернуть
Заполнить форму текущей работой