Распознавание печатных текстов на основе применения вейвлет-преобразования и метода главных компонент

Тип работы:
Реферат
Предмет:
Кибернетика


Узнать стоимость

Детальная информация о работе

Выдержка из работы

СПИСОК ЛИТЕРАТУРЫ
1. Орурк И. А. Новые методы синтеза линейных и некоторых нелинейных динамических систем. — М.: Наука, 1965. — 206 с.
2. Алексеев А. С., Антропов А. А., Гончаров В. И., Замятин С. В., Рудницкий В. А. Вещественный интерполяционный метод в задачах автоматического управления. — Томск: Изд-во ТПУ, 2008. — 217 с.
3. Крутько П. Д. Обратные задачи динамики управляемых систем: линейные модели. — М.: Наука, 1987. — 304 с.
4. Кетков Ю. Л., Кетков А. Ю., Шульц М. М. МАТМВ 7: программирование, численные методы. — СПб.: БХВ-Петербург, 2005.
— 752 с.
Поступила 14. 09. 2012 г.
УДК 004. 932
РАСПОЗНАВАНИЕ ПЕЧАТНЫХ ТЕКСТОВ НА ОСНОВЕ ПРИМЕНЕНИЯ ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЯ
И МЕТОДА ГЛАВНЫХ КОМПОНЕНТ
Фан Нгок Хоанг, Буй Тхи Тху Чанг, В.Г. Спицын
Томский политехнический университет E-mail: hoangpn285@gmail. com
Предложен новый способ распознавания печатных текстов, основанный на совместном применении вейвлет-преобразования Хаара и метода главных компонент. Разработан алгоритм и создано программное обеспечение для распознавания печатных текстов. Приведен пример работы и представлены результаты тестирования программы. Показано, что использование предложенного оригинального алгоритма дает возможность эффективного распознавания печатных текстов.
Ключевые слова:
Распознавание печатных текстов, метод главных компонент, вейвлет-преобразование.
Key words:
Text recognition, principal component analysis, wavelet transform.
Введение
Распознавание образов является одной из самых изученных задач в таких областях, как цифровая обработка изображений, компьютерное зрение, биометрия, создание интеллектуальных систем безопасности и контроля доступа и т. п. Тем не менее, в области распознавания образов продолжают представлять большой научный и практический интерес такие задачи как распознавание лиц, жестов, текстов, отпечатков пальцев, печатных и рукописных текстов. Метод главных компонент и вейвлет-преобразование являются способами для получения характеристик изображения. В задаче распознавания образов они успешно применяются в процессе сравнения компонент, характеризующих неизвестное изображение, с компонентами, соответствующими известным изображениям. В работах [1, 2] предложен алгоритм, основанный на методе Виолы-Джонса, вейвлет-преобразовании и методе главных компонент для распознавания множества лиц на видеопоследовательности в режиме реального времени. Авторы также предложили алгоритм, основанный на алгоритме САМ8Ый, методе Виолы-Джонса, вейвлет-преобразовании и методе главных компонент для распознавания жестов на видеопоследовательности в режиме реального времени.
Целью данной работы является создание нового алгоритма, основанного на комбинации вейвлет-преобразования Хаара и метода главных компонент для распознавания печатных текстов с высокой скоростью обработки.
Вейвлет-преобразование
Главной задачей в каждом виде обработки изображения является нахождение эффективного представления, позволяющего отобразить его в компактной форме. В современной теории и практике сигналов, в частности при спектральном анализе, используются сигналы специального вида — вейвлеты. В работах [3, 4] представлены разложение изображения и извлечение его признаков для классификации изображений самолетов на основе применения вейвлет-преобразования Хаара и многослойной нейронной сети. В работе [5] используются вейвлет-преобразования Хаара и Добеши для извлечения признаков изображения отпечатка пальца. Эти признаки являются входами многослойной нейронной сети для классификации отпечатков пальцев по типам папиллярных узоров. В данной работе используется вейвлет-преобразование Хаара для извлечения признаков изображения букв, цифр и знаков в печатном тексте. Пример извлечения признаков изображения буквы «а» представлен на рис. 1.
Рис. 1. Извлечение признаков изображения буквы «а»: а) исходное изображение- б) полученные признаки на основе применения вейвлет-преобразования Хаара
Метод главных компонент
Метод главных компонент (Principal Component Analysis, PCA) — один из наиболее распространенных методов для уменьшения размерности данных, позволяющий обеспечить потерю наименьшего количества информации. Он заключается в линейном ортогональном преобразовании входного вектора P размерности N в выходной вектор Q размерности M, M& lt-N. Компоненты вектора Q являются некоррелированными, и общая дисперсия после преобразования остаётся неизменной.
Вычисление главных компонент сводится к вычислению собственных векторов и собственных значений ковариационной матрицы, которая рассчитывается для изображения. Сумма главных компонент, умноженных на соответствующие собственные вектора, является реконструкцией изображения. Для каждого изображения объекта вычисляются его главные компоненты. Обычно берётся от 5 до 200 главных компонент. Остальные компоненты кодируют мелкие различия между объектами и шум. Процесс распознавания заключается в сравнении главных компонент неизвестного изображения с компонентами всех известных изображений. Из базы данных выбираются изображения-кандидаты, имеющие наименьшее расстояние от входного (неизвестного) изображения [6].
Алгоритм распознавания печатных текстов
Целью данной работы является распознавание печатных текстов с высокой скоростью. Для решения задачи распознавания печатных текстов предложен алгоритм на основе применения вейвлет-преобразования Хаара и метода главных компонент. Предложенный алгоритм состоит из двух процессов: сохранения признаков известных пе-
чатных цифр, букв и знаков в базе данных- распознавания печатных текстов.
Процесс сохранения признаков известных печатных цифр, букв и знаков происходит следующим образом (рис. 2.):
Шаг 1. Увеличение размера области изображения печатного символа до 64×64 пикселей.
Шаг 2. Применение к полученному на шаге 1 изображению вейвлет-преобразования для извлечения признаков символа.
Шаг 3. Сохранение извлеченных признаков в базе данных.
Процесс распознавания печатных текстов осуществляется следующим образом (рис. 3):
Шаг 1. Определение верхней и нижней границ строк в тексте.
Шаг 2. Определение возможных областей изображений символов в каждой строке.
Шаг 3. Определение точной области изображения каждого символа.
Затем осуществляются следующие шаги для обработки каждого символа в тексте (рис. 4):
Шаг 4. Увеличение размера области изображения символа до 64×64 пикселей.
Шаг 5. Применение к полученному на шаге 4 изображению вейвлет-преобразования для извлечения признаков символа.
Шаг 6. Сравнение полученных признаков с признаками, хранящимися в базе данных на основе применения метода главных компонент.
Численные эксперименты
Для распознавания печатных текстов в реальном времени на языке объектно-ориентированного программирования С# с использованием библиотеки ОрепСУ разработано программное обеспечение.
The diagram shown in remediation workflow, depicted in Figure 1 mi applications, possibly f
a
The diagram shown in remediation workflow, depicted in Figure 1 ira applications, possibly f
6
d
Рис. 3. Процесс обнаружения областей изображений символов в тексте: а) исходный текст- б) определение верхней и нижней границ строк- в) определение возможных областей изображений символов- д) определение точных областей изображений символов
¦чг
Сравнение признаков (метод главных компонент)
Результат
распознавания
Рис. 4. Функциональная схема процесса распознавания каждого символа в тексте
Распознавание печатных текстов Для обучения предложенного алгоритма используются два типа шрифта Times New Roman и Arial с различными размерами: 16, 18, 20, 22, 24, 26. Пример цифр, букв и знаков, использующихся при обучении, представлен на рис. 5.
Для тестирования предложенного алгоритма используются сканированные тексты. Пример использованного текста представлен на рис 6.
Пример работы программы распознавания печатных текстов представлен на рис. 7. Результаты экспериментов показали, что точность распознавания печатных текстов предложенного алгоритма составляет ~70%. Скорость распознавания символов достаточна для обработки текста в режиме реального времени. Например, на процессоре Intel Core 2 Duo с тактовой частотой 2,0 GHz обработка текста осуществляется со скоростью 12−14 символов в секунду.
Анализ результатов и направление дальнейших исследований
Анализ результатов проведенных численных экспериментов выявил следующие проблемы:
• Происходит неполное разделение всех цифр, букв и знаков в тексте, например слово «for» разделяется на «fo» и «г», и в результате программа распознает слово «for» как «mr» (рис. 7).
• Происходит неправильное распознавание следующих пар цифр, букв и знаков: буква «е» распознается как буква «с" — цифра «1» как буква «1" — буква «s» как буква «S" — буква «с» как буква «С" — буква «v» как буква «V" — знак «,» как знак «'" — буква «А» как знак «А" — буква «о», как буква «О» или цифра «0».
Указанные недостатки снижают эффективность предложенного алгоритма распознавания печатных текстов. Для повышения эффективности его работы в дальнейшем планируется решить следующие задачи:
AaBbCcDdEeFfGgHhliJjKkLlMmNnOoPpQq
RrSsTtUuVvWwXxYyZz0123456789~!@#$ %Л& amp-*()-_ + ={}
AaBbCcDdEeFfGgHhliJjKkLIMmNnOoPp Qq RrSsTtUuVvWwXxYyZzO 1 23 456 789-!
Рис. 5. Пример цифр, букв и знаков, использующихся при обучении предложенного алгоритма
Tool responsible for evaluating assessment results, remediation policy, and remediation details to produce specific remediation tasking instructions for
Рис. 6. Пример печатного текста, использованного при тестировании предложенного алгоритма
?? OCR WPCA Form *
Tool responsible for evaluating assessment results, remediation policy, and remediation details to produce specific remediation tasking instructions for remediation tools.
[ Load image ] [ Database ] [ Convert ]
¦tt KttPtt w 4−4 gvh I At ine r^di atibh pd anp
ееэдиея тж в ювд тшт ни шш ямяд m
Ш9Ш tools.
Tool *sponsjb1e mrcvalu*ing assessment resul*'- rcmcdi*ion policy, *d r*edi*ioD demiL Ю pro*ce specihc '-mediation tasmng instmcHons mr remediation [oolsl
Рис. 7. Пример работы программы, реализующей предложенный алгоритм
• Осуществление полного разделения всех цифр, букв и знаков в тексте.
• Уменьшение числа неправильных распознаваний между перечисленными выше парами цифр, букв и знаков.
Предложенный алгоритм в настоящее время работает только с англоязычными текстами, представленными символами расположенными вертикально в горизонтальных строках. Поэтому для продолжения в дальнейшем работы в данном направлении актуальными являются следующие задачи:
1. Распознавание вертикальных печатных текстов на русском языке.
2. Распознавание наклонных печатных текстов на английском и русском языке.
Выводы
1. Предложен и описан новый высокоскоростной способ распознавания печатных текстов, основанный на совместном применении вейвлет-преобразования Харра и метода главных компонент.
2. Разработан оригинальный алгоритм и реализована программа распознавания печатных текстов в режиме реального времени на языке объектно-ориентированного программирования С#.
3. Анализ результатов компьютерных экспериментов позволяет сделать вывод об успешной работе созданного алгоритма и программы при распознавании печатных текстов.
СПИСОК ЛИТЕРАТУРЫ
1. Буй Тхи Тху Чанг, Фан Нгок Хоанг, Спицын В. Г. Распознавание лиц на основе применения метода Виолы-Джонса, вейвлет-преобразования и метода главных компонент // Известия Томского политехнического университета. — 2012. — Т. 320. -№ 5. — С. 54−59.
2. Буй Тхи Тху Чанг, Фан Нгок Хоанг, Спицын В. Г. Распознавание лиц и жестов на основе применения вейвлет-преобразования и метода главных компонент // Нелинейный мир. — 2012.
— Т 10. — № 6. — С. 371−379.
3. Буй Тхи Тху Чанг, Спицын В. Г. Разложение цифровых изображений с помощью двумерного дискретного вейвлет-преобразования и быстрого преобразования // Известия Томского политехнического университета. — 2011. — Т 318. — № 5. -С. 73−76.
4. Буй Тхи Тху Чанг, Фан Нгок Хоанг, Спицын В. Г. Алгоритмическое и программное обеспечение для классификации цифровых изображений с помощью вейвлет-пребразования Хаара и нейронных сетей // Известия Томского политехнического университета. — 2011. — T 319. — № 5. — С. 103−106.
5. Фан Нгок Хоанг, Спицын В. Г Алгоритмы для классификации отпечатков пальцев на основе применения фильтра Габора, вейвлет-преобразования и многослойной нейронной сети // Известия Томского политехнического университета. — 2012. -T 320. — № 5. — С. 60−64.
6. Pearson K. On Lines and Planes of Closest Fit to Systems of Points in Space // Philosophical Magazine. — 1901. — V. 2. — № 6. -P. 559−572.
Поступила 14. 09. 2012 г.

ПоказатьСвернуть
Заполнить форму текущей работой