Информационные критерии в обучающих процедурах распознавания образов

Тип работы:
Реферат
Предмет:
Физико-математические науки


Узнать стоимость

Детальная информация о работе

Выдержка из работы

2009
НАУЧНЫЙ ВЕСТНИК МГТУ ГА серия Прикладная математика. Информатика
№ 145
УДК 519. 81
ИНФОРМАЦИОННЫЕ КРИТЕРИИ В ОБУЧАЮЩИХ ПРОЦЕДУРАХ
РАСПОЗНАВАНИЯ ОБРАЗОВ
Е.М. ИВЕНИНА, И.Б. ИВЕНИН, А.С. КУРИЛЕНОК Статья представлена доктором технических наук, профессором Кузнецовым В. Л.
Разработана процедура построения решающих функций для распознавания образов, минимизирующая энтропию процесса обучения. Рассмотрены различные варианты максимизации информации, выделяемой в обучающих процедурах распознавания образов.
Ключевые слова: процедура построения, решающие функции, распознавание образов, энтропия процесса обучения.
Во многих задачах исследования операций, принятия решений в условиях неопределенности, статистической классификации, технической диагностики и других дисциплин используются методы теории распознавания образов [1,2,3,5,6,7]. В этих методах для построения решающих функций применяются различные алгоритмы. В данной работе будем рассматривать вопросы, связанные с оптимизацией обучающих классификаторов по критериям выделения максимальной информации при обучении решающих функций с использованием обучающих последовательностей фиксированной длины.
Для построения решающих функций предлагается использовать метод потенциальных функций [1,2]. В качестве решающих функций используются байесовские решающие функции:
(х) = З (щ / х), 1 = 1, М, (1)
где З (щ / х) — вероятность принадлежности образа х (определенного как точка некоторого пространства X) классу щ.
При этом какой-либо образ хк причисляется к классу щ, если V/ ф 1, З (щ / хк) & gt- ЗЩ / хк). Функция /1 (х), аппроксимирующая решающую функцию ^ (х), определяется в виде:
0, если —? & lt- ^ (х) & lt- 0-
](х), еслиО & lt- ]1 (х) & lt- 1- (2)
1, если1 & lt- /1 (х) & lt- где функция / (х) представляется разложением
т
/ (х) =? С, ф, (х) (3)
1=0
по системе ортогональных многочленов (х) [3], а С/ - заранее неизвестные коэффициенты,
определяемые в процессе построения решающих функций.
Возможность представления решающей функции в форме (3) является основной гипотезой метода потенциальных функций. Эта гипотеза эквивалентна предположению о возможности линейного разделения образов в рассматриваемом пространстве [2].
Для построения аппроксимаций /к (х) используется потенциальная функция К (х, хк) [1,2]. В каждой точке хк, представляющей произвольный образ, потенциальная функция определяется выражением:
к (X, хк) = 2(* ЭД¦(1), (4)
1 =0
где, 1 — известные коэффициенты разложения, задающие вид потенциальной функции [1,3]. При выборе коэффициентов 1 необходимо помнить, что вид потенциальной функции во
многом определяет скорость и качество процесса обучения. В практических исследованиях
наиболее часто [1,2,3] потенциальные функции задаются выражениями:
К (- хк) = ехр{-а|х -хкт} - (5)
К (х хк)=-I1 — т- (6)
1+а х — хк
К (х, хк) =
Біпаї X-
I ^ ^ т
ах — хк
(7)
, Г N 21 & gt-2
где а, т — положительные константы (чаще всего т = 2) — |х — у| = (х{ - у) & gt- - расстояние
между точками X и у.
Для обеспечения необходимого вида и требования ограниченности потенциальных функций коэффициенты 1 в разложении (3) выбираются исходя из условия мажорирования этого
разложения функциями вида (5 — 7).
Для большей прозрачности процедуры оптимизации алгоритма построения решающих функций ограничимся случаем двух распознаваемых классов щ и щ. Будем считать, что задана обучающая последовательность образов хк, к = 1, N, с известной априори принадлежностью к одному из классов щ, '- = 1,2. Все рассуждения будем вести относительно функций /(х),
подразумевая, что они усекаются конструкцией (2).
Начальные значения аппроксимирующих функций могут выбираться исходя из различных соображений [3]. В рамках данной работы будем полагать, что в качестве начального значения аппроксимирующей функции назначается /0 (х) = 0.
1 ^ 2
Рекуррентный алгоритм построения решающих функций / и / обычно строится следующим образом [1,2,3].
На первом шаге процедуры при предъявлении образа х1 е щ (ю- определяет 1-й класс образов) обучение решающей функции происходит в соответствии с выражением:
К (х) = 7К (х1) К (х х1) — (8)
Г1, если х, е щ-
К (^1) = Г -1 ^ '- (9)
[0, если х1 & lt-? щ.
При предъявлении каждого следующего к -го выборочного образа (1 & lt- к & lt- N) аппроксимирующая решающая функция модифицируется следующим образом:
Тк (х)=II,(х)+7кК (хк)К (- хк) — (10)
т
хк
1, если xk е w и ik-iCxk) & lt- /*-i (xk) —
яг (xk)=& lt-0, если xkew и ZU. xk)>-fk-i (xk) — (11)
-1, если xk ещ и fi-i (xk)& gt-fk-i (xk).
К последовательности числовых коэффициентов ук (стягивающих множителей) в рекуррентном алгоритме (8),.. ,(11) обычно предъявляется требование [1,2]:
Zn = ?,
k=1
смысл которого заключается в том, что величина gk не должна убывать слишком быстро, чтобы
обеспечить наибольшее влияние обучающей последовательности.
Качество построенных решающих функций определяется длиной обучающей последовательности, которая, в свою очередь, определяется мощностью выборки реальных уже распознанных образов. Как правило, на практике получение больших обучающих после-
довательностей сопряжено со значительными затратами временных и других ресурсов. Поэтому в процессе обучения из предъявляемых образов желательно выделить как можно больше информации. Этому стремлению соответствует принцип минимальной энтропии, который заключается в том, что наиболее целесообразно выбирать последовательность gk таким образом,
чтобы средняя энтропия ИЧЛ ({gk})системы принятия решения после N шагов обучения решающих функций была бы минимальной [3]. Таким образом, возникает задача оптимизации последовательности gk:
{/*} = arg прахН°№ ({g}). (12)
Информативность и энтропия системы принятия решения могут трактоваться и определяться по-разному [5,7]. В рамках данной работы предполагается, что информативность ситуации принятия решения пропорциональна количеству информации, выделяемой в процессе обучения решающей функции.
Если процесс обучения рассматривать (рис. 1) как дискретную марковскую цепь (что возможно при достаточно грубых допущениях), то для решения задачи (8) можно воспользоваться свойством иерархической аддитивности [6], заключающимся в следующем: пусть имеются случайные величины X, X2,…, Xn, образующие марковскую цепь и описываемые совместным распределением P (X, X2,…, Xn), тогда средняя энтропия марковской цепи определяется выражениями:
Нх,., х = Нх + Hx x + - + Hx ix-- (13)
Hxx! = -ZP (X,)ZP (X i X-1)lnP (X i X-1). (14)
X-1 x
Рис. 1. Процесс обучения
Для рассматриваемой марковской цепи характерно, что вероятности перехода {р (у- 1у), Р2(у- 1у), р3(у- 1у)} решающей функции 3(щ / Х) = (х)
из состояния / у-1 (х) в одно из состояний:
(у, 1): Х-1(Х) + ГуК (хД X /у-1(х) -УуК (^ Ху) —
(у, 2): /и*), ТУ21 (Х1) —
(У, 3): Л-1 (Х) — ГуК (^ Ху), /у-1 (Х) + ГуК (^ Ху)
зависят только от значений решающих функций после (у-1)-го шага обучения и у-го выборочного образа. Причем, вероятности перехода на у -м шаге обучения можно трактовать следующим образом: р (у -1, у) — вероятность того, что образ Ху будет причислен к классу щ, в то время, как он принадлежит к классу щ — ж3(у -1, у) — соответственно вероятность того, что образ Ху будет причислен к классу щ, в то время, как он принадлежит к классу щ- р2 (у -1, у) —
вероятность правильной классификации образа.
При такой интерпретации процесса обучения средняя энтропия СПР после N шагов обучения решающих функций представима в виде так называемой функции с последовательным включением переменных [8]:
Н ({Г }) = FN (Г, -^(Гч… ^(Г)…))) (15)
Представление энтропии СПР в виде (15) позволяет поставить и решить задачу (12) методом динамического программирования [8].
Как следует из теоремы 1.6 [6], условная энтропия всегда не превосходит безусловную. Учитывая, что условная энтропия системы принятия решений после N шагов обучения будет равна безусловной энтропии перед началом процесса обучения только при нулевых гк, можно предположить, что существуют ненулевые конечные значения гк, доставляющие минимум функции Нспр ({гк}).
Однако в общем случае процесс обучения представляется в виде ветвящегося процесса (случайного или детерминированного в зависимости от организации обучающей последовательности). В этом случае значительно сложнее воспользоваться свойством иерархической аддитивности и привести задачу (12) к задаче динамического программирования. Кроме того, количество вершин дерева обучения велико даже при сравнительно небольших N. Поэтому целесообразно рассмотреть другие подходы к выделению максимального количества информации в процессе обучения решающих функций.
Рассмотрим первые два шага ветвящегося процесса обучения (рис. 2).
Рис. 2. Первые два шага ветвящегося процесса обучения
Если обучающая последовательность детерминировна, и Х1 е щ, Х2 е щ, то вероятности р определяются в соответствии с алгоритмом обучения (8 — 11):
р01'-
(х.) = р (/Цх,)? Л2(Х)) — (16)
р02(Х,) = Р (/оЧХ1) & gt- /Л Х,)) = 1 -р01(-К., Я) — (17)
роз (Х1) = 0. (18)
Если же обучающая последовательность случайна с априорными вероятностями Р (Хк е щ), то соответственно:
ро1(Х1)=Р (/о1(Х1)? /о2(Х1))Р (Х1е щ) — (19)
Р02(Х1) = Р (/о1(Х1) & gt- /о2(Х1)) Р (Х1 е щ) + Р (/о1(Х1) & lt- /о2(Х1)) Р (Х1 е щ2) — (20)
Р03(Х1) = Р (/о1(Х1) ^ /о2(Х1)) Р (Х1 е щ2) — (21)
Ер (Х.) = 1. (22)
Аналогично определяются вероятности р (Х2, г), & quot-, = 1,3:
Р1(Х2,г)=Р (/11(Х2)? /2(Х1)) Р (Х1е щ) — (23)
р2 (^ Г) = Р (/ЧХ2) & gt- Іі2(Х2)) Р (Х2 Є Щ) + Р (/ЧХ2) & lt- /ЧХ2)) Р (Х2 Є (24)
(Х2) = Р (І11 (Х2) ^ Іі2(Х2)) Р (Х2 Є Щ2) — (25)
Ер (Х1)=1 (26)
У
І
После второго образа обучающей последовательности число вершин графа ветвящегося процесса равно 32, после третьего образа — 33 и т. д.
Рассмотрим теперь произвольный к -й шаг процесса обучения (рис. 3). Для простоты изложения будем считать, что последовательность предъявляемых для обучения образов детерминирована и определена до начала процесса обучения, например:
{Х. ещ, Х2 е щ, Х3 е щ,…, Хк е щ, Хк+1 е щ,…, Хм- е щ}.
Л1+1Д (Х) = Л'(Х) + п+К (х, Х1) Л1+1,1(Х) = Л1(Х) + п+1К (Х А)
7к2+и (Х) = 7к2(Х) — п+К (х, ^^^^^Л21д (Х) = Л2(Х) — п+1К (Х Х1)

Рис. 3. Произвольный шаг ветвящегося процесса обучения
Обозначим через 71 (Х), і = 1,2 аппроксимацию решающей функции после к шагов обучения в некоторой вершине дерева обучения. Ветвление процесса обучения из этой вершины будем строить так же, как и из вершины всего дерева.
Будем считать, что количество информации, выделяемой (получаемой) на (к +1) -м шаге обучения А/кк+1, измеряется приращением средней энтропии системы принятия решения:
Л/""= H, — H, — (27)
H =-І J fi (mЛ (т- (28)
?=1 x
Hk+i = -I I J fk (X)+gk+iRip (xk+i)K (X xk+i)]ln [f k (X)+gk+iRip (xk+i)K (X xk+i)]dx, (29)
где p =
?=i p=i x
i, если xk+i є щ и f k (xk+i) & lt- f k (xk+i) —
О, если x+i єщ и fk (xk+i) & gt- fk (xk+i) —
-i, если Xk+i є щ и fk (xk+i) & gt- fk (xk+l),
и, соответственно, Rb (Xk+i)
1, если j = 1-
0, если j = 2-
-1, если j = 3.
Таким образом, количество выделяемой на (k + 1)-м шаге обучения информации AIkk+1 = AIkk+1(gk+1) является функцией коэффициента gk+1 и может быть поставлена и решена
задача определения оптимального значения у*к+1, максимизирующего приращение нформации на одном шаге обучения:
Гш = arg max А1 +1g+1). (30)
gk+1
Оптимизация коэффициентов g на одном шаге по своей сути сходна с известным методом максимального элемента [9], и в общем случае позволяет получить субоптимальное решение. Неоптимальность решения определяется взаимным влиянием смежных шагов процесса обучения, особенно в тех случаях, когда на каком-либо шаге получается отрицательное приращение информации (наличие дезинформации).
Улучшения качества процесса обучения можно добиться, оптимизируя коэффициенты gk сразу на нескольких последовательных шагах. Так, например, практика оптимизации подобных процессов показывает, что для получения коэффициентов последовательности обучения, близкой к оптимальной, достаточно совместно оптимизировать коэффициенты gk не более чем на трех шагах.
Рассмотрим приращение информации AIk k+2(gk+1,gk+2) за два шага процесса обучения:
AIk, k+2 (gk+1, gk+2) = Hk — Hk+2- (31)
h,, 2 =-I II J[ f-(X)+П+i Rip (X,+i)K (X, Xk+i)+gk+2 Ripr (Xk+2) K (X, x,
i=i p=i r=i x
X
X ln
fk (X) + gk +iRip (Xk+i)K (X, Xk+i) + gk+2КРГ (Xk +i)K (X Xk+2) dX • (32)
В этом случае задача оптимизации коэффициентов по структуре остается неизменной и отличается лишь размерностью:
(g*+i, g*+2) = аГ§ maX A/k, k+2(gk+i, gk+2). (33)
gk+i, gk+2
Для произвольных т последовательных шагов обучения задача оптимизации стягивающих множителей может быть записана в виде:
(У+1,У+2,& quot-., У+т) = аГВ тахк, к +т (Ук +1,Ук +т), (34)
УыУм-Ук+т
где приращение информации А1кк+т (ук+1,ук+2,…, ук+т) определяется по схеме, аналогичной выше описанной.
В то же время необходимо учитывать, что несмотря на простоту формулировки задачи оптимизации (34), ее размерность и трудоемкость резко возрастают с увеличением числа шагов, включаемых в процесс оптимизации.
Описанный выше способ получения оптимальных по энтропии значений ук весьма трудоемок. Поэтому его целесообразно использовать только при малых мощностях обучающих последовательностей, когда ценность информации обучения наиболее высока. Именно такие ситуации складываются при решении, например, задач классификации летчиков, диагностики технических устройств и ряда других практических задач, в которых затруднено получение обучающих последовательностей образов.
ЛИТЕРАТУРА
1. Ту Дж., Гонсалес Р. Принципы распознавания образов. — М.: Мир 1978.
2. Биргер И. А. Техническая диагностика. — М.: Машиностроение, 1978.
3. Ивенина Е. М., Ивенин И. Б., Куриленок А. С. Выделение типовых расчетных ситуаций для определения риска катастроф (Статья в настоящем Научном Вестнике).
4. Справочник по специальным функциям / Под ред. М. Абрамовица, И. Стиган. — М.: Наука, 1972.
5. Трухаев Р. И. Методы исследования процессов принятия решений в условиях неопределенности. — Л.: ВМОЛУА, 1972.
6. Стратонович Р. Л. Теория информации. — М.: Советское радио, 1975.
7. Дулевич В. Е. Информационные свойства радиолокационных систем. — Л.: ЛВИКА им. А. Ф. Можайского, 1970.
8. Моисеев Н. Н., Иванилов Ю. П., Столярова Е. М. — М.: Наука, 1978.
9. Берзин Е. А. Оптимальное распределение ресурсов и элементы синтеза систем. — М.: Советское радио, 1974.
INFORMATION CRITERIA IN TRAINING PATTERN RECOGNITION PROCEDURES
Ivenina E.M., Ivenin I.B., Kurilenok A.S.
The procedure of the building solving function for artificial perception, which minimizing entropy education process, is designed. They are considered different variants to maximizations to information, which selected in training pattern recognition procedures.
Сведения об авторах
Ивенина Елена Михайловна, окончила МГУ им. Ломоносова (1986), старший преподаватель кафедры прикладной математики МГТУ ГА, автор 7 научных работ, область научных интересов — методы математического моделирования в механике полета и исследовании операций.
Ивенин Игорь Борисович, 1955 г. р., окончил МАИ им. С. Орджоникидзе (1978), кандидат технических наук, доцент ВВИА им. проф. Н. Е. Жуковского, автор более 70 научных работ, область научных интересов — математические методы системного анализа, исследования операций и обоснования решений.
Куриленок Антон Сергеевич, 1984 г. р., окончил МГТУ ГА (2007), аспирант кафедры прикладной математики МГТУ ГА, область научных интересов — математические методы системного анализа.

ПоказатьСвернуть
Заполнить форму текущей работой