Многомерная искусственная нейронная сигма-пи сеть и алгоритм ее обучения

Тип работы:
Реферат
Предмет:
Кибернетика


Узнать стоимость

Детальная информация о работе

Выдержка из работы

1490 of Lecture Notes in Computer Science. Springer Verlag, Berlin. 1998. P. 391−410. 8. Maleusieux F., Ridoux O., Boizumault P. Abstract compilation of Prolog. / In Jaar J. Editor // Joint International Conference and Symposium on Logic Programming. Manchester, United Kingdom. June 1998. MIT Press. P. 130−144. 9. Power J., Robinson E. Premonoidal categories and notions of computation. // Mathematical Structures in Computer Science. № 7 (5). October 1997. P. 453−468. 10. Corradini A., Asperti A. A categorical model for logic programs: Indexed monoidal categories. / In Proceedings REX Workshop '92 // Springer Lectures Notes in Computer Science. 1992. P. 5−36. 11. Corradini A., Montanari U. An algebraic semantics for structured transition systems and its application to logic programs. // Theoretical Computer Science. № 103(1). August 1992. P. 51- 106. 12. Barbuti R., Giacobazzi R., Levi G. A General Framework for Semantics-based Bottom-up Abstract Interpretation of Logic Programs // ACM Transactions on Programming Languages and Systems. № 15(1). 1993. P. 133−181. 13. Finkelstein S., Freyd P., Lipton J. Logic programming in tau categories. // In Computer Science Logic '94, volume 933 of Lecture Notes in Computer Science. Springer Verlag, Berlin. 1995. P. 249−263. 14. Шекета В.І. Модифікаційні предикатні запити / Науковий журнал «Проблеми програмування» інституту програмних систем НАН України. 2004. № 2 — 3. С. 339−343
// Спеціальний випуск за матеріалами 4-ї МНПК «УкрП-рог'-2004», 1−3 червня 2004. Київ, Кібернетичний центр НАН України. 15. Шекета В.І. Ініціалізація еластичних семантик над простором Гербранда для модифікаційних предикатних запитів // Міжнародний науково-технічний журнал «Вимірювальна та обчислювальна техніка в технологічних процесах». Хмельницький. 2003. № 2(22). С. 13−18. 16. Шекета В.І. Aналіз семантики шаблонів виклику модифікаційних предикатних запитів для інформаційних систем на основі баз даних і знань // Комп’ютерна інженерія та інформаційні технології // Вісник національного університету «Львівська політехніка». Львів. 2003. № 496. C. 217s228.
Надшшла до редколегії 12. 09. 2005
Рецензент: д-р техн. наук, проф. Горбійчук М.І.
Шекета Василь Іванович, канд. техн. наук, доцент кафедри програмного забезпечення факультету автоматизації та комп’ютерних наук Івано-Франківського національного технічного університету нафти і газу. Наукові інтереси: абстрактне логічне програмування, інформаційні системи на основі баз даних і знань. Адреса: Україна, 76 019, м. Івано-Франківськ, вул. Карпатська, 15, тел.: (380) 3 422 421−27 (роб.), е-mail: sheketa@mail. ru.
УДК 681. 513:519. 7
МНОГОМЕРНАЯ ИСКУССТВЕННАЯ НЕЙРОННАЯ СИГМА-ПИ СЕТЬ И АЛГОРИТМ ЕЕ ОБУЧЕНИЯ
БОДЯНСКИЙ Е.В., КУЛИШОВА Н.Е. _____________
Предлагается многомерная искусственная нейронная сигма-пи сеть, позволяющая восстанавливать с заданной точностью произвольную многомерную функцию векторного аргумента. Отличительной особенностью сети является одновременное использование как радиально-базисных, так и сигмоидальных активационных функций. Предложенный градиентный алгоритм обучения основан на обратном распространении ошибки и позволяет настраивать синаптические веса сети в реальном времени. Результаты эксперимента не противоречат теоретическим.
Введение
Для решения задач моделирования, идентификации и управления широко применяются искусственные нейронные сети, в частности, многослойные персептро-ны (MLP) и радиально-базисные сети (RBFN) [1−4]. Многослойные персептроны весьма эффективны как универсальные аппроксиматоры [5]. По аппроксимирующим свойствам им не уступают и RBFN [6], однако низкая скорость обучения MLP, основанного на обратном распространении ошибок, ограничивает их применение, особенно в задачах реального времени. Основным же недостатком RBFN является экспоненциальный рост количества нейронов с увеличением размерности вектора входных сигналов, так называемое «проклятие размерности».
Обобщение положительных свойств MLP и RBFN обеспечивают Е -П нейронные сети [2]. Они организованы из двух слоев нейронов, причем нейроны
скрытого слоя имеют нелинейные функции активации двух типов (сигмоидальные и радиально-базисные). Выходной слой осуществляет линейную комбинацию выходных сигналов нейронов скрытого слоя. Хотя
подобная архитектура позволяет Е -П сети аппроксимировать практически любые функции [7], на практике это свойство реализовано в отношении систем с отображением Rn ^ R1 [8 — 11].
Целью исследований является разработка архитектуры Е -П сети, эффективной для интерполяции и аппроксимации многомерных функций.
1. Архитектура сети
Большинство реальных объектов характеризуется многомерными совокупностями входных и выходных параметров, в связи с чем для моделирования подобных объектов предлагается многомерная Е -П сеть, архитектура которой представлена на рис. 1.
Сеть имеет n входов в нулевом слое, содержит h пар нейронов в скрытом слое, m нейронов в выходном слое и реализует отображение у є Rn ^ x є Rm в форме y = F (x).
Вектор входной последовательности (n +1) поступает на скрытый слой, который состоит из двух блоков нейронов с разными функциями активации.
Каждому нейрону скрытого слоя предшествует сумматор с n+1 настраиваемыми входами каждый. Попарно нейроны объединены умножителями. Выходной слой образован m нейронами типа адаптивного линейного ассоциатора с h+1 входами каждый. Всего же сеть содержит h (2n+m+2)+m настраиваемых параметров, подлежащих восстановлению в процессе обучения.
122
BE, 2005, 1 4
Пусть нелинейный объект обладает неизвестной передаточной функцией такой, что
y (k) = f (x (k)), (1)
где x (k) — n-мерный вектор входных переменных- y (k) — m- мерный вектор выходных переменных.
Тогда выходной сигнал, формируемый сетью, соответствующей объекту (1) и содержащей h нейронов, можно записать в форме
y (k) = F (x (k)) = w 0 (k) + w (k)~ (k) =
= wo (k) + w (k)[9(v (k)) о y (u (k))] =
= wo (k) + w (k)[9i (a (k)x (k)) ° Vi (b (k)x (k))], (2)
здесь
w (k) — h x m, a (k) — h x (n +1), b (k) — h x (n +1)
— матрицы настраиваемых синаптических весов- wo (к) — m-мерный вектор синаптических весов- ф («) — радиально-базисные функции активации- ф («)
— сигмоидальные функции активации- о — символ прямого произведения векторов.
Введя
Vi (k) = Е aij (k)xj (k) j=0
aT (k)x (k)
ui (k) = E bij (k)xj (k) = bT (k)x (k)
j=0
— входные векторы для нейронов скрытого слоя (здесь aT — i-я строка h x (n +1) матрицы весов a (k) — bf
— i-я строка h x (n +1) матрицы весов b (k)), можно переписать (2) в форме:
y (k) = w 0 (k) + w (k)fo (a (kMk)) ° Ф i (b (kMk))] =
= w0 (k)+w (кЇФі(Vi (k)) ° vi (u i (k))].
(3)
В качестве активационных функций, удовлетворяющих всем необходимым требованиям по точности аппроксимации [6], можно выбрать традиционный гауссиан и гиперболический тангенс
ф (и) = e °, и) = tanh (u),
2
U
а также более простые тригонометрические функции
ф (и) = cos (u), ф (и) = sin (u).
BE, 2005, 1 4
123
2. Алгоритм обучения
Для настройки матрицы весов w (к) используется одношаговый критерий обучения
ВД = 2 |e (k)||2 = !| |y (k) — y (k)||2. (4)
Выходной слой образован адаптивными линейными ассоциаторами, а их обучение проводится путем минимизации критерия Е (к) в соответствии с известным алгоритмом Уидроу-Хоффа [2]:
w (k +1) = w (к) +
+ (y (k +1) — w (k)~ (к +1))yT (к +1)
1~& lt-к +1)|2 '
где е (к} = («Цк), к) ёт{к))Т — вектор апостериорных ошибок обучения нейронов выходного слоя.
Теперь можно окончательно записать процедуры обучения векторов параметров аг (к) и Ь,(к) в виде:
аг{к + ^ = а^к) + Ла{к)(у (к +1)-w (к +y (к +1))^ •
.. д®(af (к) х (к +1))
•W-^) Wi (ЬГ {к) ^ к + ^----------^ *(к + 1
Ьг (к + 1) = Ь-(к) + % (к)(у{к +1)-w (к +1)у (к +1))Т ¦
дуг (bf {к)х (к+1))
----------------х (к +1).
дщ у '
•Wi^)К [af (к)х (к +1)]
где y (k +1) = (1, yT (k + 1))T -h +1) Х1 вектор выходных сигналов нейронов скрытого слоя. Алгоритм обучения можно записать в виде системы:
Jai (k +1) = ai (k) — % (k)Va. (k)E (k),
|bi (k +1) = bi (k) -^b (k)Vb. (k)E (k),
где ?7а (к),%(к) — параметры шага обучения матриц
а (к) и Ь (к) соответственно- ^a1(k)E (k), Vb. (k)E (k)
— градиент критерия обучения Е[к}.
Для определения градиента критерия (4) введем апостериорную ошибку
Є(к + 1) = (y (к + 1) — w (к + 1) y (к + 1) f w, (к + 1) (6)
(здесь wi{k +1) — i-я строка матрицы весов w (к +1)), которая с учетом (2) и (3) имеет вид:
e (k +1) = (y (k +1) -w (k)y (k + 1))Tw. (k +1) =
= (y (k +1) -w (k +1) •
3. Имитационный эксперимент
(9)
Для исследования аппроксимирующих свойств предложенных архитектуры и алгоритма обучения проведен эксперимент по восстановлению двухмерной тестовой последовательности, имеющей хаотическую структуру, которая описывается уравнениями Мандельброта [12]:
х (к +1) = х2(к) — у1 (к) + вх,
[ у (к +1) = 2 х (к) у (к) +ву. (10)
Аппроксимация проведена для 100 точек, обучение повторяется в ходе 40 эпох. Для алгоритма (5), (9) параметр шага составляет h = 0,01- количество нейронов в скрытом слое равно 20. Для сравнения модель (10) была также аппроксимирована многослойным персептроном, который содержит два скрытых слоя по 7 нейронов в каждом. Количество точек, эпох обучения и параметр шага для MLP выбраны такими же, как и для сигма-пи сети. Результаты аппроксимационной процедуры приведены на рис. 2.
• [фі (a (k + 1) x (k +1)) о у. (b (k + 1) x (k + 1))])T w. (k +1) =
= (y (k +1) — w (k +1) • [фі(v (k +1)) о у. (u (k + 1))])T w. (k +1).
(7)
Дифференцирование критерия Е (к} по переменным aij и bij с использованием апостериорной ошибки в форме (7) дает следующий результат:
Ж (к)
даИ
& quot-(к)
сЄ(к)
daii
=-^{к) w-^) Vi (иДк))
д& lt-р,{ у (к))
Ж
х#)=
Точность аппроксимации оценивалась посредством вычисления среднеквадратичного отклонения. Значения отклонения для разных сетей и для каждого сигнала в отдельности приведенні в таблице.
Многослойный персептрон Сигма-пи сеть
Сигнал х (к) Сигнал У (к) Сигнал х (к) Сигнал У (к)
Средне- квадратичное отклонение 0. 1030 0. 1110 0. 0210 0. 0115
= -еТ'-
,. дщ (af (к) х (к))
(к) v, (bf (к) #))--^& quot- хАк) —
m ^ ш ^(к, wiW я (., м) ^ хдк,.
.. дщ (bf (к) х (к))
(к) & quot-#) я К (к) х (к))--------хАк),
= -еТ'-
(8)
Полученный алгоритм обучения достаточно прост с вычислительной точки зрения и позволяет решать в реальном времени задачи эмуляции нелинейных нестационарных объектов управления. Особенно эффективным представляется применение данного алгоритма в задачах большой размерности.
124
BE, 2005, 1 4
Выводы
Научная новизна разработанной архитектуры искусственной нейронной сети заключается в удачном сочетании преимуществ радиально-базисных и сигмоидальных активационных функций. Градиентный алгоритм обучения позволяет настраивать синаптические веса сети в реальном времени с заданной точностью. Практическое значение имеют высокая скорость обучения и универсальные аппроксимирующие свойства предложенной сети, они будут особенно полезны при обработке многомерных функций векторного аргумента. В перспективе исследования предполагают разработку сигма-пи сети без использования процедуры прямого произведения входных векторов скрытого слоя.
Литература: 1. Narendra K.S., Parthasarathy K. Identification and control of dynamical systems using neural networks// IEEE Trans. on Neural Networks. 1990. 1, № 1. P. 4 — 27. 2. Cichocki A., Unbehauen R. Neural Networks for Optimization and Signal Processing. Stuttgart: Teubner, 1993. 526 p. 3. Elanaya S.V.T., Shin Yu. C. Radial basis function neural network for approximation and estimation of nonlinear stochastic dynamic systems // IEEE Trans. on Neural Networks. 1994. 5, № 4. P. 594 — 603. 4. Pham D. T., Liu X. Neural Networks for Identification, Prediction and Control. London: Springer-Verlag, 1995. 238 p. 5. Hornik K. Approximation capabilities of multilayer feedforward networks// Neural Networks. 1991. 4, P. 251 — 257. 6. Park J., Sandberg I.W. Universal approximation using radial-basis
function networks// Neural Computation. 1991.3. P. 246 — 257.
7. Luo Yu., Shen Sh. Lp Approximation of Sigma-Pi neural networks//IEEE Trans. on Neural Networks. 2000. 11, № 6. P. 1485 — 1489. 8. Бодянский Е. В., Колодяжный В. В., Кулишо-ва Н. Е. Прогнозирующая сигма-пи искусственная нейронная сеть // Матеріали міжнар. конф. з управління «Автоматика — 2001». Одеса, 2001. Т. 2. С. 141.9. Бодянский Е. В., Кулишова Н. Е. Обобщенный алгоритм обучения прогнозирующей искусственной S-P нейронной сети// Проблемы бионики. 2001. Вып. 54. С. 10 — 14. 10. Бодянский Е. В., Кулишова Н. Е. S-P искусственная нейронная сеть на обобщенных формальных нейронах// Сб. науч. трудов 7-й меж-дунар. конф. «Теория и техника передачи, приема и обработки информации». Харьков: ХТУРЭ, 2001. С. 404 — 405.
11. Bodyanskiy Y., Kolodyazhniy V., Kulishova N. Generalized forecasting Sigma-Pi neural network//Intelligent Technologies — Theory and Applications. Ed. by Sincak P., Vascak J., Kvasnicka V., Pospichal J. Amsterdam. Berlin. Oxford. Tokyo. Washington: IOS Press. 2002. 36 p. 12. Mandelbrot B.B. Die fraktale Geometrie der Natur. Basel: Birkhaеuser Verlag, 1991. 491 S.
Поступила в редколлегию 12. 12. 2005
Рецензент: д-р техн. наук, проф. Алексеев О. П.
Бодянский Евгений Владимирович, д-р техн. наук, проф. кафедры искусственного интеллекта ХНУРЭ. Адрес: Украина, 61 166, Харьков, пр. Ленина, 14, тел. (0572) 702−18−90.
Кулишова Нонна Евгеньевна, канд. техн. наук, с.н.с., доц. каф. инженерной и компьютерной графики ХНУРЭ. Адрес: 61 166, Харьков, пр. Ленина, 14, тел. (0572) 702−13−78.
б
в
Рис. 2. Результаты имитационного эксперимента: а — аппроксимация x (k) — б — аппроксимация y (k) (исходная функция практически совпадает с выходом сигма-пи сети) — в — среднеквадратичная ошибка аппроксимации сигма-пи сети по эпохам (по оси абсцисс — логарифмические показатели) — г — среднеквадратичная ошибка аппроксимации MLP по эпохам
BE, 2005, 1 4
125

ПоказатьСвернуть
Заполнить форму текущей работой