Два подхода к обучению радиально-базисных нейронных сетей при решении дифференциальных уравнений в частных производных

Тип работы:
Реферат
Предмет:
Физико-математические науки


Узнать стоимость

Детальная информация о работе

Выдержка из работы

УДК 681. 322
В. И. Горбаченко, Е. В. Артюхина
ДВА ПОДХОДА К ОБУЧЕНИЮ РАДИАЛЬНО-БАЗИСНЫХ НЕЙРОННЫХ СЕТЕЙ ПРИ РЕШЕНИИ ДИФФЕРЕНЦИАЛЬНЫХ УРАВНЕНИЙ В ЧАСТНЫХ ПРОИЗВОДНЫХ
В работе рассматривается применение радиально-базисных нейронных сетей для решения краевых задач математической физики. Предлагается подход к обучению радиально-базисной нейронной сети, использующий конечноразностную аппроксимацию уравнения. Экспериментально показаны преимущества предлагаемого подхода перед традиционным способом обучения сети для решения дифференциальных уравнений в частных производных. Предложен и исследован вариант алгоритма градиентного спуска обучения ИБР-сети, отличающийся от известных алгоритмов вычисляемым коэффициентом скорости обучения весов сети, что исключает неформальный и трудоемкий процесс подбора коэффициента скорости обучения.
Введение
Для решения дифференциальных уравнений в частных производных (ДУЧП) эффективно применять нейронные сети. В настоящее время большой интерес вызывают методы решения ДУЧП с применением радиально-базисных функций (ИББ) [1]. Эти методы могут быть эффективно реализованы на радиально-базисных нейронных сетях [1−6].
Идея метода решения на ИББ-сетях — аппроксимация неизвестного решения с помощью функций специального вида, аргументами которых является расстояние. Наиболее часто применяемые на практике радиальные функции гауссовского типа по своей природе имеют локальный характер и принимают ненулевые значения только в зоне вокруг определенного центра. Это позволяет легко установить зависимость между параметрами базисных функций и физическим размещением обучающих данных в многомерном пространстве. По сравнению с многослойными сетями, имеющими сигмоидальные функции активации, радиально-базисные нейронные сети отличаются некоторыми специфическими свойствами, обеспечивающими более простое отображение характеристик моделируемого процесса.
Целью данной работы является исследование особенности обучения радиально-базисных нейронных сетей для решения уравнений математической физики. В процессе обучения настраиваются все параметры сети: веса, центры и ширина. При этом будем использовать два варианта обучения нейронной сети: бессеточный метод, допускающий расположение нейронов и контрольных точек в произвольных точках области решения и вне области решения (только для нейронов) — и метод, основанный на использовании конечно-разностной аппроксимации уравнения, когда контрольные точки располагаются на регулярной сетке, а центры нейронов в произвольных точках.
Основное внимание уделим исследованию следующих вопросов:
— исследование фиксированного и случайного характера расположения контрольных точек, в которых производится проверка приближения решения на удовлетворение решаемому уравнению (вычисляется функционал качества) —
— исследование влияния коэффициентов скорости обучения на процесс обучения-
— вывод формулы вычисляемого в процессе обучения коэффициента скорости обучения наиболее значимых параметров сети — весов-
— исследование влияния начального расположения центров на процесс обучения.
1. Решение дифференциальных уравнений в частных производных на радиально-базисных нейронных сетях
Радиально-базисная нейронная сеть (рис. 1) представляет собой сеть с одним скрытым слоем [7, 8].
Рис. 1 Радиально-базисная нейронная сеть
Скрытый слой преобразует входной вектор X с использованием радиально-базисных функций (RBF). Практически используются различные радиально-базисные функции. В дальнейшем будем использовать наиболее часто употребляемую функцию — Гауссиан, имеющий следующий вид для k-го нейрона:
9k (X) = exP (-rklak2) (1)
где X — входной вектор- rk — радиус,
rk =| |X — Ck||-
Ck — вектор центра RBF- a — параметр функции, называемый шириной.
Выходной слой сети представляет линейный сумматор, а выход сети описывается выражением
N
и =? Wk 9k (X ^ (2)
k=1
где Wk — вес, связывающий выходной нейрон с k-м нейроном скрытого слоя.
Выражение (2) представляет собой формулу метода коллокации для аппроксимации функций и решения дифференциальных уравнений. Рассмотрим суть метода коллокации, реализуемого с использованием ИББ [2, 3], на примере решения линейного двумерного эллиптического дифференциального уравнения в частных производных.
Пусть П с Иd — d -мерная область и дП — граница этой области. В операторной форме задача запишется в виде
Ьы (X) = /(X), XеП, (3)
с граничными условиями
Вы (X) = g (X), XедП, (4)
где Ь — линейный дифференциальный оператор (например, лапласиан) — В -оператор граничных условий.
Зададим множество точек коллокации X = {х1,…, хN}сП, в которых будет искаться решение задачи (3)-(4), причем часть точек расположим внутри области П (подмножество Xп), а часть — на границе области дП (подмножество Xдп). Выберем центры и ширину радиально-базисных функций (1), с помощью которых будет осуществляться аппроксимация решения. Центры в общем случае могут не совпадать с точками коллокации.
Подставляя выражение (1) в (3) и (4), получаем систему линейных алгебраических уравнений
AW = Р, (5)
где, А =
— блочная коллокационная матрица, элементы которой равны
Фу =п (- С у|), X,. е Xдп,
Ьу = ЦК — Су||), X, е Xп,
причем центры Су могут располагаться и вне области П-
т
W = [, W2,…, м& gt-п] - вектор весов- Р — вектор, образуемый из компонентов
векторов правых частей уравнений (3) и (4).
Система (5) в общем виде имеет прямоугольную матрицу и для ее решения можно применять метод сингулярного разложения [9]. Такой подход с выбором центров, ширины и определением весов из решения системы (5) применяется во множестве модификаций метода, основанного на ИББ, например в [2, 3], а также в ранних работах, посвященных радиально-базисным нейронным сетям [4].
Заменяя входящие в Ьы производные разностными отношениями, получим разностное выражение Ь^ы^ и приходим к методу, основанному на использовании конечно-разностной аппроксимации уравнения.
Определив решение в точках коллокации, можно по (2) найти решение в произвольных точках области решения. Точки коллокации можно распола-
гать произвольным образом (в том числе случайным), т. е. метод в принципе является бессеточным. Зная дифференциальные операторы (3), (4) и выражение решения (2), можно аналитически рассчитывать пространственные производные решения в произвольных точках.
В [5, 6] предлагается использовать радиально-базисные нейронные сети для решения дифференциальных уравнений в частных производных. При этом веса, центры и ширина находятся путем обучения сети, что обеспечивает большую точность и гибкость решения.
2. Градиентный алгоритм обучения сети
Рассмотрим градиентный алгоритм обучения радиально-базисной нейронной сети на примере модельной задачи — уравнения Пуассона:
Д2, д 2,
«2» + -2- = sin (пх)• sin (пу), (х, y) eQ, (6)
д х д у
с граничными условиями Дирихле по всей границе области
и = 0, (х, у) edQ. (7)
В качестве базисной функции используем Гауссиан (1), имеющий вид для нейрона к
Фк (х, у) = в~ГкIак, (8)
где Гк = ((х — хск)2 + (У — Уск)2 — расстояние от центра (хск, уск) нейрона к до точки (х, у), в которой ищется решение- ак — ширина нейрона. Аппроксимация решения имеет вид
m
и (ху) = X wФк, (9)
к =1
где м& gt-к — вес- m — количество нейронов.
Обучение сети сводится к настройке весов, расположения центров и ширины нейронов, минимизирующих функционал качества (функционал ошибки). Функционал ошибки I (с, a, w) определяется при первом и втором подходе как сумма квадратов невязок, получаемых при подстановке и в уравнение или конечно-разностную аппроксимацию уравнения во внутренних и граничных точках.
Как в первом, так и во втором подходе для обучения сети используется градиентный алгоритм обучения, одновременно оптимизирующий веса, центры и ширину. Он может быть построен в виде последовательности двух шагов [5].
Шаг 1. Зафиксировав центры и ширину, пытаемся найти веса, минимизирующие функционал ошибки
д1 Id n-1), a (n-1), wM)
(n) (n-1) (n-1) с, a, 1 /
wi = wi '- - П ' -----------------T^-----, (10)
'- '- dw! n-1)
где п — номер цикла обучения- п (п 1 — коэффициент скорости обучения
Шаг 2. Зафиксировав м) '-, пытаемся найти центры и ширину, минимизирующие функционал ошибки
с (п)= сМ-р (п-1)
д/ |с (п-1), а (п -1), м (п)
Эс
Э/(с п) а (п-1) м П
(п) (п-1) (п-1) С, а, м
а} & gt- = а) '--а *------------т------
'- '- Эа (п-1)
где п, в, а — скорости (коэффициенты) обучения. Процесс уточнения параметров продолжается до достижения минимума функционала.
2.1 Бессеточный метод обучения сети для решения ДУЧП
Радиально-базисная сеть явным образом аппроксимирует производные функции и (х). Производные функции и (х) рассчитываются следующим образом:
/.Л х) =
•лк
д и
-------------= ^ м
дх/ … дх/)=1 дх/ … дх/
Функционал ошибки
д 2и (х, У)) +д 2и (х, У))
дх2
ду2
— / (х), У))
к
+ х? [и (х/, у/)-р ]+
, (11)
где X — штрафной множитель- р/ - значение граничных условий первого рода в точке / границы- N и К — количество внутренних и граничных контрольных точек.
Представление решения в форме (9) и вид базисных функций (8) позволяют вычислить частные производные от решения:
д 2 и д 2 и
Ли =-Г + ^Т
: 4Ё
дх2 ду2 к=1
Функционал ошибки равен
Мке
— 2 2 ак2 гк — ак
4
ак
Г 2 '- ¦л 2 Г 2 1
N т -%¦ 2 2 К г) к т -2
/ = ^ 41 — /} + м X мке % - Р}
}=1 к=1 ак /=1 к=1
(12)
Несложно вычисляются градиенты функционала по параметрам сети.
k (u, x, y) — I + - k (, x, y) — = f (x, y), когда функция k (u, x, y) не Эх) dy { dy
2.2 Конечно-разностный метод обучения сети для решения ДУЧП
Предлагается другой подход к обучению, использующий конечноразностную аппроксимацию уравнения. При этом отпадает необходимость расчета явным образом частных производных. Предлагаемый подход может быть полезен при решении на RBF-сети уравнения
д (. ч д- | д, ч д- I
— k lu, x, y '-
dx
имеет аналитического описания и определяется в форме табличных значений по результатам эксперимента. Но при замене уравнения его разностным аналогом возникает дополнительная погрешность аппроксимации. Решение задачи усложнится при необходимости построения сеток сложной структуры. Конечно-разностная аппроксимация (6) имеет вид
2
4uij — -i+1 j — ui-1 j — uij+1 — uij-1 = -h fij.
Функционал ошибки равен
п п 2 K
I (wc, а) = XZ (4uij — ui+ij — ui-ij — uij+i — uij-i + h2 fij) + - Pi)2 ,(13)
i=1 j l=
где fij = sin (nxi)• sin (uyj) — функция правой части уравнения (6) — pi — значение граничных условий первого рода в точке l границы- N = п • п и K -количество внутренних и граничных контрольных точек.
Обозначим через ursj невязку разностной схемы в точке (, yj):
-rSij = 4-j — -i+i j — ui-i j — -j+1 — -ij-1 + h2 fij,
а также введем следующие обозначения:
2 2 2 2
rk rk rk rk
fdlw = e ak, fdIa = e ak • rj2, fdIx = e ak •(x — xck j, fdly = e ak •(y — yck).
Функционал ошибки равен
n n K
1 (wc, a) = YLursa2 + S (i- Pi). (14)
i=i j=i i=i
Несложно вычисляются градиенты функционала по параметрам сети.
2.3 Расчет коэффициента скорости обучения весов в алгоритме градиентного спуска
Коэффициенты скорости обучения сети очень важны для сходимости сетевых параметров. Подбор коэффициентов представляет собой трудно формализуемую задачу, требующую больших затрат машинного времени. Если коэффициенты являются большими, то параметры сети колеблются и не сходятся. Если коэффициенты слишком малы, то скорость
сходимости будет низкой. Опыт показывает, что коэффициенты скорости обучения убывают по мере повышения точности обучения. Поэтому подбор коэффициентов производится по «худшему» случаю, что существенно замедляет процесс обучения.
Наиболее критичными к коэффициентам обучения являются веса радиально-базисной нейронной сети. Кроме того, веса сети входят линейно в выражение решения, что упрощает вычисление коэффициента скорости обучения. Предлагается подход, основанный на алгоритме градиентного спуска и вычислении в каждом цикле обучения коэффициента скорости обучения.
При зафиксированных центрах и ширине подставим формулу гради-
ентного алгоритма обучения для весов мк '- = ц
(п) (п-1) (п-1) д1()
'- = и-: '- - гЛ & gt-----------------
дм
п-1)
в функ-
ционал ошибки. Выбирая скорость обучения п (п 1) из условия минимума
функционала Л
йЛ
(п-1)
= 0, получаем:
— в случае бессеточного метода:
N К
I АВ +*! сЛ
(п-1) = _г=1_____3 =1
N
К
I в2 +^Х О
. =1
3=1
где
А = 4Е
к =1
2
-к 2 2 ц (п-1) ~а2 -2 — а2
. 4
ак
— Я. -
(15)
В = 4Х
к=1
д1(п-1)
дтУ
~-к 2 2 а22 -к — ак а4
(16)
ч=Е
к=1
2
--к. п-1)е а2к
р. -
(17)
°3 = I
к=1
дм
,-1)
т
т
— в случае конечно-разностного способа:
п п К
К
ЕЕ і+Еад
(п-1) _ /=І і=1_I =1
п п К
Е Ел2+
і=1 і=1 I=1
где
т,
а=X Чп-1) ¦ (4 ¦ №(- ((м і+(і+1 і++0)+й2) — (19)
к=1
ВіІ = ^' (4 ^ (і - ((і-1 і + (і+1 і + /Ш™іІ-1 + /й/иу+1)) -(20) к=1 дик
т (-1) с/=X Чп /й/иі- рі -
(21)
к=1 т д/(п-1)
(22)
Несмотря на несколько громоздкий вид, коэффициент скорости обуче-
В качестве модельной задачи с целью сравнительного анализа было взято уравнение Пуассона (6), (7), которое решалось в работах [4, 5]. При этом надо учитывать, что авторы работ [4−6] не приводят конкретных данных по процессам обучения сетей, в частности временных характеристик процессов обучения.
Задача имеет аналитическое решение:
которое использовалось для оценки точности решения. Для оценки точности также рассчитывается относительная среднеквадратическая погрешность решения
где ыа{ - аналитическое решение (23) в точке I- д — число внутренних и граничных контрольных точек.
ния п (п 1) несложно вычисляется по выражениям (15)-(22).
3. Анализ результатов экспериментов
(23)
Прежде всего исследовался алгоритм с фиксированным набором контрольных точек и постоянными (подбираемыми) коэффициентами скорости обучения для решения контрольной задачи. Эксперименты показали трудность подбора фиксированных скоростей обучения. При этом на скорость обучения сети основное влияние оказывает скорость обучения весов.
Расположение центров после обучения сети существенно изменилось, причем часть центров расположилась за границей области решения. Поэтому целесообразно первоначально расположить центры в области, большей области решения. Погрешность по сравнению с аналитическим решением не
_3
превышает 10. Причем наибольшая погрешность наблюдается в угловых
точках — ИББ-методы лучше приспособлены для гладких границ.
Явление переобучения можно объяснить фиксированным набором контрольных точек. В процессе исследования алгоритма со случайным набором контрольных точек и постоянными коэффициентами скорости обучения получены следующие результаты: в случае бессеточного метода за 5224 итераций достигнуто значение средней относительной погрешности на последнем случайном множестве точек -0,0097, средняя относительная погрешность на сетке -0,0145- в случае конечно-разностного метода за 724 итерации достигнуто значение средней относительной погрешность на сетке 0,0135.
График погрешности по сравнению с аналитическим решением показывает лучшие результаты, чем в работе [5]. В [5] погрешность не превышает
0,0050, у нас — 0,0012 и 0,35 соответственно. Причем наибольшая погрешность наблюдается в областях, близких к областям нерегулярного расположения центров и в угловых точках, которые явно «неудобны» для аппроксимации радиально-базисными функциями.
В результате экспериментального исследования алгоритма с начальным положением центров внутри области решения и слое за границей сравнимый результат получен за меньшее в два раза число итераций. Изменение функционала ошибки и относительной среднеквадратической ошибки носят колебательный характер, однако в целом функционал и погрешность достигают своего минимума. То есть при случайном выборе контрольных точек переобучение не проявляется.
В процессе исследования алгоритма со случайным набором контрольных точек и вычисляемым коэффициентом скорости обучения весов в алгоритме градиентного спуска получены следующие результаты: в случае бессеточного метода за 1221 итераций достигнуто значение средней относительной погрешности на последнем случайном множестве точек -0,0113, средняя относительная погрешность на сетке -0,0066, погрешность по сравнению с аналитическим решением не превышает 0,0009 (рис. 2) — в случае конечноразностного метода за 179 итераций достигнуто значение средней относительной погрешности на сетке 0,0071, погрешность по сравнению с аналитическим решением не превышает 0,21 (рис. 3).
Эффект от применения вычисляемого коэффициента заключается не столько в сокращении числа циклов обучения, сколько в упрощении вычислений. График изменения коэффициента скорости обучения весов носит колебательный характер. Формально вычисляемый коэффициент скорости обучения весов может быть отрицательным. Это приводит к тому, что веса корректируются в направлении увеличения функционала ошибки. Для устране-
ния этого явления предлагается на всех циклах обучения, кроме первого, проверять вычисленное значение коэффициента п, и если п (п+1) & lt- 0, то при-
(п+1)
нимать п равное среднему значению п на предыдущих итерациях, где п — номер цикла обучения. За счет исключения отрицательных значений коэффициента скорости обучения весов несколько сократилось число циклов обучения.
Погрешность по сравнению с аналитическим решением
О О
Рис. 2 Погрешность по сравнению с аналитическим решением в случае бессеточного метода
Погрешность по сравнению с аналитическим решением
О О
Рис. 3 Погрешность по сравнению с аналитическим решением в случае конечно-разностного метода
Вариант обучения RBF-сети для решения ДУЧП, основанный на использовании конечно-разностной аппроксимации для данной модельной задачи, показал лучшие результаты по сравнению с бессеточным методом обучения, сравнимый результат достигается за меньшее на порядок число итераций. Метод конечных разностей на сетке того же порядка показал следующие результаты: погрешность по сравнению с аналитическим решением не превышает 0,21, средняя относительная погрешность на сетке 0,0141, в предлагаемом методе 0,0071. Таким образом, предлагаемый подход хорош по точности и гораздо проще известных.
Заключение
Предложен и исследован вариант алгоритма градиентного спуска обучения RBF-сети, отличающийся от известных алгоритмов вычисляемым коэффициентом скорости обучения весов сети. Предложенный алгоритм исключает неформальный и трудоемкий процесс подбора коэффициента скорости обучения. Эксперименты по обучению сетей показали необходимость использования случайного выбора контрольных точек.
Предложен и исследован подход к обучению радиально-базисной нейронной сети, основанный на использовании конечно-разностной аппроксимации ДУЧП. Экспериментально доказана эффективность предложенного варианта алгоритма градиентного спуска обучения RBF-сети, отличающегося от известных алгоритмов использованием конечно-разностной аппроксимации дифференциального уравнения и вычисляемым коэффициентом скорости обучения весов сети.
Список литературы
1. Powell, M. J. D. Radial basis function for multivariable interpolation: A review, IMA Conference on Algorithms for the Approximation of Functions and Data, 1985, p. 143−167, RMCS, Shriven ham, England.
2. Kansa, E. J. Motivation for using radial basis functions to solve PDEs / E. J. Kansa // http: //uahtitan. uah. edu/kansaweb. html
3. Kansa, E. J. Multiquadrics — A scattered data approximation scheme with applications to computational fluid-dynamics. II. Solutions to parabolic, hyperbolic and elliptic partial differential equations / E. J. Kansa // Comput. Math. Appl. — 1990. — № 19 (8/9). -P. 147 — 161.
4. Mai-Duy, N. Numerical solution of differential equations using multiquadric radial basis function networks / N. Mai-Duy, T. Tran-Cong // Neural Networks. — 2001. -№ 14. — P. 185−199.
5. Numerical solution of elliptic partial differential equation using radial basis function neural networks / L. Jianyu, L. Siwei, Q. Yingjiana, H. Yapinga // Neural Networks. -2003. — 16(5/6). — P. 729−734.
6. Васильев, А. Н. Новые подходы на основе RBF-сетей к решению краевых задач для уравнения Лапласа на плоскости / А. Н. Васильев, Д. А. Тархов // Нейрокомпьютеры: разработка, применение. — 2004. — № 7−8. — С. 119−126.
7. Хайкин, С. Нейронные сети: полный курс / С. Хайкин. — М.: Вильямс, 2006. -1104 с.
8. Осовский, С. Нейронные сети для обработки информации / С. Осовский. — М.: Финансы и статистика, 2002. — 344 с.
9. Уоткинс, Д. С. Основы матричных вычислений / Д. С. Уоткинс. — М.: БИНОМ. Лаборатория знаний, 2006. — 664 с.

ПоказатьСвернуть
Заполнить форму текущей работой