Нейросетевое приложение для оценивания характеристической экспоненты процесса Леви на примере распределения Бандорффa-Нильсена

Тип работы:
Реферат
Предмет:
Физико-математические науки


Узнать стоимость

Детальная информация о работе

Выдержка из работы

Программные продукты и системы /Software & amp- Systems
№ 3 (111), 2015
УДК 004. 032. 26 Дата подачи статьи: 14. 05. 15
DOI: 10. 15 827/0236−235X. 111. 071−074
НЕЙРОСЕТЕВОЕ ПРИЛОЖЕНИЕ ДЛЯ ОЦЕНИВАНИЯ ХАРАКТЕРИСТИЧЕСКОЙ ЭКСПОНЕНТЫ ПРОЦЕССА ЛЕВИ НА ПРИМЕРЕ РАСПРЕДЕЛЕНИЯ БАНДОРФФЛ-НИЛЬСЕНА
(Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № 14−01−579 а)
Г. И. Белявский, д.т.н., профессор, зав. кафедрой, gbelyavski@sfedu. ru (Институт математики, механики и компьютерных наук Южного федерального университета, ул. Мильчакова, 8а, г. Ростов-на-Дону, 344 090, Россия) — Е. В. Пучков, к.т.н., доцент, puchkoJf@i-intellect. ru-
В. Б. Лила, к.т.н., ассистент, lila@i-intellect. ru (Ростовский государственный строительный университет, ул. Социалистическая, 162, г. Ростов-на-Дону, 344 022, Россия)
Применение метода главных компонент и обобщенного метода главных компонент для анализа данных не всегда оправданно, поскольку не всегда существуют моменты необходимого порядка у анализируемого закона распределения. В то же время продолжает расти интерес к процессам Леви в связи с их многочисленными приложениями, а процесс Леви является именно тем процессом, для которого метод главных компонент неприменим. Важным свойством процесса Леви, упрощающим анализ, является то, что этот процесс полностью определяется комплекснозначной функцией вещественного аргумента — характеристической экспонентой. Идентифицировать процесс Леви -значит найти оценку характеристической экспоненты по обучающей выборке. Свойство независимости и однородности приращений процесса Леви позволяет использовать приращения процесса в качестве обучающей выборки. В статье рассматривается задача построения нейросетевой модели для оценки характеристической экспоненты на заданном интервале изменения аргумента. Для оценки характеристической экспоненты процесса Леви предложен стохастический аналог адаптивного алгоритма обучения нейросети, использующий потенциальные функции Лан-цоша. Алгоритм обучения опробован на гиперболическом распределении Бандорффа-Нильсена. Гиперболическое распределение является смесью нормальных законов, что позволило без особых усилий сгенерировать обучающую выборку. В результате нейросеть с удовлетворительной степенью точности вычислила оценку характеристической экспоненты процесса Леви.
Ключевые слова: нейронные сети, адаптивный алгоритм, процесс Леви, характеристическая экспонента, ги-перболичское распределение Бандорффa-Нильсена.
Основная задача, рассматриваемая в статье, -построение нейросетевой модели для оценки характеристической экспоненты процесса Леви. Первая работа, связанная с вычислением характеристик случайной последовательности, была выполнена в 1949 г. Д. Хеббом [1]. В ней рассматривались задачи самообучения нейросети. Впоследствии было доказано, что алгоритм обучения Д. Хебба непосредственно связан с вычислением главной компоненты. Более эффективный алгоритм обучения сети для вычисления главной компоненты последовательности может быть получен как частный случай метода стохастического градиента [2] с использованием отношения Релея. Если U — главный собственный вектор ковариационной матрицы последовательности, то n-е приближение к U вычисляется следующим образом (см., например, [2]):
Z" = Un-1 + h sign (Xй, Un-1) [x" - (Xй, Un-1) Un-1 ],
Un
Zn
J (Zn, Zn)
(1)
В (1) последовательность h удовлетворяет условию Z Zh X — n-й элемент обу-
чающей выборки.
Для определения нескольких главных компонент предлагается использовать ряд алгоритмов
[3−6]) и метод стохастического градиента. Соответствующий алгоритм вычисления k главных собственных векторов ковариационной матрицы определяется системой равенств:
Z" = Un-1 + h" sign (Xn, Un-1)x x[Xn -(Xn, U"-1)U"-1 ],
Zn
Un = 1 •
1 V (Zn, Zn) '
Z2n = Un-1 + hi sign (Xn, Un-1)x x[Xn -(Xn, Un-1)Un2−1 ],
V" = Zn -(Z", Un) u n, Un =
vn
(2)
JW):
Zn = un-1 + hi sign (Xn, un-1)x
x[Xn -(Xn, Un-1)un-1 ],
k-1
vn = Zn-Z (Zn, un) un, un =
Vn
W v)'-
i=1
Обоснование алгоритма и доказательство сходимости можно найти в работе [2]. Если много-
71
Программные продукты и системы /Software & amp- Systems
№ 3 (111), 2015
мерный закон распределения последовательности нормальный, с нулевым математическим ожиданием, то ковариационная матрица содержит полную информацию о законе распределения и использование метода главных компонент вполне оправданно. Если закон распределения не является нормальным, то метод главных компонент неполный, поскольку не учитывает всю информацию о поведении данных, например, связанную с моментами порядка три и более. Известен ряд работ [7, 8], в которых метод главных компонент обобщается на моменты более высокого порядка. Эти сети позволяют анализировать данные более сложной природы: приближать их поверхностью, отличающейся от плоскости, как в методе главных компонент. Применение метода главных компонент и обобщенного метода главных компонент для анализа данных не всегда целесообразно, так как не всегда существуют моменты необходимого порядка у анализируемого закона распределения. В то же время характеристическая функция существует для любого закона распределения [9].
В последнее время большой интерес проявляется к процессам Леви [10] в связи с их использованием при моделировании в различных приложениях. Поведение процессов Леви полностью описывается параметрическим семейством одномерных законов распределения Ft (x). Семейство законов распределения однозначно определяется семейством характеристических функций:
Ф, ()) = ЕехР),) = exp) ф (у)). (3)
В (3) характеристическая экспонента
ф (y) = imy-у у2 +
{ (exp (ух)-1- iyxl{lxS1} (X)) v (dx).
(4)
+
-да
Несобственный интеграл Лебега в (4) вычисляется по мере Леви, обладающей следующим свойством:
+да
|(х2 л l) v (dx)& lt- 1. (5)
-да
Интеграл отвечает за скачкообразную составляющую процесса Леви. Приращения процесса Леви ДХД = Xjд — Х^. _^д — независимые и одинаково распределенные случайные величины с характеристической функцией ф (у) = Е exp (гуДХД) =
= exp (Дф (у)). Положив Д=1, получим соотношение, которое в дальнейшем используем для оценки характеристической экспоненты. Далее будем использовать обозначение Y. = ДХД. Как уже отмечалось, случайные величины Y — независимые и одинаково распределенные случайные величины. Их общая характеристическая функция может быть представлена следующим образом:
ф1 (У) = Е exp (iyYj) =
= Е cos (yYj) + iE sin (yYj) =
= A (у) + iB (у).
,. B (у)
Отсюда Im ф (у) = arctg -,
A (у)
Re ф (у) = ln----------------TTV
cos arctg (B (у) / A (у))
(6)
Формула (6) позволяет вычислить характеристическую экспоненту, используя оценки A и B. Далее рассматривается оценка A (y), поскольку оценка B (y) выполняется аналогично.
Алгоритм обучения нейросети, использующий потенциальные функции. Структура нейросети, предназначенной для вычисления оценки A (y), показана на рисунке 1.
Допустим, необходимо вычислить характеристическую экспоненту в интервале значений аргумента [а, р]. Разобьем данный интервал на N частей с требуемой точностью вычислений. Определим потенциальную функцию U (y) следующими условиями:
— носителем функции является симметричный интервал [-h, h]-
— функция симметричная-
— функция является гладкой, на интервале [-h, 0] она возрастает, на интервале [0, h] убывает.
Примером такой функции может служить
функция Ланцоша [11]: Uh (у) = & lt-
В качестве критерия обучения рассмотрим средний квадрат отклонения:
F (W) = Х[ Е cos у/ - YWkUh (у — ук) j. (7)
В (7) закон распределения Law (Y)= Law (Yt), y- -
h. n. I, sin-у, у & lt- h, n h
0,1у & gt- h.
72
Программные продукты и системы /Software & amp- Systems
№ 3 (111), 2015
точки разбиения интервала [а, р]. Задача обучения заключается в вычислении минимума F (W).
Наиболее простая ситуация получается, если h совпадает с длиной элементарного интервала разбиения Д. В этом случае критерий обучения (7) будет иметь следующий вид:
F (W) = ?(EcosyJY-Wj)2. (8)
j
Из этого соотношения выходит, что минимум критерия обучения достигается, когда Wj=E cos yjY. Следовательно, алгоритм обучения определяется равенствами:
W' = - W-1 +1 cosy.Y. (9)
J t J t J
Для общего случая ^& gt-Д) может быть применен стохастический аналог адаптивного алгоритма обучения [12]:
W' = W -1 +y, g, g, =
, Л mmR'--1) (10)
= -VF (W- Y)+ X akgk.
k =1
В формуле (10) VF (Wt-1, Y) — стохастический градиент критерия F, l-я координата которого
(VF (W-1, Y)) =
= X Uh (y — У) X (w--1Uh (y — yk)-cos (yjY)),
j j
gi=-VF (W°, Y1).
Рассмотрим пример оценки вещественной части характеристической функции для гиперболического распределения при помощи адаптивного алгоритма обучения.
Гиперболические распределения. В 1997 году О. Барндорфф-Нильсен предложил обобщенные гиперболические распределения [13]. Их введение обусловлено необходимостью описания некоторых эмпирических закономерностей в геологии, геоморфологии, турбулентности и финансовой математике.
Собственно гиперболическое распределение и гауссовское\обратно-гауссовское распределение являются наиболее употребительными. Каждое из этих распределений представляет собой смесь нормальных законов:
LawY = E2 N (р + аст2, ст2) с плотностью
Р) (х)
•Ja / b
----TP=exp
2K (Jab)
и LawY = E2, N (р + аст2, ст2) с плотностью
(Х)^/^ eXP (^ Ь/1ГеХр
-1 (aX + b. (11)
2
В (11) K (x) — модифицированная функция Бесселя третьего рода с индексом 1. Остановимся на одном из распределений, например на гиперболическом. Характеристическая функция благодаря (11) будет иметь вид:
ф1 (У) = Ест2 exP 11
(р + аст2
С использованием соответствующей плотности (11) получим равенство для вещественной части характеристической функции:
Re ф1 (У) =
2K (Jab)
(12)
xj cos ((р + ах) y) exp
0
dx.
Формула (12) позволяет вычислить вещественную часть характеристической функции, используя численное интегрирование. Это, в свою очередь, позволяет определить различие между оценкой, полученной с помощью обучения нейросети, и значением, полученным по формуле (12). Для получения обучающей выборки использовались два генератора. С помощью первого генератора выбиралась дисперсия ст2, при этом использовалась первая плотность из (11), затем генерировалась нормальная случайная величина Д (р+аст2, ст2). Результаты расчетов приведены на рисунке 2. Параметры гиперболического распределения в эксперименте принимали следующие значения: а=0,1, р=0,5, а=0,2, 6=0,1. Число итераций составило 325.
Рис. 2. Вещественная часть характеристической функции гиперболического распределения (пунктирная линия соответствует численному интегрированию, сплошная линия отражает результат обучения нейросети адаптивным алгоритмом)
Fig. 2. The real part of a hyperbolic distribution characteristic feature (the dotted line corresponds to the numerical integration, continuous line is obtained as a result of neural network training using an adaptive algorithm)
Таким образом, после обучения нейросеть с удовлетворительной степенью точности позволяет вычислять оценку основной характеристики про-
73
Программные продукты и системы /Software & amp- Systems
№ 3 (111), 2015
цесса Леви — характеристической экспоненты.
Кроме перечисленных работ, следует упомянуть работу [14], в которой излагается идея оценки характеристической функции с помощью обучения нейросети. Основное отличие исследования, описанного в статье, состоит в использовании другого алгоритма обучения. Кроме этого, заметим, что данная методика применима только для процессов с независимыми и однородными приращениями, к которым относятся процессы Леви. В противном случае необходимо учитывать зависимость характеристической функции от времени.
Литература
1. Hebb D.O. Organization of behavior. NY, Wiley, 1949, 335 p.
2. Белявский Г. И. О некоторых алгоритмах определения главных компонент в пространстве признаков // Математический анализ и его приложения. Р-н-Д: Изд-во РГУ, 1975. № 7. С. 63−67.
3. Sanger T.D. Optimal unsupervised learning in a single-layer linear feedforward neural network. Neural Networks 2, 1989, pp. 459−473.
4. Oja E. Neural networks, principal components and subspaces. Int. Journ. of Neural Systems, 1989, no. 1, pp. 61−68.
5. Oja E. Principal components, minor components and linear neural networks. Neural Networks, 1992, no. 5, pp. 927−935.
6. Dente J.A., Vilela Mendes R. Unsupervised learning in general connectionist systems. Network: Computation in Neural Systems, 1996, no. 7, pp. 123−139.
7. Softy W.R., Kammen D.M. Correlations in high dimensional or asymmetric data sets: Hebbian neuronal processing. Neural Networks, 1991, no. 4, pp. 337−348.
8. Taylor J.G., Coombes S. Learning higher order correlations. Neural Networks, 1993, no. 6, pp. 423−427.
9. Lukacs E. Characteristic functions, Griffin’s Statistical Monographs& amp- Courses, Hafner Publishing Co., NY, 1960, no. 5, 216 p.
10. Cont R., Tankov P. Financial modeling with jump processes. London: Chapman Hall. CRC, 2004, 606 p.
11. Жуков М. И. Метод Фурье в вычислительной математике. М.: Наука, 1992. 176 с.
12. Белявский Г. И., Пучков Е. В., Лила В. Б. Алгоритм и программная реализация гибридного метода обучения искусственных нейронных сетей // Программные продукты и системы. 2012. № 4. С. 96−100.
13. Barndorff-Nielsen O.E. Exponentially decreasing distributions for the logarithm of particle size // Proceeding of the Royal Society. London: Ser. A, Math. Phys. 1977, vol. 353, pp. 401−419.
14. Joaquim A. Dente, R. Vilela Mendes Characteristic functions and process identification by neural networks, 1997, pp. 1465−1471- URL: arXiv: physics 9 712 035 v1[physics. data-an] (дата обращения: 07. 05. 2015).
DOI: 10. 15 827/0236−235X. 111. 071−074 Received 14. 05. 15
NEURAL NETWORK APPROACH TO EVALUATE A CHARACTERISTIC EXPONENT OF LEVY PROCESS ON BANDORFF-NILSEN DISTRIBUTION EXAMPLE
(The research has been done with financial support from RFBR within the research project no. № 14−01−579 a)
Belyavsky G.I., Dr. Sc. (Engineering), Professor, Head of Chair, gbelyavski@sfedu. ru (Scientific Reseach Institute of Mechanics and Applied Mathematics Southern Federal University,
Milchakova St. 8а, Rostov-on-Don, 344 090, Russian Federation) —
Puchkov E. V., Ph.D. (Engineering), Associate Professor, puchkoff@i-inteUect. ru-
Lila V.B., Ph.D. (Engineering), Assistant, lila@i-intellect. ru (Rostov State University ofCivil Engineering, Sotsialisticheskaya St. 162, Rostov-on-Don, 344 022, Russian Federation)
Abstract. Application of the method of principal components and the generalized method of principal components to analyze data is not always reasonable, because the moments of necessary order don’t always exist in the analyzed distribution. At the same time, the interest in Levy processes continues to increase due to their numerous applications, but the principal component method is not applicable to the Levy process is. An important feature of the Levy process, which simplifies the analysis, is that the Levy process is completely defined by a complex-valued function of a real argument. It is a characteristic exponent. To identify the Levy process is to find the estimate of the characteristic exponent in the training set. The property of independence and homogeneity of Levy process increments allows using the increment of the process as a learning sample. The article considers the problem of building a neural network model for estimation of the characteristic exponent at a given interval of the argument. To estimate the characteristic exponent of the Levy process the authors propose the stochastic analogue of the adaptive neural network learning algorithm that uses the potential functions of Lanczos. The learning algorithm is tested on a hyperbolic Bandorff-Nilsen distribution. The hyperbolic distribution is a mix of normal laws, which allows generating a training sample with little effort. As a result the neural network has calculated an estimation of the Levy process characteristic exponent with a satisfactory degree of accuracy.
Keywords: neural networks, principal components, stochastic gradient, characteristic components, potential functions.
References
1. Hebb D.O. Organization of behavior. New York, Wiley Publ., 1949, 335 p.
2. Belyavsky G.I. On some algorithms for defining the principal components in the attribute space. Matematicheskiy analiz i ego prilozheniya [Mathematical Analysis and its Applications]. Rostov-on-Don, RGU Publ., 1975, no. 7, pp. 63−67 (in Russ.).
3. Sanger T.D. Optimal unsupervised learning in a single-layer linear feedforward neural network. Neural Networks 2. 1989, pp. 459−473.
4. Oja E. Neural networks, principal components and subspaces. Int. Journ. of Neural Systems. 1989, no. 1, pp. 61−68.
5. Oja E. Principal components, minor components and linear neural networks. Neural Networks. 1992, no. 5, pp. 927−935.
6. Dente J.A., Vilela Mendes R. Unsupervised learning in general connectionist systems. Network: Computation in Neural Systems. 1996, no. 7, pp. 123−139.
7. Softy W.R., Kammen D.M. Correlations in high dimensional or asymmetric data sets: Hebbian neuronal processing. Neural Networks. 1991, no. 4, pp. 337−348.
8. Taylor J.G., Coombes S. Learning higher order correlations. Neural Networks. 1993, no. 6, pp. 423−427.
9. Lukacs E. Characteristic Function. London, Griffins statistical monograph courses, 1960, 216 p.
10. Cont R., Tankov P. Financial modeling with jump processes. London, Chapman Hall / CRC Publ., 2004, 606 p.
11. Zhukov M.I. Metod furye v vychislitelnoy matematike [The Fourier Method in Numerical Mathematics]. Moscow, Nauka Publ., 1992, 176 p.
12. Belyavsky G.I., Puchkov E.V., Lila V.B. An Algorithm and software implementation of hybrid method of training artificial neural networks. Programmnye Produkty i Sistemy [Software & amp- Systems]. Tver, 2012, no. 4, pp. 96−100.
13. Barndorff-Nielsen O.E. Exponentially decreasing distributions for the logarithm of particle size. Proc. of the Royal Society. London, Ser. A, Math. Phys, 1977, vol. 353, pp. 401−419.
14. Dente A. Characteristic Functions and Process Identification by Neural Networks. 1977, pp. 1465−1471. Available at: arXiv: physics9712035v1[physics. data-an] (accessed May 7, 2015).
74

ПоказатьСвернуть
Заполнить форму текущей работой