Адаптивное управление стохастическими процессами с использованием рандомизированных стратегий

Тип работы:
Реферат
Предмет:
Кибернетика


Узнать стоимость

Детальная информация о работе

Выдержка из работы

УДК 681. 513
С. Г. Удовенко, А. А. Шамраев АДАПТИВНОЕ УПРАВЛЕНИЕ СТОХАСТИЧЕСКИМИ ПРОЦЕССАМИ С ИСПОЛЬЗОВАНИЕМ РАНДОМИЗИРОВАННЫХ
СТРАТЕГИЙ
Введение. Задача адаптивного управления стохастическими процессами может быть сформулирована различными способами в зависимости от критерия, используемого для оценки качества управления и набора возможных стратегий [1]. Стратегия управления должна давать некоторый гарантированный результат, а процедура определения управляющих воздействий в реальном масштабе времени должна быть простой в вычислительном отношении, поэтому критерий качества целесообразно задать как оцениваемую вероятностную характеристику прогнозируемой траектории процесса после выбора одной из стратегий. Таким критерием может быть математическое ожидание некоторой гладкой функции, связанной с переменными состояния и управления, на конечном горизонте управления [2]. В настоящей работе рассматриваются возможные методы построения субоптимальных стратегий управления стохастическими объектами с использованием байесовских оценок параметров.
Постановка задачи. Рассмотрим задачу управления квазистационарным стохастическим объектом с текущим уточнением оценок параметров модели, используемой в контуре идентификации. При выработке стратегий управления квазистационарным объектом возникает необходимость периодического применения вычислительных процедур, направленных на последовательное уточнение оценок модели. Рассматриваемые управляющие стратегии основываются на предположении, что замкнутый контур управления с соответствующими возмущениями позволяет получать информацию о неизвестных параметрах, достаточную для реализации схем адаптации. Для большинства реальных квазистационарных технических систем такое допущение является приемлемым. На рис. 1 представлена обобщенная структура контура управления стохастическим процессом S с помощью цифрового регулятора R, который вырабатывает
0 0 I U (1), U (2)
последовательность векторных управлений
Целью управления является достижение
наилучшего в некотором смысле соответствия между действительной траекторией управляемых величин
0 0
уг и их желаемой траекторией w. Кроме управляемых величин уг в контуре могут присутствовать
0
периодически измеряемые (наблюдаемые) вспомогательные величины ур, знание которых может
0
способствовать повышению качества управления, а также измеряемые внешние возмущения V, характеризующие воздействие внешней среды на управляемый процесс.
Рис. 1. Обобщенная структура контура управления стохастическим процессом S
Множество всех наблюдений измеряемых величин (в том числе и внешних возмущений), значения
00
которых могут быть использованы для расчета входа «(к, но еще не используются для расчета
0
будем обозначать У (к) и называть выходом процесса.
Введем следующие упрощающие обозначения для выходов:
u (к) ,
о (к) Г о 1 Г о о (к-1)
y = 1 Уа)-1 = 1,2Д. -к Ы У (k), У
0
и аналогичные обозначения для входов и. Первому наблюдению процесса присвоим временной индекс к = 1, а последнему интересующему нас наблюдению индекс к = N.
Поставим задачу определения стратегии управления, являющейся оптимальной в некотором вероятностном смысле, для модели процесса, которая позволяет определить плотность вероятностей
Р{у (Юи (Ю) (1)
Г (к-1) (к-1) 1
при известных значениях выходов и входов I у, и Г.
Адаптивное оценивание параметров модели процесса. Используя цепное правило [1] и обозначив хк = У (к), и (к) г, плотность (1) можно записать следующим образом
Р (У^), и*)) = ПР (У (к) |У (к-1), и (к)) • Р (и (к) |у (к-1), и (к-1)). (2)
к=1
Интерпретируем плотности вероятностей в правой части уравнения (2). Плотность
Р (и (к) |у (к и (к !)) отражает преобразование между известными значениями входов и выходов
Г (к-1) (к-1) ] о
I у, и г и последующим входом процесса и (к), и может служить вероятностным описанием
стратегии управления, применяемой для формирования входа и (к). Плотность Р (У (к) у (к-1), и (к)) случайную трансформацию, реализуемую управляемым процессом с заданной наблюдательной способностью. Система условных плотностей
№(к)| у (к-1), и (к-1)) — к = 1,2,…, N} (3)
является, таким образом, полным вероятностным описанием рассматриваемого процесса [3].
Отметим, что в случае измеряемых внешних возмущений можно модель процесса разделить на две
0
модели: непосредственно модель процесса и модель внешних возмущений. Под внешним возмущением V будем понимать величину, изменение которой во времени не зависит от текущих и предыдущих значений остальных величин процесса. В этом случае справедливо равенство:
Р^к)|Уs (к), у (к-1), и (к)) = Р^) |v (k-1)). (4)
о Г оо
Так как У (к) = I ys (к), V (k) Г (рис. 1), то плотность (3) можно описать с помощью основной зависимости
следующим образом:
Р (У (к)| у (к-1), и (к-1)) = Р (V (к) откуда (с учетом (4)) следует:
У*(к), У (к-1), и (к))• Р{у& lt-к) У (к-1), и (к)), (5)
Р (У (к)| У (к-1), и (к)) = P (V (к)
'-(к-1))• Р (у^(к) У (к-1), и (к)). (6)
Первая плотность в правой части (6) является обобщенным вероятностным описанием изменения во
о
времени наблюдаемого внешнего возмущения V и ее можно задать самостоятельной моделью. Условная
о
плотность для Ух характеризует свойства управляемой системы. Очевидно, что параметры этих двух моделей можно оценивать раздельно.
Одной из основных характеристик условного распределения вероятностей с плотностью (6) является
л
его среднее значение У (к):
Л „(к-1) и (к)
У (к) = /(к)(У (к-1), и (к)). (7)
0
Если мы предположим, что п -мерная случайная величина ук) имеет нормальное распределение со
Л
средним значением У (к) и невариационной матрицей Я, то
где в правой части вектор У (к, является вектором-столбцом, а верхний индекс Т означает символ транспонирования.
Если можно предположить, что случайная величина У (к, зависит лишь от п предыдущих значений входов и выходов, то функция (7) определится следующим образом:
Л
у (к) = /(к)(и (к), У (к-1), м (к-1),…, и (к-п), и (к-п)),
а если она является линейной и не зависит от времени, то получим:
Л п п
У (к) = X АУ (к-,¦) + X Ви (к-г) + С (9)
1=0 г=0
где А, В, и С являются матрицы констант соответствующей размерности. Зависимость (9) задает дискретную модель, описывающую динамику рассматриваемой системы. При оценивании множества неизвестных параметров модели процесса по результатам измерений, то есть по известным значениям выходов и входов вплоть до некоторого момента времени к включительно
О (к) ={ У (к), и (к)}, (10)
необходимо определить плотность вероятностей Р (к|о (к)). Используя цепное правило, можно получить следующую зависимость:
Р (Я“!) к)= П Р (У (г) Кг ^ 0−1), к)• Р (и,) |О (г ^к). (11)
г=к1 +1
Способность предсказания выхода процесса является основной предпосылкой целенаправленного управления.
Зависимость, осуществляющая трансформацию неопределенности параметров в одношаговую предикцию, определяет, при каких условиях могут быть неизвестные параметры просто заменены их
0
максимально правдоподобными точечными оценками. Если распределение вероятностей к
Л
сконцентрировано около точечной оценки к (к) так, что плотность вероятностей, рассматриваемая как функция к для конкретных У (к+1) и ик+1), является относительно плоской в области, которая нас интересует, то можно считать корректными следующие байесовские зависимости:
Р (У (к+1) |и (к+1), О (к)) * Р (У (к+1) |и (к+1), О (к), к) '-(Х (к)|О (к))= Р (У (к) и (к^ к 1), Х (к)Р (Х (к)
к Л (к), (12) к=к
о (к-1))
(13)
Р (У (к) |u (k), о (к-1)) '-
0
Операцию (13) можно интерпретировать как снижение неопределенности величины Х (путем
0
наблюдения нового значения выхода У (к). Рекуррентные зависимости (12) и (13) дают обобщенный подход к решению проблемы оценивания состояния стохастической системы в замкнутом контуре управления и позволяют осуществлять пересчет модели состояния процесса с помощью одношагового предиктора, необходимого для управления выходом.
Оптимизация управления. Предлагаемый метод дает подход, принципиально решающий проблему оптимального управления для рассмотренной модели процесса, позволяющий определить систему условных плотностей вероятностей.
Предположим, что существует возможность наблюдения рассматриваемого процесса для
к = 1,2,…, к0 + N, где N — конечное число. Перед расчетом управления надо иметь в распоряжении следующие данные (значения входов и выходов процесса):
°(к°} ={М (1), У (1),…, U (ко), У (ко)}.
Для любой рандомизированной стратегии управления в рассматриваемом интервале управления модель процесса позволяет определить условную плотность распределения вероятностей
к0+N
p (d^D (ко)) = п P (У (к)h»,^-1))• P («(к)К-1)). (14)
к=к0+1
Критерий представим квадратичным критерием со штрафом на приращение входов:
к0 + N
«D0 +N))= X (yrKk)Qryr (к) +Ам (Гк)QuА"(к)), (15)
к=к0+1
где множество управляемых величин уг (к) упорядочено в вектор-столбец- Qr и Qu — положительно определенные весовые матрицы соответствующей размерности и Аи (к) = U (к) — и^к_j).
Можно показать, что оптимальная стратегия является детерминированной, то есть оптимальные
о
входы u к = к0 +1,…, к0 + N являются детерминированными функциями предшествующих выходов и входов и определяется рекурсивным функциональным равенством вида:
фф) (D (к-1)) = opt[ффк+D (D (к) +"(к) (D (к)))]р (yк) |"(к), D (к-1))dy (k), (16)
и (к)
где opt означает минимум или максимум в соответствии с конкретным видом критериальной функции (15). Рекурсия (16) реализуется в направлении уменьшения временного индекса, то есть для
к = к0 + N, к0 + N -1,…, к0 +1 с начальными условиями ф*ко +N+i) = 0, а и*к) (d1^ 1)1) является функцией, для которой правая часть (16) достигает своего абсолютного оптимума [4].
Описанный метод близок к динамическому дискретному программированию, но является более общим в том смысле, что не предполагает существования конечного состояния.
Выводы. Рассмотренная адаптивная система, основанная на использовании стохастических моделей с байесовским оцениванием параметров, может быть реализована при управлении скалярными и многомерными объектами, для которых является невозможным или затруднительным оперативное оценивание параметров модели объекта цифрового управления на основе традиционных методов. Перспективным представляется развитие теоретического обоснования предложенного подхода и тестирование полученных результатов для различных типов стохастических систем.
ЛИТЕРАТУРА
1. Peterka V Bayesian approach to system identification / In: Trends and progress identification / Ed. by Eyknoff. -Oxford: Pergamon Press, 1981. — P. 239 304.
2. Karny M., Hangos K. One-sided approximation of Bayes rule // Kybernetika. -1988.- №.5. -P. 321−339.
3. Lying L. Recursive technique for identifying dynamic systems // Proc. of the Annual Control Conference. -Indiana, 1985. -P. 1−11.
4. Бодянский Е. В., Удовенко С. Г., Ачкасов А. Е. Субоптимальное управление стохастическими процессами. — Харьков: Основа, 1997. — 140с.
УДОВЕНКО Сергей Григорьевич — доктор технических наук, профессор, профессор кафедры электронных вычислительных машин ХНУРЭ.
Научные интересы — управление стохастическими процессами, методы вычислительного интеллекта.
ШАМРАЕВ Анатолий Анатольевич — к.т.н., доцент, доцент кафедры электронных вычислительных машин ХНУРЭ.
Научные интересы — нейро-нечеткое управление, разработка и оптимизация микроконтроллерных систем.

ПоказатьСвернуть
Заполнить форму текущей работой