Воспроизведение поведения человека, перестройка системы управления на примере обхода препятствий при попутном движении

Тип работы:
Дипломная
Предмет:
Программирование


Узнать стоимость

Детальная информация о работе

Выдержка из работы

Введение

При управлении подвижными объектами различного класса, такими как наземный городской транспорт, летательные аппараты при маловысотном полете, речные и морские суда, возникает проблема обеспечения безопасности движения при встрече с различными препятствиями. Существующие методы автоматического управления позволяют синтезировать структуры линейных регуляторов в аналитической форме, однако они не дают оценки степени риска при опасном сближении с препятствием.

Между тем при ручном управлении человек испытывает реальные ощущения нарастания тревоги в случае недопустимого снижения безопасности движения, что вызывает последующую перестройку способа обхода препятствий. Поэтому целью настоящей работы являет воспроизведения поведения человека путем количественной оценки текущего риска в движении с помощью предложенной системы контроля и, главное, последующей перестройки системы управления на примере обхода препятствий при попутном движении.

1. Специальная часть

1.1 Анализ функционирования известных систем управления движением

Функционирование систем управления безопасным движением речным транспортом невозможно без автоматического контроля за безопасным движением и применения САУ в аварийных критических ситуациях. Поскольку в речном флоте в настоящее время используется ручное управление, то основные принципы автоматического управления можно заимствовать из достигнутого опыта в авиации.

Одно из похожих задач автоматического управления является управление воздушным движением при попадании самолетов на заданную линию пути во время захода на посадку.

В ряде важных практических случаев оживленного воздушного движения при подлете к аэродрому возникает необходимость принятия авиадиспетчерской службой ответственных решений по введению воздушных судов в каждый из разрешенных воздушных эшелонов, имеющих заданную линию пути, или в решении о временном отказе в обслуживании и команды об уходе на повторный круг. К таким случаем относится, в частности, ситуация внезапного изменения условий посадки на различные ВПП по метеорологическим или техническим причинам.

Другим случаем является приближение судов с аварийно низким запасом топлива или возможными техническими отказами борта, что требует внеочередного обслуживания при одновременном стремлении уступить им место судами с нормальным состоянием.

Это означает, что в состав координат текущего состояния судна, помимо оценки его положения в пространстве должно входить, по крайней мере, значение оставшейся части топлива, необходимого на дополнительное маневрирование.

Таким образом, естественно, указать в текущий момент времени очередность или приоритет в обслуживании каждого судна и последовательно вводить их в заданных эшелон, проверяя при этом возможность соблюдения гарантированной безопасности полета.

В данной работе этот подход предложен, реализовать путем вычисления динамических приоритетов в виде некоторых количественных оценок, учитывающих удаленность воздушного судна от заданной трассы, ожидаемую его близость к судам, движущимися уже в эшелоне, также от курсового угла и оставшегося запаса топлива. При этом, если очередной приоритет мал, то это означает существование такого риска несоблюдения безопасности совместного движения в эшелоне, при котором происходит отказ от попытки введения судна в эшелон и дается команда ухода на повторный круг.

Постановка задачи.

Рассмотрим решение задачи назначения динамических приоритетов при следующих допущениях:

1. Рассматривается задача введения воздушных судов на заданную линию пути, при их безопасном заходе на посадку, как это показано на рис. 1. При этом анализируется только горизонтальный полет на заданной постоянной высоте.

Рис. 1. Картина выведения воздушных судов на заданную линию попутного движения при заданной дистанции безопасности x = 6 км

2. В данной работе решается задача управления полетом при одной заданной линии пути, поскольку полученные результаты легко рассматриваются на несколько линий пути при заданном множестве ВПП на различных соседних аэродромах.

3. Каждое судно (ЛА) характеризуется в текущий момент времени вектором состояния, характеризуемым координатами:

— кратчайшим расстоянием х1 от ЛА до линии пути;

— минимальным расстоянием х2 до ближайшего в эшелоне судна, уже находящегося на заданной линии пути;

— курсовым углом х3 отсчитываемым по отношению к заданному курсу линии пути;

— потраченным запасом топлива х4, предусмотренным для выполнения дополнительных маневров, для обеспечения безопасных дистанций от соседних ЛА в эшелоне.

Каждая из трех координат х1, х2, х3 — знакопеременная, координата х4 неотрицательная.

4. Положение Л А к положению к точке принятия окончательного решения характеризуется пятой координатой D — расстояние между ними, но в данной работе ввиду удаленности ЛА от аэродромов в период входе в эшелон этот параметр пока не учитывается.

5. В качестве постоянных параметров принимаются, как известные скорость полета V, максимальное допустимое боковое ускорение, а при разворотах, минимальная дистанция r безопасного движения судов в эшелоне и запас топлива, отведенной на маневрирование и определяющий оставшейся на последующие действия запас топлива как (-х4). В частности, принято V=0.1 км/сек, а=1 м/сек*сек, r=6 км.

6. Принимаемое окончательное решении относится к одной из двух альтернатив (j=1,2)

— При j=1 принимается решение о введении ЛА в воздушный эшелон, если соответствующий ему риск невелик.

— При j=2 дается команда об уходе ЛА на повторный круг, если существует угроза возникновения аварийной ситуации в воздухе из-за опасного сближения судов.

7. Каждая из координат хi текущего состояния ЛА меняется в соответствии с известными дифференциальными уравнениями движения, описывающими динамику полета. При этом для простоты каждой координате хi соответствует одно дифференциальное уравнение. Эти дифференциальные уравнения имеют следующий вид.

Для координаты х1 принято

(1)

В данной работе ориентировочно было принято Т1=90 сек, Т2=180 сек.

Формула (1) показывает, что при «втягивании» ЛА на линию пути воздушное судно апериодически постепенно стремится обеспечить безопасную дистанцию r, при этом постоянная времени 12) апериодического процесса есть время Т2 попадания ЛА на саму линию пути плюс время Т1 ускоренного движения по линии пути до точки 1+r), имеющей безопасное расстояние r до соседнего ЛА0 (см. рис. 1)

Для координаты х2 принято

(2),

Где Т0> T2 — время движения ЛА на повторном круге.

В данной работе это время было принято равным Т0=2ПV.

Координата х3 курсового угла стремится к нулю (к курсу заданной линии пути) примерно с той же динамикой, что и в (2).

(3).

Расход топлива для обеспечения полета должен определяться с учетом того, что на самой линии пути изменение дистанции между летящими ЛА осуществится на форсированном режиме тяги двигателей, при этом расход увеличится в (l+) раз, а «скорость догона» одного ЛА по отношению к соседнему ЛА будет лишь V. Поэтому в первом приближении можно записать

(4),

где w0 — заданная скорость расхода топлива в обычном режиме работы двигателя, в частности при уходе на повторный круг.

В данной работе принято, что соответствует также повышению скорости полета по линии пути на 20% для увеличения безопасной дистанции.

8. Одним из наиболее важных допущений является выбор интегрального критерия оптимальности управления воздушным движением, который должен в свертке оценивать одновременно безопасность и экономичность полета. В данной работе в качестве такого критерия принят минимум интегрального функционала, который учитывает как штрафные нежелательные отклонения х2 от линии пути и снижение дистанции х1 между соседними ЛА на самой линии, так и опасные чрезмерные затраты топлива х4 на маневрирование, что в целом позволяет предложить следующую модель критерия

(5)

Поясним формулу (5). При j=1, т. е. при «втягивании» ЛА на линию пути, в каждый момент времени штрафуются квадрат отклонения от безопасной точки, квадрат отклонения от линии пути и относительный расход топлива. Чем меньше эти слагаемые, тем лучше и тем быстрее ЛА войдет в эшелон с малыми затратами топлива.

Нужно сразу заметить, что правильность назначения самих весомых коэффициентов k1, k2, k3 всегда вызывало дискуссию в теории и практике оптимального управления. В данной работе было принято пойти по пути неизменного достижения заданных гарантированных дистанций между ЛА безопасного движения, поэтому фактически штрафуется время, а значит израсходованное топливо для достижения нужной полетной ситуации, что очень важно.

При j=2 отклонения х1 и х2 от линии пути при полете по повторному кругу значения не имеют, но есть опасность пересечения полета с траекториями движения других судов.

Чем больше радиус R= этого круга по сравнению с дистанцией r безопасного движения, тем хуже, поэтому функцию введена величина L штрафов встречи с другими судами, равная

Кроме того ввиду большого времени полета по повторному кругу в формулу (5) введено дополнительное слагаемое, имеющее существенную поправку при

Отдельно заметим, что фактически штраф за пересечение траекторий полета пока не рассматривается, а учитывается лишь в среднем значении L. Затем в полученных ниже выводах предлагается при фактической встречи двух судов нужным образом понижать динамический приоритет этой пары и проводить планирование полетов повторно.

1.2 Анализ известных методов синтеза законов управления

1.2.1 Динамическое программирование

Метод динамического программирования, разработанный в 50-х годах американским математиком Р. Беллманом, представляет собой новый подход к решению вариационных задач. Идея этого подхода состоит в том, что оптимальное поведение рассматривается как функция состояния системы, описываемого с помощью значения фазовых координат в текущий момент времени t. Беллман очень точно подметил связь между причинностью и оптимальностью для динамических систем в том смысле, что если изменение состояния любой динамической системы под воздействием входного управляющего сигнала можно описать функциональным уравнением, характеризующим причинность

то у оптимальной системы для описания изменения ее состояния, характеризуемого некоторой функцией как степень достижения подавленной цели, существует по аналогии такого же типа функциональной уравнение лишь с той разницей, что достигается минимум или максимум целевой функции при выборе управления:

При этом выбор управления на отдельном шаге производится с точки зрения интересов не только данного шага, но и всего процесса в целом, как на текущем, так и на всех последующих шагах.

Исходя из этого, Беллманом был сформулирован принцип оптимальности, каковы бы ни были начальное состояние и начальное управление, последующие управления должны быть оптимальными относительно состояния, являющегося результатом применения первого управления. Принцип оптимальности можно также сформулировать следующим образом: оптимальное поведение не зависит от предыстории системы, а определяется только начальным (к данному моменту времени) условием и конечной целью, и текущее управление должно выбираться с учетом последствий в будущем. Классическим примером оптимального поведения является стратегия бегуна на дальнюю дистанцию. На старте бегун составляет график своего бега так, чтобы пройти дистанцию за минимальное время. Это не значит, что каждый участок он должен бежать как можно быстрее. Наоборот, находясь на дистанции, он в каждый момент времени должен распределять свои силы так, чтобы с учетом своего состояния пробежать оставшийся участок за минимальное время, чему может соответствовать и бурный финиш в конце дистанции.

Динамическому программированию органически присуще решение задач, дискретных по своей природе в силу рекуррентности последовательного выбора управления в многошаговой процедуре оптимизации. Заметим, что принцип оптимальности справедлив как для непрерывных детерминированных, так и для стохастических процессов управления, благодаря чему динамическое программирование может широко применяться в ряде кибернетических задач.

Несмотря на кажущуюся простоту принципа оптимальности из него можно вывести ряд нетривиальных условий оптимальной траектории.

Дискретная форма динамического программирования.

Изучение метода начнем с решения одномерной задачи, когда управляемый автономный одномерный объект описывается либо в дискретной форме

либо в дифференциальной формекоторой соответствует разностное уравнение

где u — ограниченное в общем случае управление, т. е.

; -- Дискрет времени, равный.

При заданном начальном состояний объекта и свободном правом конце необходимо за фиксированное время обеспечить минимум заданного функционала

или в виде аддитивной целевой функции

Таким образом, J есть функция (к + 1) выбираемых переменных, присутствующих в (к +1) уравнениях связи, т. е. можно попытаться решить задачу с помощью множителей Лагранжа. Однако это сложно из-за большой размерности задачи, поэтому применим иной подход.

Выведем сначала функциональное уравнение Беллмана [11], рассуждая следующим образом. Пусть минимизируемое значение функционала J в начальный момент времени определенным образом зависит от начального состояния системы, т. е. от и х (). Обозначим эту зависимость через, называемую функцией Беллмана, понимая под этим не любое значение функционала, а его минимум при оптимальном поведении системы.

Представим теперь, что система функционировала некоторое время, в результате чего к моменту она пришла в новое состояние. Тогда, согласно принципу оптимальности, оставшееся значение минимизируемого функционала

как результат последующих оптимальных действий есть также функция Беллмана, но уже зависящая от новых значений и. Теперь осталось связать функции и, друг с другом, представив последствия от выбираемого управления в промежуток времени в виде двух слагаемых -- потерь внутри данного шага и потерь на всех последующих шагах вплоть до конца решения задачи, зависящих от и, потому что последствия в будущем определяются новым состоянием, которое согласно формуле (3. 1) описывается выражением

Поэтому, преследуя цель минимизации суммарных потерь, как текущих так и последующих, можно записать

Рассуждая аналогичным образом при переходе к следующему шагу от момента к моменту и т. д. к моменту, можно записать следующее функциональное уравнение:

Развивая этот же подход применительно к многомерному неавтономному объекту, можно получить функциональное уравнение Беллмана:

Пошаговый выбор управления с помощью уравнения (1. 5) удобен для расчетов на ЭВМ. В этом случае численное решение обычно осуществляют с правого конца задари. Поскольку краевые условия на правом конце не определены однозначно, то расчеты начинают, задавшись множеством значений вектора, разбивая, например, диапазон возможных значений на R- 1 участков. В результате для каждого из вариантов конечного состояния определяется единственное управление на последнем шаге (в предположении, что управления на остальных шагах будут найдены позже), поскольку при заданном только от него зависит последнее слагаемое в функции (1. 3):

Эта операция проводится также численно, например путем разбиения каждого из диапазонов возможных значений и на (М-1) участков, что образует вариантов управления. Результаты наилучшего варианта запоминаются, а именно для каждого из вариантов фиксируются три величины -- вектор состояния, оптимальное управление и минимум целевой функции. Таким образом, в памяти ЭВМ хранится чисел.

На следующем шаге, являющемся уже типичным для расчетов, снова формируются варианты состояния, а затем для каждого из них численно определяется управление, но уже исходя из минимума суммы двух слагаемых, причем второе слагаемое отыскивается в памяти ЭВМ в соответствии с переходом из B;

где,

Результаты расчета для нового шага также запоминаются в ЭВМ. Эта процедура повторяется, двигаясь от конца к началу для всех шагов, кроме первого. При этом необходимый объем памяти непрерывно растет. Наконец на первом шаге, воспользовавшись единственным вариантом заданного начального состояния, численно определяют оптимальное управление, но именно ради этого необходимо было запомнить итоги оптимизации на втором шаге, а это приводит к необходимости помнить результаты на предыдущих шагах.

Теперь, поскольку управление найдено и, значит, определено значение, представляющее собой минимизируемое значение функционала, осталось выявить конкретные значения, соответствующие данной оптимальной траектории. Для этого на основании уравнения (1. 7) и известного управления определяется состояние, которому соответствует свое запомненное управление. Продолжая теперь движение слева направо, последовательно восстанавливают всю программу управления и оптимальную траекторию за все к шагов.

Рис. 2. Иллюстрация численного решения с правого конца задачи при дискретной форме динамического программирования

Рассмотренным методом решаются задачи, когда на правом конце часть фазовых координат закреплена. Например, на рис. 2 представлен случай перехода из точки, А в точку В с произвольной конечной скоростью; Тогда движение справа налево, как это показано на рис. 2, при к=3 требует переменного объема запоминаемых результатов, поскольку по координатам и вначале оценивается малое число вариантов, а потом число растет, вплоть до момента достижения точки А. При этом основное содержание расчета на каждом шаге остается прежним.

Нужно отметить, что, несмотря на определенную утомительность рассмотренной вычислительной процедуры, метод динамического программирования сводит задачу минимизации функции переменных отдельным шагам расчетами минимизации функции Беллмана, зависящей только от г переменных. Это экономит время расчета, требуя, правда, значительного объема памяти ЭВМ. Достоинством метода при численных расчетах является также и снижение объема вычислений при сужении области допустимых управлений или допустимого множества значений. Однако с увеличением размерности задачи дискретизация увеличивает число вариантов расчета запоминаемых результатов в степени п, что известно как «проклятие размерности», и требует иных подходов к применению динамического программирования.

Непрерывная форма динамического программирования

Принцип оптимальности Беллмана дает достаточно общее условие, которое можно применять как для дискретных, так и для непрерывных систем управления.

Рассмотрим следующий предельный случай, когда дискретность времени бесконечно мало, т. е. Обратимся к функциональному уравнению Беллмана для одномерного объекта, заменив в нем дискретный момент времени (на текущее время) и согласно (1. 2) и (1. 3) функции и соответственно на и. Тогда можно получить выражение

При этом функция S во втором слагаемом правой части уравнения также имеет бесконечно малые приращения. Допустим, что функция Беллмана S непрерывна и, кроме того, существуют частные производные. Тогда можно разложить функцию ряд Тейлора в точке (х, t) и, пренебрегая членами второго порядка малости, получить

Заметим, что последнее слагаемое может быть учтено, если переменная х (t) есть случайный процесс, в котором присутствует составляющая типа белого шума с бесконечно большой дисперсией D, равной где -- коэффициент диффузии. Подставим полученный результат в правую часть уравнения (1. 8). С учетом того, что функции и от управления на зависят как результаты уже проведенной оптимизации и могут быть вынесены за фигурные скобки, уравнение (3. 8) можно представить в виде

Перенеся первые два члена в левую часть, разделим уравнение на:

Последними двумя слагаемыми при можно пренебречь из-за их малости. Тогда с учетом случайного характера оптимизируемого процесса получим уравнение.

.

Если рассматривать детерминированный случай при и, наконец, исследовать поведение системы с п координатами и r управлениями, то можно получить известное уравнение Беллмана в частных производных

Очень важно подчеркнуть, что уравнение Беллмана (1. 10) является нелинейным дифференциальным уравнением, поскольку в нем присутствует операция минимизации. В векторной форме его можно записать так:

где,

Поясним теперь смысл слагаемых, входящих в правую часть уравнения (1. 10). Первое слагаемое характеризует потери на текущем шаге, второе слагаемое в виде суммы членов оценивает последствия от принятого решения в будущем. Причем каждый член учитывает изменение текущего состояния по координате, возникающее за счет управления, с помощью производной, которая умножается на свой весовой коэффициент. Таким образом, производные есть своего рода «коэффициенты чувствительности» оставшегося значения минимизируемого функционала к изменениям текущих значений фазовых координат. Это соображение иллюстрирует дальновидность метода и оживляет представление о функции Беллмана как о некоторой функции отклика критерия оптимальности на измененные вектора состояния. Часто в технических задачах можно физически уяснить себе характер зависимости функции S от фазовых координат системы. Поэтому удается найти управление в функции от состояния фазовых координата, что позволяет прийти к замкнутой системе управления с обратной связью и тем самым ускорить решение задачи, что будет показано ниже в примерах.

С помощью динамического программирования можно решать задачи и с незакрепленным временем управления. В частности, для автономных систем можно получить уравнение Беллмана в виде

где функция от времени не зависит. Для задач максимального быстродействия в уравнении (1. 11) нужно ввести замену.

В заключение отметим, что вывод уравнений (1. 10) и (1. 11) требовал дифференцируемости функции S. Однако существуют задачи, где эта функция не является дифференцируемой, а оптимальное управление существует. Поясним на примере, что на линии переключения функция S всегда не дифференцируема.

Связь динамического программирования с вариационным исчислением и принципом максимума

Метод динамического программирования носит более универсальный характер, чем методы, основанные на принципе максимума и вариационном исчислении, поскольку он был разработан для оптимального управления процессами, не обязательно описываемыми системой дифференциальных уравнений. Вместе с тем этот метод не имеет строгого обоснования в ряде случаев по сравнению с принципом максимума и вариационным исчислением, хотя и тесно связан с ними.

Связь метода динамического программирования с вариационным исчислением. Пусть целевая функция зависит от скорости изменения фазовых координат. Тогда уравнение (3. 10) можно записать в виде

Продифференцируем уравнение (1. 12) по с учетом того, что функция Беллмана от не зависит:

Затем запишем полную производную по t:

Продифференцируем теперь уравнение (1. 14) по;

Вычитая из полученного результата предыдущее уравнение, приходим к уравнению Эйлера в вариационном исчислении

Заметим это соотношение было получено в предположении о непрерывности частных производных второго порядка.

Пусть теперь граничное условие задачи в конечный момент времени есть соотношение [8]

Тогда с учетом равенства (1. 13) получим из (1. 12) следующее соотношение, идентичное условию задачи с подвижным концом в вариационном исчислении:

Кроме того, можно убедиться, что уравнение (1. 13) есть необходимое условие минимума для выражения в правой части (1. 13), поскольку, во-первых, уравнение (1. 13) есть частная производная от этого выражения по, приравненная к нулю. Во-вторых, дифференцируя по уравнение (1. 13) вторично и учитывая равенство нулю производной от первого слагаемого, получаем еще одно необходимое условие минимума, состоящее в положительной определенности матрицы частных производных второго порядка, что совпадает с условием Лежандра в вариационном исчислении.

Можно также показать [8], что если экстремум в точке совпадает с абсолютным минимумом, т. е.

то это соответствует известному условию Вейерштрасса.

Связь метода динамического программирования с принципом максимума. Геометрическая интерпретация динамического программирования. Связь с функцией Ляпунова. Классическое описание данной взаимосвязи строится на том, что из уравнений динамического программирования при определенных допущениях выводятся результат ты, соответствующие принципу максимума [9, 10]. Основной смысл этих сопоставлений состоит в том, чтобы показать, что для применения динамического программирования нужны излишне жесткие требования, связанные с существованием непрерывных частных производных. Действительно, если для задачи с закрепленным временем ввести (п + 2)-мерную вектор-функцию

то уравнение Беллмана (1. 10) можно записать в виде [7]

или тах, что соответствует принципу максимума, если ввести функцию.

Если рассмотреть задачу максимального быстродействия, то, воспользовавшись уравнением (1. 14) для автономных систем и продифференцировав его по, получим

Первое слагаемое можно преобразовать, учитывая очевидное соотношение

откуда получаем следующий результат:

Видно, что в оба слагаемых входят одни и те же функции которые мы теперь «обозначим через.

Тогда условие (1. 14) для оптимального процесса приобретет вид,

что сразу же позволяет левую часть этого равенства обозначить через гамильтониан Н, а из соотношения (1. 15) получить используемую в принципе максимума систему дифференциальных уравнений относительно вспомогательных переменных

Таким образом, результаты динамического программирования и принципа максимума совпадают, если ввести обозначения

или в векторной форме.

Рис. 3. Геометрическая интерпретация динамического программирования в задаче максимального быстродействия.

Это позволяет дать следующую геометрическую интерпретацию динамического программирования. На рис. 3 представлены поверхности изохрон S = const для задачи максимального быстродействия, причем величина S, по смыслу равная оставшемуся минимизируемому времени убывает по мере приближения к конечной точке, т. е.

При этом движение должно осуществляться в направлении убывания функции S, т. е. в направлении, противоположном ее градиенту внутрь изоповерхностей S = const. Из физических соображений очевидно, что движение вдоль нормали -- самое быстрое по времени, так как движение вдоль изоповерхности не дает приближения к конечной точке.

С помощью функции Беллмана S можно дать и другую трактовку процессу ее убывания, связав ее с функцией Ляпунова.

Действительно, если целевая функция положительно определена,

то, выразив уравнение (1. 12) в виде

или

видим, что функция S есть функция Ляпунова.

Значит, если функция S положительно определена, то оптимальная система обладает еще одним замечательным свойством -- она асимптотически устойчива, что особенно важно для нелинейных систем.

Отличие динамического программирования от других методов состоит в том, что если принцип максимума есть необходимое условие оптимальности, то уравнения динамического программирования при соблюдении всех требуемых допущений понимаются как достаточное условие. Необходимо также подчеркнуть, что в принципе максимума переменные мыслятся как функции времени, а в динамическом программировании это функции от фазовых координат, характеризующие чувствительность минимизируемого значения функционала к изменению текущего состояния.

Формально это требует решения нелинейных дифференциальных уравнений вида (1. 9) или (1. 10) в частных производных, что так же сложно, как и решение краевых задач в принципе максимума.

Аналитическое конструирование регуляторов и применение для их синтеза динамического программирования

Поскольку динамическое программирование наиболее близко к получению оптимального управления в замкнутой форме, нужно подробнее остановиться на задаче синтеза систем автоматического управления, удовлетворяющего при существующих ограничениях требуемому качеству. Одним из направлений в этой области является разработанный у нас в стране А. М. Летовым подход, названый аналитическим конструированием регуляторов [З1], когда алгоритм управляющего устройства замкнутой системы находится аналитически в соответствии с определенным функционалом качества, соответствующим квадратическому критерию вида

Минимизация функционала (1. 16) соответствует задаче о регуляторе состояния, когда важно удерживать около нуля все компоненты вектора состояния. Возможны другие варианты удержания около нуля некоторой ошибки, представляющей собой разность между желаемым и выходным сигналами в задачах слежения [28], но смысловое содержания структуры критерия остается неизменным. Первое слагаемое характеризует терминальную ошибку в конечный момент, второе слагаемое преследует цель обеспечить малость ошибки при удерживании системы в заданном положении. Последнее слагаемое представляет «штраф за большие управления» и оценивает затрачиваемую на управление энергию.

Соответственно положительно полуопределенные матрицы М, Р и положительно определенная матрица R выбираются с учетом значимости указанных факторов, преимущественно с ненулевыми диагональными элементами, либо, по желанию проектировщика, можно положить некоторые из матриц нулевыми.

При этом, как правило, рассматривается линейный нестационарный объект, описываемый уравнениями

где на управление никаких прямых ограничений не наложено. В связи с этим для аналитического решения можно применять как вариационное исчисление, так и принцип максимума, но для получения решения в замкнутой форме воспользуемся методом динамического программирования. С учетом терминального члена функцией Беллмана S является функция

которая при не равна нулю.

С учетом (1. 16) и (1. 17) уравнение Беллмана имеет вид

При отсутствии ограничений на оптимальное управление вычислим производную от выражения в фигурных скобках и, приравняв ее нулю, получим

Поскольку матрица Д положительно определена, можно найти, во-первых, оптимальное управление

и, во-вторых, записать уравнение Беллмана без операции минимизации:

Уравнение (3. 20) можно решить при условии. Можно показать [31], что уравнение (3. 20) имеет точное аналитическое решение, которое представляет собой квадратичную форму

Где К (t) — симметричная нестационарная матрица с искомыми элементами.

Вычислив частные производные

подставим их в уравнение (1. 20):

Учитывая, что, уравнение (1. 22) можно преобразовать к виду

что соответствует равенству нулю выражения в квадратных скобках, имеющего вид системы линейных неоднородных дифференциальных уравнений с граничным условием:

Уравнение (1. 23) называется матричным уравнение Риккати, решение которого обычно находят численно на ЭВМ до начала работы системы. Оптимальному управлению соответствует в общем случае линейный закон управления с переменным коэффициентом передачи

И снова, возникает закономерный вопрос --- при каких условиях структура и параметры регулятора будут неизменны. В работах Калмана доказывается, что при М= 0 и для стационарных объектов, т. е. при постоянных матрицах А, В, К и Р, решение уравнения Риккати есть постоянная матрица К, соответствующая уравнению

В этом случае оптимальная замкнутая система является стационарной

и асимптотически устойчивой вследствие установившегося поведения при, несмотря на то, что объект управления может быть неустойчив.

1.2.2 Принципы самоорганизации в сложных динамических системах

Академиком А. А. Красовским около 30 лет назад была поставлена крупная проблема создания физической теории управления, которая «базируется на фундаменте физических законов, учете ресурсов и приоритетах реального мира [18].

Были введены такие базовые понятия, как «притягивающие инвариантные многообразия», «макропеременные», «принцип расширения — сжатия фазового пространства», которые, как оказалось, идентичны основным понятиям синергетики — теории самоорганизации, а именно: «аттракторам», «параметрам порядка» и «принципу подчинения». Более того, введенные нами понятия были исходно положены в основу синергетической теории нелинейного системного синтеза.

Эта теория была сначала обобщена в монографиях [14, 15] в форме метода аналитического конструирования агрегированных регуляторов (АКАР), а затем в монографии [4], в которой нелинейный системный синтез фактически приобрел завершенную форму в виде СТУ, построенной по схеме: «инварианты — самоорганизация — синтез», т. е. полностью в русле идеологии синергетики. В последующие годы СТУ и метод АКАР получили дальнейшее развитие применительно, в первую очередь, к решению сложных прикладных нелинейных проблем управления в машиностроении и энергетике.

На основе метода АКАР были решены нелинейные проблемы синтеза систем скалярного, векторного, разрывного, дискретного, селективно-инвариантного, многокритериального, терминального и адаптивного управлений многомерными и многосвязными объектами.

Так, метод АКАР был весьма успешно применен для синтеза базовых законов векторного управления нелинейными техническими объектами — летательными аппаратами (ЛА), роботами, турбогенераторами, теплоэнергетическими агрегатами, электромеханическими системами постоянного и переменного тока, решена важная проблема синтеза базовых законов координирующего управления пространственным движением ЛА, обеспечивающих их текущую структурную адаптацию к режимам и условиям полета.

Понятие об организации системы предполагает определенное согласование состояний и деятельности ее подсистем и составляющих элементов. Способность к адаптации путем самоорганизации основывается как на множественности элементов системы и разветвленности связей между ними, способствующих возникновению целостности, так и на наличии гибкого взаимодействия между элементами по типу обратных связей. Отрицательные обратные связи (ОС) обеспечивают стабильность функций системы, постоянство ее параметров, устойчивость к внешним воздействиям. Положительные О С играют роль усилителей процессов и имеют особое значение для развития, накопления изменений. Наличие отрицательных и положительных ОС приводит к возможности развития по некоторому закону с использованием внешних и внутренних ресурсов.

Сложная динамическая организация целенаправленной функционирующей системы требует непрерывного управления, без которого система не может существовать. Особенность этого управления состоит в том, что оно служит причиной ряда процессов в самой системе и, прежде всего процессов внутреннего саморегулирования по законам организации системы [3]. Управляющие моменты принято рассматривать в проекциях на оси связанной системы координат.

Крестообразная схема размещения управляющих органов при повороте их на угол вращения равный 45 превращается в иксообразную схему, в которой моменты тангажа и рыскания создаются согласованным отклонением всех четырех управляющих органов. Если предположить, что все управляющие органы отклонены на одинаковый угол, то развиваемый при этом момент, например, тангажа будет больше в раз, чем при отклонении на тот же угол двух управляющих органов в крестообразной схеме. Аналогичный вывод справедлив и для момента рыскания. Таким образом, иксообразная схема может быть более эффективна, особенно при отработке больших по величине возмущений. Однако, анализ зависимости моментов УО от угла вращения показывает, что разворот корпуса на определенный угол вращения приводит к увеличению момента по одной оси, но при этом управляющий момент по другой оси может значительно уменьшиться и даже стать равным нулю. При законе управления по углу и угловой скорости управляющие сигналы могут быть в виде:

,. (16)

С учетом эффективности управляющих органов и получим значения моментов и их проекции на оси стартовой системы координат

. (17)

Анализ выражения показывает, что управляющий момент по оси Z будет уменьшаться. Зависимость моментов рулей от угла вращения нарушает нормальную работу СС каналов тангажа и рыскания, приводя к взаимосвязи между этими каналами и потере устойчивости. Решение данной проблемы осуществляют либо путем изменения полосы пропускания замкнутой системы стабилизации по вращению, либо введением преобразователя координат. При использовании преобразователей координат значения управляющих моментов по осям не зависят от величины угла вращения и пропорциональны управляющим сигналам. При этом исключается возможность использовать для стабилизации заданного режима полета одновременно всех УО, путем разворота корпуса ракеты по углу вращения.

Определим, при каких значениях угла вращения возможно получить максимальный управляющий момент по углу тангажа, т. е. момент. Для чего найдем производную по третьему выражению и приравняем ее нулю.

(18)

При равенстве коэффициентов эффективности УО получим

. (19)

Проведя аналогичные вычисления, для значения управляющего момента по углу рыскания получим

. (20)

Следует учитывать, что при полученных значениях углов вращения значения управляющего момента по одной оси будет максимально, но по другой будет равно нулю. Для координированного использования управляющих органов предлагается значения угла вращения выбирать в зависимости от разности сигналов управления по каналам.

. (21)

При этом в случае равенства сигналов управления значение будет близким к нулю. При значительной разности сигналов значение будет выбираться как функция данной разности.

Для простоты реализации программное значение угла вращения может изменяться по следующему алгоритму

. (22)

При этом знак разности сигналов управления позволяет соответственно увеличить управляющий момент либо по каналу тангажа, либо по каналу рыскания. Для компенсации уменьшения управляющего момента по другой оси предлагается сигналы управления формировать в следующем виде

. (23)

Проведя определенные преобразования, можем получить значение сигнала по каждому из каналов

(24)

Аналогичные вычисления можно выполнить и для канала тангажа. Полученные выражения представляют собой преобразователь координат. Следовательно, при повороте УО на угол вращения значения управляющих моментов будут пропорциональны сигналам управления [5,6,7].

Для получения положительного эффекта, в виде увеличения максимально возможного управляющего сигнала по одному из каналов предлагается использовать алгоритм управления следующего вида

(25)

При этом можно рассмотреть три возможных варианта. В случае если возмущения по каналам тангажа и рыскания приблизительно одинаковы, то программное значение угла вращения будет близко к нулю. Следовательно, и, ,.

Для случая, когда возмущающий момент по каналу тангажа значительно больше, чем по каналу рыскания, то. Значение угла вращения может достигать 30, регулируется путем выбора коэффициента k. При этом значение произведения мало, так как — мало, и управляющий сигнал по каналу рыскания вычисляется в соответствии с выражением (12), что обеспечивает пропорциональность управляющего момента по данному каналу управляющему сигналу. Управляющий сигнал по каналу тангажа будет определяться выражением, что позволит при ненулевом угле вращения получить значение управляющего момента, превосходящее максимальное (при) на 20%. Теоретически увеличение может быть в раз, при развороте управляющих органов на угол вращения. Однако этот алгоритм более сложный.

1.2.3 Синергетические основы нелинейной теории системного синтеза

Проблема системного синтеза издавна стоит перед наукой, пройдя к настоящему времени в своем развитии этапы, как взлета, так и относительного затишья: «дни синтеза короче веков анализа». История науки показывает, что эти законы, как и многие другие, практически всегда являлись результатом догадки, прозрения и везения великих ученых. Возникает идея о своего рода синергетической генерации такого рода законов, т. е. поиска объективных закономерностей единства процессов самоорганизации и управления — нелинейного взаимодействия. Разумеется, что такая постановка научной задачи в определенной мере не традиционна, однако даже первые успешные шаги в этом направлении позволили бы указать перспективный путь выявления общесистемных естественных закономерностей различной природы. Решение этой проблемы позволит также перейти к созданию принципиально нового класса искусственных самоорганизующихся систем с ранее недостижимыми динамическими свойствами.

В этой связи и возникает фундаментальная проблема нелинейного системного синтеза, а именно: на основе известных естественных или искусственных (желаемых) закономерностей — инвариантов, отражающих соответствующие нелинейные взаимодействия, синтезировать новые, системные законы, позволяющие существенно расширить знание о соответствующей предметной области: космонавтике, пространственном движении, электроэнергетике, робототехнике, электромеханике и др. Системные законы имеют динамическую природу, что принципиально отличает их от известных «законов сохранения» физики, являющихся, как правило, статическими, т. е. описывающими лишь стационарные движения. Это означает, что системные законы включают в себя дополнительные, динамические компоненты, которые «исчезают» на стационарном движении, т. е. не наблюдаются. В этом свойстве и проявляется латентный (скрытый) характер системных законов, что ведет к возникновению неожиданных физических явлений. Отсюда вытекает возможность предсказания новых явлений и свойств соответствующих систем и, следовательно, выявления перспектив переноса естественных закономерностей на искусственные управляемые системы, обладающие принципиально новыми динамическими свойствами.

Синергетический подход в науке во многом напоминает классический системный подход, а сама синергетика имеет важные точки соприкосновения с общей теорией систем. Для синергетики, как и для теории систем, важны не поверхностные аналогии между явлениями различной природы, а достаточно строгое соответствие между всеми элементами сравниваемых систем. Такое требование означает поиск математически изоморфных законов различной физической (химической, биологической) природы. Общая теория систем изучает системы самого различного характера — концептуальные, материальные, слабо и сильно структурированные и т. д., в то время как для синергетики основным предметом исследования является самостоятельная междисциплинарная область самоорганизующихся систем. В синергетическом подходе, в отличие от общесистемного, изучаются конкретные принципы и механизмы самоструктурирования естественных и технических систем. Иначе говоря, в отличие от общей теории систем, синергетика сосредоточивает свое внимание на кооперативных, когерентных и самосогласованных процессах, возникающих в сложных нелинейных системах. Необходимо также отметить, что как для общей теории систем и кибернетики, так и для синергетики объединяющим понятием является понятие системы. В синергетическом же подходе, помимо формирования общей системной концепции — самоорганизации, обязательно учитывается конкретное физическое содержание рассматриваемых явлений и процессов. Подчеркнем два фундаментальных свойства синергетических систем — это, во-первых, обязательный обмен с внешней средой энергией, веществом и информацией и, во-вторых, непременное взаимосодействие, т. е. когерентность поведения между компонентами системы.

Дело, однако, заключается в том, что для эффективного применения идей синергетики в проблемах системного синтеза причинного способа самоорганизации было явно недостаточно и требовался новый, принципиальный шаг в понимании сущности процессов управления и самоуправления в синергетике. Новизна заключалась в переходе от непредсказуемого поведения системы по алгоритму диссипативной структуры к направленному движению вдоль желаемых инвариантных многообразий (ИМ) — аттракторов, к которым подстраиваются все другие переменные динамической системы. Это уже способ направленной самоорганизации синтезируемых систем. При таком подходе цель — аттрактор — определяет сущность процесса, а его истинное понимание состоит в самоуправлении и направленной самоорганизации в соответствии с поставленной целью. С информационной точки зрения этот способ отражает процесс рецепции информации, что на языке теории динамических систем означает перевод соответствующей системы в определенное конечное состояние независимо от ее прежнего состояния. В свойстве самоуправляемости и направленной самоорганизации нелинейных систем проявляется новый взгляд на проблему системного синтеза, видна тенденция перехода от классических методов кибернетики к современным идеям синергетики. Такой подход позволил создать новую синергетическую теорию управления (СТУ), имеющую глубокое естественнонаучное обоснование как приложение принципов самоорганизации в проблемах управления [14−20].

Основные особенности СТУ применительно к проблеме системного синтеза состоят, во-первых, в кардинальном изменении целей поведения синтезируемых систем; во-вторых, в непосредственном учете естественных свойств нелинейных объектов; и, в-третьих, в формировании нового механизма генерации ОС, т. е. законов управления. Конкретно суть этих нововведений состоит в следующем:

— целью функционирования синтезируемых систем является достижение целевых аттракторов — асимптотических пределов в их пространстве состояний, отражающих желаемые технологические режимы систем;

— целевые аттракторы и ИМ отражают физическую сущность процессов, протекающих в соответствующем объекте. Эти многообразия формируются на основе желаемых технологических инвариантов;

— введение в процедуру синтеза ИМ позволяет построить регулярный механизм аналитической генерации естественной совокупности отрицательных и положительных ОС, которые формируют процессы направленной самоорганизации в синтезируемых системах (рисунок 10).

Рис. 4 «Принцип „расширения — сжатия“ пространства состояний систем»

Стратегия управления направленными процессами самоорганизации в синтезируемых диссипативных системах состоит в формировании и поддержании внешне и внутрисистемных динамических инвариантов. В зависимости от поставленных целей вводимые инварианты могут быть постоянными или изменяющимися, что соответственно означает стабилизацию динамического режима системы или же переход ее в новое динамическое состояние. В первом случае, говоря биологическим языком, системные инварианты реализуют «стабилизирующий», а во втором -- «динамический» отборы. Другими словами, целенаправленное формирование динамических инвариантов позволяет осуществить направленный способ самоорганизации систем. Для применения идей синергетики в теории управления необходимо выдержать концептуальное соответствие основным свойствам самоорганизации: нелинейность -- открытость -- когерентность. Из них первостепенным в концептуальном плане для задач управления является открытость систем.

В соответствии с теорией АКАР законы управления обеспечивают обязательный перевод ИТ системы из произвольного начального состояния в окрестность заданного многообразия или пересечения многообразий. Размерность подпространства этих многообразий, куда попадет ИТ в результате действия указанных законов управления, равна -- для скалярного или-- для векторного управлений соответственно. Выше была установлена тесная связь многообразий и с инвариантными соотношениями в механике, технике и вообще в естествознании.

Возникает важный вопрос о направлении и свойствах дальнейшего движения ИТ вдоль указанных многообразий под действием синтезируемых управлений. Другими словами, необходимо разработать общий принцип такого деформирования фазового пространства динамической системы под действием внутренних управлений, при котором ИТ могла бы пройти «вглубь» подпространства многообразий или с последующим попаданием в начало координат или на заданное финишное многообразие согласно основной задаче управления.

В предыдущих разделах уже обсуждалась постановка основной задачи синтеза замкнутой системы, которая в общем виде обычно ставится как определение такого закона управления в функции координат состояния, который переводит изображающую точку (ИТ) объекта n-го порядка произвольного начального состояния в заданное конечное состояние, например в начало координат фазового пространства.

Подчеркнем тот очевидный факт, на который почему-то редко обращают внимание, что в начальный момент t = 0 ИТ находится и пространстве размерности n, в конечный же момент, т. е. после завершения процесса управления, ИТ попадает в точку с нулевой размерностью. Это означает, что под действием управления ИТ постепенно переходит из исходного пространства размерности n в подпространство размерности затем, и т. д. вплоть до одномерного многообразия, двигаясь вдоль которого на финишном участке ИТ и попадает в начало координат фазового пространства. Другими словами, под действием непрерывного управления происходит постепенное сжатие объема фазового потока, в котором движется ИТ объекта.

Рис. 5 «Постановка проблемы синергетического синтеза систем»

ПоказатьСвернуть
Заполнить форму текущей работой