Чисельне розв'язання задач оптимального управління
Виконаємо дискретну апроксимацію даної задачі. Для цього розіб'ємо відрізок точками, і будемо обчислювати значення цільового функціонала і закону руху тільки в точках розбиття, ,. Закон руху в цьому випадку можна записати у вигляді: Обмеження на керування введемо далі, під час реалізації чисельного методу. Відзначимо, що перед першим доданком стоїть знак «-», оскільки і якщо не додавати… Читати ще >
Чисельне розв'язання задач оптимального управління (реферат, курсова, диплом, контрольна)
ЧИСЕЛЬНЕ РОЗВ’ЯЗАННЯ ЗАДАЧ оптимального керування
1 Дискретизація задачі із закріпленим лівим і вільним правим кінцем. Необхідні умови оптимальності
Розглянемо неперервну задачу оптимального керування
(1)
(2)
,. (3)
Виконаємо дискретну апроксимацію даної задачі. Для цього розіб'ємо відрізок точками, і будемо обчислювати значення цільового функціонала і закону руху тільки в точках розбиття:, ,. Закон руху в цьому випадку можна записати у вигляді:
.
Тепер дискретна задача оптимального керування, що апроксимує неперервну задачу (1) — (3), матиме вигляд:
, (4)
(5)
(6)
. (7)
Для пошуку оптимального розв’язку отриманої дискретної задачі може бути застосований метод множників Лагранжа. Функція Лагранжа має вигляд:
(8)
де .
Обмеження на керування введемо далі, під час реалізації чисельного методу. Відзначимо, що перед першим доданком стоїть знак «-», оскільки і якщо не додавати «-», то характер екстремуму початкової функції зміниться.
Якщо — локально-оптимальний процес для задачі (4) — (7), то існують такі нерівні одночасно нулю множники Лагранжа, ,, , що матимуть місце наступні умови:
1. або
. (10)
2. або
. (11)
Із (9) одержимо ітераційні співвідношення для спряжених змінних, а з (10) — співвідношення для :
(12)
. (13)
Перепишемо співвідношення (12) у вигляді:
.
Очевидно, що останнє співвідношення є аналогом спряженої системи для неперервних задач керування. Дійсно,
.
Якщо, то з останнього співвідношення одержимо
.
Зі співвідношення (13) випливає, що .
Сформулюємо критерій оптимальності для задачі (4) — (7). Вважатимемо, що функції, неперервно-диференційовані за змінними і опуклі за. Тоді для локально-оптимального процесу існують такі множники Лагранжа, ,, , не всі рівні нулю одночасно, що матимуть місце необхідні умови екстремуму:
1) умови стаціонарності в точці :
;
2). (14)
Розпишемо (14), використовуючи вираз для функції Лагранжа:
Перетворимо вираз під знаком мінімуму, переходячи до довільного :
Або Якщо, то з останнього співвідношення одержимо
2 Ітераційний метод розв’язання дискретної задачі оптимального керування з двійним перерахуванням
Розглянемо ітераційний метод пошуку оптимального керування задачі (4) — (7). Суть методу полягає в тому, що на кожній ітерації обчислюються два вектори: і. Перший із них міститье наближення для керувань у моменти часу для системи (14), при, а другий — -е наближення для фазових станів системи в ці ж моменти часу. Отже, на кожній ітерації ми одержуємо процес, що єм наближенням до шуканого оптимального процесу.
Контроль у методі подвійного перерахування полягає в повторному перерахуванні результатів задачі і порівнянні отриманих даних для різних значень кроку розбиття. У випадку розбіжності виконується корекція і обчислення повторюються.
Розглянемо алгоритм методу.
1. Задаємо крок розбиття та точність обчислень .
2. Задаємо початкове наближення — припустимий набір керувань на кожному кроці - початкову стратегію керування:
, ,
де — наближення керування в момент на ітерації .
3. За визначеною в п. 2 стратегією керування будуємо фазову траєкторію процесу
,
на початкової ітерації, використовуючи початкові умови і різницеві співвідношення, що апроксимують рівняння руху:
.
4. Визначаємо початкове наближення відповідно до (5).
5. Знаходимо спряжені змінні за формулами (12) — (13).
Визначаємо наступні наближення до оптимального керування ,
в момент як розв’язки задачі (15) або (16):
.
7. Обчислюємо відповідну стратегії траєкторію
за формулами (4), (6):
, .
8. Знаходимо наступне наближення цільового функціонала
за формулою (5).
9. Якщо, то переходимо до п. 10, інакше вважаємо, що
, і переходимо до п. 13.
10. Перевіряємо, чи виконується задана точність обчислень. Якщо
і ,
то переходимо до п. 13, інакше — до п. 11.
11. Позначаємо
, .
12. Виконуємо наступний крок ітераційного методу — п. 5.
13. Позначаємо
, — розв’язок, отриманий із кроком розбиття .
1 Якщо крок не ділився, то переходимо до п. 15, інакше — до п. 1
15. Ділимо крок
. Тоді і переходимо до п. 2 при .
1 Перевіряємо задану точність. Якщо
і ,
то переходимо до п. 18, інакше переходимо до п. 17.
17. Позначаємо
, ,, і переходимо до п. 15 — наступного кроку подвійного перерахування.
18., , — розв’язок задачі.
Кінець алгоритму.
3. Оптимальне стохастичне керування: формулювання із зовнішнім інтегралом
Розглянемо відображення, що задане формулою
(17)
за таких припущень:
? параметр приймає значення з вимірного простору. Для будь-якої фіксованої пари задана ймовірнісна міра на просторі, а символ у формулі (12) означає зовнішній інтеграл відносно цієї міри. Отже,
;
? функції і відображують множину відповідно в множини і, тобто, ;
? скаляр додатний.
Формули (1), (6) є окремими випадками відображення з (12). Очевидно, що відображення (1) для детермінованої задачі випливає з (12), якщо множина складається з єдиного елемента, а відображення (6) (для стохастичної задачі зі зліченним простором збурень) відповідає випадку, коли множина зліченна, а єалгеброю, складеною із всіх підмножин .
Очевидно, що відображення з (12) задовольняє припущенню монотонності. Якщо на множини, і функції, і накласти вимоги вимірності, то витрати за кроків можна визначити в термінах звичайного інтегрування для будь-якої стратегії, для якої функції, вимірні.
Для початкового стану і стратегії ймовірнісні міри
…,
у сукупності із системою рівнянь
(18)
визначають єдину міру накратному прямому добутку копій простору. У випадку, якщо, , і виконується одна з умов
або
то функція витрат за кроків, що відповідає вимірній стратегії, приводиться до звичайного вигляду,
де стани, виражено як функції змінних, …, за допомогою рівнянь (13) та початкового стану .
Рекурентне співвідношення методу динамічного програмування для розв’язання багатоетапних задач оптимального стохастичного керування зі скінченним горизонтом можна записати так:
,
де — щільність розподілу величини .
4 Оптимальне стохастичне керування: мультиплікативний функціонал витрат
Розглянемо відображення, що задане формулою
(19)
за припущення, що параметр приймає значення зі зліченної множини відповідно до заданого розподілу ймовірностей, що залежать від стану і керування. Вважатимемо також, що, ,,. Тоді відображення з формули (14) задовольняє припущенню монотонності.
Якщо, , то задача оптимального керування з мультиплікативним функціоналом витрат і скінченним горизонтом матиме такий вигляд:
(20)
. (21)
а відповідна задача з нескінченним горизонтом:
(22)
. (23)
Границя в (23) існує, якщо: або .
Самостійний інтерес становить задача з експоненціальною функцією витрат
де .
Для розв’язання багатоетапних задач оптимального стохастичного керування з мультиплікативним функціоналом витрат використовується таке рекурентне співвідношення алгоритму динамічного програмування:
,
де — щільність розподілу величини .
5. Мінімаксне керування
Розглянемо задачу керування системою, у якій некерованими впливами є стратегії супротивника (або явища природи), , що обираються залежно від поточного стану і керування. Вважатимемо, що припустимі стратегії супротивника приймають значення із множини,. Будемо обчислювати стратегію керування, орієнтуючись на найгіршу поведінку супротивника. Розглянемо відображення, задане формулою
за таких припущень:
? параметр приймає значення з деякої множини, а — непуста підмножина при будь-яких, ;
? функції і відображують множину в множини та відповідно, тобто, ;
? скаляр додатний.
За таких умов припущення про монотонність для відображення має місце. Якщо при цьому, і для всіх, ,, то відповіднукрокову задачу мінімаксного керування можна сформулювати так:
(17)
. (18)
Задача з нескінченним горизонтом формулюється аналогічно:
(24)
. (25)
Границя у співвідношенні (25) існує при виконанні будь-якої з умов:
·, ,, ;
·, ,, ;
·, ,, , і деякого .
Для розв’язання багатокрокових мінімаксних задач оптимального стохастичного керування рекурентне співвідношення алгоритму динамічного програмування використовується у такому вигляді:
,
.