Уравнение Гамильтона — Якоби
- 1 year ago
- 0
- 0
Уравнение Гамильтона — Якоби — Беллмана — дифференциальное уравнение в частных производных , играющее центральную роль в теории оптимального управления . Решением уравнения является функция значения ( англ. value function ), которая даёт оптимальное значение для управляемой динамической системы с заданной функцией цены.
Если уравнения Гамильтона — Якоби — Беллмана решаются в какой-то части пространства, они играют роль необходимого условия; при решении во всём пространстве они также становятся достаточным условием для оптимального решения. Методика может быть также применена к стохастическим системам.
Классические вариационные задачи (например, задача о брахистохроне ) могут быть решены с использованием этого метода.
Уравнение является результатом развития теории динамического программирования , первопроходцем которой является Ричард Беллман и его сотрудники.
Соответствующее уравнение с дискретным временем называется просто уравнением Беллмана . При рассмотрении задачи с непрерывным временем полученные уравнения могут рассматриваться как продолжение более ранних работ в области теоретической физики , связанных с уравнением Гамильтона — Якоби .
Рассмотрим следующую задачу оптимального управления на промежутке времени :
где С и D — функции стоимости, определяющие соответственно интегральную и терминальную часть функционала. x ( t ) — вектор, определяющий состояние системы в каждый момент времени. Его начальное значение x (0) считается известным. Вектор управления u ( t ) следует выбрать таким образом, чтобы добиться минимизации значения V .
Эволюция системы под действием управления u ( t ) описывается следующим образом:
Для такой простой динамической системы, уравнения Гамильтона — Якоби — Беллмана принимают следующий вид:
(под подразумевается скалярное произведение) и задаются значением в конечный момент времени T :
Неизвестная в этом уравнении — беллмановская «функция значения» V ( x , t ), которая отвечает максимальной цене, которую можно получить, ведя систему из состояния ( x , t ) оптимальным образом до момента времени T . Соответственно, интересующая нас оптимальная стоимость — значение V = V ( x (0), 0).
Продемонстрируем интуитивные рассуждения, которые приводят к этому уравнению. Пусть — функция значения, тогда рассмотрим переход от момента времени t к моменту t + dt в соответствии с :
Разложим последнее слагаемое по Тейлору:
Осталось перенести V ( x , t ) влево, поделить на dt и перейти к пределу.