Принцип Максимума Понтрягина

Постановка задачи оптимального управления.

Состояние объекта управления характеризуется n -мерной вектор функцией,

например, функцией времени[pic][pic]

Так, шестимерная вектор-функция времени полностью определяет положение

самолета как твердого тела в пространстве. Три координаты определяют

положение центра масс, а три - вращение вокруг центра масс.

От управляющего органа к объекту управления поступает вектор-функция [pic].

Векторы x' и u' , обычно связаны между собой каким-то соотношением.

Наиболее развитым в настоящее время является уравнение, в котором векторы

связаны системой обыкновенных дифференциальных уравнений.

И так, пусть движение управляемого объекта описывается системой

дифференциальных уравнений

[pic](1.1)

где [pic]- вектор координат объекта или фазовых координат,

[pic]- заданная вектор-функция, [pic]- вектор управлений или просто

управление.

В уравнении (1.1) векторы [pic]являются функциями переменной t,

обозначающей время, причем[pic], где[pic] - отрезок времени, на котором

происходит управление системой.

На управление обычно накладывается условие

[pic], [pic](1.2)

где U(t) - заданное множество в [pic]при каждом [pic].

Будем называть далее управлением кусочно-непрерывную на отрезке [pic](т. е.

имеющую конечное число разрывов первого рода) r--мерную вектор-функцию и,

непрерывную справа в точках разрыва и непрерывную в точке Т. Управление и

называется допустимым, если оно удовлетворяет ограничению (1.2).

Заметим, что ограничиться рассмотрением непрерывных управлений оказывается

невозможным, так как с их помощью трудно моделировать моменты переключения

управления такие, как, например, включение и отключение двигателей,

отделение ступеней ракеты, поворот рулей и т. д.

Иногда рассматривают и более широкие классы допустимых управлений,

например, класс всех ограниченных измеримых управлений, удовлетворяющих

условию (1.2).

Покажем, как при произвольном начальном положении [pic] и допустимом

управлении и определяется траектория управляемого объекта. Рассмотрим

задачу Коши

[pic][pic](1.3)

Поскольку при разрывных правых частях классическое понятие решения системы

дифференциальных уравнений неприменимо, поясним, что понимается в данном

случае под решением задачи (1.3). Для этого поступим следующим образом.

Пусть функция и имеет скачки в точках[pic] причем[pic]. Предположим, что

задача (1.3) имеет решение х, определенное на всем отрезке [to,[pic]],

причем [pic]. Далее рассмотрим задачу Коши

[pic][pic].

Предполагая, что она имеет решение на отрезке [[pic]] и [pic],приходим к

задаче

[pic][pic]и т. д.

Если функцию х удалось определить указанным способом на всем отрезке [to.

Т], то будем называть ее решением задачи (1.3) или фазовой траекторией

(иногда просто траекторией), соответствующей управлению и. Отметим, что x -

непрерывная по построению функция, удовлетворяющая на отрезке[pic]

равенству

[pic]

При выполнении определенных условий на f решение задачи (1.3),

соответствующее управлению и, существует и единственно при произвольном

начальном положении [pic]и произвольном допустимом управлении и.

Помимо ограничения на управление могут существовать ограничения и на

фазовые координаты

[pic][pic](1.4)

Ограничения на концах траектории целесообразно рассматривать отдельно:

[pic](1.5)

здесь[pic], S (Т) - заданные множества из R";

[pic]-заданные множества из R, причем inf [pic]< sup[pic], toВ более подробной покоординатной записи сопряженная система принимает вид

[pic], (2.3)

Система (2.3) имеет при любых начальных условиях единственное решение[pic]

, определенное и непрерывное на всем отрезке [pic].

Следующая теорема выражает необходимые условия оптимальности в задаче

(2.1).

Теорема (принцип максимума Понтрягина).

Пусть функции[pic] и, Ф, g1, ..., gm имеют частные производные по

переменным х1, ..., Хn и непрерывны вместе с этими производными по

совокупности аргументов х[pic] , и [pic] U, t[pic] [to. Т]. Предположим,

что (и, х)-решение задачи (2.1). Тогда существует решение [pic] сопряженной

системы (2.3), соответствующей управлению и и траектории х, и

константа [pic] такие, что

| [pic] | + || [pic](t) || при t[pic] [to, Т], и выполняются следующие

условия:

а) (условие максимума) при каждом t[pic] [to. Т] функция Гамильтона[pic],

достигает максимума по[pic] при v=u (t), т. е.

H(x(t), u(t),[pic]=max H(x(t), v(t),[pic] (2.4)

б)(условие трансверсальности на левом конце траектории) существуют

числа[pic], такие, что

[pic](2.5)

в) (условие трансверсальности на правом конце траектории) существуют

числа [pic] такие, что

[pic](2.6)

Центральным в теореме является условие максимума -(2.4).

Если отказаться от предположения о том, что конечный момент времени Т

фиксирован, то теорема останется справедливой за исключением условия

трансверсальности на правом конце траектории. Условие (2.6) заменим

условием

[pic]

и добавить еще одно условие трансверсальности на правом конце траектории:

[pic]

Примеры применения принципа максимума.

1. Простейшая задача оптимального быстродействия.

Пусть точка движется по прямой в соответствии с законом

[pic](3.1)

где х - координата. Требуется найти управление и, переводящее точку из

начального положения в начало координат за минимальное время Т (задача

оптимального быстродействия). При этом скорость точки в конце траектории

должна быть нулевой, а управление - удовлетворять условию

[pic].

Применим к сформулированной задаче принцип максимума Понтрягина . Введем

фазовые переменные [pic]. Тогда движение управляемого объекта описывается

системой двух дифференциальных уравнений первого порядка:

[pic](3.2)

Начальное положение

[pic]

при t0=0 и конечное положение (0, 0) фиксированы, а конечный момент времени

Т не фиксирован.

В обозначениях п.п. 1, 2 в данной задаче U ==[-1, 1], f0=1, Ф=0, а функция

Гамильтона имеет вид

[pic]

Общее решение сопряженной системы

[pic][pic]

легко выписывается в явном виде [pic]

где С, D - постоянные.

Очевидно, что максимум функции Н по и[pic] U достигается при

[pic]

Таким образом, оптимальное управление и может принимать лишь два значения

+1 .

2.Определить управление u(t) , которое дает минимум интегралу

[pic], в процессе, описываемом уравнением [pic](1).

Решение.

Введем дополнительную переменную

[pic](2)

Для этой переменной имеем дифференциальное уравнение [pic]([pic] (3)

с начальными условиями, получаемыми из (2), т.е. х2(0)=0. Минимизирующий

функционал, используя (2), можно записать в виде I[T]=x2(T).

Построим функцию Гамильтона

[pic]

Запишем сопряженную систему [pic] (3)

Запишем [pic]

?1(Т)=0 (т.к. с1=0)

?2(Т)=-1

Из [pic]поэтому ?2(е)=-1. Теперь функция Гамильтона запишется в виде H=-

a?1x1+?1u-0,5x12-0,5u2 .

По принципу максимума функция Н при фиксированных х1 и ?1 достигает

максимума по u : [pic], [pic], откуда [pic].

Осталось решить систему уравнений (2) и (3) при условии [pic] , ?2(Т)=-1,

[pic], [pic] с граничными условиями [pic]

Сведем данную систему к одному уравнению относительно U.

[pic][pic]

[pic]

Добавим к этому уравнению граничные условия [pic] и решим его. Составим

характеристическое уравнение к2 - (а2+1) =0, к1,2=+(-)[pic]

[pic]

Найдем С1 и С2. [pic] С2=-с2е[pic]. Тогда [pic]

Используя граничные условия найдем С2[pic]

Таким образом, определено оптимальное решение

[pic]

Примеры применения принципа максимума.

1. Простейшая задача оптимального быстродействия.

Пусть точка движется по прямой в соответствии с законом

[pic](3.1)

где х - координата. Требуется найти управление и, переводящее точку из

начального положения в начало координат за минимальное время Т (задача

оптимального быстродействия). При этом скорость точки в конце траектории

должна быть нулевой, а управление - удовлетворять условию

[pic].

Применим к сформулированной задаче принцип максимума Понтрягина . Введем

фазовые переменные [pic]. Тогда движение управляемого объекта описывается

системой двух дифференциальных уравнений первого порядка:

[pic](3.2)

Начальное положение

[pic]

при t0=0 и конечное положение (0, 0) фиксированы, а конечный момент времени

Т не фиксирован.

В обозначениях п.п. 1, 2 в данной задаче U ==[-1, 1], f0=1, Ф=0, а функция

Гамильтона имеет вид

[pic]

Общее решение сопряженной системы

[pic][pic]

легко выписывается в явном виде [pic]

где С, D - постоянные.

Очевидно, что максимум функции Н по и[pic] U достигается при

[pic]

Таким образом, оптимальное управление и может принимать лишь два значения

+1 .

2.Определить управление u(t) , которое дает минимум интегралу

[pic], в процессе, описываемом уравнением [pic](1).

Решение.

Введем дополнительную переменную

[pic](2)

Для этой переменной имеем дифференциальное уравнение [pic]([pic] (3)

с начальными условиями, получаемыми из (2), т.е. х2(0)=0. Минимизирующий

функционал, используя (2), можно записать в виде I[T]=x2(T).

Построим функцию Гамильтона

[pic]

Запишем сопряженную систему [pic] (3)

Запишем [pic]

?1(Т)=0 (т.к. с1=0)

?2(Т)=-1

Из [pic]поэтому ?2(е)=-1. Теперь функция Гамильтона запишется в виде H=-

a?1x1+?1u-0,5x12-0,5u2 .

По принципу максимума функция Н при фиксированных х1 и ?1 достигает

максимума по u : [pic], [pic], откуда [pic].

Осталось решить систему уравнений (2) и (3) при условии [pic] , ?2(Т)=-1,

[pic], [pic] с граничными условиями [pic]

Сведем данную систему к одному уравнению относительно U.

[pic][pic]

[pic]

Добавим к этому уравнению граничные условия [pic] и решим его. Составим

характеристическое уравнение к2 - (а2+1) =0, к1,2=+(-)[pic]

[pic]

Найдем С1 и С2. [pic] С2=-с2е[pic]. Тогда [pic]

Используя граничные условия найдем С2[pic]

Таким образом, определено оптимальное решение

[pic]

О методах решения задач оптимального управления

Убедимся вначале, что необходимые условия оптимальности в форме принципа

максимума дают, вообще говоря, достаточную информацию для решения задачи

оптимального управления (2.1), (2.2).

Условие максимума (2.4) позволяет, в принципе, найти управление и как

функцию параметров х, t, [pic]

[pic](2.7)

Рассмотрим систему дифференциальных уравнений

[pic](2.8)

объединяющюю систему уравнений движения объекта и сопряженную систему.

Как известно, общее решение системы (2.8), состоящей из 2n обыкновенных

дифференциальных уравнений первого порядка, зависит от 2п параметров. Кроме

того, система необходимых условий оптимальности содержит т параметров[pic]

и параметр ?0. Таким образом, общее число неизвестных равно 2n+m+1.

Для их определения мы имеем 2п условий (2.5), (2.6) и т условий (2.2). Еще

одно условие определяется из следующих соображений.

Легко понять, что, в силу линейности функции Н по переменным принцип

максимума Понтрягина определяет вектор ([pic]) с точностью до

положительного постоянного множителя. Поэтому если в конкретной задаче

удается показать, что [pic], то полагают обычно [pic] == - 1. В противном

случае накладывают какое-либо условие нормировки, например, [pic]

Таким образом, общее число условий равно 2n+m+1 и совпадает с числом

неизвестных параметров, что, в принципе, позволяет определить эти

параметры. Изложенные соображения дают возможность в простейших случаях

решить задачу оптимального управления в явном виде.

Опишем численный метод, основанный на тех же соображениях. Для этого

рассмотрим краевую задачу для системы дифференциальных уравнений (2.8) с

краевыми условиями (2.5), (2.6), а также выписанными на основе (2.2)

краевыми условиями

[pic](2.9)

Эта задача называется краевой задачей принципа максимума.

Задав произвольные начальные условия[pic]и решив каким-либо численным

методом задачу Коши для системы (2.8), можно найти х(Т),[pic](Т). При этом

на каждом шаге численного интегрирования значение [pic] находится из

решения вспомогательной оптимизационной задачи (2.7) (считаем, что

параметр [pic] задан и равен либо 0, либо -1).

Значения х (Г), [pic] являются очевидно, некоторыми функциями от а и Ь:

[pic]). Решение краевой задачи принципа максимума сводится, таким образом,

к решению полученной из (2.9), (2.5), (2.6) системы уравнений

[pic]

Эта система содержит 2п+т неизвестных а, Ь,[pic]и состоит из 2п+т

уравнений. Ее решение можно находить известными численными методами,

например методом Ньютона.

Отметим, что вычисление значений [pic]весьма трудоемко, так как требует при

каждом (а, b) решения задачи Коши для системы дифференциальных уравнений

(2.8). Именно в таких случаях особое значение приобретает изучение вопросов

эффективности численных методов и построения оптимальных методов .

При реализации на ЭВМ методов решения задач оптимального управления,

основанных на необходимых условиях экстремума, могут встретиться также

значительные трудности, вызванные некорректностью постановки исходной и

вспомогательных задач и некоторыми особенностями краевой задачи принципа

максимума. Это приводит к необходимости применения методов регуляризации,

учета специфики конкретной решаемой задачи, ее физического смысла и т. п.

Другие численные методы, не связанные непосредственно с принципом

максимума, основаны на редукции исходной задачи к некоторой конечномерной

задаче математического программирования. Их называют иногда прямыми

методами (впрочем, разделение вычислительных методов на прямые и непрямые

довольно условно). Конечномерные аналоги задач оптимального управления

имеют особенности, позволяющие эффективно применять некоторые методы

нелинейного, динамического программирования и т. д]. Продемонстрируем

пример такого подхода.

Рассмотрим следующую задачу оптимального управления

[pic][pic]

[pic]

где моменты времени[pic], Т фиксированы. Это задача более общего вида, чем

(2.1), ибо в (2.10) U зависит от времени и имеются фазовые ограничения

произвольного вида, которые, в частности, могут содержать ограничения на

концах траектории вида (2.2).

Зафиксируем моменты времени [pic] и заменим задачу (2.10) ее

конечноразностным аналогом

[pic]

Положив [pic] задачу можно переписать в виде [pic] (2.11)

[pic]

Мы получили задачу математического программирования с переменными [pic]

Задав начальное состояние х0 и управление (u0, u1, ..., uN-1), по

формулам [pic] легко вычислить траекторию ( х1, ..., хN). Тем самым (2.12)

сводится к задаче с переменными х0, u0 , u1, ..., uN-1, и ее размерность,

таким образом, оказывается равной n+Nr.

Для решения задачи (2.11) часто применяют метод динамического

программирования. В данном случае этот метод выглядит следующим образом.

Ввелем функцию [pic]где минимум берется по таким [pic]что[pic](будем

предполагать, что все фигурирующие здесь и ниже минимумы достигаются). Если

множество таких наборов (uк, ..., uN-1) пусто, то значение [pic]) не

определено. Нетрудно видеть, что [pic] (2.12)

где минимум берется по таким [pic], что значение [pic] определено.

Положив [pic] и проводя вычисления по формулам (2.12) при k=N-1,N-2,...,0

можно найти решение задачи (2.11).

Действительно, пусть [pic]- значение управления, реализующее минимум в

(2.12). Ясно, что значение задачи (2.11) , т.е. минимальное значение

минимизирующей функции, равно [pic], где минимум берется по таким [pic],

что значение [pic] определено. Оптимальное управление и оптимальная

траектория находятся, очевидно, по формулам

[pic](2.13)

При численной реализации данного метода задаются сеточные аппроксимации

множеств [pic]т.е. некоторые конечные множества [pic]Затем строятся

множества [pic], которые служат сеточными аппроксимациями интересующих нас

подмножеств [pic]

Далее по формулам (2.12) вычисляются значения [pic]для [pic][pic]и т.д.,

причем при каждом k минимум в (2.12) берется по [pic] После того как

приближенно найдена точка [pic], минимизирующая [pic] решение задачи

определяется формулами (2.13).

Заключение:

Отметим, что дискретные задачи оптимального управления встречаются на

практике ( например, при описании импульсных систем) и потому представляют

интерес не только как конечноразностные аналоги непрерывных задач.

Задачи оптимизации управляемых процессов, или как они будут в дальнейшем

называться, задачи оптимального управления, составляют один из широких

классов экстремальных задач и имеют важное прикладное значение.

Структурная схема задачи управления состоит из двух звеньев: управляющего

органа и объекта управления . В качестве объекта управления может служить,

например, космический эксперимент, экономика отрасли промышленности,

система машин, семейный бюджет и т. д. Управляющее звено со времени

возникновения задач управления претерпело эволюции от простейшего

регулятора до современной ЭВМ.

Кыргызско - Российская Академия образования

Доклад

По дисциплине:

ТУТС

Тема: Принцип максимума Понтрягина.

Выполнил:

Бахарев Д. В.ИВТ-1-98.

Проверила: Жданова С. В.

г. Бишкек 2001