Синтез оптимальных уравнений

Управляемые объекты прочно вошли в нашу повседневную жизнь и стали обиходными, обыденными явлениями. Мы видим их буквально на каждом шагу: автомобиль, самолёт, всевозможные электроприборы, снабжённые регуляторами (например, электрохолодильник), и т. п. Общим во всех этих случаях является то, что мы можем ВлуправлятьВ» объектом, можем в той или иной степени влиять на его поведение.

Обычно переход управляемого объекта из одного состояния в другое может быть осуществлён многими различными способами. Поэтому возникает вопрос о выборе такого пути, который с некоторой (но вполне определённой) точки зрения окажется наиболее выгодным. Это и есть (несколько расплывчато сформулированная) задача об оптимальном управлении.

Вз 1. Задача об оптимальном быстродействии

1. Понятие об управляемых объектах. Рассмотрим прямолинейное движение автомобиля. В каждый момент вреВнмени состояние автомобиля можно характеризовать двумя числами: пройденВнным расстоянием s и скоростью движения v. Эти две величины меняются с теВнчением времени, но не самопроизвольно, а сообразно воле водителя, который может по своему желанию управлять работой двигателя, увеличивая или уменьшая развиваемую этим двигателем силу F. Таким образом, мы имеем три связанных между собой параметра: ,v,F,показанных на схеме (рис. 1). Величины ,v,характеризующие состояние автомобиля, называют его фазовыми координатами,а величину F тАУ управляющим параметром.

Если мы будем рассматривать движение автомобиля по плоскости (а не по прямой), то фазовых координат будет четыре (две ВлгеографическиеВ» координаты и две компоненты скорости), а управляющих параметров тАУ два (например, сила тяги двигателя и угол поворота руля). У летящего самолёта можно рассматривать шесть фазовых координат (три пространственные координаты и три компоненты скорости) и несколько управляющих параметров (тяга двигателя, величины, характеризующие положение рулей высоты и направления, элеронов).

Разумеется, в проводимом ниже математическом исследовании мы будем иметь дело не с самими реальными объектами, а с некоторой математической моделью. Сказанное выше делает естественным следующее математическое описание управляемого объекта. Состояние объекта задаётся (в каждый момент времени) числами x¹, x²,тАж,xⁿ, которые называются фазовыми координатами объекта. Движение объекта заключается с математической точки зрения в том, что его состояние с течением времени изменяется, т. е. x¹,x²,тАж,xⁿ являются переменными величинами (функциями времени). Движение объекта происходит не самопроизвольно. Им можно управлять; для этого объект снабжён ВлрулямиВ», положение которых характеризуется (в каждый момент времени) r числами u¹,u²,тАж,u^r; эти числа называются управляющими параметрами. Рулями можно ВлманипулироватьВ», т. е. по своему желанию менять (конечно, в допустимых пределах) управляющие параметры u¹,u²,тАж,u^r. Иначе говоря, мы можем по желанию выбрать функции u¹(t),u²(t),тАж,u^r(t), описывающие изменение управляющих параметров с течением времени. Мы будем предполагать (как это обычно и бывает), что, зная фазовое состояние объекта в начальный момент времени и выбрав управляющие функции u¹(t),u²(t),тАж,u^r(t) (для t>t₀), мы можем точно и однозначно рассчитать поведение объекта для всех t>t₀,т. е. можем найти функции x¹(t),x²(t),тАж,xⁿ(t), характеризующие изменение фазовых координат с течением времени. Таким образом, изменение фазовых координат x¹,x²,тАж,xⁿуже не зависит непосредственно от нашего желания, но на движение объекта мы всё же можем в той или иной мере воздействовать, выбирая по своему желанию управляющие функции u¹(t),u²(t),тАж,u^r(t).

Управляемый объект, о котором только что шла речь, в теории автоматического управления принято изображать так, как это показано на рис. 2. Величины u¹,u²,тАж,u^r (управляющие параметры) часто называют также Влвходными переменнымиВ», а величины x¹, x²,тАж,xⁿ (фазовые координаты) тАУ Влвыходными переменнымиВ». Говорят ещё, что Влна входВ» объекта поданы величины u¹,u²,тАж,u^r, а Влна выходеВ» мы получаем величины x¹, x²,тАж,xⁿ. Разумеется, на рис. 2 показано лишь условное обозначение управляемого объекта и никак не отражено его Влвнутреннее устройствоВ», знание которого необходимо, чтобы выяснить, каким образом, зная управляющие функции u¹(t),u²(t),тАж,u^r(t), можно вычислить изменение фазовых координат x¹(t),x²(t),тАж,xⁿ(t).

Величины u¹,u²,тАж,u^r удобно считать координатами некоторого вектораu=(u¹,u²,тАж,u^r), также называемого управляющим параметром (векторным). Точно так же величины x¹, x²,тАж,xⁿудобно рассматривать как координаты некоторого вектора (или точки) x=(x¹, x²,тАж,xⁿ) в n тАУ мерном пространстве с координатами x¹, x²,тАж,xⁿ. Эту точку называют фазовым состоянием объекта, а n тАУ мерное пространство, в котором в виде точек изображаются фазовые состояния, называется фазовым пространством рассматриваемого объекта. Если объект таков, что его фазовое состояние характеризуется только двумя фазовыми координатами x¹, x² (см. рис. 1), то мы будем говорить о фазовой плоскости. В этом случае фазовые состояния объекта изображаются особенно наглядно.

Итак, в векторных обозначениях рассматриваемый управляемый объект можно изобразить так, как показано на рис. 3. Входящая величина u=(u¹,u²,тАж,u^r) представляет собой управляющий параметр, а выходная величина x=(x¹, x²,тАж,xⁿ) представляет собой точку фазового пространства (или, иначе, фазовое состояние объекта).

Как сказано выше, чтобы полностью задать движение объекта, надо задать его фазовое состояние x₀=(x₀¹, x₀²,тАж, x₀ⁿ) в начальный момент времени t₀ и выбрать управляющие функции u¹(t), u²(t),тАж, u^r(t) (для t>t₀), т. е. выбрать векторную функцию u(t)= u¹(t),u²(t),тАж,u^r(t)). Эту функцию u(t) мы будем называть управлением. Задание начального фазового состояния x₀и управления u(t) однозначно определяет дальнейшее движение объекта. Это движение заключается в том, что фазовая точка x(t)=(x¹(t),x²(t),тАж,xⁿ(t)), изображающая состояние объекта, с течением времени перемещается, описывая в фазовом пространстве некоторую линию, называемую фазовой траекторией рассматриваемого движение объекта (случай n=2 изображён на рис. 4). Очевидно, что эта линия исходит из точки x₀, поскольку x(t₀)=x₀.

Пару векторных функций (u(t), x(t)), т. е. управление u(t) и соответствующую фазовую траекторию x(t), мы будем называть в дальнейшем процессом управления или просто процессом.

Итак, резюмируем. Состояние управляемого объекта в каждый момент времени характеризуется фазовой точкой x=(x¹, x²,тАж,xⁿ). На движение объекта можно воздействовать при помощи управляющего параметраu=(u¹,u²,тАж,u^r). Изменение величин u, x с течением времени мы называем процессом; процесс (u(t), x(t)) составляется из управления u(t) и фазовой траекторииx(t). Процесс полностью определяется, если задано управление u(t) (при t>t₀) и начальное фазовое состояние x₀=x(t₀).

2. Задача управления. Часто встречается следующая задача, связанная с управляемыми объектами. В начальный момент времени t₀объект находится в фазовом состоянии x₀; требуется выбрать такое управление u(t), которое переведёт объект в заранее заданное конечное фазовое состояние x₁ (отличное от x₀; рис. 5). При этом нередко бывает, что начальное состояние x₀заранее не известно. Рассмотрим один из наиболее типичных примеров. Объект должен устойчиво работать в некотором режиме (т. е. находиться в некотором фазовом состоянии x₁). В результате тех или иных причин (например, под воздействием неожиданного толчка) объект может выйти из рабочего состояния x₁ и оказаться в некотором другом состоянии x₀. При этом точка x₀, в которую может попасть объект, заранее не известна, и мы должны уметь так управлять объектом, чтобы из любой точки x₀ (или хотя бы из точек x₀ достаточно близких к x₁) вернуть его в рабочее состояние x₁ (рис. 6).

Такое управление часто осуществляется человеком (оператором), который следит за приборами и старается выбирать управление, поддерживающее объект в требуемом рабочем режиме.

Однако в современных условиях высокого развития техники оператор зачастую не может успешно справиться с этой задачей ввиду сложности поведения объекта, большой быстроты протекания процессов и т. п. Поэтому чрезвычайно важно создать такие приборы, которые сами, без участия человека, управляли бы работой объекта (например, в случае выхода объекта из рабочего состояния возвращали бы его в это рабочее состояние). Такие приборы (ВлрегуляторыВ», Влавтоматические управляющие устройстваВ» и т. п.) сейчас очень распространены в технике, их изучением занимается теория автоматического управления.

Первым устройством этого рода был центробежный регулятор Уатта, сконструированный для управления работой паровой машины (см. рис. 9). Схема этого регулятора показана на рис. 7. В общем случае (рис. 8) на вход регулятора подаются фазовые координаты объекта.

Обычно требуется, чтобы переходный процесс (т. е. процесс перехода из начального фазового состояния x₀ в предписанное состояние x₁, рис. 5) был в определённом смысле ВлнаилучшимВ», например, чтобы время перехода было наименьшим или чтобы энергия, затраченная в течение переходного процесса, была минимальной и т. п. Такой ВлнаилучшийВ» переходный процесс называется оптимальным процессом. Термин Влоптимальный процессВ» требует уточнения, т. к. необходимо разъяснить, в каком смысле понимается оптимальность. Если речь идёт о наименьшем времени перехода, то такие процессы называются оптимальными в смысле быстродействия. Иначе говоря, процесс, в результате которого объект переходит из точки x₀ в точку x₁ (рис. 5), называется оптимальным в смысле быстродействия, если не существует процесса, переводящего объект из x₀в x₁ за меньшее время (здесь и далее предполагается, что x₁≠x₀). Разумеется, желательно, чтобы регулятор не просто возвращал объект в рабочее состояние, а делал это наилучшим образом, например, в смысле быстродействия (т. е. возвращал объект в рабочее состояние за кратчайшее время). В связи с этим в теории автоматического управления рассматриваются весьма различные регуляторы. Рассмотрение регуляторов приводит к тому, что уменьшение времени переходного процесса связано с усложнением конструкции регулятора; поэтому, усложняя конструкцию регулятора, можно лишь приближаться к ВлидеальномуВ», ВлоптимальномуВ» регулятору, который во всех случаях осуществляет переходный процесс за кратчайшее время. В точности же ВлоптимальногоВ» регулятора, по-видимому, осуществить нельзя. Однако такой вывод является ошибочным, т. к. сейчас уже создали математический аппарат, рассчитывающий такие регуляторы. Можно предполагать, что оптимальные регуляторы будут играть важную роль в технике будущего.

3. Уравнения движения объекта. Начнём с рассмотрения одного простого примера. Пусть G тАУ тело, которое может совершать прямолинейное движение (рис. 10). Массу этого тела будем предполагать постоянной и равной m, а его размерами будем пренебрегать (т. е. будем считать G материальной точкой.) Координату тела G (отсчитываемую от некоторой точки O той прямой, по которой оно движется) будем обозначать через x¹. При движении тела G его координата x¹ меняется с течением времени. Производная представляет собой скорость движения тела G. Будем предполагать, что на тело G действуют две внешние силы: сила трения ─и упругая сила ─ kx¹ и что, кроме того, тело G снабжено двигателем. Развиваемую двигателем силу воздействия на тело G обозначим через u. Таким образом, по второму закону Ньютона движение телаG с течением времени будет описываться дифференциальным уравнением

Обозначив скорость движения через x²(т. е. положив ), мы сможем записать этот закон движения в виде следующей системы дифференциальных уравнений:

(1.1)

Здесь величины x¹, x² являются фазовыми координатами тела G, а величина u тАУ управляющим параметром, т. е. мы имеем объект, схематически изображённый на рис. 11.

Уравнения (1.1) представляют собой закон изменения фазовых координат с течением времени (с учётом воздействия управляющего параметра), т. е. представляют собой закон движения фазовой точки в фазовой плоскости.

Мы рассмотрели лишь один частный случай, но можно было бы указать целый ряд других примеров, в которых закон движения объекта описывается дифференциальными уравнениями. Чаще всего (см.(1.1)) эти уравнения дают выражения производных от фазовых координат через сами фазовые координаты и управляющие параметры, т. е. имеют вид

(1.2)

где f¹, f²,тАж, fⁿтАУ некоторые функции, определяемые внутренним устройством объекта.

В дальнейшем мы сосредоточим своё внимание именно на таких объектах (рис. 2), закон движения которых описывается системой дифференциальных уравнений вида (1.2). В векторной форме систему (1.2) можно записать в виде

(1.3)

где x ─ вектор с координатами x¹,тАж, xⁿ, u тАУ вектор с координатами u¹,тАж, u^r и, наконец, f(x, u) тАУ вектор, координатами которого служат правые части системы (1.2).

Разумеется, невозможно решить систему дифференциальных уравнений (1.2) (т. е. найти закон движения объекта), не зная каким образом будут меняться с течением времени управляющие параметры u¹, u²,тАж, u^r. Напротив, зная поведение величин u¹, u²,тАж,u^r, т. е. зная управляющие функции u¹(t), u²(t),тАж, u^r(t) для t>t₀мы сможем из системы уравнений

(1.4)

или, что то же самое, из векторного уравнения

(1.5)

однозначно определить движение объекта (при t>t₀), если нам известно начальное фазовое состояние объекта (в момент t=t₀). Иначе говоря, задание управления u(t) и начального фазового состояния x₀ однозначно определяет фазовую траекторию x(t) при t>t₀, что согласуется со сделанными ранее (стр. 1) предположениями о свойствах объекта.

Тот факт, что задание начального фазового состояния (в момент t=t₀) позволяет из системы (1.4) однозначно определить фазовую траекторию x(t), t>t₀, вытекает из теоремы о существовании и единственности решений системы дифференциальных уравнений. Предположим, что, зная начальное фазовое состояние x₀и управление u(t)=(u¹(t),тАж, u^r(t)), мы определили фазовую траекторию x(t) (с помощью системы (1.4)). Если мы изменим управление u(t) (сохранив то же начальное состояние x₀), то получим некоторую другую траекторию, исходящую из той же точки x₀; вновь изменим управлениеu(t) тАУ получим ещё одну траекторию и т. д. Таким образом, рассматривая различные управления u(t), мы получим много траекторий, исходящих из точки x₀ (рис. 12). (Разумеется, это не противоречит теореме единственности в теории дифференциальных уравнений, так как, заменяя функции u¹(t),тАж,u^r(t) другими функциями, мы переходим от системы дифференциальных уравнений относительно фазовых координат x¹,тАж, xⁿ.)

Напомним, что задача оптимального быстродействия заключается в отыскании такого управления u(t), для которого фазовая траектория x(t), соответствующая этому управлению в силу уравнения (1.5), проходит через точку x₁ и переход из x₀вx₁осуществляется за кратчайшее время. Такое управление u(t) будем называть оптимальным управлением (в смысле быстродействия); точно так же соответствующую траекторию x(t) буде называть оптимальной траекторией.

4. Допустимые управления. Обычно управляющие параметры u¹,тАж,u^r не могут принимать совершенно произвольные значения, а подчинены некоторым ограничениям. Так, например, в случае объекта, описанного на стр. 4, естественно предположить, что сила u, развиваемая двигателем, не может быть как угодно большой по величине, а подчинена ограничениям α≤u≤β, где α и β тАУ некоторые постоянные, характеризующие двигатель. В частности, при α=─1, β=1 мы получаем ограничение ─1≤u≤1, которое означает, что двигатель может развивать силу, направленную вдоль оси x¹ как в положительном, так и в отрицательном направлении, но не превосходящую единицы по абсолютной величине.

Для объектов, содержащих r управляющих параметров u¹,тАж,u^r, в приложениях часто встречается случай, когда эти параметры могут произвольно меняться в следующих пределах:

α¹≤u¹≤ β¹, α²≤u²≤β²,тАж, α^r≤u^r≤β^r.

Иначе говоря, каждая из величин u¹, u²,тАж,u^r в уравнениях (1.2) представляет собой отдельный управляющий параметр, область изменения которого не зависит от значений остальных

управляющих параметров и задаётся неравенствами

αⁱ≤uⁱ≤βⁱ, i=1,тАж,r. (1.6)

Заметим, что при r=2 точки u=(u¹, u²), координаты которых подчинены неравенствам (1.6), заполняют прямоугольник; при r=3 неравенства (1.6) определяют в пространстве переменных u¹,u²,u³ прямоугольный параллелепипед; в случае произвольного r говорят, что неравенства (1.6) определяют r-мерный параллелепипед.

В общем случае будем считать, что в соответствии с конструкцией объекта и условиями его эксплуатации задано в пространстве переменных u¹,тАж, u^r некоторое множество U и управляющие параметры u¹, u²,тАж, u^r должны в каждый момент времени принимать лишь такие значения, чтобы точка u=(u¹,u²,тАж,u^r) принадлежала множеству U. Иначе говоря, разрешается рассматривать лишь такие управления u(t), что u(t)U для любого t. Множество U в дальнейшем будем называть областью управления. Область управления U не всегда будет параллелепипедом; она может иметь геометрически более или менее сложный характер, так как в силу конструкции объекта между управляющими параметрами u¹, u²,тАж,u^r могут существовать связи, выражаемые, например, уравнениями вида φ(u¹, u²,тАж, u^r)=0 или неравенствами ψ(u¹, u²,тАж, u^r)≤0. Так, если параметры u¹,u² характеризуют векторную величину на плоскости, модуль которой не превосходит единицы, а направление произвольно, то эти параметры подчинены только одному условию

(u¹)²+(u²)²─1≤0 (1.7)

и область управления U представляет собой круг. В дальнейшем будем предполагать, что указание области управления входит в математическое определение объекта, т. е. что для математического задания управляемого объекта надо указать закон его движения (1.2) и область управления U.

Наконец, сделаем ещё одно, весьма существенное предположение о характере управлений. Именно, будем предполагать, что ВлрулиВ», положения которых характеризуются управляющими параметрами u¹,u²,тАж,u^r, безынерционны, так что мы можем, если нужно, мгновенно переключать эти ВлрулиВ» из одного положения в другое, т. е. менять скачком значения управляющих параметров u¹,u²,тАж,u^r. В соответствии с этим будем рассматривать не только непрерывные, но и кусочно-непрерывные управления u(t). Кроме того, будем предполагать, что каждое рассматриваемое управление u(t) непрерывно на концах отрезка t₀≤t≤t₁, на котором оно задано, т. е. что все точки разрыва, если они есть, расположены на интервале t₀<t<t₁. Для удобства условимся называть допустимым управлением всякую кусочно-непрерывную функцию u(t), t₀≤t≤t₁, со значениями в области управления U, непрерывную справа в точках разрыва (для определённости нам так удобно предполагать) и непрерывную в концах отрезка [t₀; t₁], на котором она задана.

Задача об оптимальных быстродействиях уточняется теперь следующим образом:

Среди всех допустимых управлений u=u(t), под воздействием которых управляемый объект (1.3) переходит из заданного начального фазового состояния x₀в предписанное конечное состояние x₁, найти такое, для которого этот переход осуществляется за кратчайшее время

Вз 2. Об основных направлениях в теории оптимальных процессов

5. Метод динамического программирования. Для управляемого объекта, описанного в предыдущем параграфе, мы рассмотрим задачу об оптимальном переходе ─ в смысле быстродействия ─ из фазового состояния x в фазовое состояние x₁. При этом конечную фазовую точку x₁ будем считать фиксированной, а в качестве начальной точки x будем рассматривать различные точки фазового пространства. Мы будем предполагать в этом пункте, что для рассматриваемого управляемого объекта выполняется следующая гипотеза:

Г и п о т е з а 1. Какова бы ни была отличная от x₁ точка x фазового пространства, существует оптимальный (в смысле быстродействия) процесс перехода из точки x₀в точку x₁ (рис. 6).

Время, в течение которого осуществляется оптимальный переход из точки x₀ в точку x₁, обозначим через T(x). В дальнейших рассуждениях будет удобно вместо T(x) ввести функцию ω(x), отличающуюся от неё знаком

ω(x)= ─T(x). (1.8)

Так как каждая точка x фазового пространства имеет координаты x¹,тАж,xⁿ, то ω(x)= ─T(x) является функцией от n переменных, т. е. ω(x)= ω(x¹,тАж,xⁿ). Поэтому имеет смысл говорить о непрерывности этой функции (по совокупности переменных x¹,тАж,xⁿ) и о дифференцируемости этой функции по каждой из переменных x¹,тАж,xⁿ.

А также будем предполагать, что для рассматриваемого управляемого объекта выполняется следующая гипотеза:

Г и п о т е з а 2. Функция ω(x) непрерывна и всюду, кроме точки x₁, имеет непрерывные частные производные

Пусть теперь x₀ ─ произвольная отличная от x₁ точка фазового пространства, а u₀ ─ произвольная точка области U. Предположим, что объект находится в момент t₀ в фазовом состоянии x₀ и движется в течение некоторого времени под воздействием постоянного управления u= u₀. Фазовую траекторию объекта при этом движении обозначим через y(t)=(y¹(t),тАж, yⁿ(t)). Таким образом, фазовая траектория y(t) при t>t₀ удовлетворяет уравнениям

(1.9)

(см. (1.2), (1.3)) и начальному условию

y(t₀)=x₀. (1.10)

Если мы будем двигаться из точки x₀ до точки y(t) (по рассматриваемой фазовой траектории), то затратим на это движение время t ─ t₀. Двигаясь затем из точки y(t) оптимально, мы затратим на движение от точки y(t) до точки x₁ время T(y(t)). В результате мы совершим переход из точки x₀ в точку x₁, затратив на этот переход время (t ─t₀)+T(y(t)). Но так как оптимальное время движения от точки x₀ до точки x₁ равно T(x₀), т. е. равно T(y(t₀)), то T(y(t₀))≤(t ─t₀)+T(y(t)). Заменяя функцию T через ω (см. (1.8)) и разделив обе части неравенства на положительную величину t ─t₀, получаем отсюда и поэтому, переходя к пределу при t→t₀, находим

│_при≤1. (1.11)

Но производная, указанная в левой части этого неравенства, вычисляется по формуле полной производной Поэтому согласно (1.9) и (1.10) неравенство (1.11) принимает вид Точки x₀, u₀ здесь были произвольными. Таким образом, для любой (отличной от x₁) точки x фазового пространства и любой точки u области управления U выполнено соотношение

(1.12)

Пусть теперь (u(t), x(t)) ─ оптимальный процесс, переводящий объект из фазового состояния x₀ в состояние x₁, и t₀≤t≤t₁ ─ отрезок времени, в течение которого это оптимальное движение происходит, так что x(t₀)=x₀, x(t₁)=x₁ и t₁=t₀+ T(x₀). Движение по рассматриваемой оптимальной траектории от точки x₀ до точки x(t) осуществляется в течение времени t ─t₀, а движение от точки x(t) до точкиx₁ ─ в течение времени T(x₀) ─ (t ─t₀). Быстрее, чем за время T(x₀) ─ (t ─t₀), из точки x(t) попасть в точку x₁ невозможно. Итак, T(x₀) ─ (t ─t₀) есть время оптимального движения из точки x(t) в точку x₁, т. е. T(x(t))=T(x₀) ─ (t ─t₀). Заменив здесь T через ω, т. е. ω(x(t))=ω(x₀) + t ─t₀) и взяв производную по t, получаем

t₀≤t≤t₁. (1.13)

Таким образом, для каждого оптимального процесса в течение всего движения выполняется равенство (1.13).

Если мы теперь введём в рассмотрение функцию

B(x, u(t))=, (1.14)

То соотношения (1.12) и (1.13) могут быть записаны следующим образом:

B(x, u)≤1 для всех точек x≠x₁ и u; (1.15)

B(x, u)≡1 для любого оптимального процесса (u(t), x(t)). (1.16)

Итак, справедлива следующая

Т е о р е м а 1.1. Если для управляемого объекта, описываемого уравнением (1.5) и предписанного конечного состояния x₁ выполнены гипотезы 1 и 2, то имеют место соотношения (1.15) и (1.16) (оптимальность понимается в смысле быстродействия).

Эта теорема и составляет сущность метода динамическогопрограммирования для рассматриваемой задачи. Эту теорему можно сформулировать и несколько иначе. Написав соотношение (1.16)

Для t=t₀, получим B(x₀, u(t₀))=1, т. е. для любой точки x₀(отличной от x₁) найдётся в U такая точка u (а именно u=u(t₀)), что B(x₀, u)=1. В сопоставлении с неравенством (1.15) получаем соотношение

для любой точки x≠x₁. (1.16^*)

Метод динамического программирования (1.15), (1.16) (или, что то же самое, (1.16^*), (1.16)) содержит некоторую информацию об оптимальных процессах и потому может быть использован для их разыскания. Однако он имеет ряд неудобств. Во-первых, применение этого метода требует нахождения не только оптимальных управлений, но и функции ω(x), так как эта функция входит в соотношения (1.15) ─ (1.16^*). Во-вторых, уравнение Беллмана (1.16^*) (или соотношения (1.15), (1.16)) представляет собой уравнение в частных производных относительно функции ω, осложнённое к тому же знаком максимума. Указанные обстоятельства сильно затрудняют возможность пользования методом динамического программирования для отыскания оптимальных процессов в конкретных примерах. Но самым главным недостатком этого метода является предположение о выполнении гипотез 1 и 2. Ведь оптимальные управления и функция ω нам заранее не известны, так что гипотезы 1 и 2 содержат предположение о неизвестной функции, и проверить выполнение этих гипотез по уравнениям движения объекта невозможно. Этот недостаток можно было бы считать не особенно существенным, если бы после решения оптимальной задачи этим методом оказалось, что функция ω(x) действительно является непрерывно дифференцируемой. Но дело заключается в том, что даже в простейших, линейных задачах оптимального управления функция ω(x) не является, как правило, всюду дифференцируемой. Тем не менее, методом динамического программирования можно нередко пользоваться как ценным эвристическим средством.

6. Принцип максимума. Продолжим теперь рассуждения предыдущего пункта, предположив функцию ω(x) уже дважды непрерывно дифференцируемой (всюду, кроме точки x₁). Итак, будем предполагать, что выполнена следующая

Г и п о т е з а 3. функция ω(x) имеет при x≠x₁ вторые непрерывные производные i, j=1,2,тАж,, а функции fⁱ(x, u) ─ первые непрерывные производные где i, j=1,2,тАж,n.

Пусть (u(t), x(t)), t₀≤t≤t₁, ─ оптимальный процесс, переводящий объект (1.2) (или (1.3)) из фазового состояния x₀ в состояние x₁. Фиксируем некоторый момент времени t, t₀≤t≤t₁, и рассмотрим функцию B(x, u(t))=переменного x. В силу гипотезы 3 вытекает, что функция B(x, u(t)) всюду, кроме точки x₁, имеет непрерывные производные по переменным x¹,x²,тАж,xⁿ:

(1.17)

В частности, так как x(t)≠x₁ (поскольку t<t₁), то функция B(x, u(t)) имеет вблизи точки x=x(t) непрерывные производные по переменным x¹,x²,тАж,xⁿ. Далее, мы имеем в силу (1.15), (1.16) B(x, u(t))≤1 для любого x≠x₁; B(x, u(t))=1 при x=x(t).

Эти два соотношения означают, что функция B(x,u(t)) достигает в точке x=x(t) максимума, и потому её частные производные по x¹,тАж,xⁿ обращаются в нуль в этой точке:

(1.18)

Кроме того, дифференцируя функцию по t, находим

Поэтому соотношение (1.18) может быть переписано в следующем виде:

(1.19)

Заметим теперь, что в формулы (1.15), (1.16), (1.17) и (1.19) сама функция ω не входит, а входят только её частные производные . Поэтому мы введём для удобства следующие обозначения:

(1.20)

Тогда функция B (см. (1.14)) записывается таким образом:

B(x(t), u(t))=

и соотношение (1.16) принимает вид

, для оптимального процесса (x(t), u(t)), t₀≤t<t₁. (1.21)

Кроме того, согласно (1.15)

для любой точки uU и всех t₀≤t<t₁. (1.22)

Наконец, соотношения (1.19) записываются следующим образом:

(1.23)

Итак, если (u(t), x(t)), t₀≤t<t₁, ─ оптимальный процесс, то существуют такие функции ψ₁(t), ψ₂(t),тАж, ψ_n(t) (они определяются равенствами (1.20)), что имеют место соотношения (1.21), (1.22), (1.23).

Рассмотрение левых частей соотношений (1.21), (1.22) подсказывает нам, что целесообразно ввести в рассмотрение следующую функцию:

(1.24)

зависящую от 2n+r аргументов ψ₁, ψ₂,тАж, ψ_n, x¹,тАж, xⁿ, u¹,тАж, u^r. С помощью этой функции соотношения (1.21), (1.22) записываются в следующем виде:

для оптимального процесса (u(t), x(t)), t₀≤t<t₁, (1.25)

где ψ(t)=(ψ₁(t),тАж,ψ_n(t)) определяются равенствами (1.20);

для любой точки uU и всех t₀≤t<t₁. (1.26)

Вместо неравенства (1.26) мы можем в силу (1.25) написать следующее соотношение:

t₀≤t<t₁. (1.27)

Наконец, соотношения (1.23) можно, очевидно, переписать так:

(1.28)

Итак, если (u(t), x(t)), t₀≤t<t₁, ─ оптимальный процесс, то существует такая функция ψ(t)=(ψ₁(t),тАж, ψ_n(t)), что выполняются соотношения (1.25), (1.27), (1.28), где функция H определяется соотношением (1.24).

Так как в соотношениях (1.24), (1.25), (1.27), (1.28) нигде не участвует явно функция ω(x), то равенства (1.20), выражающие функции ψ₁(t),тАж, ψ_n(t) через ω, никаких добавочных сведений не дают, и о них можно забыть, ограничившись утверждением, что какие-то функции ψ₁(t),тАж, ψ_n(t), удовлетворяющие перечисленным соотношениям (1.25), (1.27), (1.28), существуют. Соотношения (1.28) представляют собой систему уравнений, которым эти функции удовлетворяют. Заметим, что функции ψ₁(t),тАж, ψ_n(t) составляют нетривиальное решение этой системы (т. е. ни в какой момент времени t все эти функции одновременно в нуль не обращаются); действительно, если бы при некотором t было ψ₁(t)= ψ₂(t)=тАж=ψ_n

Вместе с этим смотрят:

"Инкарнация" кватернионов

* Алгебры и их применение

*-Алгебры и их применение

10 способов решения квадратных уравнений

Cпособы преобразования комплексного чертежа, применение при изображении предметов