Динамическое программирование

ДИНАМИЧЕСКОЕ ПРОГРАММИРОВАНИЕ, раздел оптимального управления, посвящённый теории и методам решения многошаговых задач. В задачах оптимального управления среди возможных управлений ищется то, при котором достигается экстремальное (наименьшее или наибольшее) значение так называемой целевой функции - некоторой числовой характеристики процесса. В динамическом программировании под многошаговостью понимают либо многоступенчатую структуру процесса, либо то, что управление разбивается на ряд последовательных этапов (шагов), соответствующих, как правило, различным моментам времени. Иногда многошаговость проистекает из существа процесса, но она может вводиться и искусственно для того, чтобы обеспечить возможность применения методов динамического программирования. Под программированием в динамическом программировании понимают принятие решений (планирование), а слово «динамическое» указывает на существенную роль времени и порядка выполнения операций. Методы динамического программирования являются составной частью методов, используемых в исследовании операций, и применяются в задачах оптимального планирования (например, в задачах об оптимальном распределении ресурсов, в теории управления запасами, в задачах замены оборудования) и при решении многих технических проблем (например, в задачах управления последовательными химическими процессами, в задачах оптимальной прокладки дорог).

Пусть процесс управления некоторой системой Х состоит из m шагов (этапов); на i-м шаге управление y_i переводит систему из состояния x_i-1, в котором она находилась после (i - 1)-го шага, в новое состояние x_i. При этом задана функция f_i(х, у), и новое состояние определяется по этой функции значениями x_i-1, y_i так, что x_i = f_i (x_i-1, y_i), i = 1, 2,..., m. Таким образом, управления у₁, у₂, ..., у_m переводят систему из начального состояния х₀ ∈ Х₀в конечное состояние х_m ∈ Х_m, где Х₀ и Х_m - совокупности допустимых начальных и конечных состояний системы Х.

Одна из возможных постановок задач динамического программирования состоит в следующем. При заданном начальном состоянии х₀ требуется выбрать управления у₁, у₂, ..., у_m таким образом, чтобы система Х перешла в допустимое конечное состояние и при этом заданная целевая функция F(х₀, у₁, х₁,..., у_m, х_m) достигла максимального значения F*, т. е.

где максимум берётся по всем управлениям у₁, ..., у_m, для которых х_m ∈ Х_m.

В динамическом программировании обычно предполагается, что целевая функция является аддитивной. В рассмотренном примере это означает, что

Динамическое программирование

Кроме того, в динамическом программировании предполагается, что в задаче отсутствует последействие: решения (управления), принимаемые на шаге i, оказывают влияние только на состояние x_i системы в момент i. Оба упомянутых ограничительных условия можно ослабить, но только за счёт существенного усложнения метода.

В основе динамического программирования лежит принцип оптимальности, сформулированный Р. Беллманом. Пусть выбраны некоторые управления у₁, у₂, ..., y_k и тем самым траектория х₀, х₁ , ...,x_k состояний и требуется завершить процесс, т. е. выбрать у _k+1, ..., у_m ( а значит, и x_k+1, ..., х_m).

Если завершающая часть процесса не будет оптимальной в смысле достижения максимума функции

Динамическое программирование

то и весь процесс не будет оптимальным. Пользуясь принципом оптимальности Беллмана, можно получить основное функциональное соотношение динамического программирования, которое состоит в следующем. Пусть ω_m(х) = 0,

k = 1, 2, ..., m, где максимум берётся по всем управлениям у, допустимым на шаге k. Соотношение, определяющее зависимость ω_k-1 от ω_k, называется уравнением Беллмана. Смысл этих функций достаточно ясен: если система на шаге k-1 оказалась в состоянии х, то ω_k-1(х) есть максимально возможное значение функции F_k. Одновременно с построением функций ω_k-1(х) находятся условные оптимальные управления y_k(х) на каждом шаге, т. е. значения оптимального управления при всевозможных предположениях о состоянии х системы на шаге k-1. Окончательно оптимальные управления находятся последовательным вычислением величин ω₀(х₀) = F*, у₁, х₁, у₂, ..., у_m, x_m.

С помощью динамического программирования решается не одна конкретная задача при определённом х₀, а сразу все подобные однотипные задачи при любом начальном состоянии. Численная реализация динамического программирования довольно сложна, так как требует запоминания большого количества информации, поэтому динамическое программирование целесообразно применять в тех случаях, когда необходимо многократно решать типовые задачи (например, определение оптимального режима полёта самолёта при меняющихся погодных условиях). Обычно задача динамического программирования формулируется для дискретных процессов, но в ряде случаев динамическое программирование применяется и для решения динамических задач с непрерывными параметрами.

Динамическое программирование дало новый подход ко многим задачам вариационного исчисления. Важный раздел динамического программирования составляют стохастические задачи динамического программирования, т. е. задачи, в которых на состояние системы и на целевую функцию влияют случайные факторы.

Строгое обоснование динамического программирования следует из результатов Л. С. Понтрягина и его учеников по математической теории управляемых процессов.

Лит.: Беллман Р. Динамическое программирование. М., 1960; Математическая теория оптимальных процессов. М., 1961; Ховард Р. А. Динамическое программирование и марковские процессы. М., 1964; Хедли Дж. Нелинейное и динамическое программирование. М., 1967; Хедли Дж., Уайтин Т. Анализ систем управления запасами. М., 1969.

← Динамический хаос

Динамическое распределение памяти →

Динамическое программирова­ние

Реклама

Динамическое программирование