Метод Дэвидона-Флетчера-Пауэлла

СОДЕРЖАНИЕ: Министерство науки, высшей школы и технической политики Российской Федерации. Новосибирский Государственный Технический Университет. Реферат по исследованию операций на тему

Министерство науки, высшей школы и технической

политики Российской Федерации.

Новосибирский Государственный

Технический Университет.

Реферат по исследованию операций на тему

«Метод Дэвидона - Флетчера - Пауэлла».

Вариант №2.

Факультет: АВТ.

Кафедра: АСУ.

Группа: АС-513.

Студент: Бойко Константин Анатольевич.

Преподаватель: Ренин Сергей Васильевич.

Дата: 19 октября 1997 года.

Новосибирск

Введение.

Первоначально метод был предложен Дэвидоном (Davidon [1959] ), а затем развит Флетчером и Пауэллом (Fletcher, Powell [1963] ). Метод Дэвидона - Флетчера - Пауэлла называют также и методом переменной метрики . Он попадает в общий класс квазиньютоновских процедур, в которых направления поиска задаются в виде -D_j f(y). Направление градиента является, таким образом, отклоненным в результате умножения на -D_j , где D_j - положительно определенная симметрическая матрица порядка n х n, аппроксимирующая обратную матрицу Гессе. На следующем шаге матрица D_j ₊₁ представляется в виде суммы D_j и двух симметрических матриц ранга один каждая. В связи с этим схема иногда называется схемой коррекции ранга два .

Алгоритм Дэвидона - Флетчера - Пауэлла.

Рассмотрим алгоритм Дэвидона - Флетчера - Пауэлла минимизации дифференцируемой функции нескольких переменных. В частности, если функция квадратичная, то, как будет показано позднее, метод вырабатывает сопряженные направления и останавливается после выполнения одной итерации, т.е. после поиска вдоль каждого из сопряженных направлений.

Начальный этап .

Пусть 0 - константа для остановки. Выбрать точку х₁ и начальную симметрическую положительно определенную матрицу D₁ . Положить y₁ = x₁ , k = j = 1 и перейти к основному этапу.

Основной этап .

Шаг 1. Если f(y_j ) e, то остановиться; в противном случае положить d_j = - D_j f(y_j ) и взять в качестве l_j оптимальное решение задачи минимизации f(y_j + ld_j ) при l 0. Положить y_j+1 = y_j + l_j d_j . Если j n, то перейти к шагу 2. Если j = n, то положить y₁ = x_k+1 = y_n+1 , заменить k на k+1, положить j=1 и повторить шаг 1.

Шаг 2. Построить D_j ₊₁ следующим образом :

, (1)

где

p_j = l_j d_j , (2)

q_j = f(y_j+1 ) - f(y_j ). (3)

Заменить j на j + 1 и перейти к шагу 1.

Пример.

Рассмотрим следующую задачу :

минимизировать (x₁ - 2)⁴ + (x₁ - 2x₂ )² .

Результаты вычислений методом Дэвидона - Флетчера - Пауэлла приведены в таблице 1.

Таблица 1. Результаты вычислений по методу Дэвидона - Флетчера - Пауэлла.

x_k

f(x_k )

y_j

f(y_j )

d_j

l_j

y_j+1

(0.00, 3.00)

(52.00)

(0.00, 3.00)

(52.00)

(2.70, 1.51)

(0.34)

(-44.00, 24.00)

(0.73, 1.28)

50.12

1.47

(44.00, -24.00)

(-0.67, -1.31)

0.062

0.22

(2.70, 1.51)

(2.55, 1.22)

(0.1036)

(2.55, 1.22)

(0.1036)

(2.45, 1.27)

(0.0490)

(0.89, -0.44)

(0.18, 0.36)

0.99

0.40

(-0.89, 0.44)

(-0.28, -0.25)

0.11

0.64

(2.45, 1.27)

(2.27, 1.11)

(0.008)

(2.27, 1.11)

(0.008)

(2.25, 1.13)

(0.004)

(0.18, -0.20)

(0.04, 0.04)

0.27

0.06

(-0.18, 0.20)

(-0.05, -0.03)

0.10

2.64

(2.25, 1.13)

(2.12, 1.05)

(0.0005)

(2.12, 1.05)

(0.0005)

(2.115, 1.058)

(0.0002)

(0.05, -0.08)

(0.004, 0.004)

0.09

0.006

(-0.05, 0.08)

0.10

(2.115, 1.058)

На каждой итерации вектор d_j для j = 1, 2 определяется в виде
–D_j f(y_j ), где D₁ – единичная матрица, а D₂ вычисляется по формулам (1) - (3). При
k = 1 имеем p₁ = (2.7, -1.49)^T , q₁ = (44.73, -22,72)^T . На второй итерации
p₁ = (-0.1, 0.05)^T , q₁ = (-0.7, 0.8)^T и, наконец, на третьей итерации
p₁ = (-0.02, 0.02)^T , q₁ = (-0.14, 0.24)^T . Точка y_j+1 вычисляется оптимизацией вдоль направления d_j при начальной точке y_j для j = 1, 2. Процедура остановлена в точке
y₂ = (2.115, 1.058)^T на четвертой итерации, так как норма f(y₂ ) = 0.006 достаточно мала. Траектория движения, полученная методом, показана на рисунке 1.

Рисунок 1. Метод Дэвидона - Флетчера - Пауэлла .

Лемма 1 показывает, что каждая матрица D_j положительно определена и d_j является направлением спуска.

Для доказательства леммы нам понадобится :

Теорема 1 . Пусть S - непустое множество в Е_n , точка x cl S. Конусом возможных направлений в точке x называется множество D = {d : d 0, x + ld S при всех l (0, d) для некоторого d 0}.

Определение. Пусть x и y - векторы из Е_n и |x^T y| - абсолютное значение скалярного произведения x^T y. Тогда выполняется следующее неравенство, называемое неравенством Шварца : |x^T y| ||x|| ||y||.

Лемма 1.

Пусть y₁ Е_n , а D₁ – начальная положительно определенная симметрическая матрица. Для j = 1, ..., n положим y_j+1 = y_j + l_j d_j , где d_j = –D_j f(y_j ), а l_j является оптимальным решением задачи минимизации f(y_j + ld_j ) при l 0. Пусть, кроме того, для
j = 1, ..., n – 1 матрица D_j+1 определяется по формулам (1) - (3). Если f(y_j ) 0 для
j = 1, ..., n, то матрицы D₁ , ..., D_n симметрические и положительно определенные, так что d₁ , ..., d_n – направления спуска.

Доказательство.

Проведем доказательство по индукции. При j = 1 матрица D₁ симметрическая и положительно определенная по условию леммы. Кроме того,
f(y₁ )^T d₁ = –f(y₁ )^T D₁ f(y₁ ) 0, так как D₁ положительно определена. Тогда по теореме 1 вектор d₁ определяет направление спуска. Предположим, что утверждение леммы справедливо для некоторого j n – 1, и покажем, что оно справедливо для j+1. Пусть x – ненулевой вектор из E_n , тогда из (1) имеем

(4)

Так как D_j – симметрическая положительно определенная матрица, то существует положительно определенная матрица D_j ¹ ^/2 , такая, что D_j = D_j ¹ ^/2 D_j ¹ ^/2 . Пусть
a = D_j ¹ ^/2 x и b = D_j ¹ ^/2 q_j . Тогда x^T D_j x = a^T a, q_j ^T D_j q_j = b^T b и x^T D_j q_j = a^T b. Подставляя эти выражения в (4), получаем :

(5)

По неравенству Шварца имеем (a^T a)(b^T b) (a^T b)² . Таким образом, чтобы доказать, что x^T D_j+1 x 0, достаточно показать, что p_j ^T q_j 0 и b^T b 0. Из (2) и (3) следует, что

p_j ^T q_j = l_j d_j ^T [f(y_j+1 ) – f(y_j )]. (6)

По предположениюf(y_j ) 0, и D_j положительно определена, так что
f(y_j )^T D_j f(y_j ) 0. Кроме того, d_j – направление спуска, и, следовательно, l_j 0. Тогда из (6) следует, что p_j ^T q_j 0. Кроме того, q_j 0, и , следовательно, b^T b= q_j ^T D_j q_j 0.

Покажем теперь, что x^T D_j+1 x 0. Предположим, что x^T D_j+1 x = 0. Это возможно только в том случае, если (a^T a)(b^T b) = (a^T b)² и p_j ^T x = 0. Прежде всего заметим, что
(a^T a)(b^T b) = (a^T b)² только при a = lb, т.е. D_j ¹ ^/2 x = lD_j ¹ ^/2 q_j . Таким образом, x = lq_j . Так как x 0, то l 0. Далее, 0 = p_j ^T x = l p_j ^T q_j противоречит тому, что p_j ^T q_j 0 и l 0. Следовательно, x^T D_j+1 x 0, т.е. матрица D_j+1 положительно определена.

Поскольку f(y_j ₊₁ ) 0 и D_j+1 положительно определена, имеем
f(y_j ₊₁ )^T d_j+1 = –f(y_j ₊₁ )^T D_j+1 f(y_j ₊₁ ) 0. Отсюда по теореме 1 следует, что d_j+1 – направление спуска.

Лемма доказана.

Квадратичный случай.

В дальнейшем нам понадобиться :

Теорема 2. Пусть f(x) = c^T x + 1 x^T Hx, где Н - симметрическая матрица порядка n x n. Рассмотрим Н - сопряженные векторы d₁ , …, d_n и произвольную точку x₁ . Пусть l_k для k = 1, …, n - оптимальное решение задачи минимизации
f(x_k + ld_k ) при l Е₁ и x_k+1 = x_k + ld_k . Тогда для k = 1, …, n справедливы следующие утверждения :

1. f(x_k+1 )^T d_j = 0, j = 1, …, k;

2. f(x₁ )^T d_k = f(x_k )^T d_k ;

3. x_k+1 является оптимальным решением задачи минимизации f(x) при условии
x - x₁ L(d₁ , …, d_k ), где L(d₁ , …, d_k ) – линейное подпространство, натянутое на векторы d₁ , …, d_k , то есть В частности, x_n+1 – точка минимума функции f на Е_n .

Если целевая функция f квадратичная, то в соответствии со сформулированной ниже теоремой 3 направления d₁ , …, d_n , генерируемые методом Дэвидона - Флетчера - Пауэлла, являются сопряженными. Следовательно, в соответствии с утверждением 3 теоремы 2 метод останавливается после завершения одной итерации в оптимальной точке. Кроме того, матрица D_n+1 , полученная в конце итерации, совпадает с обратной к матрице Гессе Н.

Теорема 3 . Пусть Н – симметричная положительно определенная матрица порядка n x n. Рассмотрим задачу минимизации f(x) = c^T x + 1 x^T Hx при условии x E_n . Предположим, что задача решена методом Дэвидона - Флетчера - Пауэлла при начальной точке y₁ и начальной положительно определенной матрице D₁ . В частности, пусть l_j , j = 1, …, n, – оптимальное решение задачи минимизации f(y_j + ld_j ) при l 0 и y_j ₊₁ = y_j + l_j d_j , где d_j = -D_j f(y_j ), а D_j определяется по формулам (1) – (3). Если f(y_j ) 0 для всех j, то направления
d₁ , …, d_n являются Н - сопряженными и D_n+1 = H^-1 . Кроме того, y_n+1 является оптимальным решением задачи.

Доказательство.

Прежде всего покажем, что для j, такого, что 1 j n, справедливы следующие утверждения :

1. d₁ , …, d_j линейно независимы.

2. d_j ^T Hd_k = 0 для i k; i, k j.

3. D_j+1 Hp_k , или, что эквивалентно, D_j+1 Hd_k = d_k для 1 k j, p_k = l_k d_k .

Проведем доказательство по индукции. Для j = 1 утверждения 1 и 2 очевидны. Чтобы доказать утверждение 3, заметим прежде всего, что для любого k справедливы равенства

Hp_k = H(l_k d_k ) = H(y_k+1 - y_k ) = f(y_k+1 ) –f(y_k ) = q_k . (7)

В частности, Hp₁ = q₁ . Таким образом, полагая j = 1 в (1), получаем

т.е. утверждение 3 справедливо при j = 1.

Теперь предположим, что утверждения 1, 2 и 3 справедливы для j n – 1. Покажем, что они также справедливы и для j + 1. Напомним, что по утверждению 1 теоремы 2 d_i ^T f(y_j+1 ) = 0 для i j. По индуктивному предположению d_i = D_j+1 Hd_i , i j. Таким образом, для i j имеем

0 = d_i ^T f(y_j+1 ) = d_i ^T HD_j+1 f(y_j+1 ) = –d_i ^T Hd_j+1 .

Ввиду предположения индукции это равенство показывает, что утверждение 2 также справедливо для j+1.

Теперь покажем, что утверждение 3 справедливо для j+1.

Полагая k j+1, имеем

. (8)

Учитывая (7) и полагая k = j + 1 в (8), получим, что D_j+2 Hp_j+1 = p_j+1 . Теперь пусть k j. Так как утверждение 2 справедливо для j + 1, то

p_j+1 ^T Hp_k = l_k l_j+1 d_j+1 ^T Hd_k = 0. (9)

По предположению индукции из (7) и вследствие того, что утверждение 2 справедливо для j + 1, получаем

. (10)

Подставляя (9) и (10) в (8) и учитывая предположение индукции, получаем

Таким образом, утверждение 3 справедливо для j+1.

Осталось показать, что утверждение 1 справедливо для j+1. Предположим, что . Умножая это равенство на и учитывая, что утверждение 2 справедливо для j+1, получаем, что . По условию теоремы , а по лемме 1 матрица положительно определена, так что . Так как H положительно определена, то и, следовательно, . Отсюда следует, что , и так как d₁ , …, d_j линейно независимы по предположению индукции, то для i = 1, …, j. Таким образом, d₁ , …, d_j ₊₁ линейно независимы и утверждение 1 справедливо для j+1. Следовательно, утверждения 1, 2 и 3 выполняются. В частности сопряжённость d₁ , …, d_n следует из утверждений 1 и 2, если положить j = n.

Пусть теперь j = n в утверждении 3. Тогда для k = 1, …, n. Если в качестве D взять матрицу, столбцами которой являются векторы d₁ , …, d_n , то . Так как D имеет обратную, то , что возможно только в том случае, если . Наконец, является оптимальным решением по теореме 2.

Теорема доказана.

Список литературы.

1. Базара М., Шетти К. «Нелинейное программирование. Теория и алгоритмы». М., 1982.

2. Химмельблау Д. «Прикладное нелинейное программирование». М., 1975.

Скачать архив с текстом документа