=4 =9 =1 0 s s L 在 平面上任给一点 ,就对应有一个目标函数值 = 这个值就是过 点作 平面的垂线与S曲面交点的纵坐标。 反之,任给一个值 ,使目标函数 取值为 的点z的 个数就不相同了。可能没有,可能只有一个,可能有多个。 这一事实的几何意义是:过 f 轴上坐标为 的点作 坐标平面的平行平面L,可能与曲面S无交点( 〈0 时),可能与S有一个交点( =0 时),可能与S交成一条曲线( 〉0 )。
我们感兴趣的是至少有一个交点( ≥0)的情形。 此时用平面L截曲面S得到一个圆,将它投影到 平面上,仍为同样大小的圆。在这个圆上每一点的目标 函数值均为 , 若一条曲线上任何一点的目标函数值等于同一常数,则称此曲线为目标函数的等值线。 易见,变动 f 的值,得到不同等值线,这是一组同心圆 ,对应 f=0的等值线缩为一点G,对应 f <0 的等值线为空集。 易见,随着 f 值变小,等值线圆半径变小,最后缩为一点,即为问题的最小值点G, = 例2 用图解法求解
解:先画出目标函数等值线,再画出约束曲线,本处约束曲线是一条直线,这条直线就是容许集。而最优点就是容许集上使等值线具有最小值的点。 =2 =1 解:先画出目标函数等值线,再画出约束曲线,本处约束曲线是一条直线,这条直线就是容许集。而最优点就是容许集上使等值线具有最小值的点。 由图易见约束直线与等值线的切点是最优点,利用解析几何的方法得该切点为 = , 对应的最优值为 =2 (图一)
● D 例3:用图解法求解 = 解:①先画出等式约束曲线 的图形。 这是一条抛物线,如图 ②再画出不等式约束区域,如图(怎样选定哪侧区域) 例3:用图解法求解 = = ● D E 解:①先画出等式约束曲线 的图形。 这是一条抛物线,如图 ②再画出不等式约束区域,如图(怎样选定哪侧区域) ③最后画出目标函数等值线,特别注意可行集边界点,
以及等值线与可行集的切点,易见可行域为曲线段ABCD。当动点沿抛物曲线段ABCD由A点出发时,AB段目标函数值下降。过点B后,在BC段目标函数值上升。过C点后,在CD段目标函数值再次下降。D点是使目标函数值最小的可行点,其坐标可通过解方程组: 得出 = , =4
由以上三个例子可见,对二维最优化问题。我们总可以用图解法求解,而对三维或高维问题,已不便在平面上作图,此法失效。 在三维和三维以上的空间中,使目标函数取同一常数值的是 {Z| f(Z)=r,r是常数}称为目标函数的等值面。 等值面具有以下性质: (1)不同值的等值面之间不相交,因为目标函数是单值函数。 (2)除了极值点所在的等值面外,不会在区域内部中断,因为目标函数是连续的。 (3)等值面稠的地方,目标函数值变化得较快,而稀疏的地方变化得比较慢。 (4)一般地,在极值点附近,等值面(线)近似地呈现为同心椭球面族(椭圆族)。
§5 二次函数 在n元函数中,除了线形函数: 或f(z)=az+c 外,最简单最重要的一类就是二次函数。
二次函数的一般形式为 其中 均为常数。 其向量矩阵表示形式是: 其中 Q= b= Q为对称矩阵 在代数学中将特殊的二次函数 称为二次型。 对于二次函数,我们更关心的是Q为正定矩阵的情形。 定义:设Q为n×n对称矩阵 若 ,Z ≠0 ,均有 >0 ,则称矩阵Q是正定的。 若 ,均有 ≥0 ,则称矩阵Q是半正定的。
若 ,且Z≠0,均有 <0,则称Q是负定的。 若 ,均有 ≤0,则称Q是半负定的。 判定一个对称矩阵Q是不是正定的,可以用Sylvester定理来判定。 Sylvester定理:一个n×n对称矩阵Q是正定矩阵的充要条件是矩阵Q的各阶主子式都是正的。 A是正定矩阵 非奇异矩阵A= A的所有特征根大于零 有高矩阵G,使A= (矩阵秩等于 矩阵列:高矩阵) A的所有主子式>0 例:判定矩阵Q= 是否正定 解:对称矩阵Q的三个主子式依次为:
=6>0, =3>0, =10>0 因此知矩阵Q是正定的。 定理: 若二次函数 中Q正定,则它的等值面是同心椭球面族,且中心为 = 证明:作变换Z=Y ,代入二次函数式中: 根据解析几何知识,Q为正定矩阵的二次型 的等值面是以坐标原点 =0为中心的同心椭球面族。由于上式中的
是常数,所以 的等值面也是以 =0为中心的同心椭球面族,回到原坐标系中去,原二次函数就是以 = 为中心的同心椭球面族。 另外,这族椭球面的中心 = 恰是二次目标函数的唯一极小点。 前面已说过,一般目标函数的等值面在极小点附近近似地呈现为椭球面族。由此可见对于二次目标函数有效的求极小点的算法,当用于一般目标函数时,至少在极小点附近同样有效。因此在最优化理论中判定一个算法好坏的标准之一,是把该算法用于Q为正定的二次目标函数,如能迅速找到极小点,就是好算法;否则就不是太好的算法。 特别地若算法对于Q为正定的二次目标函数能在有限步内找出极小点来,就称此算法为二次收敛算法,或具有二次收敛性。 例:把二次函数 化为矩阵向量形式并检验Q是否正定,如正定,试用公式 = 求这个函数的极小点。
解:展开 = 与题中函数比较各项系数为:Q= b= 由前例知Q正定 极小点是 = =
§6 梯度与 Hesse矩阵 一、多元函数的可微性和梯度 以后我们研究的最优化问题涉及的均是多元函数,并要求它们的可微性,下面先给出定义。 f: 表示 f 是定义在 中区域D上的 n 元实值函数。 定义1:设 f: , D , 若 L ,使 P 有: =0 ⑴ 则称 f(Z) 在 处可微。 若令 = 则 f 在 处可微时,有 =0,即 是无穷小量。 从而 ⑵
其中 表示 的高阶无穷小,与一元函数可微性定义类似( 即 ) 定理:若 f(Z) 在 处可微,则 f(Z) 在该点处关于各变量的一阶偏导数存在,且 ⑶ 证明:令 , 依次取P= , 为任意无穷小变量, 是 第 i 个坐标轴上的单位向量,即 由 f 在 处可微,则 ⑵ 对P= 成立,即 两边除以 并取 的极限有: 定义2 以 f(Z) 的 n 个偏导数为分量的向量称为 f(Z) 在Z处的梯度。
记为 = ⑷ 梯度也可称为函数 f(Z) 关于向量Z的一阶导数。 若f 在 处可微,将⑶代入⑵得 ⑸ 这与一元函数展开到两项的Taylor 公式是相对应的。 二、梯度的性质 设f(Z) 在定义域内有连续偏导数,即有连续梯度 ,则梯度 有以下两个重要性质: 性质一 函数在某点的梯度不为零,则必与过该点的等值面垂直 性质二 梯度方向是函数具有最大变化率的方向。 性质一的证明: 过点 的等值面方程为: = 或 = , = ⑹ 设 是过点 同时又完全在等值面
⑹上的任一条光滑曲线L的方程,θ为参数。点 对应的参数是 把此曲线方程代入⑹ 两边同时在 处关于θ求导数,根据复合函数微分法有: ⑺ 向量 恰为曲线L在 处的切向量,由⑷、⑺有: , 即函数f(Z) 在 处的梯度 与过该点在等值面上的任一条曲线L在此点的切线垂直。从而与过该点的切平面垂直,从而性质一成立。 为说明第二条性质,先引进下面方向导数定义: = 定义 设 在点Z处可微,P为固定向量,e 为向量P方向的单位向量,则称极限: 为函数f(Z) 在点 处沿方向P的方向导数,其中 为其记号,
由定义及极限性质可知: 若 <0,则f(Z) 从 出发在 附近沿P方向是下降的(∵ <0,则t>0充分小时 <0即 < , ) 若 >0,则f(Z) 从 出发在 附近沿方向P是上升的。 定理: 若 在点 处可微,则 ,其中 e 为P方向上的单位向量。 证明:利用方向导数定义并将 中的P换成te有: = = ※ 推论:若 <0,则P是函数f(Z) 在 处的下降方向。 若 >0,则P是函数f(Z) 在 处的上升方向。 (∵P= te ,t >0,则 <0,有 <0 ,由前面证明即知P为下降方向。)(同样可证明后者)
以上我们看到方向导数正负决定了函数升降,而升降速度的快慢由方向导数绝对值大小来决定,绝对值越大升降速度越大。因此又将方向导数 称为f(Z) 在 处沿方向P的变化率。 由于 (β为方向P与 的夹角) 为使 取最小值,β应取 ,即P= - ,可见负梯度方向即为函数的最速下降方向;同样梯度方向即为函数的最速上升方向。 这样我们就说明了性质二。 上升方向 我们有结论: 变化率为0方向 函数在与其梯度正交的方向上变化率为0 下降方向 函数在与其梯度成锐角的方向上是上升的 - 函数在与其梯度成钝角的方向上是下降的 例一 试求目标函数 在点 处的最速下降方向,并求沿这个方向移动一个单位长度后新点的目标函数值。
解: 由于 则函数在 处的最速下降方向是