第5章动态规划 5.1, 5.2 多阶段决策和最优化原理 2019/5/1.

Slides:

Advertisements

Similar presentations

第五节全微分方程一、全微分方程及其求法二、积分因子法三、一阶微分方程小结. 例如所以是全微分方程. 定义 : 则若有全微分形式一、全微分方程及其求法.

Advertisements

2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.

第八章第四节机动目录上页下页返回结束一个方程所确定的隐函数及其导数隐函数的微分法.

1 热烈欢迎各位朋友使用该课件！广州大学数学与信息科学学院. 2 工科高等数学广州大学袁文俊、邓小成、尚亚东.

2.5 函数的微分一、问题的提出二、微分的定义三、可微的条件四、微分的几何意义五、微分的求法六、小结.

第二章导数与微分. 二、微分的几何意义三、微分在近似计算中的应用一、微分的定义 2.3 微分.

动态规划——资源分配问题小组成员：黄秀梅罗燕雯杨俊李彩霞林琳（女）吴晶莹邓桂兰罗碧辉.

第五章二次型. 第五章二次型知识点1---二次型及其矩阵表示二次型的基本概念 1. 线性变换与合同矩阵 2.

第四章圓錐曲線 ‧4-1 拋物線 ‧4-2 橢　圓 ‧4-3 雙曲線總目錄.

6.9二元一次方程组的解法(2) 加减消元法上虹中学陶家骏.

一、二阶行列式的引入用消元法解二元线性方程组. 一、二阶行列式的引入用消元法解二元线性方程组.

內部審核實務新竹縣政府主計處四科王美琪

请说出牛顿第一定律的内容。.

每週一書好書報報抱抱好書林蕙蘭.

第三章函数逼近 — 最佳平方逼近.

2010年新教师培训讲稿福清市教师进修学校陈绍官

第4章动态规划 (Dynamic Programming)

(Dynamic programming)

西南科技大学网络教育系列课程数学建模与数学实验第7讲动态规划主讲教师: 彭煜杨学南西南科技大学理学院数学系.

《高等数学》（理学）常数项级数的概念袁安锋

动态规划（四）.

第三节细胞外被与细胞外基质 1、胶原细胞外被（糖萼）指细胞外覆盖的一层粘多糖（糖蛋白或糖脂）

恰当方程（全微分方程）一、概念二、全微分方程的解法.

第五节微积分基本公式、变速直线运动中位置函数与速度函数的联系二、积分上限函数及其导数三、牛顿—莱布尼茨公式.

一、原函数与不定积分二、不定积分的几何意义三、基本积分公式及积分法则四、牛顿—莱布尼兹公式五、小结

第二节微积分基本公式 1、问题的提出 2、积分上限函数及其导数 3、牛顿—莱布尼茨公式 4、小结.

§5.3 定积分的换元法和分部积分法一、定积分的换元法二、定积分的分部积分法三、小结、作业.

第三节格林公式及其应用（2）一、曲线积分与路径无关的定义二、曲线积分与路径无关的条件三、二元函数的全微分的求积四、小结.

初中数学九年级(下册) 5.3　用待定系数法确定二次函数表达式.

4 动态规划教学目的与要求通过对本章的学习，使学生对多阶段决策问题的产生发展和研究现状有基本的了解，对动态规划在现代物流管理中的运用有较全面的认识，了解动态规划方法的含义及其基本特点，明确动态规划模型的基本思想，掌握动态规划的基本概念和动态规划模型的建立，掌握求解动态规划问题的逆序递推法和顺序递推法，能够将动态规划的方法应用在现代物流管理实践中。

第2章 Z变换 Z变换的定义与收敛域 Z反变换系统的稳定性和H(z) 系统函数.

元素替换法 ——行列式按行(列)展开（推论）

第4章非线性规划一维搜索方法 2011年11月.

§2 求导法则 2.1 求导数的四则运算法则下面分三部分加以证明, 并同时给出相应的推论和例题 .

Online job scheduling in Distributed Machine Learning Clusters

What have we learned?.

动态规划(Dynamic Programming)

动态规划本章内容重点多阶段决策过程的最优化动态规划的基本概念和基本原理动态规划方法的基本步骤动态规划方法应用举例.

工业机器人技术基础及应用主讲人：顾老师

網路遊戲版幸福農場168號.

第4章非线性规划 4.5 约束最优化方法 2019/4/6 山东大学软件学院.

专题二：利用向量解决平行与垂直问题.

第二十二章曲面积分 §1 第一型曲面积分 §2 第二型曲面积分 §3 高斯公式与斯托克斯公式.

作业情况已交作业人数：140人凡是自己没有交过作业的同学，课后留下，有话要说。 2. 文件名范例：姓名：王树武 wshw_1.c

线性规 Linear Programming

概率统计主讲教师叶宏山东大学数学院.

第五节对坐标的曲面积分一、对坐标的曲面积分的概念与性质二、对坐标的曲面积分的计算法三、两类曲面积分的联系.

第十章双线性型 Bilinear Form 厦门大学数学科学学院网址: gdjpkc.xmu.edu.cn

成绩是怎么算出来的？ 16级第一学期半期考试成绩班级姓名语文数学英语政治历史地理物理化学生物总分 1 张三1 115

第4章 Excel电子表格制作软件 4.4 函数（一）.

用穷举法设计程序南京师范大学教育技术系倪佳慧

§6.7 子空间的直和一、直和的定义二、直和的判定三、多个子空间的直和.

1.把下面的关系模式转化为E-R图 1）系（系号，系名，电话） 2）教师（工号，姓名，性别，年龄，系号）

概率统计主讲教师叶宏山东大学数学院.

1.非线性规划模型 2.非线性规划的Matlab形式

第七、八次实验要求.

动态规划（二）.

建模常见问题MATLAB求解 .

数学建模方法及其应用韩中庚编著.

第15讲特征值与特征向量的性质主要内容：特征值与特征向量的性质.

第二节函数的极限一、函数极限的定义二、函数极限的性质三、小结思考题.

正弦、余弦函数的性质华容一中伍立华 2017年2月24日.

§2 方阵的特征值与特征向量.

第四节向量的乘积一、两向量的数量积二、两向量的向量积.

线性规划 Linear Programming

第三节数量积向量积混合积一、向量的数量积二、向量的向量积三、向量的混合积四、小结思考题.

使用Fragment 本讲大纲： 1、创建Fragment 2、在Activity中添加Fragment

§4.5 最大公因式的矩阵求法（ Ⅱ ）.

§2 自由代数定义19.7:设X是集合，G是一个T-代数，为X到G的函数,若对每个T-代数A和X到A的函数，都存在唯一的G到A的同态映射,使得=，则称G(更严格的说是(G,))是生成集X上的自由T-代数。X中的元素称为生成元。 A变， 变 变， 也变对给定的 和A，是唯一的.

Presentation transcript:

第5章动态规划 5.1, 5.2 多阶段决策和最优化原理 2019/5/1

动态规划研究的问题动态规划起源于1950年代，创始人为R. Bellman。动态规划所研究的对象是多阶段决策问题。这样的问题可以转化为一系列相互联系的单阶段优化问题。在每个阶段都需要作出决策。每个阶段的决策确定以后，就得到一个决策序列，称为策略。多阶段决策问题就是求一个策略，使各阶段的总体目标达到最优（如最小化费用，或最大化收益）。相对于线性规划一次性地对一个问题求出整体最优解，多阶段决策问题的这种解决办法称为动态规划（Dynamic Programming）。而原来的线性规划方法被称为静态规划。 2019/5/1 山东大学软件学院

内容多阶段决策问题和最优化原理定期多阶段决策问题不定期多阶段决策问题 2019/5/1 山东大学软件学院

问题举例一：最短路问题如图，求从a到g的最短路。由于这是一个多阶段图（分层图），该图上的最短路问题是一个多阶段决策（优化）问题。 2019/5/1 山东大学软件学院

如何求解？（后向优化） 2019/5/1 山东大学软件学院

逆向求解递推方程（标号法） 13 7 7 13 4 10 6 5 18 9 16 3 8 4 12 2019/5/1 山东大学软件学院

动态规划表格 2019/5/1 山东大学软件学院

递归如何？循环如何？递归程序 f(i, u, g) 1 if i = 1 then return d(u, g)， 2 else return min v  N(u) {d(u, v) + f(i  1, v, g)}。循环程序 f(u, g) 1 p  (a, b1, c1, d1, e1, d1, f1, g)。 2 for b  b1 到 b2 do 3 for c  c1 到 c4 do 4 for d  d1 到 d3 do 5 for e  e1 到 e3 do 2019/5/1 山东大学软件学院

循环？ 6 for f  f1 到 f2 do 7 q  (a, b, c, d, e, f, g)。 8 if q的长度 < p的长度 then p  q。 9 endfor /* f */ 10 endfor /* e */ 11 endfor /* d */ 12 endfor /* c */ 13 endfor /* b */ 14 return p。 2019/5/1 山东大学软件学院

问题举例二：资源分配问题设有数量为x的某种资源，将它投入两种生产方式A和B中（或称为投给部门A和部门B）。若投给部门A的数量为z，则可获收益g(z)，回收az，其中a（0 a  1）为部门A的回收率。类似地，若投给部门B的数量为z，则可获收益h(z)，回收bz，其中b（0 b  1）为部门B的回收率。连续投放n个阶段，问每个阶段如何分配资源才能使总收入最大？ 2019/5/1 山东大学软件学院

再描述一遍设第k个阶段的资源总数为xk，投给部门A的资源数量为yk。则投给部门B的数量为xk yk。于是可得到收入g(yk) + h(xk  yk)，回收axk + b (xk  yk)。因此，问题就成为：求y1, y2, , yn，最大化1  k  n g(yk) + h(xk  yk) ，且满足条件 x1 = x x2 = ay1 + b(x1  y1) …… xn = ayn  1 + b(xn  1  yn  1) yk  0，xk  0， k = 1..n  1 2019/5/1 山东大学软件学院

如何求解？（后向优化） 2019/5/1 山东大学软件学院

例5.1.2 例5.1.2：离散变量的资源分配问题。今有 1000 台机床（x = 1000），投放到 A、B 两个部门。若给部门 A 投放 z 台机床，则产生效益 g(z) = z2，回收 0.8z台机床（a = 0.8）。若给部门 B 投放 z 台机床，则产生效益 h(z) = 2z2，回收 0.4z台机床（b = 0.4）。问连续投放 5 年（n = 5），每年如何投放，可使 5 年的总收益最大？ 2019/5/1 山东大学软件学院

如何求解？ 2019/5/1 山东大学软件学院

计算一个单元格 f(k, x) 1 v   。 2 for y  0 到 x do 3 t  g(y) + h(x  y) + table(k  1,ay + b(x  y))。 /* 令 table(0, x) = 0 。*/ 4 if t > v then v  t。 5 endfor 6 return v。 2019/5/1 山东大学软件学院

说明每计算一个单元格的 fk(x)，都需要计算一个max 0  y  x {…}函数。因此，尽管使用表格暂存了计算结果，为计算出最后的 fn(x) 仍需要大量的计算。小技巧：不用每行都从 0 计算到 1000。每年无论如何投放，回收的机床最多是 0.8x 台（max{a, b} = 0.8）。例如表格第 5 行表示最后一个阶段，其前面有 4 个阶段。因此对于第5行，只需要从 0 计算到 0.84  1000 4096。但动态规划法已经比直接用递归的方法解递推方程减少了大量的计算。 2019/5/1 山东大学软件学院

计算结果 2019/5/1 山东大学软件学院

递归的方法 f(k, x) 1 v  0。 2 if k = 1 then 3 for y  0 到 x do 4 t  g(y) + h(x  y)。 5 if t > v then v  t。 6 endfor 7 else 8 for y  0 到 x do 9 t  g(y) + h(x  y) + f(k  1, ay + b(x  y))。 10 if t > v then v  t。 2019/5/1 山东大学软件学院

递归的方法 11 endfor 12 endif 13 return v。 2019/5/1 山东大学软件学院

多阶段决策问题有一个系统，可以分成若干个阶段。任意一个阶段 k，系统的状态可以用 xk 表示（可以是数量、向量、集合等）。每一状态 xk 都有一个决策集合 Qk(xk)，在 Qk(xk) 中选定一个决策 qk  Qk(xk)，状态 xk 就转移到新的状态x k + 1 = Tk(xk, qk)，并且得到效益（或费用）Rk(xk, qk)。系统的目标就是在每一个阶段都在它的决策集合中选择一个决策，使所有阶段的总效益达到最大（或总费用达到最小）。这样的多阶段决策问题通常使用动态规划方法来求解。 2019/5/1 山东大学软件学院

动态规划的最优子结构性质动态规划的最优化原理：需要问题的最优解具有如下所述的最优子结构性质：一个多阶段决策问题，假设其最优策略的第一阶段的决策为 q1，系统转移到的新状态为 x2。则该最优策略以后诸决策对以 x2 为初始状态的子问题而言，必须构成其最优策略。该子问题与原问题是同一类问题，只是问题规模下降了。当观察到问题解的最优子结构性质时，就意味着问题可能用动态规划法求解。 2019/5/1 山东大学软件学院

动态规划的子问题重叠性质从算法角度而言，（离散变量的）动态规划所依赖的另一个要素是子问题重叠性质：一个问题的求解可以划分成若干子问题的求解，而处理这些子问题的计算是部分重叠的。动态规划法利用问题的子问题重叠性质设计算法，能够节省大量的计算。对一些看起来不太可能快速求解的问题，往往能设计出多项式时间算法。在算法理论中，多项式时间算法通常被认为是“有效的算法”（efficient algorithm）。 2019/5/1 山东大学软件学院

前向优化写动态规划递推方程时，一般有两种写法：前向优化和后向优化。假设问题有n个阶段。定义fk() 为问题的前k个阶段（从第1阶段到第k阶段）的最优解值，然后将fk()递推至fk  1()。最后写出递推的终止条件f1()的表达式。原问题就是计算fn()。这称为前向优化。 1 2 n n – 1 … fn – 1() fn() 2019/5/1 山东大学软件学院

后向优化假设问题有n个阶段。定义fk() 为问题的后k个阶段（从第n – k + 1阶段到第n阶段）的最优解值，然后将fk()递推至fk – 1()。最后写出递推的终止条件f1()的表达式。原问题就是计算fn()。这称为后向优化。 1 2 n n – 1 … fn – 1() fn() 2019/5/1 山东大学软件学院

说明前面给出的两个例子，最短路问题和资源分配问题，都是采用后向优化技术解决的。原则上，多阶段决策问题既可以使用前向优化技术解决，也可以使用后向优化技术解决。依据问题不同，前向优化和后向优化其中的一种或二者是“自然”的解法。 2019/5/1 山东大学软件学院

最短路问题，前向优化 2019/5/1 山东大学软件学院

资源分配问题，前向优化 2019/5/1 山东大学软件学院

资源分配问题，前向优化 2019/5/1 山东大学软件学院

动态规划所研究的问题阶段数固定还是不固定？离散变量还是连续变量？很多阶段数不明显的优化问题，也可以使用动态规划方法求解。阶段数固定（也称为“定期”），指阶段数有限且固定。阶段数不固定（也称为“不定期”）：指阶段数有限但不固定，以及阶段数无限大两种情况。离散变量还是连续变量？很多阶段数不明显的优化问题，也可以使用动态规划方法求解。 2019/5/1 山东大学软件学院

2019/5/1 山东大学软件学院