第5章 动态规划 5.1, 5.2 多阶段决策和最优化原理 2019/5/1.

Slides:



Advertisements
Similar presentations
第五节 全微分方程 一、全微分方程及其求法 二、积分因子法 三、一阶微分方程小结. 例如 所以是全微分方程. 定义 : 则 若有全微分形式 一、全微分方程及其求法.
Advertisements

2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
第八章 第四节 机动 目录 上页 下页 返回 结束 一个方程所确定的隐函数 及其导数 隐函数的微分法.
1 热烈欢迎各位朋友使用该课件! 广州大学数学与信息科学学院. 2 工科高等数学 广州大学袁文俊、邓小成、尚亚东.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
第二章 导数与微分. 二、 微分的几何意义 三、微分在近似计算中的应用 一、 微分的定义 2.3 微 分.
动态规划——资源分配问题 小组成员:黄秀梅 罗燕雯 杨俊 李彩霞 林琳 (女) 吴晶莹 邓桂兰 罗碧辉.
第五章 二次型. 第五章 二次型 知识点1---二次型及其矩阵表示 二次型的基本概念 1. 线性变换与合同矩阵 2.
第四章 圓錐曲線 ‧4-1 拋物線 ‧4-2 橢 圓 ‧4-3 雙曲線 總目錄.
6.9二元一次方程组的解法(2) 加减消元法 上虹中学 陶家骏.
一、二阶行列式的引入 用消元法解二元线性方程组. 一、二阶行列式的引入 用消元法解二元线性方程组.
內部審核實務 新竹縣政府主計處四科 王美琪
请说出牛顿第一定律的内容。.
每週一書 好書報報 抱抱好書 林蕙蘭.
第三章 函数逼近 — 最佳平方逼近.
2010年新教师培训讲稿 福清市教师进修学校 陈绍官
第4章动态规划 (Dynamic Programming)
(Dynamic programming)
西南科技大学网络教育系列课程 数学建模与数学实验 第7讲 动态规划 主讲教师: 彭煜 杨学南 西南科技大学理学院数学系.
《高等数学》(理学) 常数项级数的概念 袁安锋
动态规划(四).
第三节 细胞外被与细胞外基质 1、胶原 细胞外被(糖萼)指细胞外覆盖的一层粘多糖(糖蛋白或糖脂)
恰当方程(全微分方程) 一、概念 二、全微分方程的解法.
第五节 微积分基本公式 、变速直线运动中位置函数与速度 函数的联系 二、积分上限函数及其导数 三、牛顿—莱布尼茨公式.
一、原函数与不定积分 二、不定积分的几何意义 三、基本积分公式及积分法则 四、牛顿—莱布尼兹公式 五、小结
第二节 微积分基本公式 1、问题的提出 2、积分上限函数及其导数 3、牛顿—莱布尼茨公式 4、小结.
§5.3 定积分的换元法 和分部积分法 一、 定积分的换元法 二、 定积分的分部积分法 三、 小结、作业.
第三节 格林公式及其应用(2) 一、曲线积分与路径无关的定义 二、曲线积分与路径无关的条件 三、二元函数的全微分的求积 四、小结.
初中数学 九年级(下册) 5.3 用待定系数法确定二次函数表达式.
4 动 态 规 划 教学目的与要求 通过对本章的学习,使学生对多阶段决策问题的产生发展和研究现状有基本的了解,对动态规划在现代物流管理中的运用有较全面的认识,了解动态规划方法的含义及其基本特点,明确动态规划模型的基本思想,掌握动态规划的基本概念和动态规划模型的建立,掌握求解动态规划问题的逆序递推法和顺序递推法,能够将动态规划的方法应用在现代物流管理实践中。
第2章 Z变换 Z变换的定义与收敛域 Z反变换 系统的稳定性和H(z) 系统函数.
元素替换法 ——行列式按行(列)展开(推论)
第4章 非线性规划 一维搜索方法 2011年11月.
§2 求导法则 2.1 求导数的四则运算法则 下面分三部分加以证明, 并同时给出相应的推论和例题 .
Online job scheduling in Distributed Machine Learning Clusters
What have we learned?.
动态规划(Dynamic Programming)
动态规划 本章内容重点 多阶段决策过程的最优化 动态规划的基本概念和基本原理 动态规划方法的基本步骤 动态规划方法应用举例.
工业机器人技术基础及应用 主讲人:顾老师
網路遊戲版 幸福農場168號.
第4章 非线性规划 4.5 约束最优化方法 2019/4/6 山东大学 软件学院.
专题二: 利用向量解决 平行与垂直问题.
第二十二章 曲面积分 §1 第一型曲面积分 §2 第二型曲面积分 §3 高斯公式与斯托克斯公式.
作业情况 已交作业人数:140人 凡是自己没有交过作业的同学,课后留下,有话要说。 2. 文件名范例: 姓名:王树武 wshw_1.c
线性规 Linear Programming
概 率 统 计 主讲教师 叶宏 山东大学数学院.
第五节 对坐标的曲面积分 一、 对坐标的曲面积分的概念与性质 二、对坐标的曲面积分的计算法 三、两类曲面积分的联系.
第十章 双线性型 Bilinear Form 厦门大学数学科学学院 网址: gdjpkc.xmu.edu.cn
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
第4章 Excel电子表格制作软件 4.4 函数(一).
用穷举法设计程序 南京师范大学 教育技术系 倪佳慧
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
1.把下面的关系模式转化为E-R图 1)系(系号,系名,电话) 2)教师(工号,姓名,性别,年龄,系号)
概 率 统 计 主讲教师 叶宏 山东大学数学院.
1.非线性规划模型 2.非线性规划的Matlab形式
第七、八次实验要求.
动态规划(二).
建模常见问题MATLAB求解  .
数学建模方法及其应用 韩中庚 编著.
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
正弦、余弦函数的性质 华容一中 伍立华 2017年2月24日.
§2 方阵的特征值与特征向量.
线性回归.
第四节 向量的乘积 一、两向量的数量积 二、两向量的向量积.
线性规划 Linear Programming
第三节 数量积 向量积 混合积 一、向量的数量积 二、向量的向量积 三、向量的混合积 四、小结 思考题.
使用Fragment 本讲大纲: 1、创建Fragment 2、在Activity中添加Fragment
§4.5 最大公因式的矩阵求法( Ⅱ ).
§2 自由代数 定义19.7:设X是集合,G是一个T-代数,为X到G的函数,若对每个T-代数A和X到A的函数,都存在唯一的G到A的同态映射,使得=,则称G(更严格的说是(G,))是生成集X上的自由T-代数。X中的元素称为生成元。 A变, 变 变, 也变 对给定的 和A,是唯一的.
Presentation transcript:

第5章 动态规划 5.1, 5.2 多阶段决策和最优化原理 2019/5/1

动态规划研究的问题 动态规划起源于1950年代,创始人为R. Bellman。 动态规划所研究的对象是多阶段决策问题。 这样的问题可以转化为一系列相互联系的单阶段优化问题。 在每个阶段都需要作出决策。 每个阶段的决策确定以后,就得到一个决策序列,称为策略。多阶段决策问题就是求一个策略,使各阶段的总体目标达到最优(如最小化费用,或最大化收益)。 相对于线性规划一次性地对一个问题求出整体最优解,多阶段决策问题的这种解决办法称为动态规划(Dynamic Programming)。而原来的线性规划方法被称为静态规划。 2019/5/1 山东大学 软件学院

内容 多阶段决策问题和最优化原理 定期多阶段决策问题 不定期多阶段决策问题 2019/5/1 山东大学 软件学院

问题举例一:最短路问题 如图,求从a到g的最短路。 由于这是一个多阶段图(分层图),该图上的最短路问题是一个多阶段决策(优化)问题。 2019/5/1 山东大学 软件学院

如何求解?(后向优化) 2019/5/1 山东大学 软件学院

逆向求解递推方程(标号法) 13 7 7 13 4 10 6 5 18 9 16 3 8 4 12 2019/5/1 山东大学 软件学院

动态规划表格 2019/5/1 山东大学 软件学院

递归如何?循环如何? 递归程序 f(i, u, g) 1 if i = 1 then return d(u, g), 2 else return min v  N(u) {d(u, v) + f(i  1, v, g)}。 循环程序 f(u, g) 1 p  (a, b1, c1, d1, e1, d1, f1, g)。 2 for b  b1 到 b2 do 3 for c  c1 到 c4 do 4 for d  d1 到 d3 do 5 for e  e1 到 e3 do 2019/5/1 山东大学 软件学院

循环? 6 for f  f1 到 f2 do 7 q  (a, b, c, d, e, f, g)。 8 if q的长度 < p的长度 then p  q。 9 endfor /* f */ 10 endfor /* e */ 11 endfor /* d */ 12 endfor /* c */ 13 endfor /* b */ 14 return p。 2019/5/1 山东大学 软件学院

问题举例二:资源分配问题 设有数量为x的某种资源,将它投入两种生产方式A和B中(或称为投给部门A和部门B)。 若投给部门A的数量为z,则可获收益g(z),回收az,其中a(0 a  1)为部门A的回收率。类似地,若投给部门B的数量为z,则可获收益h(z),回收bz,其中b(0 b  1)为部门B的回收率。 连续投放n个阶段,问每个阶段如何分配资源才能使总收入最大? 2019/5/1 山东大学 软件学院

再描述一遍 设第k个阶段的资源总数为xk,投给部门A的资源数量为yk。则投给部门B的数量为xk yk。于是可得到收入g(yk) + h(xk  yk),回收axk + b (xk  yk)。 因此,问题就成为:求y1, y2, , yn, 最大化1  k  n g(yk) + h(xk  yk) ,且满足条件 x1 = x x2 = ay1 + b(x1  y1) …… xn = ayn  1 + b(xn  1  yn  1) yk  0,xk  0, k = 1..n  1 2019/5/1 山东大学 软件学院

如何求解?(后向优化) 2019/5/1 山东大学 软件学院

例5.1.2 例5.1.2:离散变量的资源分配问题。 今有 1000 台机床(x = 1000),投放到 A、B 两个部门。 若给部门 A 投放 z 台机床,则产生效益 g(z) = z2,回收 0.8z台机床(a = 0.8)。 若给部门 B 投放 z 台机床,则产生效益 h(z) = 2z2,回收 0.4z台机床(b = 0.4)。 问连续投放 5 年(n = 5),每年如何投放,可使 5 年的总收益最大? 2019/5/1 山东大学 软件学院

如何求解? 2019/5/1 山东大学 软件学院

计算一个单元格 f(k, x) 1 v   。 2 for y  0 到 x do 3 t  g(y) + h(x  y) + table(k  1,ay + b(x  y))。 /* 令 table(0, x) = 0 。*/ 4 if t > v then v  t。 5 endfor 6 return v。 2019/5/1 山东大学 软件学院

说明 每计算一个单元格的 fk(x),都需要计算一个max 0  y  x {…}函数。因此,尽管使用表格暂存了计算结果,为计算出最后的 fn(x) 仍需要大量的计算。 小技巧:不用每行都从 0 计算到 1000。每年无论如何投放,回收的机床最多是 0.8x 台(max{a, b} = 0.8)。例如表格第 5 行表示最后一个阶段,其前面有 4 个阶段。因此对于第5行,只需要从 0 计算到 0.84  1000 4096。 但动态规划法已经比直接用递归的方法解递推方程减少了大量的计算。 2019/5/1 山东大学 软件学院

计算结果 2019/5/1 山东大学 软件学院

递归的方法 f(k, x) 1 v  0。 2 if k = 1 then 3 for y  0 到 x do 4 t  g(y) + h(x  y)。 5 if t > v then v  t。 6 endfor 7 else 8 for y  0 到 x do 9 t  g(y) + h(x  y) + f(k  1, ay + b(x  y))。 10 if t > v then v  t。 2019/5/1 山东大学 软件学院

递归的方法 11 endfor 12 endif 13 return v。 2019/5/1 山东大学 软件学院

多阶段决策问题 有一个系统,可以分成若干个阶段。 任意一个阶段 k,系统的状态可以用 xk 表示(可以是数量、向量、集合等)。 每一状态 xk 都有一个决策集合 Qk(xk),在 Qk(xk) 中选定一个决策 qk  Qk(xk),状态 xk 就转移到新的状态x k + 1 = Tk(xk, qk),并且得到效益(或费用)Rk(xk, qk)。 系统的目标就是在每一个阶段都在它的决策集合中选择一个决策,使所有阶段的总效益达到最大(或总费用达到最小)。 这样的多阶段决策问题通常使用动态规划方法来求解。 2019/5/1 山东大学 软件学院

动态规划的最优子结构性质 动态规划的最优化原理:需要问题的最优解具有如下所述的最优子结构性质: 一个多阶段决策问题,假设其最优策略的第一阶段的决策为 q1,系统转移到的新状态为 x2。则该最优策略以后诸决策对以 x2 为初始状态的子问题而言,必须构成其最优策略。 该子问题与原问题是同一类问题,只是问题规模下降了。 当观察到问题解的最优子结构性质时,就意味着问题可能用动态规划法求解。 2019/5/1 山东大学 软件学院

动态规划的子问题重叠性质 从算法角度而言,(离散变量的)动态规划所依赖的另一个要素是子问题重叠性质:一个问题的求解可以划分成若干子问题的求解,而处理这些子问题的计算是部分重叠的。 动态规划法利用问题的子问题重叠性质设计算法,能够节省大量的计算。对一些看起来不太可能快速求解的问题,往往能设计出多项式时间算法。 在算法理论中,多项式时间算法通常被认为是“有效的算法”(efficient algorithm)。 2019/5/1 山东大学 软件学院

前向优化 写动态规划递推方程时,一般有两种写法:前向优化和后向优化。假设问题有n个阶段。 定义fk() 为问题的前k个阶段(从第1阶段到第k阶段)的最优解值,然后将fk()递推至fk  1()。 最后写出递推的终止条件f1()的表达式。 原问题就是计算fn()。这称为前向优化。 1 2 n n – 1 … fn – 1() fn() 2019/5/1 山东大学 软件学院

后向优化 假设问题有n个阶段。 定义fk() 为问题的后k个阶段(从第n – k + 1阶段到第n阶段)的最优解值,然后将fk()递推至fk – 1()。 最后写出递推的终止条件f1()的表达式。 原问题就是计算fn()。这称为后向优化。 1 2 n n – 1 … fn – 1() fn() 2019/5/1 山东大学 软件学院

说明 前面给出的两个例子,最短路问题和资源分配问题,都是采用后向优化技术解决的。 原则上,多阶段决策问题既可以使用前向优化技术解决,也可以使用后向优化技术解决。 依据问题不同,前向优化和后向优化其中的一种或二者是“自然”的解法。 2019/5/1 山东大学 软件学院

最短路问题,前向优化 2019/5/1 山东大学 软件学院

资源分配问题,前向优化 2019/5/1 山东大学 软件学院

资源分配问题,前向优化 2019/5/1 山东大学 软件学院

动态规划所研究的问题 阶段数固定还是不固定? 离散变量还是连续变量? 很多阶段数不明显的优化问题,也可以使用动态规划方法求解。 阶段数固定(也称为“定期”),指阶段数有限且固定。 阶段数不固定(也称为“不定期”):指阶段数有限但不固定,以及阶段数无限大两种情况。 离散变量还是连续变量? 很多阶段数不明显的优化问题,也可以使用动态规划方法求解。 2019/5/1 山东大学 软件学院

2019/5/1 山东大学 软件学院