第9章 动态规划的基本方法 第10章 动态规划应用举例

Slides:



Advertisements
Similar presentations
校园及周边治安防范 暨应急预案桌面演练 实 训 乐山应急管理学会 贾 伟. 目 录 校园治安问题包含的内容 校园治安问题的特点 避免引发校园治安问题的对策 校园应急预案桌面演练实训 校园治安问题的成因.
Advertisements

手工加工全框眼镜技术 前调整确定加工基准制作模板割边 磨边磨安全角 (抛光) 装配 后调整检测.
“ 我不能 上学了,我 每天还要帮 家里拾柴火 呢。 ” 给远方的小学生写一封信 书信的基本格式: 开头顶格写称呼,打上冒号; 换行空两格写问候语; 接下来换行空两格写正文部分; 正文结束后,换行写祝颂语; 最后在右下方写上寄信人姓名和 写信日期。
融资融券业务的保证金与保证金比例 光大证券 · 信用业务管理总部 2015 年 12 月 ★融资融券业务投资者教育活动材料★
道家養生保健長壽藥膳 藥膳應用原則: 天人相應,道法自然 藥膳有兩個職能: 一是保健增壽,一是治療疾病。 ◎ 黃蕙棻.
中醫藥就醫用藥 - 婦女篇 中醫藥安全衛生教育資源中心 中醫藥就醫用藥百分百、就是藥做到: 停、看、聽、選、用專業.
下背痛 林口長庚醫院內科 住院醫師 毛畯台. 下背痛常見原因 軟組織受傷/背部筋膜發炎 椎間盤突出症 脊椎退化性關節炎 壓迫性骨折 椎間盤滑脫 惡性腫瘤 泌尿道疾患 姿勢不良.
華德學校上午校 「協助小學中國語文科教師建立專業學習型社群」計劃 (2008) 總結分享會 二零零九年一月十日.
《公路纵断面设计》 —— 纵断面设计的要求 道桥系 二○○七年五月. 纵断面设计的一般要求 1 .纵坡设计必须满足《公路工程技术标准》中的各项规定。 2 .为保证汽车能以一定的车速安全舒顺地行驶,纵坡应具有 — 定 的平顺性,起伏不宜过大及过于频繁。尽量避免采用极限纵坡 值.缓和坡段应自然地配合地形设置,在连续采用极限长度的.
形式逻辑学的框架 推理 判断 概念 演绎 归纳 直 接 复 合 三段论 枚 举 完 全 科 学 【有效性与真实性】
第二节 脉搏的评估及异 常时的护理. 教学目标  1 、解释有关名词  2 、说出脉搏、呼吸的正常值  3 、叙述脉搏、呼吸的测量方法;识别脉搏、 呼吸的异常变化  4 、叙述测量脉搏、呼吸的注意事项  5 、正确记录脉搏、呼吸,做到认真负责,实 事求是。
園藝二乙 1 號 丁楷儒 32 號 孫子恩. 1. 福山萵苣 ( 大陸妹 ) : 福山萵苣,萵苣家族成員之一,鮮甜脆綠又帶有萵苣類的 特殊苦味,用來代替生菜搭配烤肉也別具風味。極少病蟲 害,只需定時澆水施肥就能健康長大,是相當容易種植又 能有大收穫的蔬菜 。 感想: 雖然大陸妹好吃又好種,但種了太多而吃不完.
项目四、腻子的施工  一、准备工作  二、安全与卫生  三、板件表面的处理  四、准备腻子  五、刮腻子  六、腻子的干燥  七、腻子的打磨  结束.
第五单元 口语交际和作文.
第八章 負債 8-1 負債之意義及內容 8-2 流動負債 8-3 長期負債 8-4 其他負債.
工业财务状况表 财务部分培训 (2010年年报).
冷 热 疗 法.
個人理財規劃 第八章 投資規劃.
定海区渔农村集体资产 股份合作制改革工作 档案管理培训班
勝過這世界 我能勝過這世界 因有耶穌在我心 黑暗權勢已破碎 因耶穌基督寶血. 勝過這世界 我能勝過這世界 因有耶穌在我心 黑暗權勢已破碎 因耶穌基督寶血.
北京市工作居住证办理讲解.
政府採購法規概要 報告人:杜國正 行政院公共工程委員會企劃處.
校務會議 業 務 報 告 教官室 主任教官: 廖世文 中校 99/06/25.
課程設計者:新北市育林國中 林憶辰老師 分享者:林慧娟
祝贺您获得国家留学基金资助 请您登陆“国家留学网”查看《出国留学人员须知》,您在出国前及在外学习期间所需要办理的手续及具体流程,以及可能遇到的政策上疑问均在此《须知》上有所列明。
实际问题与一元二次方程(一).
挖掘市场预期分布 建立有效投资策略 权证市场2006年中期投资策略
审题与立意 夏邑高中高四语文组.
之 魔 析 妖 鬼 解 怪 大 沈家仪小组出品.
国王赏麦的故事.
邰港生物科技公司參訪.
95課綱 歷史科第二冊(中國史) 第三單元(章) 近世發展(宋、元明、清) 第三主題(節) 士紳社會與庶民文化
述职报告 ( 二○○七年度 ) 述职人: xxx 部 门: 计划财务部 岗 位: 部门经理.
转正述职报告 电商文案策划 XXX.
理 想 理想是大海的航标, 指引你前进的方向; 理想是闪闪的明灯, 照亮你前进的航程; 理想是生命的动力,帮助你战胜困难;
护患沟通技巧 护理部 马红云.
一、會計循環之意義 二、會計憑證概要 三、日記簿概要 四、分類帳概要
高中生职业生涯规划 河南省淮滨高级中学 朱凯
思想道德修养与法律基础 主讲人:XXX.
特种设备安全法简介 中原油田分公司 杜习广 2015年4月 视频.
马街乡综治维稳工作情况汇报 汇报人:xxx.
食品中毒的概念? 概念指摄入了含有生物性、化学性有毒、有害物质的食品或者把有毒、有害物质当作食品摄入后出现的非传染性(不属于传染病)的急性、亚急性疾病。 食品中毒的特点? 1. 潜伏期短,大约进食后0.5-24h相继发病,来势急剧,短时间内可能有大量病人同时发病。 2. 与食物有密切的关系,所有病人都食过同一种食物。
第三課 宗教(倫理)的獨特向度 單元 3.2 全球倫理:兩項原則和四項座右銘
通病文章 休 闲   今天天气真好,晴空万里,天上飘着朵朵白云。(偶可从没见过这样的情景^_^)我和同学小刚一起骑车去上学,突然他的车气门芯坏了,我就把我车上的拔下来给他装上,我俩继续一起高高兴兴地骑车往学校赶。(原来“我”的自行车可以不用气门芯啊^_^)   我们经过一家百货商店时,我不禁感慨道:啊!看来人民生活水平的确提高了,你看那位农民老大爷,左手一台电冰箱,右手一台电视机,一溜小跑回家去了。(比周星弛在《功夫》里还要厉害?!)都说一心不能二用,当我注视老大爷的时候,冷不丁岔道里冲出来一位老太太,说
科學與科技課程 教師分享會 二OO四年五月七日.
材料作文审题立意训练.
应如何深化普通高中学生综合素质评价 北京教科院基础教育研究所 赵学勤 2010、12、14-15.
第九章 长期资产及摊销 2017/3/21.
追问课堂,寻求效益 —有效教学的几点思考 牟平区实验小学 战丽娜.
电商2班 第五组. 电商2班 第五组 小组成员: 组长:汤昀 成员:杨阳、陆萍、邹斯斯、吴晓庆、吴盈盈.
喜愛大自然的老師----段秋華.
陈 汉 文 厦门大学会计系 主任 经济学教授 博士生导师
班級:電資一 組長:程英傑 組員:黃智駿、廖夢溪、李金霖 黃粵丞、蘇長益 指導老師:陳美美 老師
我真的很不想活,日子過得太沒有意思了。. 我真的很不想活,日子過得太沒有意思了。 聽起來,你現在的日子真難熬,你 願意說說看為什麼嗎?
让道德之花越开越鲜艳 主讲 xxx.
老员工心态管理.
平昌县泥龙初中校本培训 中小学微型课题研究
本章涉及的主要问题: 汇票中的出票、背书、 票据种类 承兑、保证行为 票据行为 汇票中的付款和追索 票据权利及其内容 有关本票的制度
二、感谢信的种类 根据寄送对象不同,感谢信可以分为三种: 1、直接寄送给感谢对象; 2、寄送对方所在单位有关部门或在其单位公开张贴; 3、寄送给广播电台、电视台、报社、杂志社等媒体公开播发。
热烈祝贺医院开业.
矿产资源储量管理
產品責任險的意義 想一想,什麼是「產品責任險」? Q
網路遊戲版 幸福農場168號.
古诗鉴赏.
有一个国家,所有的国民都非常老实憨厚,某天他们在自己的国家发现了五 座金矿,并且这五座金矿在地图上排成一条直线,国王知道这个消息后非常 高兴,他希望能够把这些金子都挖出来造福国民,首先他把这些金矿按照在 地图上的位置从北至南进行编号,依次为1、2、3、4、5,然后他命令他的 手下去对每一座金矿进行勘测,以便知道挖取每一座金矿需要多少人力以及.
(Dynamic programming)
B2B -- 99/09/01 ~ 99/11/10異動項目 1.公告區 1-1 登入首頁連結到公告區,將原登入資訊加到公告區
第一节 动态规划问题 §1.1 多阶段决策问题 §1.2 动态规划问题举例 精品课程《运筹学》
看圆如何七十二变 微建筑早课.
實習學生:陳姵儒 指導教授:潘明全 實習單位:戴正彥升大學中心
Presentation transcript:

第9章 动态规划的基本方法 第10章 动态规划应用举例 五 动态规划 第9章 动态规划的基本方法 第10章 动态规划应用举例 清华大学出版社

动态规划 什么是动态规划 动态规划的形成 动态规划的应用 解决多阶段决策过程最优化的一种数学方法。 产生于20世纪50年代。1951年美国数学家贝尔曼(R.Bellman)等人,根据一类多阶段决策问题的特点,把多阶段决策问题变换为一系列互相联系的单阶段问题,然后逐个加以解决。与此同时,他提出了解决这类问题的“最优性原理”,研究了许多实际问题,从而创建了解决最优化问题的一种新的方法——动态规划。 动态规划的应用 在工程技术、企业管理、工农业生产及军事等部门中都有广泛的应用,并且获得了显著的效果。 清华大学出版社

动态规划 动态规划在企业管理中的主要应用领域 最优路径问题 资源分配问题 生产调度问题 库存问题 装载问题 排序问题 设备更新问题 生产过程最优控制问题 等等 动态规划是求解某类问题的一种方法,是考查问题的一种途径,而不是一种特殊算法(如线性规划是一种算法)。因而,它不像线性规划那样有一个标准的数学表达式和明确定义的一组规则,而必须对具体问题进行具体分析处理。 清华大学出版社

动态规划 动态规划模型的分类 根据多阶段决策过程的时间参量是离散的还是连续变量,分为离散决策过程和连续决策过程。 根据决策过程的演变是确定性的还是随机性的,又可分为确定性决策过程和随机性决策过程。 组合起来可分为 离散确定性 离散随机性 连续确定性 连续随机性 本书主要研究离散决策过程。 清华大学出版社

第9章 动态规划的基本方法 第1节 多阶段决策过程及实例 第2节 动态规划的基本概念和基本方程 第3节 动态规划的最优性原理和最优性定理 第1节 多阶段决策过程及实例 第2节 动态规划的基本概念和基本方程 第3节 动态规划的最优性原理和最优性定理 第4节 动态规划和静态规划的关系 清华大学出版社

第1节 多阶段决策过程及实例 多阶段决策过程 在生产和科学实验中,有一类活动的过程,由于它的特殊性,可将过程分为若干个互相联系的阶段,在它的每一个阶段都需要作出决策,从而使整个过程达到最好的活动效果。因此,各个阶段决策的选取不是任意确定的,它依赖于当前面临的状态,又影响以后的发展。当各个阶段决策确定后,就组成了一个决策序列,因而也就决定了整个过程的一条活动路线。这种把一个问题可看作是一个前后关联具有链状结构的多阶段过程就称为多阶段决策过程,也称序贯决策过程。 清华大学出版社

第1节 多阶段决策过程及实例 例1 最短路线问题 给定一个线路网络,两点之间连线上的数字表示两点间的距离(或费用),试求一条由A到G的铺管线路,使总距离为最短(或总费用最小)。 清华大学出版社

第1节 多阶段决策过程及实例 例2 机器负荷分配问题 g=g(u1) h=h(u2) 第1节 多阶段决策过程及实例 例2 机器负荷分配问题 某种机器可以在高低两种不同的负荷下进行生产。在高负荷下进行生产时,产品的年产量g和投入生产的机器数量u1的关系为 g=g(u1) 这时,机器的年完好率为a,即如果年初完好机器的数量为u,到年终时完好的机器就为au,0<a<1,在低负荷下生产时,产品的年产量h和投入生产的机器数量u2的关系为 h=h(u2) 相应的机器年完好率为b,0<b<1。 假定开始生产时完好的机器数量为s1。要求制定一个五年计划,在每年开始时,决定如何重新分配完好的机器在两种不同的负荷下生产的数量,使在五年内产品的总产量达到最高。 清华大学出版社

第2节 动态规划的基本概念和基本方程 例1中求A到G的最短路线问题是动态规划中一个典型例子。现通过讨论它的解法,说明动态规划方法的基本思想,并阐述有关基本概念。 由图8-2可知,从A点到G点可以分为6个阶段。在第一阶段,A为起点,终点有B1、B2两个,因而这时走的路线有两个选择,一是走到B1;一是走到B2,若选择走到B2的决策,则B2就是第一阶段决策的结果。它既是第一阶段路线的终点,又是第二阶段路线的始点。在第二阶段,再从B2点出发,有一个可供选择的终点集合{C2,C3,C4};若选择由B2走至C2,则C2就是第二阶段的终点,同时又是第三阶段的始点。递推下去可看到:各个阶段的决策不同,路线就不同。显然,当某阶段的始点给定后,会影响后面各阶段的行进路线和整个路线的长短,而后面各阶段路线的发展不受这点以前各阶段决策的影响。故此问题的要求是:在各个阶段上选则一个恰当的决策,使得由这些决策组成的一个决策序列所决定的一条路线是总路程最短的一条。 清华大学出版社

2.1 动态规划的基本概念 1.阶段 把所给问题的过程,恰当地分为若干个相互联系的阶段,以便能按一定的次序去求解。描述阶段的变量称为阶段变量,常用k表示。阶段的划分,一般是根据时间和空间的自然特征来划分,但要便于把问题的过程能转化为多阶段决策的过程。如例1可分为6个阶段来求解,k分别等于1、2、3、4、5、6。 清华大学出版社

2.1 动态规划的基本概念 2.状态 状态表示每个阶段开始所处的自然状况或客观条件,它描述了研究问题过程的状况,又称不可控因素。在例1中,状态就是某阶段的出发位置。它既是该阶段某支路的起点,又是前一阶段某支路的终点。通常一个阶段有若干个状态,第一阶段有一个状态就是点A,第二阶段有两个状态,即点集合{B1,B2},一般第k阶段的状态就是第k阶段所有始点的集合。 清华大学出版社

2.1 动态规划的基本概念 描述过程状态的变量称为状态变量。它可用一个数、一组数或一向量(多维情形)来描述。常用Sk表示第k阶段的状态变量。如在例1中第三阶段有四个状态,则状态变量Sk可取四个值,即C1、C2、C3、C4。点集合{C1,C2,C3,C4}就称为第三阶段的可达状态集合。记为S3={C1,C2,C3,C4}。有时为了方便起见,将该阶段的状态编上号码1,2…这时也可记S3={1,2,3,4}。第k阶段的可达状态集合就记为Sk。 马尔科夫性 这里所说的状态应具有下面的性质:如果某阶段状态给定后,则在这阶段以后过程的发展不受这阶段以前各段状态的影响。换句话说,过程的过去历史只能通过当前的状态去影响它未来的发展,当前的状态是以往历史的一个总结。这个性质称为无后效性(即马尔科夫性)。 清华大学出版社

2.1 动态规划的基本概念 3.决策 决策表示当过程处于某一阶段的某个状态时,可以作出不同的决定(或选择),从而确定下一阶段的状态,这种决定称为决策。在最优控制中也称为控制。描述决策的变量,称为决策变量。它可用一个数、一组数或一向量来描述。常用uk(sk)表示第k阶段当状态处于sk时的决策变量。它是状态变量的函数。在实际问题中,决策变量的取值往往限制在某一范围之内,此范围称为允许决策集合。常用Dk(sk)表示第k阶段从状态sk出发的允许决策集合,显然有uk(sk)∈Dk(sk)。 清华大学出版社

2.1 动态规划的基本概念 3.决策 如在例1第二阶段中,若从状态B1出发,就可作出三种不同的决策,其允许决策集合D2(B1)={C1,C2,C3},若选取的点为C2,则C2是状态B1在决策u2(B1)作用下的一个新的状态,记作u2(B1)=C2。 清华大学出版社

2.1 动态规划的基本概念 4.策略 策略是一个按顺序排列的决策组成的集合。由过程的第k阶段开始到终止状态为止的过程,称为问题的后部子过程。由每段的决策按顺序排列组成的决策函数序列 称为k子过程策略,简称子策略,记为 ,即 当k=1时,此决策函数序列称为全过程的一个策略,简称策略,记为 ,即 在实际问题中,可供选择的策略有一定的范围,此范围称为允许策略集合,用P表示。从允许策略集合中找出达到最优效果的策略称为最优策略。 清华大学出版社

2.1 动态规划的基本概念 5.状态转移方程 状态转移方程是确定过程由一个状态到另一个状态的演变过程。若给定第k阶段状态变量的值,如果该段的决策变量uk一经确定,第k+1阶段的状态变量sk+1的值也就完全确定。即sk+1的值随sk和uk的值变化而变化。这种确定的对应关系,记为 上式描述了由k阶段到k+1阶段的阶段的状态转移规律,称为状态转移方程。Tk称为状态转移函数。如例1中,状态转移方程为 清华大学出版社

2.1 动态规划的基本概念 6.指标函数和最优值函数 2.1 动态规划的基本概念 6.指标函数和最优值函数 用来衡量所实现过程优劣的一种数量指标,称为指标函数。它是定义在全过程和所有后部子过程上确定的数量函数。常用Vk,n表示,即 对于要构成动态规划模型的指标函数,应具有可分离性,并满足递推关系。即Vk,n可以表示为sk、uk、Vk+1,n的函数,记为 在实际问题中很多指标函数都满足这个性质。 清华大学出版社

2.1 动态规划的基本概念 常见的指标函数形式 (1) 过程和它的任一子过程的指标是它所包含的各阶段的指标的和。即 2.1 动态规划的基本概念 常见的指标函数形式 (1) 过程和它的任一子过程的指标是它所包含的各阶段的指标的和。即 其中 表示第j阶段的阶段指标,这时上式可写成 (2) 过程和它的任一子过程的指标是它所包含的各阶段的指标的乘积。即 这时就可写成 清华大学出版社

2.1 动态规划的基本概念 指标函数的最优值,称为最优值函数,记为 。它表示从第 2.1 动态规划的基本概念 指标函数的最优值,称为最优值函数,记为 。它表示从第 k阶段的状态sk开始到第n阶段的终止状态的过程,采取最优策略所得到的指标函数值。即 “opt”是最优化(optimization)的缩写,可根据题意而取min或max。 清华大学出版社

2.2 动态规划的基本思想和基本方程 结合最短路线问题介绍动态规划方法的基本思想。 2.2 动态规划的基本思想和基本方程 结合最短路线问题介绍动态规划方法的基本思想。 生活中的常识告诉我们,最短路线有一个重要特性:如果由起点A经过P点和H点而到达终点G是一条最短路线,则由点P出发经过H点到达终点G的这条子路线,对于从点P出发到达终点的所有可能选择的不同路线来说,必定也是最短路线。例如,在最短路线问题中,若找到了A→B1→C2→D1→E2→F2→G是由A到G的最短路线,则D1→E2→F2→G应该是由D1出发到G点的所有可能选择的不同路线中的最短路线。 证明:(用反证法)如果不是这样,则从点P到G点有另一条距离更短的路线存在,把它和原来最短路线由A点到达P点的那部分连接起来,就会得到一条由A点到G点的新路线,它比原来那条最短路线的距离还要短些。这与假设矛盾,是不可能的。 清华大学出版社

2.2 动态规划的基本思想和基本方程 根据最短路线这一特性,寻找最短路线的方法,就是从最后一段开始,用由后向前逐步递推的方法,求出各点到G点的最短路线,最后求得由A点到G点的最短路线。所以,动态规划的方法是从终点逐段向始点方向寻找最短路线的一种方下面按照动态规划的方法,将例1从最后一段开始计算,由后向前逐步推移至A点。 清华大学出版社

2.2 动态规划的基本思想和基本方程 。同理, 当k=6时,由F1到终点G只有一条路线,故 2.2 动态规划的基本思想和基本方程 。同理, 当k=6时,由F1到终点G只有一条路线,故 当k=5时,出发点有 三个。若从E1出发,则有两个选择①至F1, ②至F2,则 其相应的决策为 这说明,由E1至终点G的最短距离为7,其最短路线是 清华大学出版社

2.2 动态规划的基本思想和基本方程 同理,从E2和E3出发,则有 其相应的决策为 且 清华大学出版社

2.2 动态规划的基本思想和基本方程 当k=4时,有 当k=3时,有 当k=2时,有 当k=1时,出发点有一个A点,则 且 2.2 动态规划的基本思想和基本方程 当k=4时,有 当k=3时,有 当k=2时,有 当k=1时,出发点有一个A点,则 且 。于是得到从起点A到终点G的最短距离为18。 清华大学出版社

2.2 动态规划的基本思想和基本方程 为了找出最短路线,再按计算的顺序反推之,可求出最优决策函数序列 ,即由 2.2 动态规划的基本思想和基本方程 为了找出最短路线,再按计算的顺序反推之,可求出最优决策函数序列 ,即由 组成一个最优策略。因而,找出相应的最短路线为 清华大学出版社

2.2 动态规划的基本思想和基本方程 从上面的计算过程中可以看出,在求解的各个阶段,我们利用了 k阶段与k+1阶段之间的递推关系: 2.2 动态规划的基本思想和基本方程 从上面的计算过程中可以看出,在求解的各个阶段,我们利用了 k阶段与k+1阶段之间的递推关系: 一般情况,k阶段与k+1阶段的递推关系式可写成 边界条件为 递推关系式(8-1)称为动态规划的基本方程。 清华大学出版社

2.2 动态规划的基本思想和基本方程 动态规划方法基本思想归纳: 2.2 动态规划的基本思想和基本方程 动态规划方法基本思想归纳: 动态规划方法的关键在于正确地写出基本的递推关系式和恰当的边界条件(简言之为基本方程)。要做到这一点,必须先将问题的过程分成几个相互联系的阶段,恰当地选取状态变量和决策变量及定义最优值函数,从而把一个大问题化成一族同类型的子问题,然后逐个求解。即从边界条件开始,逐段递推寻优,在每一个子问题的求解中,均利用了它前面的子问题的最优化结果,依次进行,最后一个子问题所得的最优解,就是整个问题的最优解。 在多阶段决策过程中,动态规划方法是既把当前一段和未来各段分开,又把当前效益和未来效益结合起来考虑的一种最优化方法。因此,每段决策的选取是从全局来考虑的,与该段的最优选择答案一般是不同的。 清华大学出版社

2.2 动态规划的基本思想和基本方程 在求整个问题的最优策略时,由于初始状态是已知的,而每段的决策都是该段状态的函数,故最优策略所经过的各段状态便可逐次变换得到,从而确定了最优路线。 如例1最短路线问题,初始状态A已知,则按下面箭头所指的方向逐次变换有 从而可得最优策略为{u1(A),u2(B1),…,u0’(F2)},相应的最短路线为 清华大学出版社

2.2 动态规划的基本思想和基本方程 求解最短路问题的标号法——逆序解法 清华大学出版社

2.2 动态规划的基本思想和基本方程 求解最短路问题的标号法——顺序解法 清华大学出版社

2.2 动态规划的基本思想和基本方程 动态规划的方法比穷举法有以下优点: 2.2 动态规划的基本思想和基本方程 动态规划的方法比穷举法有以下优点: (1) 减少了计算量。计算例1若用穷举法,就要对48条路线进行比较,运算在计算机上进行时,比较运算要进行47次;求各条路线的距离,即使用逐段累加方法,也要进行6+12+24+48+48=138次加法运算。用动态规划方法来计算,比较运算(从k=5段开始向前算)共进行3+3+4+4+1=15次。每次比较运算相应有两次加法运算,再去掉中间重复两次(即B1→C1,B2→C4各多算了一次),实际只有28次加法运算。可见,动态规划方法比穷举法减少了计算量。而且随着段数的增加,计算量将大大地减少。 (2) 丰富了计算结果。在逆序(或顺序)解法中,我们得到的不仅仅是由A点(或G点)出发到G点(或A点)的最短路线及相应的最短距离,而且得到了从所有各中间点出发到G点(或A点)的最短路线及相应的距离。这就是说,求出的不是一个最优策略,而是一族的最优策略。 清华大学出版社

2.2 动态规划的基本思想和基本方程 建立动态规划模型的五个要点: (1) 将问题的过程划分成恰当的阶段; 2.2 动态规划的基本思想和基本方程 建立动态规划模型的五个要点: (1) 将问题的过程划分成恰当的阶段; (2) 正确选择状态变量sk,使它既能描述过程的演变,又要满足无后效性; (3) 确定决策变量uk及每阶段的允许决策集合Dk(sk); (4) 正确写出状态转移方程; (5) 正确写出指标函数Vk,n的关系,它应满足下面三个性质: ① 是定义在全过程和所有后部子过程上的数量函数; ② 要具有可分离性,并满足递推关系。即 ③ 函数 对于变量Vk+1,n要严格单调。 清华大学出版社

2.2 动态规划的基本思想和基本方程 下面考虑动态规划基本方程。 设指标函数是取各阶段指标的和的形式,即 其中 2.2 动态规划的基本思想和基本方程 下面考虑动态规划基本方程。 设指标函数是取各阶段指标的和的形式,即 其中 表示第j段的指标。它显然是满足指标函数三个性质的。所以上式可写成 。 当初始状态给定时,过程的策略就被确定,则指标函数也就确定了。 因此,指标函数是初始状态和策略的函数。可记为 清华大学出版社

2.2 动态规划的基本思想和基本方程 上面递推关系又可写成 其子策略 可看成是由决策 和 组合而成。即 2.2 动态规划的基本思想和基本方程 上面递推关系又可写成 其子策略 可看成是由决策 和 组合而成。即 如果用p*k,n(sk)表示初始状态为sk的后部子过程所有子策略中的最优子策略,则最优值函数为 而 清华大学出版社

2.2 动态规划的基本思想和基本方程 但 所以,得到动态规划逆序解法的基本方程: 边界条件为 式中 2.2 动态规划的基本思想和基本方程 但 所以,得到动态规划逆序解法的基本方程: 边界条件为 式中 求解过程,根据边界条件,从k=n开始,由后向前逆推,从而逐步可求得各段的最优决策和相应的最优值,最后求出 时,就得到整个问题的最优解。 清华大学出版社

2.2 动态规划的基本思想和基本方程 动态规划顺序解法的基本方程 边界条件为 式中 2.2 动态规划的基本思想和基本方程 动态规划顺序解法的基本方程 边界条件为 式中 求解过程:根据边界条件,从k=1开始,由前向后顺推,逐步求得各段的最优决策和相应的最优值,最后求出 , 就得到整个问题的最优解。 清华大学出版社

第3节 动态规划的最优性原理和最优性定理 动态规划的最优性原理: 第3节 动态规划的最优性原理和最优性定理 动态规划的最优性原理: “作为整个过程的最优策略具有这样的性质:即无论过去的状态和决策如何,对前面的决策所形成的状态而言,余下的诸决策必须构成最优策略。” 简言之,一个最优策略的子策略总是最优的。 动态规划的基本方程或者说最优性定理才是动态规划的理论基础 清华大学出版社

第3节 动态规划的最优性原理和最优性定理 动态规划的最优性定理:设阶段数为n的多阶段决策过程,其阶段编号为 k=0,1,…,n-1 允许策略 第3节 动态规划的最优性原理和最优性定理 动态规划的最优性定理:设阶段数为n的多阶段决策过程,其阶段编号为 k=0,1,…,n-1 允许策略 为最优策略的充要条件是对任意一个k 有 式中 ,它是由给定的初始状态s0和子策略 所确定的k段状态。当V是效益函数时,opt取max;当V是损失函数时,opt取min。 清华大学出版社

第4节 动态规划和静态规划的关系 相同点 不同点 第4节 动态规划和静态规划的关系 相同点 动态规划、线性规划和非线性规划都属于数学规划范围,研究对象本质上都是求极值问题,都是利用迭代法去逐步求解。 不同点 线性规划和非线性规划研究的问题通常与时间无关,故又称为静态规划。线性规划迭代中的每一步是就问题的整体加以改善的。 动态规划研究的问题与时间有关,研究具有多阶段决策过程的一类问题,将问题的整体按时间或空间的特征分成若干个前后衔接的时空阶段,把多阶段决策问题表示为前后有关联的一系列单阶段决策问题,然后逐个加以解决,从而求出整个问题的最优决策序列。 对于某些静态问题,也可以人为地引入时间因素,把它看作是按阶段进行的一个动态规划问题,这就使得动态规划成为求解某些线性、非线性规划的有效方法。 清华大学出版社

第4节 动态规划和静态规划的关系 动态规划方法 关键:正确写出动态规划的递推关系式 逆推形式,当初始状态给定时,用逆推比较方便 逆序解法 第4节 动态规划和静态规划的关系 动态规划方法 逆序解法 顺序解法 关键:正确写出动态规划的递推关系式 逆推形式,当初始状态给定时,用逆推比较方便 顺推形式,当终止状态给定时,用顺推比较方便 清华大学出版社

第4节 动态规划和静态规划的关系 考查如图所示的n阶段决策过程。其中取状态变量为 决策变量为 。在第k阶段,决策xk使状态sk(输入)转移 第4节 动态规划和静态规划的关系 考查如图所示的n阶段决策过程。其中取状态变量为 决策变量为 。在第k阶段,决策xk使状态sk(输入)转移 为sk+1 (输出),设状态转移函数为 假定过程的总效益(指标函数)与各阶段效益(阶段指标函数)的关系为 其中记号٭*都表示为+,或都表示为×。问题是:使 达到最优化,即求 ,为简单起见,不妨此处就求 清华大学出版社

第4节 动态规划和静态规划的关系 4.1 逆推解法 设已知初始状态为s1,并假定最优值函数fk(sk)表示第k阶段的初始状态为sk,从k阶段到n阶段所得到的最大效益。 从第n阶段开始,则有 其中 是由状态sn所确定的第n阶段的允许决策集合。 解此一维极值问题,就得到最优解 和最优值 注意:若 只有一个决策,则 就应写成 清华大学出版社

第4节 动态规划和静态规划的关系 在第n-1阶段,有 其中 解此一维极值问题,得到最优解 和最优值 清华大学出版社

第4节 动态规划和静态规划的关系 在第k阶段,有 其中 解得最优解 和最优值 清华大学出版社

第4节 动态规划和静态规划的关系 如此类推,直到第一阶段,有 其中 解得最优解 和最优值 由于初始状态s1已知,故 和 是确定的,从而 第4节 动态规划和静态规划的关系 如此类推,直到第一阶段,有 其中 解得最优解 和最优值 由于初始状态s1已知,故 和 是确定的,从而 也就可确定,于是 和 也就可确定。这样,按照上述递推过程相反的顺序推算下去,就可逐步确定出每阶段的决策及效益。 清华大学出版社

第4节 动态规划和静态规划的关系 例3 用逆推解法求解下面问题 解 : 按问题的变量个数划分阶段,把它看作为一个三阶段决策问题。 第4节 动态规划和静态规划的关系 例3 用逆推解法求解下面问题 解 : 按问题的变量个数划分阶段,把它看作为一个三阶段决策问题。 设状态变量为s1, s2,s3,s4,并记s1=c;取问题中的变量x1,x2,x3为决策变量;各阶段指标函数按乘积方式结合。令最优值函数fk(sk)表示为第k阶段的初始状态为sk,从k阶段到3阶段所得到的最大值。 设 则有 清华大学出版社

第4节 动态规划和静态规划的关系 用逆推解法,从后向前依次有 及最优解 由 得 和 (舍去) ,故 为极大值点。 由 ,而 所以 最优解 第4节 动态规划和静态规划的关系 用逆推解法,从后向前依次有 及最优解 由 得 和 (舍去) ,故 为极大值点。 由 ,而 所以 最优解 清华大学出版社

第4节 动态规划和静态规划的关系 像前面一样利用微分法易知 故 由于已知 而按计算的顺序反推算,可得各阶段的最优决策和最优值。 第4节 动态规划和静态规划的关系 像前面一样利用微分法易知 故 由于已知 而按计算的顺序反推算,可得各阶段的最优决策和最优值。 清华大学出版社

第4节 动态规划和静态规划的关系 即 由 所以 由 所以 因此得到最优解为 最大值为 清华大学出版社

第4节 动态规划和静态规划的关系 4.2 顺推解法 设已知终止状态sn+1,并假定最优值函数fk(s)表示第k阶段末的结束状态为s,从1阶段到k阶段所得的最大收益。 已知终止状态sk+1用顺推解法与已知初始状态用逆推解法在本质上没有区别,它相当于把实际的起点视为终点,实际的终点视为起点,而按逆推解法进行的。换言之,只要把图8-6的箭头倒转过来即可,把输出sk+1看作输入,把输入sk看作输出,这样便得到顺推解法。但应注意,这里是在上述状态变量和决策变量的记法不变的情况下考虑的。因而这时的状态变换是上面状态变换的逆变换,记为 从运算而言,即是由sk+1和xk而去确定sk。 清华大学出版社

第4节 动态规划和静态规划的关系 从第一阶段开始,有 解得最优解 和最优值 若 只有一个决策,则 就写成 清华大学出版社

第4节 动态规划和静态规划的关系 在第二阶段,有 其中 解得最优解 和最优值 清华大学出版社

第4节 动态规划和静态规划的关系 如此类推,直到第n阶段,有 其中 解得最优解 和最优值 由于终止状态 是已知的,故 和 第4节 动态规划和静态规划的关系 如此类推,直到第n阶段,有 其中 解得最优解 和最优值 由于终止状态 是已知的,故 和 是确定的。再按计算过程的相反顺序推算上去,就可逐步确定出每阶段的决策及效益。 清华大学出版社

第4节 动态规划和静态规划的关系 例4 将例3用顺推解法解之。 解: 设s4=c,令最优值函数 表示第k阶段末的状态为sk+1, 第4节 动态规划和静态规划的关系 例4 将例3用顺推解法解之。 解: 设s4=c,令最优值函数 表示第k阶段末的状态为sk+1, 从1阶段到k阶段的最大值。 设 则有 清华大学出版社

第4节 动态规划和静态规划的关系 用顺推解法,从前向后依次有 及最优解 及最优解 及最优解 由于已知 ,故易得到最优解为 最大值为 第4节 动态规划和静态规划的关系 及最优解 用顺推解法,从前向后依次有 及最优解 及最优解 及最优解 由于已知 ,故易得到最优解为 最大值为 清华大学出版社

注意 清华大学出版社

第4节 动态规划和静态规划的关系 例5 用动态规划方法解下面问题 解:按问题中变量的个数分为三个阶段。设状态变量为 并记 ;取 第4节 动态规划和静态规划的关系 例5 用动态规划方法解下面问题 解:按问题中变量的个数分为三个阶段。设状态变量为 并记 ;取 为各阶段的决策变量;各阶段指标函数按加法方式结合。令最优值函数 表示第k阶段的结束状态为sk,从1阶段至k阶段的最大值。 设 则有 清华大学出版社

第4节 动态规划和静态规划的关系 用顺推方法,从前向后依次有 由 解得 因该点不在允许决策集合内,故无须判别。因而 第4节 动态规划和静态规划的关系 用顺推方法,从前向后依次有 由 解得 因该点不在允许决策集合内,故无须判别。因而 的最大值必在两个端点上选取。而 所以 的最大值点在 处,故得到 及相应的最优解 清华大学出版社

第4节 动态规划和静态规划的关系 由 , 解得 又 ,故该点为极小值点。而 故 的最大值点在 处,所以得 及相应的最优解 清华大学出版社

第4节 动态规划和静态规划的关系 由于s3不知道,故须再对s3求一次极值,即 显然,当 时 才能达到最大值。所以 为最大值。 第4节 动态规划和静态规划的关系 由于s3不知道,故须再对s3求一次极值,即 显然,当 时 才能达到最大值。所以 为最大值。 再按计算的顺序反推算可求得最优解为 最大值为 清华大学出版社

4.3 动态规划的计算框图 清华大学出版社