马氏决策规划简介.

Slides:



Advertisements
Similar presentations
一、 一阶线性微分方程及其解法 二、 一阶线性微分方程的简单应用 三、 小结及作业 §6.2 一阶线性微分方程.
Advertisements

2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
全微分 教学目的:全微分的有关概念和意义 教学重点:全微分的计算和应用 教学难点:全微分应用于近似计算.
金融一班 王亚飞 王亚飞 王浩浩 王浩浩 吴海玥 吴海玥 我 连云港 的 家 乡 连云港 连云港,位于东经118°24′~119°48′和北纬 34°~35°07′之间,古称郁洲、海州,民国时称 连云市,建国后称新海连市,别称“港城”。东 西长129公里,南北宽约132公里,水域面积 平方公里。连云港市也是我国于1984年.
配备计算机教室、多媒体教室、图书室、卫生室、 实验室、仪器室、音体美劳器材室、心理咨询室、少先 队活动室、教师集体备课室等专用教室。实验室、仪器 室全部按照省标准配备器材,演示实验开设率达 100% 。 学校现有图书 6050 册,生均 40 册。有一个 200 米环形跑 道的运动场地。 学校基本情况.
長得像的圖形 設計者:嘉義縣興中國小 侯雪卿老師 分享者:高雄市中山國小 江民瑜老師 高雄市勝利國小 許嘉凌老師.
课例评析—— 《回乡偶书》和《渔歌子》 评课人:冯琴.
就作文本身而言,题目堪称“眉目”,是作文的“眼睛”,从某种程度上说,它是作文材料和主题的浓缩或概括。
文化创新的途径.
庄伯金 概率论与随机过程 第13章 马尔可夫链 庄伯金
3.4 空间直线的方程.
2009—2010学年第一学期 小学品德与社会课程教学监控情况分析 潘诗求 2010年3月
15世纪欧洲人绘制的世界地图.
第五章 二次型. 第五章 二次型 知识点1---二次型及其矩阵表示 二次型的基本概念 1. 线性变换与合同矩阵 2.
第7课 新航路的开辟 第7课 新航路的开辟.
股票、债券、和保险 投资理财的话题.
电阻 新疆兵团四师76团中学.
外貌和能力哪个更重要.
从此,我不在沉默寡言 那一刻 就在这一刻 世上还有爸爸好 我 长 大 了 张绅 4 文苑芬芳
工程数学 第24讲 本文件可从网址 上下载 (单击ppt讲义后选择'工程数学'子目录)
《高等数学》(理学) 常数项级数的概念 袁安锋
从容行走,优雅为师 江苏省梁丰高级中学 任小文
高等数学电子教案 第五章 定积分 第三节 微积分基本定理.
一、原函数与不定积分 二、不定积分的几何意义 三、基本积分公式及积分法则 四、牛顿—莱布尼兹公式 五、小结
觀察內容: 時間 作息 觀察內容 9:30~9:40 角落分享
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
2-7、函数的微分 教学要求 教学要点.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
导入 21世纪教育网经纬社会思品工作室制作 我们可以通过哪些媒介(途径)获知这些消息?.
马克思主义基本原理概论 第三章 人类社会及其发展规律.
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
第二章 矩阵(matrix) 第8次课.
隐马尔可夫模型 Hidden Markov model
第四章 马尔可夫链.
§2 求导法则 2.1 求导数的四则运算法则 下面分三部分加以证明, 并同时给出相应的推论和例题 .
第一章 函数 函数 — 研究对象—第一章 分析基础 极限 — 研究方法—第二章 连续 — 研究桥梁—第二章.
隐马尔可夫模型 Hidden Markov model
动态规划(Dynamic Programming)
第8章 静电场 图为1930年E.O.劳伦斯制成的世界上第一台回旋加速器.
宁波市高校慕课联盟课程 与 进行交互 Linux 系统管理.
宁波市高校慕课联盟课程 与 进行交互 Linux 系统管理.
第4章 非线性规划 4.5 约束最优化方法 2019/4/6 山东大学 软件学院.
第一章 函数与极限.
学习中苦多?乐多? ——高二(1)班主题班会.
过程自发变化的判据 能否用下列判据来判断? DU≤0 或 DH≤0 DS≥0.
3.8.1 代数法计算终点误差 终点误差公式和终点误差图及其应用 3.8 酸碱滴定的终点误差
线性规 Linear Programming
线 性 代 数 厦门大学线性代数教学组 2019年4月24日6时8分 / 45.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
第三节 连续时间马尔可夫链.
第三章 马尔可夫链 关键词: 马尔可夫性 时齐马尔可夫链 n步转移概率 C-K方程 马氏链的有限维分布律 常返 暂留 正常返 零常返
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
第16讲 相似矩阵与方阵的对角化 主要内容: 1.相似矩阵 2. 方阵的对角化.
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
学习任务三 偏导数 结合一元函数的导数学习二元函数的偏导数是非常有用的. 要求了解二元函数的偏导数的定义, 掌握二元函数偏导数的计算.
第三章 马尔可夫链 关键词: 马尔可夫性 时齐马尔可夫链 n步转移概率 C-K方程 马氏链的有限维分布律 常返 暂留 正常返 零常返
2.2矩阵的代数运算.
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
线 性 代 数 厦门大学线性代数教学组 2019年5月12日4时19分 / 45.
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
§2 方阵的特征值与特征向量.
第13课 东汉的兴亡.
φ=c1cosωt+c2sinωt=Asin(ωt+θ).
第四节 向量的乘积 一、两向量的数量积 二、两向量的向量积.
繁星推薦系統 楊曉婷 副理 教育的服務 是我們的責任.
單元主題名: 大家都是好朋友 設計者:柯淑惠、林雨欣.
一元一次方程的解法(-).
最小生成树 最优二叉树.
决策树.
Presentation transcript:

马氏决策规划简介

★ ★ ★ ★ ★  马尔可夫过程  马尔可夫过程是一类特殊的随机过程,它因伟大的俄国数学家马尔可夫而得名。这种过程的特点是存在着确定的转移概率,与系统先前的历史无关,有一个很形象的比喻来形容这个过程:池塘里的青蛙在荷叶上跳来跳去,如果将它在某一时刻所在的荷叶称为状态,则青蛙未来处于什么状态只有它现在所在的状态有关,与它以前所处的状态无关。这种性质就是所谓的“一阶Markov性”或“无后效性”

一:基本概念   1.状态转移概率 假定系统有n个可能的状态,处于这些状态的概率分别为 p1,p2…pi ,…pn,例如,有1000名顾客在每周只到A和B购物,设定时间阶段为一周,在某一周,有900名顾客到A购物,我们称为状态1,有100名顾客到B,成为状态2,因此,系统的两个状态和概率分别为  状态1:顾客到A购物,0.9 状态2:顾客到B购物,0.1

2.状态转移概率矩阵 假定市场调查数据显示,在随后的一周内,上周去A购物的顾客有90%仍然在A购物,有10%的顾客则流向了B,去B购物的顾客有80%继续在B购物,而20%则流向了A,这些状态转移概率可用如下矩阵表示

该矩阵成为超市的一步转移矩阵。 对于k步(周期)的, 表示在给定 周期内处于状态i 的系统在经过k步后转移到状态j的概率,p(k) 表示系统的k步转移 概率矩阵,则有  状态转移概率矩阵描述了研究对象的变化过程,它有如下特征:

3.一步平稳转移概率 如果对于每个i和j, 均成立的话  3.一步平稳转移概率 如果对于每个i和j, 均成立的话  则称一步转移概率是平稳的,也就是说,从状态i转移到状态j的概率与现在的步数无关,这说明在研究的时间范围内,一步平稳转移概率保持为常数。系统的转移概率矩阵表示为

二  马尔可夫过程的预测

三:赋值马氏过程 有一个工厂为市场生产某种产品,每月月初对产品产品的销售情况进行了一次检查,其结果有二:销路好(记为状态1),也可能销路差(状态2)。若处于状态1,由于各种随机因素的干扰,下月初仍处于销路好的概率为0.5,转为销路差的概率也为0.5;若处于状态2,则下月初转为销路好的概率为0.4,仍处于销路差的概率为0.6。则他的状态转移过程为

若在上面所述的马氏过程中,当它在任意时刻从状态i 转移到状态j时可以获得相应的收益记为  ,  这种马氏过程随着状态转移可得到一系列的报酬(效益),我们称其为赋值马氏过程,称R=     为报酬矩阵。 上述工厂若某月初销路好,下月初仍销路好可获利9千元,下月初转为销路差可获利3千元,若某月初销路差,下月初转为销路好课获利3千元,下月初仍为销路差要亏本7千元。 则报酬矩阵为 

下面考虑系统经过一定阶段的运行后的总期望报酬。记q(i)为状态i 做出一次转移的期望报酬,则有   称    为一次转移的期望报酬向量。 记  为系统由状态i经过n次转移之后的总期望报酬,则有 

 其中  表示有状态i转移到状态j的概率, 表示由状态i转移到状态j的相应报酬。称     为n次转移的总期望报酬向量。  对     定义乘法    则有

即如果当前销路好,则下月获利6000元,否则下月亏损3000元 仍以上述工厂为例, 根据以上公式得 即如果当前销路好,则下月获利6000元,否则下月亏损3000元 在利用上面的公式,可以得出该工厂在不同的初始状态下,经过若干月后的总期望获利情况。

    三、马氏决策规划 在赋值马氏过程中,如果在某状态选用不同的决策能够改变相应的状态转移矩阵及报酬矩阵,就产生了动态随机系统求值最优策略的问题。马氏决策规划就是研究这类问题的。 下面我们通过实例来介绍马氏决策规划中有限阶段的一种求解方法——值迭代法。设系统目标为总期望报酬最大化。

仍以上述工厂为例,设该工厂在每个状态可选的决策是不登广告(记作方式1)或登广告(记作方式2)。若不登广告,自然无广告费;若登广告,要花额外的广告费,但下月初为销路好的概率可增加。 决策方式1的状态转移矩阵及报酬矩阵为: 选决策方式2的状态转移矩阵及报酬矩阵为: 问题是在若干月内采取什么决策才能使其总期望报酬最大。

用n表示系统的阶段数。 表示系统当前处于状态i,下一步以d种决策方式转移到状态j的概率。

由于 因而

  为第n阶段处于i状态时的决策。 这表明,该厂不论处于状态1还是2,如果再继续生产1个月,都应采取决策1,即不论销路好还是销路差都不登广告。 如果继续生产两个月:

这表明,如果继续生产两个月,第1个月不登广告,第2个月等广告。

同样可以计算出经3步,4步,……转移时的结果, 将结果列入表中,利用上述的值迭代法,可以算出系统当前处于状态i,经任意n步转移应采取怎样的最优策略以及所获得的总报酬期望值。

n(经营时间/月) 1 2 3 4 … (目前销路好,n月后停业的最大总期望报酬) 6 8.2 10.22 12.222 (目前销路好,若n月后停业应采取的最优决策) (目前销路差,n月后停业的最大总期望报酬) -3 -1.7 0.23 2.223 (目前销路差,若n月后停业应采取的最优决策)