概率图模型林琛博士、副教授.

Slides:

Advertisements

Similar presentations

何仕仁主任. 國立彰化高中數理資優班柯承翰、柯宗賢、曾品祥國立彰化高中數理實驗班柯宗逸、辛百弘國立彰化女中數理資優班姚彤錦國立彰化女中語文資優班陳思穎國立彰化女中數理實驗班姚曉蓉.

Advertisements

12 届减数分裂复习（蔡志敬）给你一双翅膀，让你自由翱翔！. ※真核细胞分裂的方式有丝分裂无丝分裂减数分裂.

必修2 第一单元古代中国经济的基本结构和特点

報告人：教育部會計處處長黃永傳日期：103 年12 月27 日

郑伟诗 Wei-Shi Jason Zheng

105年桃連區適性入學宣導桃園市十二年國民基本教育宣導團宣講講師：龍岡國中校長郭玉承時間：105年 3 月 9 日 1.

如何幫助兒童情緒管理- 一般兒童及情緒障礙兒童

概率论与数理统计 2.3 连续型随机变量及其分布.

2011年10月31日是一个令人警醒的日子,世界在10月31日迎来第70亿人口。当日凌晨,成为象征性的全球第70亿名成员之一的婴儿在菲律宾降生。？

试验的全部结果所构成的区域长度（面积或体积）

应用题的解法.

5.1 二元一次不等式（组）与平面区域神木职教中心数学组：杨荣.

七（7）中队读书节韩茜、蒋霁制作.

初级会计实务第八章产品成本核算主讲人：杨菠.

5.5可行性分析可行性分析的概念策略可行性分析操作可行性分析回报可行性分析.

互斥事件有一发生的概率瑞四中林光明.

中考阅读复习备考交流西安铁一中分校向连吾.

中六級中國文化及語文科閱讀報告中六乙班潘雅詩 (十三).

课题二十四铣床夹具【教学目的和要求】通过本课题的学习，使学生了解铣床夹具的种类、结构、组成部分。掌握铣床夹具的设计要点。初步具备设计和使用专用铣床夹具的能力。【教学内容摘要】本课题介绍了铣床夹具的类型与特点，以及一些典型的铣床夹具。【教学重点、难点】教学重点为铣床夹具类型与特点以及铣床夹具的结构、组成部分。

模式识别 – 概率密度函数的参数估计第三章概率密度函数的参数估计. 模式识别 – 概率密度函数的参数估计 3.0 引言贝叶斯分类器的学习：类条件概率密度函数的估计。问题的表示：已有 c 个类别的训练样本集合 D 1 ， D 2 ， … ， D c ，求取每个类别的类条件概率密度。

中央广播电视大学开放教育成本会计（补修）期末复习

第三章投资成本收入利润（1）熟悉投资的概念；（2）熟悉成本的概念；（3）熟悉收入的概念；（4）熟悉利润的概念。本章要求

人教版义务教育课程标准实验教科书小学数学四年级上册第七单元《数学广角》合理安排时间 248.

第三单元发展社会主义民主政治.

3.3 资源的跨区域调配 ——以南水北调为例铜山中学李启强.

講師：聯捷聯合會計師事務所張志勝會計師(所長)

[聚會時，請將傳呼機和手提電話關掉，多謝合作]

物资供应简报第三期 2014年3月中铁二局物资重庆分公司项目物资简报.

（根据所看视频）说一说：中国戏曲是去是留?. （根据所看视频）说一说：中国戏曲是去是留?

戏曲大舞台综合性学习.

上海交通大学概率论第一、二章测验题大学数学教研室童品苗.

中考语文积累永宁县教研室步正军 2015．9.

课标教材下教研工作的实践与思考山东临沂市教育科学研究中心郭允远.

小学数学知识讲座应用题.

勾股定理说课人：钱丹.

[聚會時，請將傳呼機和手提電話關掉，多謝合作]

倒装句之其他句式.

证券投资基金投资121 06号余煜欢 09号陈秋婷 33号陈柔韵 08号潘晓峰 10号曾杰 34号谭锐权.

大綱: AAA 性質 SAS 性質 SSS 性質顧震宇台灣數位學習科技股份有限公司

第 22 课孙中山的民主追求 1 ．近代变法救国主张的失败教训： “师夷之长技以制夷”“中体西用”、兴办洋务、变法维新等的失败，使孙中山

敬拜的心當音樂消失, 所有這些都挪去我就是單單來, 只是為了帶來Something that's of worth,

「中三升學」分享會升學及就業輔導組趙瑞芬老師.

9.1 圓的方程圓方程的標準式.

隐马尔可夫模型 Hidden Markov model

Module 7 Unit 2 It’s 6:30 am in New York.

人教版数学四年级（下）乘法分配律单击页面即可演示.

高等数学提高班 (省专升本) 教师：裴亚萍数学教研室：东校区 2118 电话：长号：

Ch2 空間中的平面與直線 2-2 空間中的直線製作老師：趙益男/基隆女中教師發行公司：龍騰文化事業股份有限公司.

Unit 4 What’s This in English?

Bioelectromagnetics Key Laboratory, College of Medicine

第一章直角坐標系 1－2　直角坐標.

提升整體品質讓各級學校成為… 學生學習的贏家學校 2013年3月24日.

12/03 今天的学习目标 (Today’s Learning Objectives)

Telephone Numbers詢問電話號碼

Is this / that your …? Yes, thank you. No, it isn’t.

2016台中市不動產高峰論壇房地合一稅與房市政策德明財經科技大學花敬群

隐马尔可夫模型简介 X1 X2 XT ………… O1 O2 OT 刘群

直线系应用.

隐马尔可夫模型 Hidden Markov model

3-3 随机误差的正态分布一、频率分布在相同条件下对某样品中镍的质量分数（%）进行重复测定，得到90个测定值如下：

南科特定區土地開發與OT區段徵收之研究－以ABC區為例

畢氏定理(百牛大祭)的故事張美玲製作資料來源：探索數學的故事（凡異出版社）.

5-4 实验:研究平抛运动.

我们探究学习成果直线的倾斜角与斜率.

3．1.4　空间向量的正交分解及其坐标表示.

大綱: 比例線段定義平行線截比例線段性質顧震宇台灣數位學習科技股份有限公司

Gaussian Process Ruohua Shi Meeting

102年人事預算編列說明邁向頂尖大學辦公室製作.

函数与导数临猗中学陶建厂.

Presentation transcript:

概率图模型林琛博士、副教授

引子 Siri: iphone 4S上应用的一项语音控制功能 Judea Pearl 生活大爆炸（5-14-0500）一段对话 “Siri, how’s the weather tomorrow in London?” “Sunny and mild” “How about Shanghai?” Judea Pearl 贝叶斯网络的先驱奠定不确定性和因果推理在计算机等多个学科中的地位

概率基础世界上许多事情都具有不确定性。概率论是研究处理这类现象的数学理论用概率表示事件发生的可能性。例如，P(硬币正面朝上)=0.5。可能发生多次（频率论）可能只能发生一次（贝叶斯概率）随机试验的所有可能结果组成该试验的样本空间例如，掷硬币，抛之前无法预知哪一面朝上；赌马，理论上每匹马都有跑第一的可能，事先无法预料那匹马一定会赢。 http://www.xmu.edu.cn

课堂测试（1）事件投1次硬币的样本空间是？事件投2次硬币的样本空间是？

随机变量随机变量是定义在样本空间上的函数，其所有可能取值的集合称为它的值域，也称状态空间。掷骰子试验，设X为“扔骰子实验的所有可能结果”，则X为一随机变量. 对单个随机变量X，可用概率函数P(X)来描述它的各个状态的概率而对于多个随机变量X1，…，Xn，则可用联合概率分布P(X1，…，Xn)来描述各变量所有可能状态组合的概率联合分布刻画了变量之间的各种关系，包含了变量关系的所有信息随机变量X1在另外一个随机变量X2各个状态下的发生概率为条件概率分布表示为P(X1| X2) 随机变量X1的各状态概率，与其他随机变量无关，叫做边际概率我们首先讨论一下对系统建模的几个要素。 http://www.xmu.edu.cn

乘法法则与加法法则加法规则乘法法则事件 A,B同时发生的概率是：如果X,Y不相关，则可以表示为 P(X,Y)=P(X)P(Y)

课堂测试（2）设有3个装有黑白两色球的口袋，第一个口袋黑白球各半，第二个口袋黑白球比例为4：1，第三个则全是黑球。用随机变量X，Y，Z分别代表从这3个口袋随机抽出的球的颜色，w表示白，b表示黑。则联合概率分布P(X,Y,Z)如右所示：计算P(X=w),P(X=w|Y=b,Z=w) X Y Z P(X,Y,Z) w b 0.1 0.4 加和为1，边际概率，条件概率怎么算？ http://www.xmu.edu.cn

利用概率分布推理的例子故事：Pearl教授家住洛杉矶，那里地震和盗窃时有发生。教授的家里装有警铃，地震和盗窃都有可能触发警铃。听到警铃后，两个邻居Mary和John可能会打电话给他。问题: 一天，Pearl教授接到Mary的电话，说听到他家警铃响，Pearl教授想知道他家遭盗窃的概率是多大。常用的解决此类问题的途径，即使用概率方法进行不确定性推理就是： 1) 把问题用一组随机变量来刻画； 2) 把关于问题的知识表示为一个联合概率分布; 3) 按照概率论原则进行推理计算。

朴素贝叶斯训练训练数据集T={<x1,y1>,…,<xn,yn>} 朴素贝叶斯法学习以下先验概率分布及条件概率分布由联合概率分布P(X,Y)独立同分布产生朴素贝叶斯法学习以下先验概率分布及条件概率分布先验概率分布P(Y=c) 条件概率分布P(X=x|Y=c) 朴素贝叶斯假设在类别确定的条件下，各特征是条件独立的即：降低了计算复杂度但可能牺牲分类精度

朴素贝叶斯预测计算后验概率P(Y=c|X=x)，将后验概率最大的类作为类别预测输出后验概率计算根据贝叶斯定理同样是条件独立性假设

朴素贝叶斯的损失函数假设朴素贝叶斯的决策模型是f(x) 对于一个训练样本x，损失函数L(y,f(x)) 对联合分布P(X,Y)，损失函数的期望为最小期望损失，只需要对每个x极小化

朴素贝叶斯算法学习预测估算P(y=c)和P(Xi=xi|Y=c)的概率估算后验概率P(Y=c|X=x) 确定其中概率最大的类别标记一般采用最大似然预测估算后验概率P(Y=c|X=x) 确定其中概率最大的类别标记

平滑概率值为0的情况未观测到的样本拉普拉斯平滑对特征的条件产生概率对类别的先验概率 Xj的不同特征值总数这样确保了还是概率分布 >0 和为1

课堂测试（3）故事：Pearl教授家住洛杉矶，那里地震和盗窃时有发生。教授的家里装有警铃，地震和盗窃都有可能触发警铃。听到警铃后，两个邻居Mary和John可能会打电话给他。问题: 一天，Pearl教授接到Mary的电话，说听到他家警铃响，Pearl教授想知道他家是否遭盗窃了 B=盗窃，A=警铃，E=地震，M=Mary电话，J=John电话

贝叶斯网络朴素贝叶斯假设各特征间是独立的，实际上可能是互相依赖的 Pearl提出了用如下方法构造一个有向无环图全依赖的联合概率P(A,B,C,…M)=P(A)P(B|A)P(C|A,B)….P(M|A,B,C,…L) Pearl提出了用如下方法构造一个有向无环图把每个变量都表示为一个节点；对于每个节点Xi，都从跟其直接相关的节点画一条有向边到Xi. 要多少次运算？（多少个参数） 2n-1 要多少次运算？（多少个参数） 1+1+4+2+2=10 贝叶斯网络的链规则 P(B,E,A,J,M) =P(B)P(E|B)P(A|B,E)P(J|B,E,A)P(M|B,E,A,J) (1) =P(B)P(E)P(A|B,E)P(J|A)P(M|A) (2)

从图中可以看出，变量A依赖于B和E，那么A具体是如何依赖于B和E的呢？条件概率分布P(A|B,E)定量的刻画了这个问题： P(E=1) 0.5 P(E) B E P(A=1) 1 0.29 0.95 P(B=1) 0.3 P(B) P(J|A) J P(J=1) 1 P(A|B,E) M P(M=1) 1 P(M|A) 从图中可以看出，变量A依赖于B和E，那么A具体是如何依赖于B和E的呢？条件概率分布P(A|B,E)定量的刻画了这个问题： 1) 盗窃和地震都发生时，警铃响的概率为P(A=y|B=y,E=y)=0.95 2) 只发生盗窃但没有发生地震时，警铃响的概率为P(A=y|B=n,E=y)=0.29 3) 所有其它情形类似地，P(M|A)、P(J|A)定量刻画了M和J如何依赖于A . 变量B和E不依赖于其它变量，P(B)和P(E)给出它们的边缘分布贝叶斯网络=有向五环图+条件概率表 http://www.xmu.edu.cn

贝叶斯网络的主要内容 Inference（推理） Learning（学习）给定结构和CPT（条件概率表）回答下面的问题学习CPT 可以是离散/连续型变量可以结合专家知识可以结合数据回答下面的问题已经观察到某些变量回答另一些变量发生的概率 Learning（学习）学习CPT 可以是某种指定概率分布的参数学习结构可以是不完全数据即有隐含变量

贝叶斯网络应用贝叶斯网络属于产生式模型/生成模型（Generative model）目标是P(y|x) 步骤给出贝叶斯网络学习推理 P(y),P(x|y)的函数形式学习通过最大似然估计参数p(y),p(x|y) 推理得到p(y|x)

课堂讨论尝试使用贝叶斯网络建立一个自动肺癌诊断系统

常用的概率分布函数（基础）期望=均值方差

常用的概率分布函数（1）离散变量二元假设掷硬币正面朝上（x=1）概率是u 假设投了N次，则其中出现m次正面朝上的概率是 Bernoulli分布 Binomial二项分布

常用的概率分布函数（2） Beta分布 Beta函数 Gamma函数

常用的概率分布函数（3）离散变量多元变量可以把变量表示为 (0,0,0,1,0,0)，那么和二元变量类似，结果为xk的概率为统计N次试验结果，其中第1、2…K类结果出现次数分别为m1,m2,…mK次的概率 Multinomial多项分布

常用的概率分布函数（4）连续变量多元高斯分布任何一种概率分布可以表示为多个高斯分布的组合又叫做混合高斯模型协方差矩阵

参数学习（1）最大似然频率派观点：参数是固定的对于给定的数据集，参数使产生该数据集的可能性最大（即最大似然）由于参数固定，因此给定自变量x，结果y也是固定的

课堂测试二项分布的最大似然估计假设三次掷硬币结果是『1，1，1』，则最大似然估计下参数是多少？预测下一次掷硬币结果最大似然估计参数u=1 每一次掷硬币结果都为正面

参数学习（2）贝叶斯估计贝叶斯派：参数也是随机变量贝叶斯法则由于参数不固定，结果也是随机的，因此给出预测的是期望值如果数据量足够大，最大后验概率和最大似然估计趋向于一致，如果数据为0,最大后验仅由先验决定。贝叶斯估计贝叶斯派：参数也是随机变量贝叶斯法则无法找到解析解，所以一般用近似的最大后验概率由于参数不固定，结果也是随机的，因此给出预测的是期望值先验概率似然后验概率 =1

课堂测试假设Bernoulli分布的参数u符合一个先验分布（Beta分布）使用贝叶斯估计参数参数自己设定并解释最大后验概率和最大似然的相关性

解释贝叶斯估计的性质预测下一次掷硬币结果由于分子=a0+m-1，分母=N+a0+b0-2，所以不会=1

贝叶斯网络v.s.Logistic回归伯努利分布：掷硬币的分布，x=正/反

文本聚类：LDA w~Mul( 𝛽 𝑧 ) θ i ~Dir(α) 𝑝 𝜃,𝑧,𝒘 𝛼,𝛽 =𝑝 𝜃 𝛼 𝑛=1 𝑁 𝑝 𝑧 𝑛 𝜃 𝑝( 𝑤 𝑛 | 𝑧 𝑛 ,𝛽) Z~Mul(θ) 𝑝 𝐷 𝛼, 𝛽 = 𝑑=1 𝑀 𝜃 𝑑 𝑝 𝜃 𝑑 𝛼 𝑛=1 N d 𝑧 𝑑𝑛 𝑝 𝑧 𝑑𝑛 𝜃 𝑑 𝑝( 𝑤 𝑑𝑛 | 𝑧 𝑑𝑛 ,𝛽) ⅆ 𝜃 𝑑 Multinomial分布：投骰子 Dirichlet分布：Multinomial的共轭

贝叶斯网络v.s.线性回归

贝叶斯网络中可以有隐含变量隐含变量（观测不到的变量）例：假设有3枚硬币，分别记作A,B,C。这些硬币正面出现的概率分别是π,p,q。进行如下实验先掷硬币A 如果是正面选择硬币B 否则选择硬币C 只能记录最终结果，看不到过程（即硬币A的结果）独立重复10次试验，结果 1，1，0，1，0，0，1，0，1，1 Z Y

含有隐含变量的参数估计观测结果的似然函数为一种迭代的方法 EM算法选取π,p,q初值迭代，直到收敛计算在给定的π,p,q参数下，观测结果来自掷硬币B的概率根据观测结果来自硬币B，C的概率重新推断π,,p,q的值

其他情况数据丢失丢失删失截断人为建立的隐含变量通常是为了计算便利

数据丢失的例子无丢失数据问题一个多元变量的概率分布是假设我们看到的观测变量是丢失数据 5种可能取值只观测到了4组变量似然？

Example 1:Missing Data Original Problem (Complete Data) Suppose a multinomial variable that takes four values with probability Observations Observed frequencies for the four values Estimate by maximizing likelihood The likelihood for complete data Set the derivative to be zero

朴素解法迭代最优参数猜初值猜丢失的数据更新参数

删失数据的例子假设病人的生存年限w是如下分布如果知道一组病人中有r个非删失，n-r个删失似然如果不知道？

EM算法输入：观测变量Y，隐变量Z，联合分布P(Y,Z|θ),条件分布P(Z|Y, θ) 输出：模型参数θ 初始化θ 迭代在迭代的第i+1轮 E步 M步：求上述Q最大的θ 可以任意初始化，但是EM算法对初值敏感停止条件一般是模型参数变化收敛

EM算法原理挑战：解决：最大下界 Log( 括号内有加法操作无法获得解析解 ) 引入Z上的另一个分布q(Z) q(Z)=p(Z|Y,θ) E步：通过q(Z)最大下界L(q,θ) 这时候θ没变 q(Z)=p(Z|Y,θ) M步：通过θ最大下界L(q,θ) q(Z)不变， θ变所以KL距离大于0 似然增大上面这个等式是否成立？代入

课堂测试假设有3枚硬币，分别记作A,B,C。这些硬币正面出现的概率分别是π,p,q。进行如下实验。先掷硬币A，如果是正面选择硬币B，否则选择硬币C。独立重复10次试验，结果【1，1，0，1，0，0，1，0，1，1】。估计π,p,q 假设观测数据【-67,-48,6,8,14,16,23,24,28,29,41,49,56,60,75】是由两个分量的高斯混合模型生成，试估计模型的5个参数（系数、高斯模型的参数）

E步 M步给定o,p,q,计算观测数据来自掷硬币B的概率估计新π,p,q 初值取0.5,0.5,0.5 第一轮之后：0.5，0.6，0.6 第二轮之后：0.5，0.6，0.6 初值取0.4,0.6,0.7 得到：0.4064，0.5368，0.6432

初始完全数据，假设rjk=1代表来自第k个高斯模型写出完全数据的对数似然函数 E步 Q函数 M步最大化

文本聚类：LDA w~Mul( 𝛽 𝑧 ) θ i ~Dir(α) 𝑝 𝜃,𝑧,𝒘 𝛼,𝛽 =𝑝 𝜃 𝛼 𝑛=1 𝑁 𝑝 𝑧 𝑛 𝜃 𝑝( 𝑤 𝑛 | 𝑧 𝑛 ,𝛽) Z~Mul(θ) 𝑝 𝐷 𝛼, 𝛽 = 𝑑=1 𝑀 𝜃 𝑑 𝑝 𝜃 𝑑 𝛼 𝑛=1 N d 𝑧 𝑑𝑛 𝑝 𝑧 𝑑𝑛 𝜃 𝑑 𝑝( 𝑤 𝑑𝑛 | 𝑧 𝑑𝑛 ,𝛽) ⅆ 𝜃 𝑑 Multinomial分布：投骰子 Dirichlet分布：Multinomial的共轭

随机变量序列生活大爆炸（5-14-0500）自然语言处理中的一系列问题语音识别词性标注机器翻译 … Online demo 其他涉及到时间的问题人的行为分析视频中预测走路/步行/网球动作网络中的入侵检测其他涉及到序列的问题基因组序列中蛋白质编码区域的预测 What's your name? My name? It's Siri. Are you single? I don't have a marital status, if that's what you're asking. How about a cup of coffee? I've found six coffee shops.

观测与状态序列语音识别 wo3 ai4 bei3 jing1 tian1 an1 men1 我爱北京天安门我爱北京天安门我爱/VV 北京/NR 天安门/NN 观测额的神中文分词状态（隐含）方吗词性标注

模型隐马尔可夫模型定义隐马尔可夫模型是关于时序的概率模型，描述由一个隐藏的马尔可夫链随机生成不可观测的状态随机序列；再由各个状态生成一个观测而产生观测随机序列的过程。隐藏的马尔可夫链随机生成的状态的序列，称为状态序列每个状态生成一个预测，由此产生的观测的随机序列，称为观测序列序列的每一个位置可以看作是一个时刻

隐马尔可夫模型的基本假设齐次马尔可夫性假设观测独立性假设假设隐藏的马尔可夫链在任意时刻t的状态只依赖于其前一时刻的状态，与其他时刻的状态及观测无关，也与时刻t无关观测独立性假设假设任意时刻的观测只依赖于该时刻的马尔可夫链的状态，与其他观测及状态无关

HMM实例——描述设有N个缸，每个缸中装有很多彩球，球的颜色由一组概率分布描述。实验进行方式如下根据缸中球颜色的概率分布，随机选择一个球，记球的颜色为O1，并把球放回缸中根据描述缸的转移的概率分布，随机选择下一口缸，重复以上步骤。最后得到一个描述球的颜色的序列O1,O2,…，称为观察值序列O。不知道缸序列

HMM实例——示意观测数据： Urn 3 Urn 1 Urn 2 Veil

HMM组成 Markov链（, A）随机过程（B） HMM的组成示意图状态序列观察值序列 q1, q2, ..., qT o1, o2, ..., oT HMM的组成示意图

HMM的基本要素用模型五元组＝（ N, M, π ，A，B）用来描述HMM，或简写为 =(π ，A，B) 参数含义实例 N 状态数目缸的数目 M 每个状态可能的观察值数目彩球颜色数目 A 与时间无关的状态转移概率矩阵在选定某个缸的情况下，选择另一个缸的概率 B 给定状态下，观察值概率分布每个缸中的颜色分布 p 初始状态空间的概率分布初始时选择某口缸的概率

HMM可解决的问题问题1：给定观察序列O=O1,O2,…OT,以及模型 , 如何计算P(O|λ)？概率计算问题问题2：给定观察序列O=O1,O2,…OT以及模型λ,如何选择一个对应的状态序列 S =q1,q2,…qT，使得S能够最为合理的解释观察序列O？预测问题问题3：如何调整模型参数使得P(O|λ)最大？学习问题

概率计算问题（朴素解法）直接枚举所有可能的状态序列 N=5, M=100, => 计算量10^72 给定一个固定的状态序列S=(q1，q2，q3…) 表示在qt状态下观测到Ot的概率概率加法法则 N=5, M=100, => 计算量10^72

前向算法动态规划递推定义到时刻t，部分观测序列O1,O2,…Ot，且时刻t的状态为qt的概率为前向概率利用状态序列的路径结构递推计算，将前向概率“推”往全局，从而避免重复计算初始化：递归：终结：

前向法示意图 N=5, M=100, => 计算量3000 1 ... t t+1 ... qN atN . qi qj ati aNj aij a1j at1 1 ... t t+1 ... N=5, M=100, => 计算量3000

后向法定义后向变量初始化：递归：终结：

课堂测试假设从三个箱子中取球，每个箱子中分别有红球、白球若干状态转移概率矩阵A，观测概率矩阵B，初始状态概率矩阵π T=3 观测序列{红，白，红}

课堂测试（续）计算初值递推计算终止 a1(1)=0.2x0.5=0.1 a1(2)=0.4x0.4=0.16 a2(1)=(0.1x0.5+0.16x0.3+0.28x0.2)x0.5=0.077 a2(2)=(0.1x0.2+0.16x0.5+0.28x0.3)x0.6=0.1104 a2(3)= (0.1x0.3+0.16x0.2+0.28x0.5)x0.3=0.0606 a3(1)=(0.077x0.5+0.1104x0.3+0.0606x0.2)x0.5=0.04187 a3(2)=(0.077x0.2+0.1104x0.5+0.0606x0.3)x0.4=0.03551 a3(3)=(0.077x0.3+0.1104x0.2+0.0606x0.5)x0.7=0.05284 终止 P(O|λ)=a3(1)+a3(2)+a3(3)=0.13022

引申：其他概率的计算给定模型和观测，在时刻t处于状态qi的概率给定模型和观测，在时刻t处于状态qi，且在时刻t+1处于状态qj的概率

预测问题近似算法目标：对给定观测序列最可能的状态序列近似：每个时刻选择最可能的状态缺陷：不能保证整体是最可能的，因为有的状态转移是不可能出现的（概率为0）最大

Viterbi算法动态规划状态序列=路径最优路径原理：如果最优路径在时刻t通过节点s*，则从节点s*到终点的部分路径必然是最优的递推：

Viterbi算法(续) 初始化：递归：终结：求S序列：记录下前一个节点

课堂测试假设从三个箱子中取球，每个箱子中分别有红球、白球若干状态转移概率矩阵A，观测概率矩阵B，初始状态概率矩阵π T=3 观测序列{红，白，红}

课堂测试（续）初始化递归回溯最优路径【倒】：3，3，3

学习算法监督学习算法非监督学习算法训练数据中已知观测序列和对应的状态序列利用极大似然估计转移概率、观测概率、初始状态概率都可以使用频度的比率来计算非监督学习算法训练数据中已知观测序列，不知道对应的状态序列由于人工标注耗时耗力，一般情况下非监督学习 EM算法（Baum-welch）

Baum-Welch算法目的：给定观察值序列O，通过计算确定一个模型l ，使得P(O| l)最大。 E步 M步利用概率约束，拉格朗日乘子法求最大

Baum-Welch算法(续) 定义：

Baum-Welch算法(续2) 参数估计：