概率图模型 林琛 助理教授
引子 Siri: iphone 4S上应用的一项语音控制功能 Judea Pearl 生活大爆炸(5-14-0500) 一段对话 “Siri, how’s the weather tomorrow in London?” “Sunny and mild” “How about Shanghai?” Judea Pearl 贝叶斯网络的先驱 奠定不确定性和因果推理在计算机等多个学科中的地位
概率基础 世界上许多事情都具有不确定性。 概率论是研究处理这类现象的数学理论 用概率表示事件发生的可能性。例如,P(硬币正面朝上)=0.5。 可能发生多次(频率论) 可能只能发生一次(贝叶斯概率) 随机试验的所有可能结果组成该试验的样本空间 例如,掷硬币,抛之前无法预知哪一面朝上;赌马,理论上每匹马都有跑第一的可能,事先无法预料那匹马一定会赢。 http://www.xmu.edu.cn
课堂测试(1) 事件投1次硬币的样本空间是? 事件投2次硬币的样本空间是?
随机变量 随机变量是定义在样本空间上的函数,其所有可能取值的集合称为它的值域,也称状态空间。掷骰子试验,设X为“扔骰子实验的所有可能结果”,则X为一随机变量. 对单个随机变量X,可用概率函数P(X)来描述它的各个状态的概率 而对于多个随机变量X1,…,Xn,则可用 联合概率分布P(X1,…,Xn)来描述各变量所有可能状态组合的概率 联合分布刻画了变量之间的各种关系,包含了变量关系的所有信息 随机变量X1在另外一个随机变量X2各个状态下的发生概率为条件概率分布表示为P(X1| X2) 随机变量X1的各状态概率,与其他随机变量无关,叫做边际概率 我们首先讨论一下对系统建模的几个要素。 http://www.xmu.edu.cn
课堂测试(2) 设有3个装有黑白两色球的口袋,第一个口袋黑白球各半,第二个口袋黑白球比例为4:1,第三个则全是黑球。用随机变量X,Y,Z分别代表从这3个口袋随机抽出的球的颜色,w表示白,b表示黑。则联合概率分布P(X,Y,Z)如右所示: 计算P(X=w),P(X=w|Y=b,Z=w) X Y Z P(X,Y,Z) w b 0.1 0.4 加和为1,边际概率,条件概率怎么算? http://www.xmu.edu.cn
利用概率分布推理的例子 故事:Pearl教授家住洛杉矶,那里地震和盗窃时有发生。教授的家里装有警铃,地震和盗窃都有可能触发警铃。听到警铃后,两个邻居Mary和John可能会打电话给他。 问题: 一天,Pearl教授接到Mary的电话,说听到他家警铃响,Pearl教授想知道他家遭盗窃的概率是多大。 常用的解决此类问题的途径,即使用概率方法进行不确定性推理就是: 1) 把问题用一组随机变量X={X1,X2,…,Xn}来刻画; 2) 把关于问题的知识表示为一个联合概率分布P(X); 3) 按照概率论原则进行推理计算。
课堂测试(3) 假设刚才例子中的联合概率分布如下 要在一些随机变量之间进行概率推理,理论上只需要一个联合概率分布即可。
贝叶斯网络 Pearl提出了用如下方法构造一个有向图表示变量间的依赖和独立关系 1)把每个变量都表示为一个节点; 2)对于每个节点Xi,都从跟其直接相关的节点画一条有向边到Xi. 例如,上面的例子对应的有向图可表示为: 根据链规则 P(B,E,A,J,M) =P(B)P(E|B)P(A|B,E)P(J|B,E,A)P(M|B,E,A,J) (1) =P(B)P(E)P(A|B,E)P(J|A)P(M|A) (2) 图1 http://www.xmu.edu.cn
贝叶斯网络表示的依赖与条件独立 从图1中可以看出,变量A依赖于B和E,那么A具体是如何依赖于B和E的呢?条件概率分布P(A|B,E)定量的刻画了这个问题: 1) 盗窃和地震都发生时,警铃响的概率为P(A=y|B=y,E=y)=0.95 2) 只发生盗窃但没有发生地震时,警铃响的概率为P(A=y|B=n,E=y)=0.29 3) 所有其它情形 类似地,P(M|A)、P(J|A)定量刻画了M和J如何依赖于A . 变量B和E不依赖于其它变量,P(B)和P(E)给出它们的边缘分布 图1和这5个概率分布合在一起,就构成一个贝叶斯网,是对式2给出的联合分布的分解的直观表示. A依赖于B和E;M和J都依赖于A;而从B和E没有直接到M和J的有向边,表示给定A,这两组变量相互条件独立。 V-structure http://www.xmu.edu.cn
贝叶斯网络研究的主要内容 Inference(推理) 通过计算回答查询(query)的过程,简单的说,设计算法,从而可根据已有 变量的值计算某些变量发生的概率。例如, Pearl教授接到Mary的电话,说听到他家警铃响,Pearl教授想知道他家遭盗窃的概率是多大。 Learning(学习) 根据专家知识和已有的数据,构建当前概率分布对应的模型,揭示问题的结构,进而对问题的结构加以利用,降低推理的计算复杂度。 当前研究的主要是线性PSRs,如无特别说明,本文针对的是线性PSRs。 http://www.xmu.edu.cn