高级人工智能第六章概率推理史忠植中国科学院计算技术研究所.

高级人工智能第六章概率推理史忠植中国科学院计算技术研究所

内容提要 6.1 概述 6.2 概率基础 6.3 贝叶斯学习理论 6.4 简单贝叶斯学习模型 6.5 贝叶斯网络的建造
6.6 主动贝叶斯网络 6.7 贝叶斯潜在语义模型 6.8 贝叶斯网络的证据推理 2017/3/17 史忠植高级人工智能

样本空间和事件考虑一个事先不知道输出的试验：试验的样本空间：所有可能输出 W的集合
 如果抛掷两次硬币，则样本空间为 = H H ,H T , TH , T T 事件A是样本空间 的子集上述试验中第一次正面向上的事件为A= HH, HT 2017/3/17 史忠植高级人工智能

概率对每个事件A ，我们定义一个数字P(A) ，称为A 的概率。概率根据下述三条公理：
 2、合法命题的概率为1： () = 1  3、对两两不相交（互斥）事件A1, A2, …，从上述三个公理，可推导出概率的所有的其他性质。频率学派和贝叶斯学派都满足该公理 2017/3/17 史忠植高级人工智能

分布函数令X为一随机变量， x为X的一具体值（数据）
则随机变量X的累积分布函数 (cumulative distribution function, CDF) 定义为若X的取值为一些可数的数值{x1，x2, } 则称其为离散型随机变量。   2017/3/17 史忠植高级人工智能

统计概率统计概率:若在大量重复试验中，事件A发生的频率稳定地接近于一个固定的常数p，它表明事件A出现的可能性大小，则称此常数p为事件A发生的概率，记为P(A), 即 p＝P(A) 可见概率就是频率的稳定中心。任何事件A的概率为不大于1的非负实数，即 0＜P(A)＜1 2017/3/17 史忠植高级人工智能

概率分布对连续型随机变量X，如果存在一个函数P ，使得对所有的x，p 0 ，且对任意a b 有
则函数被称为概率密度函数 (probability density function, pdf)。当F可微时 2017/3/17 史忠植高级人工智能

Bernoulli分布一些离散分布的例子： 1：X为一次抛硬币的输出，我们称X服从参数为θ的Bernoulli分布，记为
2017/3/17 史忠植高级人工智能

二项分布 2017/3/17 史忠植高级人工智能

泊松分布 2017/3/17 史忠植高级人工智能

均匀分布 2017/3/17 史忠植高级人工智能

高斯分布 2017/3/17 史忠植高级人工智能

标准正态分布  标准正态分布 2017/3/17 史忠植高级人工智能

退化的高斯分布  2017/3/17 史忠植高级人工智能

Gamma分布  2017/3/17 史忠植高级人工智能

Gaussian Scale Mixtures 

多元随机向量的分布我们可以在多个随机变量组成的向量上定义分布，称之为多元随机向量的分布。
机器学习中我们的数据集通常由多元随机向量分布的样本组成。每一列为一个随机变量，也可以将整个随机向量看成一个随机变量。 2017/3/17 史忠植高级人工智能

边缘分布对离散型随机变量，如果(X,Y)有联合密度函数则X的边缘密度函数定义为对连续情况：
联合分布包含了随机向量概率分布的信息联合分布唯一确定了边缘分布，但反之通常不成立 2017/3/17 史忠植高级人工智能

条件概率条件概率:我们把事件B已经出现的条件下，事件A发生的概率记做为P(A|B)。并称之为在B出现的条件下A出现的条件概率，而称P(A)为无条件概率。若事件A与B中的任一个出现，并不影响另一事件出现的概率，即当P(A)＝P(A·B)或P(B)＝P(B·A)时，则称A与B是相互独立的事件。 2017/3/17 史忠植高级人工智能

条件分布对离散随机变量X,Y, 给定Y=y时X的分布为条件分布。当y > 0 时：
注意: 2017/3/17 史忠植高级人工智能

条件概率链规则 2017/3/17 史忠植高级人工智能

加法定理 P(A+B)＝ P(A)＋P(B) 若A、B为两任意事件，则： P(A+B)＝P(A)＋P(B)－P(AB)
两个不相容(互斥)事件之和的概率,等于两个事件概率之和,即 P(A+B)＝ P(A)＋P(B) 若A、B为两任意事件，则：　　　　P(A+B)＝P(A)＋P(B)－P(AB) 2017/3/17 史忠植高级人工智能

乘法定理设A、B为两个任意的非零事件，则其乘积的概率等于A(或B)的概率与在A(或B)出现的条件下B(或A)出现的条件概率的乘积。
　P(A·B)＝P(A)·P(B|A) 或 P(A·B)＝P(B)·P(A|B) 2017/3/17 史忠植高级人工智能

贝叶斯网络是什么贝叶斯网络是用来表示变量间连接概率的图形模式，它提供了一种自然的表示因果信息的方法，用来发现数据间的潜在关系。在这个网络中，用节点表示变量，有向边表示变量间的依赖关系。贝叶斯方法正在以其独特的不确定性知识表达形式、丰富的概率表达能力、综合先验知识的增量学习特性等成为当前数据挖掘众多方法中最为引人注目的焦点之一。 2017/3/17 史忠植高级人工智能

贝叶斯网络是什么贝叶斯（Reverend Thomas Bayes ）学派奠基性的工作是贝叶斯的论文“关于几率性问题求解的评论”。或许是他自己感觉到它的学说还有不完善的地方，这一论文在他生前并没有发表，而是在他死后，由他的朋友发表的。著名的数学家拉普拉斯（Laplace P. S.）用贝叶斯的方法导出了重要的“相继律”，贝叶斯的方法和理论逐渐被人理解和重视起来。但由于当时贝叶斯方法在理论和实际应用中还存在很多不完善的地方，因而在十九世纪并未被普遍接受。 2017/3/17 史忠植高级人工智能

贝叶斯网络是什么二十世纪初，意大利的菲纳特（B. de Finetti）以及英国的杰弗莱（Jeffreys H.）都对贝叶斯学派的理论作出重要的贡献。第二次世界大战后，瓦尔德（Wald A.）提出了统计的决策理论，在这一理论中，贝叶斯解占有重要的地位；信息论的发展也对贝叶斯学派做出了新的贡献。1958年英国最悠久的统计杂志Biometrika全文重新刊登了贝叶斯的论文，20世纪50年代，以罗宾斯（Robbins H.）为代表，提出了经验贝叶斯方法和经典方法相结合，引起统计界的广泛注意，这一方法很快就显示出它的优点，成为很活跃的一个方向。 2017/3/17 史忠植高级人工智能

贝叶斯网络是什么随着人工智能的发展，尤其是机器学习、数据挖掘等兴起，为贝叶斯理论的发展和应用提供了更为广阔的空间。贝叶斯理论的内涵也比以前有了很大的变化。80年代贝叶斯网络用于专家系统的知识表示，90年代进一步研究可学习的贝叶斯网络，用于数据采掘和机器学习。近年来，贝叶斯学习理论方面的文章更是层出不穷，内容涵盖了人工智能的大部分领域，包括因果推理、不确定性知识表达、模式识别和聚类分析等。并且出现了专门研究贝叶斯理论的组织和学术刊物ISBA 2017/3/17 史忠植高级人工智能

贝叶斯网络的应用领域辅助智能决策数据融合模式识别医疗诊断文本理解数据挖掘 2017/3/17 史忠植高级人工智能

贝叶斯网络定义贝叶斯网络是表示变量间概率依赖关系的有向无环图，这里每个节点表示领域变量，每条边表示变量间的概率依赖关系，同时对每个节点都对应着一个条件概率分布表(CPT) ，指明了该变量与父节点之间概率依赖的数量关系。 2017/3/17 史忠植高级人工智能

先验概率先验概率是指根据历史的资料或主观判断所确定的各事件发生的概率，该类概率没能经过实验证实，属于检验前的概率，所以称之为先验概率。先验概率一般分为两类，一是客观先验概率，是指利用过去的历史资料计算得到的概率；二是主观先验概率，是指在无历史资料或历史资料不全的时候，只能凭借人们的主观经验来判断取得的概率。 2017/3/17 史忠植高级人工智能

后验概率后验概率一般是指利用贝叶斯公式，结合调查等方式获取了新的附加信息，对先验概率进行修正后得到的更符合实际的概率。 2017/3/17
史忠植高级人工智能

联合概率联合概率也叫乘法公式，是指两个任意事件的乘积的概率，或称之为交事件的概率。 2017/3/17 史忠植高级人工智能

全概率公式 = BA1+BA2+…,+BAn A1 A3 An B A2 另有一事件B 称满足上述条件的 A1,A2,…,An为完备事件组.
　设A1,A2,…,An是两两互斥的事件，且P(Ai)>0， i =1,2,…,n, A1+A2+…,+An=Ω 另有一事件B = BA1+BA2+…,+BAn A1 A3 An B A2 称满足上述条件的 A1,A2,…,An为完备事件组. 2017/3/17 史忠植高级人工智能

全概率甲乙 B A1 A2 P(B/A1)=0.01, P(B/A2)=0.02
例:某汽车公司下属有两个汽车制造厂,全部产品的40%由甲厂生产,60%由乙厂生产.而甲乙二厂生产的汽车的不合格率分别为1%,2%.求从公司生产的汽车中随机抽取一辆为不合品的概率. 解:设A1,A2分别表示{甲厂汽车} {乙厂汽车},B表示{不合格品} P(A1)=0.4, P(A2)=0.6 P(B/A1)=0.01, P(B/A2)=0.02 ∵A1A2=φ P(B)=P(A1B+A2B) =P(A1B)+P(A2B) =P(A1)P(B/A1)+P(A2)P(B/A2) =0.4× ×0.02 =0.016 甲乙 B A1 A2 2017/3/17 史忠植高级人工智能

全概率诸Ai是原因 B是结果由此可以形象地把全概率公式看成为 A3 A5 A1 B A4 A6 A2 A8 A7
“由原因推结果”，每个原因对结果的发生有一定的“作用”，即结果发生的可能性与各种原因的“作用”大小有关. 全概率公式表达了它们之间的关系 . A3 A5 A1 B A4 A6 A2 A8 A7 2017/3/17 史忠植高级人工智能

贝叶斯公式该公式于1763年由贝叶斯(Bayes)给出. 它是在观察到事件B已发生的条件下，寻找导致B发生的每个原因的概率.
　设A1,A2,…,An是样本空间中的完备事件组且P(Ai)>0，i=1,2,…,n, 另有一事件B，则有该公式于1763年由贝叶斯(Bayes)给出. 它是在观察到事件B已发生的条件下，寻找导致B发生的每个原因的概率. 2017/3/17 史忠植高级人工智能

贝叶斯网络的概率解释任何完整的概率模型必须具有表示（直接或间接）该领域变量联合分布的能力。完全的枚举需要指数级的规模（相对于领域变量个数）
贝叶斯网络提供了这种联合概率分布的紧凑表示：分解联合分布为几个局部分布的乘积：从公式可以看出，需要的参数个数随网络中节点个数呈线性增长，而联合分布的计算呈指数增长。网络中变量间独立性的指定是实现紧凑表示的关键。这种独立性关系在通过人类专家构造贝叶斯网中特别有效。 2017/3/17 史忠植高级人工智能

简单贝叶斯学习模型简单贝叶斯学习模型（Simple Bayes 或 Naïve Bayes ）将训练实例I分解成特征向量X和决策类别变量C。简单贝叶斯模型假定特征向量的各分量间相对于决策变量是相对独立的，也就是说各分量独立地作用于决策变量。尽管这一假定一定程度上限制了简单贝叶斯模型的适用范围，然而在实际应用中，不仅以指数级降低了贝叶斯网络构建的复杂性，而且在许多领域，在违背这种假定的条件下，简单贝叶斯也表现出相当的健壮性和高效性[111]，它已经成功地应用到分类、聚类及模型选择等数据挖掘的任务中。目前，许多研究人员正致力于改善特征变量间独立性的限制[54]，以使它适用于更大的范围。 2017/3/17 史忠植高级人工智能

简单贝叶斯 Naïve Bayesian 结构简单－只有两层结构推理复杂性与网络节点个数呈线性关系 2017/3/17

简单贝叶斯学习模型设样本A表示成属性向量，如果属性对于给定的类别独立，那么P(A|Ci)可以分解成几个分量的积： ai是样本A的第i个属性

简单贝叶斯学习模型简单贝叶斯分类模型 Chinese Chinese Shanghai 这个过程称之为简单贝叶斯分类 (SBC: Simple Bayesian Classifier)。一般认为，只有在独立性假定成立的时候，SBC才能获得精度最优的分类效率；或者在属性相关性较小的情况下，能获得近似最优的分类效果。 2017/3/17 史忠植高级人工智能

文本分类在文本分类中，假设我们有一个文档d∈X, X是文档向量空间(document space),和一个固定的类集合C={c1,c2,…,cj},类别又称为标签。显然，文档向量空间是一个高维度空间。我们把一堆打了标签的文档集合<d,c>作为训练样本， <d,c> ∈X  C 例如： <d,c>={Beijing joins the World Trade Organization, China} 对于这个只有一句话的文档，我们把它归类到 China,即打上china标签。我们期望用某种训练算法，训练出一个函数γ,能够将文档映射到某一个类别： γ:X→C 2017/3/17 史忠植高级人工智能

文本分类-多项式模型在多项式模型中，设某文档d=(t1,t2,…,tk), tk是该文档中出现过的单词，允许重复，则
先验概率P(c) = 类c下单词总数/整个训练样本的单词总数类条件概率P(tk|c) =(类c下单词tk在各个文档中出现过的次数之和+1)/(类c下单词总数+|V|) V是训练样本的单词表(即抽取单词，单词出现多次，只算一个), |V|则表示训练样本包含多少种单词。在这里，m=|V|, p=1/|V|。 2017/3/17 史忠植高级人工智能

文本分类给定一个新样本Chinese Chinese Chinese Tokyo Japan 对其进行分类 Doc C=China 1
Chinese Beijing Chinese yes 2 Chinese Chinese Shanghai 3 Chinese Macao 4 Tokyo Japan Chinese No 给定一个新样本Chinese Chinese Chinese Tokyo Japan 对其进行分类 2017/3/17 史忠植高级人工智能

文本分类该文本用属性向量表示为d=(Chinese,Chinese,Chinese,Tokyo,Japan),类别集合为Y={yes,no}。类yes下总共有8个单词，类no下总共有3个单词，训练样本单词总数为11,因此P(yes)=8/11，类no下总共有3个单词训练样本单词总数为11,因此P(yes)=8/11, P(no)=3/11。类条件概率计算如下： P(Chinese | yes)=(5+1)/(8+6)=6/14=3/7 P(Japan | yes)=P(Tokyo | yes)= (0+1)/(8+6)=1/14 P(Chinese|no)=(1+1)/(3+6)=2/9 P(Japan|no)=P(Tokyo| no) =(1+1)/(3+6)=2/9 2017/3/17 史忠植高级人工智能

文本分类有了以上类条件概率，开始计算后验概率， P(yes | d)=(3/7)3  1/14  1/14  8/11
=108/184877≈ P(no | d)= (2/9)3  2/9 2/9  3/11 =32/216513≈ 因此，这个文档属于类别china。 2017/3/17 史忠植高级人工智能

文本分类伯努利模型 P(c)=类c下文件总数/整个训练样本的文件总数
P(tk|c)=(类c下包含单词tk的文件数+1)/(类c下单词总数+2) 在这里，m=2,p=1/2。后验概率的求法也不同 2017/3/17 史忠植高级人工智能

简单贝叶斯模型的提升基于Boosting简单贝叶斯模型
提升方法（Boosting）总的思想是学习一系列分类器，在这个序列中每一个分类器对它前一个分类器导致的错误分类例子给与更大的重视。尤其是，在学习完分类器Hk之后，增加了由Hk导致分类错误的训练例子的权值，并且通过重新对训练例子计算权值，再学习下一个分类器Hk+1。这个过程重复T次。最终的分类器从这一系列的分类器中综合得出。 2017/3/17 史忠植高级人工智能

Boosting背景来源于:PAC-Learning Model Valiant 1984 -11 提出问题:
强学习算法: 准确率很高的学习算法弱学习算法: 准确率不高,仅比随机猜测略好是否可以将弱学习算法提升为强学习算法 2017/3/17 史忠植高级人工智能

Boosting背景最初的boosting算法 Schapire 1989 AdaBoost算法
Freund and Schapire 1995 2017/3/17 史忠植高级人工智能

Boosting—concepts(3) 弱学习机（weak learner): 对一定分布的训练样本给出假设（仅仅强于随机猜测）
根据有云猜测可能会下雨强学习机（strong learner): 根据得到的弱学习机和相应的权重给出假设（最大程度上符合实际情况：almost perfect expert) 根据CNN,ABC,CBS以往的预测表现及实际天气情况作出综合准确的天气预测弱学习机强学习机 Boosting 2017/3/17 史忠植高级人工智能

Boosting流程(loop1) 加权后的训练集原始训练集强学习机弱学习机弱假设加权后的假设 X>1?1:-1

Boosting流程(loop2) 加权后的训练集原始训练集强学习机弱学习机弱假设 Y>3?1:-1 加权后的假设

Boosting流程(loop3) 加权后的训练集原始训练集强学习机弱学习机弱假设 Z>7?1:-1 加权后的假设

Boosting Set of weighted instances Classifier Ct 过程: train classifier
adjust weights 2017/3/17 史忠植高级人工智能

流程描述 Step1: 原始训练集输入，带有原始分布 Step2: 给出训练集中各样本的权重

核心思想没有先验知识的情况下，初始的分布应为等概分布，也就是训练集如果有N个样本，每个样本的分布概率为1/N
样本的权重没有先验知识的情况下，初始的分布应为等概分布，也就是训练集如果有N个样本，每个样本的分布概率为1/N 每次循环一后提高错误样本的分布概率，分错样本在训练集中所占权重增大，使得下一次循环的弱学习机能够集中力量对这些错误样本进行判断。弱学习机的权重准确率越高的弱学习机权重越高循环控制：损失函数达到最小在强学习机的组合中增加一个加权的弱学习机，使准确率提高，损失函数值减小。 2017/3/17 史忠植高级人工智能

简单问题演示（Boosting训练过程）

算法—问题描述训练集 { (x1,y1), (x2,y2),…, (xN,yN) } xi Rm, yi {-1,+1}
Dt 为第t次循环时的训练样本分布（每个样本在训练集中所占的概率， Dt总和应该为1） ht:X{-1,+1} 为第t次循环时的Weak learner，对每个样本给出相应的假设，应该满足强于随机猜测： wt为ht的权重为t次循环得到的Strong learner 2017/3/17 史忠植高级人工智能

算法—样本权重思想：提高分错样本的权重反映了strong learner对样本的假设是否正确采用什么样的函数形式？ 2017/3/17

算法—弱学习机权重思想：错误率越低，该学习机的权重应该越大为学习机的错误概率采用什么样的函数形式？和指数函数遥相呼应：

Boosting算法问题如何调整训练集，使得在训练集上训练的弱分类器得以进行；如何将训练得到的各个弱分类器联合起来形成强分类器。

Adaboost 算法针对以上两个问题，AdaBoost算法进行了调整：
使用加权后选取的训练数据代替随机选取的训练样本，这样将训练的焦点集中在比较难分的训练数据样本上；将弱分类器联合起来，使用加权的投票机制代替平均投票机制。让分类效果好的弱分类器具有较大的权重，而分类效果差的分类器具有较小的权重。 2017/3/17 史忠植高级人工智能

Adaboost 算法与Boosting算法不同的是，AdaBoost算法不需要预先知道弱学习算法学习正确率的下限即弱分类器的误差，并且最后得到的强分类器的分类精度依赖于所有弱分类器的分类精度，这样可以深入挖掘弱分类器算法的能力。 2017/3/17 史忠植高级人工智能

Adaboost 算法 AdaBoost算法中不同的训练集是通过调整每个样本对应的权重来实现的。开始时，每个样本对应的权重是相同的，即其中n为样本个数，在此样本分布下训练出一弱分类器。对于分类错误的样本，加大其对应的权重；而对于分类正确的样本，降低其权重，这样分错的样本就被突显出来，从而得到一个新的样本分布。在新的样本分布下，再次对样本进行训练，得到弱分类器。依次类推，经过T次循环，得到T个弱分类器，把这T个弱分类器按一定的权重叠加（boost）起来，得到最终想要的强分类器。 2017/3/17 史忠植高级人工智能

Adaboost 算法步骤 AdaBoost算法的具体步骤如下：
1. 给定训练样本集S，其中X和Y分别对应于正例样本和负例样本；T为训练的最大循环次数； 2. 初始化样本权重为1/n ，即为训练样本的初始概率分布；　　 3. 第一次迭代：(1)训练样本的概率分布相当，训练弱分类器;(2)计算弱分类器的错误率;(3)选取合适阈值，使得误差最小；(4)更新样本权重；　　经T次循环后，得到T个弱分类器，按更新的权重叠加，最终得到的强分类器。 2017/3/17 史忠植高级人工智能

Adaboost 算法步骤 Adaboost算法是经过调整的Boosting算法，其能够对弱学习得到的弱分类器的错误进行适应性(Adaptive)调整。上述算法中迭代了T次的主循环，每一次循环根据当前的权重分布对样本x定一个分布P，然后对这个分布下的样本使用弱学习算法得到一个弱分类器，对于这个算法定义的弱学习算法，对所有的样本都有错误率，而这个错误率的上限并不需要事先知道，实际上。每一次迭代，都要对权重进行更新。更新的规则是：减小弱分类器分类效果较好的数据的概率，增大弱分类器分类效果较差的数据的概率。最终的分类器是个弱分类器的加权平均 2017/3/17 史忠植高级人工智能

算法--Adaboost 2017/3/17 史忠植高级人工智能

AdaBoost.M1 初始赋予每个样本相等的权重1/N ； For t = 1, 2, …, T Do
学习得到分类法Ct；计算该分类法的错误率Et Et=所有被错误分类的样本的权重和； βt= Et/（1 - Et）根据错误率更新样本的权重；正确分类的样本： Wnew= Wold* βt 错误分类的样本： Wnew= Wold 调整使得权重和为1；每个分类法Ct的投票价值为log [ 1 / βt ] 2017/3/17 史忠植高级人工智能

AdaBoost 训练误差将γt=1/2-Et ; Freund and Schapire 证明: 最大错误率为:

AdaBoost 泛化误差 (1) 最大总误差: 如果T值太大,Boosting会导致过适应（overfit） m : 样本个数
d : VC维 T : 训练轮数 Pr: 对训练集的经验概率如果T值太大,Boosting会导致过适应（overfit） 2017/3/17 史忠植高级人工智能

AdaBoost泛化误差 (2) 许多的试验表明: Boosting不会导致overfit 2017/3/17 史忠植高级人工智能

AdaBoost泛化误差(3) 解释以上试验现象; 样本(X,Y)的margin: margin(x,y)=
αt=1/2 ln ( (1- Εt)/ Εt ) 较大的正边界表示可信度高的正确的预测较大的负边界表示可信度高的错误的预测 2017/3/17 史忠植高级人工智能

AdaBoost泛化误差 (4) 解释: 当训练误差降低后,Boosting继续提高边界,从而增大了最小边界,使分类的可靠性增加,降低总误差. 总误差的上界: 该公式与T无关 2017/3/17 史忠植高级人工智能

Adaboost 应用实例 2017/3/17 史忠植高级人工智能

构建贝叶斯网络是表示变量间连结关系的有向无环图贝叶斯网络的学习基于评分函数的结构学习结构学习基于条件独立性检验的结构学习参数学习

构建贝叶斯网络 Bayesian Network Bayesian Network Bayesian Network Problem
Domain Bayesian Network Probability Elicitor Expert Knowledge Problem Domain Bayesian Network Learning Algorithm Training Data Problem Domain Bayesian Network Expert Knowledge Learning Algorithm Training Data 2017/3/17 史忠植高级人工智能

贝叶斯概率(密度估计) 贝叶斯学习理论利用先验信息和样本数据来获得对未知样本的估计，而概率（联合概率和条件概率）是先验信息和样本数据信息在贝叶斯学习理论中的表现形式。如何获得这些概率（也称之为密度估计）是贝叶斯学习理论争议较多的地方。研究如何根据样本的数据信息和人类专家的先验知识获得对未知变量（向量）的分布及其参数的估计。它有两个过程：一是确定未知变量的先验分布；二是获得相应分布的参数估计。如果以前对所有信息一无所知，称这种分布为无信息先验分布；如果知道其分布求它的分布参数，称之为有信息先验分布。 2017/3/17 史忠植高级人工智能

密度估计先验分布的选取原则共轭分布杰弗莱原则最大熵原则 2017/3/17 史忠植高级人工智能

从数据中学习共轭分布族先验与后验属于同一分布族预先给定一个似然分布形式对于变量定义在0-1之间的概率分布，存在一个离散的样本空间
Beta 对应着 2 个似然状态多变量 Dirichlet 分布对应 2个以上的状态 2017/3/17 史忠植高级人工智能

共轭分布与决定的后验密度同属于一种类型，则称为p（x|θ）的共轭分布。
Raiffa和Schaifeer提出先验分布应选取共轭分布，即要求后验分布与先验分布属于同一分布类型。它的一般描述为 : 设样本X1,X2, … ,Xn 对参数θ的条件分布为p（x1,x2, … , xn|θ），如果先验分布密度函数决定的后验密度与同属于一种类型，则称为p（x|θ）的共轭分布。 2017/3/17 史忠植高级人工智能

杰弗莱原则杰弗莱对于先验分布的选取做出了重大的贡献，它提出一个不变原理，较好地解决了贝叶斯假设中的一个矛盾，并且给出了一个寻求先验密度的方法。杰弗莱原则由两个部分组成：一是对先验分布有一合理要求；一是给出具体的方法求得适合于要求的先验分布。先验分布的选取原则 2017/3/17 史忠植高级人工智能

最大熵原则熵是信息论中描述事物不确定性的程度的一个概念。如果一个随机变量只取与两个不同的值，比较下面两种情况：（1）（2）
很明显，（1）的不确定性要比（2）的不确定性小得多，而且从直觉上也可以看得出当取的两个值得概率相等时，不确定性达到最大。 2017/3/17 史忠植高级人工智能

最大熵原则设随机变量x是离散的，它取至多可列个值，且则称为x的熵对连续型随机变量x，它的概率密度函数为p(x)，若积分
有意义，称它为连续型随机变量的熵 2017/3/17 史忠植高级人工智能

先验分布的选取－beta分布 x) (1 x m) (n (m) (n) n) m, | (x p - = G n m mean = 1)
variance + - = 2017/3/17 史忠植高级人工智能

先验分布的选取－多项Dirichlet分布
N å G ( m ) i p (x | m , m ,..., m ) = i = 1 x m - 1 x m - 1 ...x m - 1 1 2 N Dirichlet 1 2 N G (m ) G (m )... G (m ) 1 2 N m mean of the i th state = i N å m i i = 1 N å m (1 - m / m ) i i i variance of the i th state = i = 1 N N å å m ( m + 1) i i i = 1 i = 1 2017/3/17 史忠植高级人工智能

不完全数据的密度估计期望最大化方法（Expectation Maximization EM）
Gibbs抽样（Gibbs Sampling GS） Bound and Collapse (BC) 2017/3/17 史忠植高级人工智能

期望最大化方法分为以下几个步骤：（1）含有不完全数据的样本的缺项用该项的最大似然估计代替；
（2）把第一步中的缺项值作为先验信息，计算每一缺项的最大后验概率，并根据最大后验概率计算它的理想值。（3）用理想值替换（1）中的缺项。（4）重复（1—3），直到两次相继估计的差在某一固定阈值内。 2017/3/17 史忠植高级人工智能

Gibbs抽样 Gibbs抽样（Gibbs Sampling GS）
GS是最为流行的马尔科夫、蒙特卡罗方法之一。GS把含有不完全数据样本的每一缺项当作待估参数，通过对未知参数后验分布的一系列随机抽样过程，计算参数的后验均值的经验估计。 2017/3/17 史忠植高级人工智能

贝叶斯网络的结构学习基于搜索评分的方法: 初始化贝叶斯网络为孤立节点使用启发式方法为网络加边使用评分函数评测新的结构是否为更好
贝叶斯评分（Bayesian Score Metric）基于墒的评分最小描述长度MDL(Minimal Description Length) 重复这个过程，直到找不到更好的结构基于依赖分析的方法: 通过使用条件独立性检验conditional independence (CI) 找到网络的依赖结构 2017/3/17 史忠植高级人工智能

基于MDL的贝叶斯网结构学习计算每一点对之间的互信息：建立完全的无向图，图中的顶点是变量，边是变量之间的互信息建立最大权张成树
根据一定的节点序关系，设置边的方向 2017/3/17 史忠植高级人工智能

基于条件独立性的贝叶斯网络学习假定：节点序已知第一阶段 (Drafting) 第二阶段 (Thickening)
计算每对节点间的互信息，建立完整的无向图. 第二阶段 (Thickening) 如果接点对不可能d-可分的话，把这一点对加入到边集中。第三阶段 (Thinning) 检查边集中的每个点对，如果两个节点是d-可分的，那么移走这条边。 2017/3/17 史忠植高级人工智能

基于条件独立性检验(CI)的贝叶斯网络结构学习 1）初始化图结构B=<N,A,>,A=,R=,S=;
3）从S中取出第一个点对，并从S中删除这个元素，把该点对加入到边集A中； 4）从S中剩余的点对中，取出第一个点对，如果这两各界点之间不存在开放路径，再把该点对加入A到中，否则加入到R中； 5）重复4),直到S为空； 6）从R中取出第一个点对； 7）找出该点对的某一块集，在该子集上做独立性检验，如果该点对的两个节点，仍然相互依赖，则加入到A中； 8）重复6),直到R为空； 9）对A中的每一条边，如果除这条边外，仍旧含有开放路径，则从A中临时移出，并在相应的块集上作独立性测试，如果仍然相关，则将其返回到A中，否则从A中删除这条边。 2017/3/17 史忠植高级人工智能

树增广的朴素贝叶斯网 TAN的结构学习 2017/3/17 史忠植高级人工智能

主动贝叶斯网络分类器主动学习：主动在候选样本集中选择测试例子，并将这些实例以一定的方式加入到训练集中。选择策略随机抽样相关抽样
不确定性抽样抽样选择投票选择 2017/3/17 史忠植高级人工智能

主动贝叶斯网络分类器学习过程输入：带有类别标注的样本集L，未带类别标注的候选样本集UL,选择停止标准e，每次从候选集中选择的样本个数M
输出：分类器C. 过程： While not e { TrainClassifer(L,C) //从L中学习分类器C； For each x计算ES； SelectExampleByES(S,UL,M,ES) //根据ES从UL中选择M个例子的子集S. LabeledAndAdd(S,L); //用当前的分类器C标注S中的元素，并把它加入到L中。 Remove(S,UL); //从UL中移走S. CheckStop(&e); //根据当前状态设置退出条件 } Return C; 2017/3/17 史忠植高级人工智能

主动贝叶斯网络分类器基于最大最小熵的主动学习
首先从测试样本中选择出类条件熵最大和最小的候选样本（MinExample, MaxExample），然后将这两个样本同时加入到训练集中。类条件熵最大的样本的加入，使得分类器能够对具有特殊信息的样本的及早重视；而类条件熵最小的样本是分类器较为确定的样本，对它的分类也更加准确，从而部分地抑制了由于不确定性样本的加入而产生的误差传播问题 2017/3/17 史忠植高级人工智能

主动贝叶斯网络分类器基于分类损失与不确定抽样相结合的主动学习分类损失：选择过程：
从测试样本中选择个熵较大的样本，组成集合maxS，然后对此集合中每个元素计算相对于该集合的分类损失和，选择分类损失和最小的样本做标注并加入到训练样本集中。 2017/3/17 史忠植高级人工智能

主动贝叶斯网络分类器 ALearnerByMaxMinEntropy测试结果 ALearnerByUSandCL测试结果初始标注
样本数：96 A B C D E F 精度评定(%) 精度召回率 645 6 5 0.7670 0.9832 140 132 0.9429 0.4853 25 2 50 0.8475 0.6494 33 1 0.9167 0.8049 9 3 51 0.9623 0.8095 17 64 1.0000 0.7619 未标注训练样本数：500 ALearnerByUSandCL测试结果测试集样本数：1193 A B C D E F 精度评定(%) 精度召回率 641 11 4 0.8412 0.9771 81 191 0.8565 0.7022 8 21 48 0.8571 0.6234 6 2 32 1 0.9143 0.7273 9 3 51 0.9623 0.8095 17 64 1.0000 0.7619 2017/3/17 史忠植高级人工智能

贝叶斯潜在语义模型随着互联网的普及，网上信息正在呈指数级增长趋势。合理地组织这些信息，以便从茫茫的数据世界中，检索到期望的目标；有效地分析这些信息，以便从浩如烟海的信息海洋中，挖掘出新颖的、潜在有用的模式，正在成为网上信息处理的研究热点。网上信息的分类目录组织是提高检索效率和检索精度的有效途径，如在利用搜索引擎对网页数据进行检索时，如能提供查询的类别信息，必然会缩小与限制检索范围，从而提高查准率，同时，分类可以提供信息的良好组织结构，便于用户进行浏览和过滤信息。 2017/3/17 史忠植高级人工智能

贝叶斯潜在语义模型聚类分析是文本挖掘的主要手段之一。它的主要作用是：
1）通过对检索结果的聚类，将检索到的大量网页以一定的类别提供给用户，使用户能快速定位期望的目标； 2）自动生成分类目录； 3）通过相似网页的归并，便于分析这些网页的共性。 K-均值聚类是比较典型的聚类算法，另外自组织映射（SOM）神经网络聚类和基于概率分布的贝叶斯层次聚类（HBC）等新的聚类算法也正在不断的研制与应用中。然而这些聚类算法大部分是一种无监督学习，它对解空间的搜索带有一定的盲目性，因而聚类的结果一定程度上缺乏语义特征；同时，在高维情况下，选择合适的距离度量标准变得相当困难。而网页分类是一种监督学习，它通过一系列训练样本的分析，来预测未知网页的类别归属。目前已有很多有效的算法来实现网页的分类，如Naive Bayesian、SVM等。遗憾的是获得大量的、带有类别标注的样本的代价是相当昂贵的，而这些方法只有通过大规模的训练集才能获得较高精度的分类效果。 2017/3/17 史忠植高级人工智能

贝叶斯潜在语义模型 Kamal Nigam 等人提出从带有类别标注和不带有类别标注的混合文档中分类Web网页，它只需要部分带有类别标注的训练样本，结合未标注样本含有的知识来学习贝叶斯分类器通过引入贝叶斯潜在语义模型，首先将含有潜在类别主题变量的文档分配到相应的类主题中。接着利用简单贝叶斯模型，结合前一阶段的知识，完成对未含类主题变量的文档作标注。针对这两阶段的特点，我们定义了两种似然函数，并利用EM算法获得最大似然估计的局部最优解。这种处理方法一方面克服了非监督学习中对求解空间搜索的盲目性；另一方面它不需要对大量训练样本的类别标注，只需提供相应的类主题变量，把网站管理人员从繁琐的训练样本的标注中解脱出来，提高了网页分类的自动性。为了与纯粹的监督与非监督学习相区别，称这种方法为半监督学习算法。 2017/3/17 史忠植高级人工智能

贝叶斯潜在语义模型潜在语义分析（Latent Semantic Analysis: LSA ）的基本观点是：把高维的向量空间模型（VSM）表示中的文档映射到低维的潜在语义空间中。这个映射是通过对项/文档矩阵的奇异值分解（SVD）来实现的。具体地说，对任意矩阵，由线性代数的知识可知，它可分解为下面的形式：是正交阵为N的奇异值是对角阵潜在语义分析通过取k个最大的奇异值，而将剩余的值设为零来近似 2017/3/17 史忠植高级人工智能

贝叶斯潜在语义分析BLSA—LSA 特征的相似性文档的相似性 LSA 的应用：信息滤波、文档索引、视频检索 2017/3/17

贝叶斯潜在语义分析BLSA 文档产生模型产生如下的联合概率模型以一定的概率选择文档 d 以一定的概率选择一潜在变量 z
以一定的概率产生特征 w 产生如下的联合概率模型 2017/3/17 史忠植高级人工智能

贝叶斯潜在语义分析BLSA 图6.3 贝叶斯潜在语义模型 d1 d2 d3 dn w1 w2 w3 wm z1 z2 zk ...

贝叶斯潜在语义分析BLSA 目的在于估计下面的分布参数最大化似然函数 2017/3/17 史忠植高级人工智能

EM 算法求得最大似然 E步 M步似然函数值与迭代步骤的关系 2017/3/17 史忠植高级人工智能

半监督Web挖掘算法(1) 算法描述: 已知：求划分: 2017/3/17 史忠植高级人工智能

半监督Web挖掘算法(2) 解决策略： 1. 划分D为两个集和: 2. 使用 BLSA 标注 3. 使用Naive Bayesian标注

半监督Web挖掘算法(3) 1. 使用 BLSA 标注 1) 使用 BLSA估计分布参数 2) 使用最大后验概率标注文档 2017/3/17

半监督web挖掘算法(3) 2. 使用Naive Bayesian标注似然函数 E步: M步: 2017/3/17 史忠植高级人工智能

半监督web挖掘算法(4) 1000 足球类文档 876 特征词试验结果 2017/3/17 史忠植高级人工智能

贝叶斯网中的证据推理目的：通过联合概率分布公式，在给定的网络结构和已知证据下，计算某一事件的发生的概率。网络推理证据 E 查询 =
p(B) A)p(A) | p(B B) p(A, p(A 贝叶斯推理可以在反复使用贝叶斯规则而获得 2017/3/17 史忠植高级人工智能

推理方法概述精确推理网络的拓扑结构是推理复杂性的主要原因；当前的一些精确算法是有效地，能够解决现实中的大部分问题
由于对知识的认知程度，精确推理还存在一些问题近似推理证据的低似然性和函数关系是近似推理中复杂性的主要原因 NP Hard 2017/3/17 史忠植高级人工智能

影响推理的因素网络结构的特征网络的拓扑结构网络的大小网络中变量的类型（离散、连续）变量的分布墒相关查询的特征任务
查询类型（批处理、异步执行）可用的计算资源（嵌入式系统、并行处理）相关证据的特征证据的特征 2017/3/17 史忠植高级人工智能

查询的任务类型预测对给定的模型，将要发生什么给定证据下的后验计算所有的边界后验指定的边界后验指定的联合条件查询最可能的假设
一个最可能的 n 个最可能的决策策略 2017/3/17 史忠植高级人工智能

医疗诊断例子贝叶斯推理中非条件分布和边界分布是常见的查询模式一个节点的边界分布也称为该节点的信任函数 2017/3/17

推理过程中的信任传播 2017/3/17 史忠植高级人工智能

推理算法近似推理精确推理前向模拟推理随机模拟推理联合概率计算 Naïve Bayesian 图约简算法 Polytree算法
The algorithm’s purpose is “… fusing and propagating the impact of new evidence and beliefs through Bayesian networks so that each proposition eventually will be assigned a certainty measure consistent with the axioms of probability theory.” (Pearl, 1988, p 143) 2017/3/17 史忠植高级人工智能

精确推理－计算联合概率任何查询都可以通过联合概率回答步骤：计算联合概率 B A P(AB)=P(A)*P(B|A)
边界化不在查询中的变量 P(B)=ΣAP(AB) 效率低 B A 2017/3/17 史忠植高级人工智能

图约简算法－一般原理基本观点任何概率查询可以表示成网络的子网，推理的目的是把网络分解成几个子网三个基本操作
拟转弧操作（Arc Reversal）－贝叶斯公式孤寡点移出(Barren node removal)－求和公式值节点归并(Merge with Value node)－期望最大化 2017/3/17 史忠植高级人工智能

约简算法－孤寡点移出孤寡点－没有孩子的节点 2017/3/17 史忠植高级人工智能

约简算法－值节点归并值节点－证据节点或赋值节点 2017/3/17 史忠植高级人工智能

Polytree算法－介绍该算法由Pearl 于1982年首次提出基本观点计算边界后验的消息传递机制
Lambda 算子：消息向上传向父亲 pi 算子：消息向下传向孩子 2017/3/17 史忠植高级人工智能

Polytree算法－单连通网 X 定义：在任何两个节点之间存在且仅存在一条路径（忽略方向） Multiple parents
and/or multiple children X 2017/3/17 史忠植高级人工智能

传播算法对每个节点引入证据时，产生: 沿着弧的方向传播一组 “p” 消息逆着弧的方向传播一组 “l” 消息
对接收 “p” or “l” 消息的每个节点: 节点修正它的“p”或 “l”，并发送到网络中使用修正的“p”或 “l” ，更改结点的信任函数 BEL T BEL(t) p(t) l(t) U BEL(t) p(t) l(t) X BEL(t) p(t) l(t) Y BEL(t) p(t) l(t) Z BEL(t) p(t) l(t) Mu|t Mx|u My|x Mz|y 2017/3/17 史忠植高级人工智能

[ ] [ ] 实例－描述 Ch Di .8 .2 .1 .9 A1 A2 C1 C2 C3 .5 .4 .1 .1 .3 .6 B1 B2
p(A1) = 0.9 p(A2) = 0.1 M B|A = M C|B = A1 A2 A B C Ch Di [ ] A1 A2 B1 B2 C1 C2 C3 [ ] B1 B2 C1 C2 C3 2017/3/17 史忠植高级人工智能

实例－算子设定 A B C (1) 初始化 lambda 算子为单位向量; Bel(A) =  (A) × (A)
(2) (B) = (A) MB|A; Bel(B) =  (B) × (B) (B) Bel(B) (B) B B (3) (C) = (B) MC|B; Bel(C) =  (C) × (C) (C) Bel(C) (C) C C C A B C 2017/3/17 史忠植高级人工智能

实例－第一次传播 [ ] [ ] A B C t = (lR) .8 .2 p t = l ( TR ) = . 5 1 .6
(A) = (IR) (A) Bel(A) (A) A A (B) Bel(B) (B) B B (C) Bel(C) (C) C C C (C) = (TR) [ ] t = (lR) p Intel. Rpt. A B C Troop Rpt. t = [ ] l T ( TR ) = . 5 1 .6 2017/3/17 史忠植高级人工智能

实例－第二次传播 [ ] [ ] A B C t = (lR) .8 .2 p t = l ( TR ) = . 5 1 .6
[ ] (lR) p (A) Bel(A) (A) Paris Med t = 2 (B) = (A) MB|A (B) Bel(B) (B) B B (B) = MC|B (A) (C) Bel(C) (C) C C C Intel. Rpt. Troop A B C t = 2017/3/17 [ ] T l 史忠植高级人工智能 ( TR ) = . 5 1 .6

实例－第三次传播 A B C (A) Bel(A) (A) A1 0.8 0.8 0.71 A2 0.2 0.2 0.71 t = 3
(A) = MB|A(B) (B) Bel(B) (B) B B (C) = (B) MC|B (C) Bel(C) (C) C C C Intel. Rpt. Troop A B C 2017/3/17 史忠植高级人工智能

结束语贝叶斯网络是表示不确定性知识的一种有效方法贝叶斯网络的参数学习与结构学习是比较活跃的研究领域
贝叶斯网络的推理能够计算出任何给定事件在给定条件下发生的可能性贝叶斯网络具有广阔的应用前景。 2017/3/17 史忠植高级人工智能

相关网址 http://www.cs.ucla.edu/judea/

Question! Thank You Intelligence Science http://www.intsci.ac.cn/ NN 1
10-00 Thank You Question! Intelligence Science 2017/3/17 史忠植智能科学 Elene Marchiori

高级人工智能第六章概率推理史忠植中国科学院计算技术研究所.

Similar presentations

Presentation on theme: "高级人工智能第六章概率推理史忠植中国科学院计算技术研究所."— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

高级人工智能 第六章 概率推理 史忠植 中国科学院计算技术研究所.

Similar presentations

Presentation on theme: "高级人工智能 第六章 概率推理 史忠植 中国科学院计算技术研究所."— Presentation transcript:

Similar presentations

About project

反馈

高级人工智能第六章概率推理史忠植中国科学院计算技术研究所.

Presentation on theme: "高级人工智能第六章概率推理史忠植中国科学院计算技术研究所."— Presentation transcript: