第五章 不确定性推理 概述 概率论基础 Bayes网络 主观Bayes方法 确定性方法 证据理论
第五章 不确定性推理 概述 概率论基础 Bayes网络 主观Bayes方法 确定性方法 证据理论
概述 不精确思维并非专家的习惯或爱好所至,而是客观现实的要求。 很多原因导致同一结果 推理所需的信息不完备 背景知识不足 信息描述模糊 信息中含有噪声 规划是模糊的 推理能力不足 解题方案不唯一 在人类的知识和思维行为中,精确性只是相对的,不精确性才是绝对的。知识工程需要各种适应不同类的不精确性特点的不精确性知识描述方法和推理方法。
概述-表示的3方面问题 不确定问题的数学模型表示的3方面问题 表示问题: 表达要清楚。表示方法规则不仅仅是数,还要有语义描述。 计算问题: 不确定性的传播和更新。也是获取新信息的过程。
不确定性推理例子 例如,对于如下的推理过程: R1:A1∧A2→B1 R2:A2∨A3→B2 R3:B1→B R4:B2→B 在描述这些规则时 采用的都是不确定性知识表示方式
推理树结果图
概述-表示的3方面问题 语义问题:将各个公式解释清楚。 语义问题:如何解释表示和计算的含义,目前多用概率方法。 如:f(B,A)可理解为当前提A为真时结论B为真的一种影响程度, C(A)可理解为A为真的程度。 特别关心的是f(B,A)的值: 1)A(T) →B(T), f(B,A)=? 2)A(T) →B(F), f(B,A)=? 3)B 独立于A,f(B,A)=? 对C(A)关心的是: 1)A为TRUE,C(A)=? 2)A为FALSE, C(A)=? T:True,F:False
概述-分类(1) 不确定性推理方法可分为形式化方法和非形式化方法。 形式化方法有逻辑法、新计算法和新概率法。逻辑法是非数值方法,采用多值逻辑和非单调逻辑来处理不确定性。传统的有基于概率理论的贝叶斯网络等。新计算法认为概率法不足以描述不确定性,从而出现了证据理论(也叫Dempster-Shafter, D-S方法),确定性方法(CF法)以及模糊逻辑方法。新概率法试图在传统的概率论框架内,采用新的计算方法以适应不确定性描述。 非形式化方法是指启发性方法,对不确定性没有给出明确的概念。
概述-分类(2) 不确定推理方法:工程方法、控制方法和并行确定性法。 工程法是将问题简化为忽略哪些不确定性因素。 控制法是利用控制策略来消除不确定性的影响,如启发式的搜索方法。 并行确定性法是把不确定性的推理分解为两个相对独立的过程:一个过程不计不确定性采用标准逻辑进行推理;另一过程是对第一个过程的结论加以不确定性的度量。前一过程决定信任什么,后一过程决定对它的信任程度。
第五章 不确定性推理 概述 概率论基础 Bayes网络 主观Bayes方法 确定性方法 证据理论
第五章 不确定性推理 概述 概率论基础 Bayes网络 主观Bayes方法 确定性方法 证据理论
概率论基础 概率论是研究随机现象中数量规律的科学。所谓随机现象是指在相同的条件下重复进行某种实验时,所得实验结果不一定完全相同且不可预知的现象。众所周知的是掷硬币的实验。人工智能所讨论的不确定性现象,虽然不完全是随机的过程,但是实践证明,采用概率论的思想方法考虑能够得到较好的结果。在这节中我们简单给出概率论的基本概念和贝叶斯定理。
概率论基础(随机事件) 随机实验:随机实验是一个可观察结果的人工或自然的过程,其产生的结果可能不止一个,且不能事先确定会产生什么结果。 样本空间:样本空间是一个随机实验的全部可能出现的结果的集合,通常记作Ω,Ω中的点(即一个可能出现的实验结果)成为样本点,通常记作ω。 随机事件:随机事件是一个随机实验的一些可能结果的集合,是样本空间的一个子集。常用大写字母A,B,C,…表示。
概率论基础(事件间的关系与运算 ) 两个事件A与B可能有以下几种特殊关系: 任意两个事件不一定会是上述几种关系中的一种。 包含:若事件B发生则事件A也发生,称“A包含B”,或“B含于A”,记作AB或BA。 等价:若AB且BA,即A与B同时发生或同时不发生,则称A与B等价,记作A=B。 互斥:若A与B不能同时发生,则称A与B互斥,记作AB=φ 对立:若A与B互斥,且必有一个发生,则称A与B对立,记作或,又称A为B的余事件,或B为A的余事件。 任意两个事件不一定会是上述几种关系中的一种。
概率论基础(事件间的关系与运算 ) 设A,B,A1,A2,…An为一些事件,它们有下述的运算: 交:记C=“A与B同时发生”,称为事件A与B的交,C={ω|ω∈A且ω∈B},记作或。 类似地用表示事件“n个事件A1, A2, …An同时发生”。 并:记C=“A与B中至少有一个发生”,称为事件A与B的并,C={ω|ω∈A或ω∈B},记作。 类似地用表示事件“n个事件A1, A2, …An中至少有一个发生”。 差:记C=“A发生而B不发生”,称为事件A与B的差,C={ω|ω∈A但ω∈B},记作或。 求余:
概率论基础(运算的性质 ) 事件的运算有以下几种性质: 交换率: 结合律: 分配律: 摩根率: 事件计算的优先顺序为:求余,交,差和并。
概率论基础(概率定义 ) 定义:设Ω为一个随机实验的样本空间,对Ω上的任意事件A,规定一个实数与之对应,记为P(A),满足以下三条基本性质,称为事件A发生的概率: 若二事件AB互斥,即,则 以上三条基本规定是符合常识的。 ,
概率论基础(概率性质 ) 定义:设{An, n=1, 2, …}为一组有限或可列无穷多个事件,两两不相交,且 ,则称事件族{An, n=1, 2, …}为样本空间Ω的一个完备事件族,又若对任意事件B有BAn=An或φ, n=1, 2, …,则称{An, n=1, 2, …}为基本事件族。 完备事件族与基本事件族有如下的性质: 定理:若{An, n=1, 2, …}为一完备事件族,则 ,且对于一事件B有 有若{An, n=1, 2, …}为一基本事件族,则 ,
概率论基础(统计概率性质 ) 对任意事件A,有 必然事件Ω的概率P(Ω) =1,不可能事件φ的概率P(φ) = 0 设事件A1,A2,…An(k≤n)是两两互不相容的事件,即有,则 设A,B是两事件,则 ,
概率论基础(条件概率 ) 定义:设A,B为事件且P(A)>0,称 简称P(B|A)为给定A时B发生的概率。P(AB)称为A与B的联合概率。有联合概率公式: ,
概率论基础(条件概率性质 ) , 若 ,则 乘法公式: 全概率公式:设A1,A2,…An互不相交, ,且 ,则对于任意事件A有 ,
概率论基础(贝叶斯定理 ) 设A,B1,B2,…,Bn为一些事件,P(A)>0,B1,B2,…,Bn互不相交,P(Bi)>0, i=1, 2, …, n,且 ,则对于k=1, 2, …, n, 贝叶斯公式容易由条件概率的定义,乘法公式和全概率公式得到。在贝叶斯公式中,P(Bi), i=1, 2, …, n称为先验概率,而P(Bi|A) i=1, 2, …, n称为后验概率也是条件概率。 ,
没病的人 有病的人 检查结果正确 检查结果错误 各种情况的概率是多少?
第五章 不确定性推理 概述 概率论基础 Bayes网络 主观Bayes方法 确定性方法 证据理论
第五章 不确定性推理 概述 概率论基础 Bayes网络 主观Bayes方法 确定性方法 证据理论
贝叶斯网络 二十世纪八十年代贝叶斯网络(Bayes Network)成功地应用于专家系统,成为表示不确定性专家知识和推理的一种流行的方法。基于贝叶斯方法的贝叶斯网络是一种适应性很广的手段和工具,具有坚实的数学理论基础。在综合先验信息(领域知识)和数据样本信息的前提下,还可避免只使用先验信息可能带来的主观偏见。虽然很多贝叶斯网络涉及的学习问题是NP难解的。但是,由于已经有了一些成熟的近似解法,加上一些限制后计算可大为简化,很多问题可以利用近似解法求解。 贝叶斯网络方法的不确定性表示基本上是保持了概率的表示方式,可信度计算也是概率计算方法,只是在实现时,各具体系统根据应用背景的需要采用各种各样的近似计算方法。推理过程称为概率推理。因此,贝叶斯网络没有其它确定性推理方法拥有的确定性表示、计算、语义解释等问题。由于篇幅关系,本节只介绍贝叶斯网络的基本概念和简单的推理方法。
贝叶斯网络(事件的独立性) 独立:如果X与Y相互独立,则 P(X,Y) = P(X)P(Y) P(X|Y) = P(X) 条件独立:如果在给定Z的条件下,X与Y相互独立,则 P(X|Y, Z) = P(X|Z) 实际中,条件独立比完全独立更重要
贝叶斯网络(联合概率) 联合概率:P(X1, X2, …, XN) 如果相互独立: 二值,则有2N可能的值,其中2N-1个独立。不是二值哪? 如果相互独立: P(X1, X2, …, XN) = P(X1) P(X2) …P(XN) 条件概率: P(X1, X2, …, XN) = P(X1|X2, …, XN) P(X2, …, XN) 迭代表示: P(X1, X2, …, XN) = P(X1) P(X2| X1) P(X3| X2X1)…P(XN|XN-1, …, X1) = P(XN) P(XN-1| XN) P(XN-2| XN-1XN)…P(X1|X2, …, XN) 实际应用中就是利用条件独立性的性质简化网络复杂性的。
贝叶斯网络(基本概念) 贝叶斯网络: 一系列变量的联合概率分布的图形表示。 一个表示变量之间的相互依赖关系的数据结构;图论与概率论的结合。
贝叶斯网络(因果关系网络) 假设: 命题S(smoker):该患者是一个吸烟者 命题C(coal Miner):该患者是一个煤矿矿井工人 命题L(lung Cancer):他患了肺癌 命题E(emphysema):他患了肺气肿 由专家给定的假设可知,命题S对命题L和命题E有因果影响,而C对E也有因果影响。命题之间的关系可以描绘成因果关系网。每一个节点代表一个证据,每一条弧代表一条规则(假设),连接结点的弧表达了有规则给出的,节点间的直接因果关系。其中,节点S,C是节点L和E的父节点或称双亲节点,同时,L,E也称为是S和C的子节点或称后代节点。
贝叶斯网络(因果关系图例) 其中, 节点S,C是节点L和E的父节点或称双亲节点,同时,L,E也称为是S和C的子节点或称后代节点。 S C E
贝叶斯网络(贝叶斯网络) 贝叶斯网就是一个在弧的连接关系上加入连接强度的因果关系网络 。
无环图和指定概率值P(A), P(B), P(B|AC), P(E|C), P(D|C), P(F|E), P(G|DEF) 贝叶斯网络(图例) B A D E F C G 贝叶斯网络图例 无环图和指定概率值P(A), P(B), P(B|AC), P(E|C), P(D|C), P(F|E), P(G|DEF)
贝叶斯网络(图例) 非贝叶斯网络图例 B A D C E G F
贝叶斯网络(定义) 两个部分 贝叶斯网络结构图,这是一个有向无环图(DAG: Directed Acyclic Graph),其中图中的每个节点代表相应的变量。当有向弧由节点A指向节点B时,则称:A是B的父节点;B是A的子节点。 节点和节点之间的条件概率表(Conditional Probability Table, CPT),也就是一系列的概率值,表示了局部条件概率分布。P(node|parents) 。 目的:由证据得出原因发生的概率。 即观察到P(Y),求P(X|Y)
贝叶斯网络(如何构造) 选择变量,生成节点 从左至右(从上到下),排列节点 填充网络连接弧,表示节点之间的关系 得到条件概率关系表 条件概率表示的概率网络有时叫“Belief Nets”
贝叶斯网络(计算) 有向非循环图是各个节点变量关系传递的合理表达形式。 条件概率的引入使得计算较之全连接网络有了大大的简化。 CPT表相对比较容易得到。 有时可以用某种概率分布表示,需要做的指示计算表示的参数。
贝叶斯网络(计算续) 简单的联合概率可以直接从网络关系上得到 如: P(X, Y) = P(X)P(Y|X) 又如: P(X, Y, Z) = P(X)P(Y)P(Z|X, Y) X Y P(X) P(Y|X) X Z Y P(X) P(Z|Y,X) P(Y)
贝叶斯网络(例) CPT表为: P(S) = .04 P(C) = 0.3 (E|S, C) = 0.9 P(E|S, ~C) = 0.3 L P(S)=0.4 P(C)=0.3 P(E|S,C)=0.9
贝叶斯网络(例续) 上图例中的联合概率密度为 由图可知:E与L在S条件下独立,所以P(E|S,C,L) = P(E|S,C), L与C在S, E条件下独立,所以P(L|S,C)= P(L|S) C与S在E条件下独立,所以P(C|S)=P(C) 以上三条等式的正确性,可以从贝叶斯网的条件独立属性:每个变量与它在图中的非继承节点在概率上是独立的推出。同样,从后面给出的D分离的定义的特性中也可以得到相同的结论。 简化后的联合概率密度为, 显然,简化后的公式比原始的数学公式更加简单明了,计算复杂度低很多。如果原贝叶斯网中的条件独立语义数量较多,这种减少更加明显。
贝叶斯网络(独立) 独立 独立时求解 P(X, Y) = P(X)P(Y) P(X|Y) = P(X) P(Y|X) = P(Y) 可以直接在网络图上求
贝叶斯网络(条件独立) 对于X, Y, E: X与Y在给定E的条件下独立 多个变量组:d分离(d-separate) P(X|Y,E) = P(X|E) P(Y|X,E) = P(Y|E) 多个变量组:d分离(d-separate) P(X1,X2,…,Xn|Y1,Y2,…,Ym,E1,E2,…,Ep) =P(X1,X2,…,Xn|E1,E2,…,Ep) 如果一组节点X在给定E的条件下,从Xi到Yj的每一条通路都被即Ekd分离,则称X独立于另一组节点Y (节点组E d分离X与Y)
贝叶斯网络(D分离) 图中有三个节点S,L,E L(结果)影响S(起因),S影响E(另一个结果)。 如果给定原因S后,L并不能告诉我们有关E的更多事情。即对于S,L和E是相对独立的,那么在计算S和L的关系时就不用过多地考虑E,将会大大减少计算复杂度。 称S能D分离L和E。 D分离是一种寻找条件独立的有效方法。 S C E L P(S)=0.4 P(C)=0.3 P(E|S,C)=0.9
贝叶斯网络( D分离-串行) Linear 串行连接中,事件X通过事件Z影响事件Y,反之事件Y也是通过事件Z影响事件X。但是,如果原因证据Z是给定的,X并不能给Y更多的东西,或者说,从X那里得到更多的信息。此时称,如果Z是已知的,那么通道就被阻塞,X和Y就是独立的了。则称X和Y是被Z节点D分离的。 X Z Y
贝叶斯网络( D分离(分叉连接)) Diverging Y X Z 。。。 Diverging 如果,父节点Z是已知的,没有更多的信息能够通过Z影响到所有子节点。同理,父节点Z是已知时,子节点X, …, N是相互独立的。称子节点X, …, N是被Z节点D分离的。
贝叶斯网络( D分离(汇集连接)) 汇集(Converging)略有不同 如果不从父节点得到推断,子节点Z就一无所知,那么,父节点是相互独立的,它们之间没有相互影响。 如果,某事件影响了Z,那么,各个父节点就不是相互独立的了。该事件可以直接影响Z,也可以通过它的后代节点影响Z。这种现象称作条件依存。总之,如果子节点有了变化,或子节点的后代节点发生变化,信息是可以通过汇集连接传播的。 Z N Y X 。。。
贝叶斯网络( D分离(条件依存)) 事件e直接影响节点Z 事件e影响节点Z的后代节点 Z N Y X L M e Z N Y X e 。。。
贝叶斯网络( D分离(定义)) 对于给定的结点集ε,如果对贝叶斯网中的结点Vi和Vj之间的每个无向路径(即不考虑DAG图中弧的方向性的路径),在路径上都有某个结点Vb,如果有属性: Vb在ε中,且路径上的两条弧都以Vb为尾(即弧在Vb处开始(出发),分叉连接) Vb在ε中,路径上的一条弧以Vb为头,一条以Vb为尾(串行连接) Vb和它的任何后继都不在ε中,路径上的两条弧都以Vb为头(即弧在Vb处结束,汇集连接,但没有后代节点) 则称Vi和Vj 被Vb结点阻塞。 如果Vi和Vj被证据集合ε中的任意结点阻塞,则称Vi和Vj是被ε集合D分离,结点Vi和Vj条件独立于给定的证据集合ε,可形式化表示为: , 或
贝叶斯网络( D分离(图示))
贝叶斯网络( 定义) 条件独立: 阻塞: D分离: 如具有以上三个属性之一,就说结点Vi和Vj条件独立于给定的结点集ε。 给定证据集合ε,当上述条件中的任何一个满足时,就说Vb阻塞相应的那条路径。 D分离: 如果Vi和Vj之间所有的路径被阻塞,就叫证据集合ε可以D分离Vi和Vj
贝叶斯网络( D分离(例1)) Z X Y X、Y独立 X、Y条件独立 Yes No
贝叶斯网络( D分离(例2)) P(X,Y)≠P(X)P(Y) X—草湿 P(X|Y,Z) = P(X,Z) Y—彩虹 Z—下雨
贝叶斯网络( D分离(例3)) P(X,Y) = P(X)P(Y) X—草湿 P(X|Y,Z) = P(X|Z) Y—洒水者 Z—彩虹 W X—草湿 Y—洒水者 Z—彩虹 W—长虫 P(X,Y) = P(X)P(Y) P(X|Y,Z) = P(X|Z) Y X Z W X—草湿 Y—洒水者 Z—彩虹 W—长虫 P(X,Y) ≠ P(X)P(Y) P(X|Y,Z) ≠ P(X|Z) Y
贝叶斯网络( D分离(例4) Radio and Ignition, given Battery? Yes Radio and Start, given Ignition? Gas and Radio, given Battery? Gas and Radio, given Start? No Gas and Battery, given Moves? Battery Radio Ignition Gas Moves Start
贝叶斯网络(推理) 建立贝叶斯网络的目的 在某些场合下有有效的推理方法。有一些工具包。 一般情况下是很困难的,原因 有了网络。可以提出问题: P(问题|证据), 如:P(吸烟|肺癌) 进行概率推理 与谓词逻辑有相似之处 。如:患病(吸烟,肺癌) 在某些场合下有有效的推理方法。有一些工具包。 一般情况下是很困难的,原因 不是所有的CPT表都能够得到 网络结构大且复杂 NP-hard推理 我们要做的是,将问题正确的表示为合理的网络形式,选用适合的算法。
贝叶斯网络(推理续) 贝叶斯网络通常使用因果或诊断规则与推理 因果规则:X Cause Y with some probability 诊断规则 :Y is evidence of X with some probability 因果推理:Given cause C, determine P(Query|C) 诊断推理:Given evidence E, determine P(Query|E)
贝叶斯网络(推理续) 推理需求:P(X|Y) 诊断推理是从效果到起因 证据是一些征兆:X是起因, Y是征兆 因果推理是从起因到效果 解释历史 X和Y是起因,Z是两个起因的征兆。这时可以用一个起因Y解释另一个起因X。
Query:P(X|Y,Z) and P(X|Z) 贝叶斯网络(推理例) 下雨、草湿、洒水 P(X) P(Y) 下雨 草湿 Query:P(X|Y) P(X) P(Y) 草湿 下雨 Query:P(X|Y) P(X) P(Z|X,Y) 下雨 草湿 Query:P(X|Y,Z) and P(X|Z) P(Y) 洒水
贝叶斯网络(推理例续) 条件: 求: 下雨 草湿 出现虫子 P(Raining|Worm Sighting) 下雨 P(X) 草湿 P(Y|X) 出现虫子 P(Z|Y) Query:P(X|Z)
贝叶斯网络(因果推理例) 给定患者是一个吸烟者(S),计算他患肺气肿(E)的概率P(E|S)。S称作推理的证据,E叫询问结点。 首先,E的另一个父结点(C),P(E|S)=P(E,C|S)+P(E,~C|S); 右边的第一项 , P(E,C|S)=P(E,C,S)/P(S)=P(E|C,S)*P(C,S)/P(S)=P(E|C,S)*P(C|S) 同理可得公式的右边的第二项为:P(E,~C|S) = P(E|~C,S)*P(~C)。 由此可得: P(E|S) = P(E| C,S)*P(C)+P(E|~C,S)*P(~C) 如果采用概述中的例题数据,有P(~C) = 1 - P(C),则有, P(E|S)=0.9*0.3+0.3*(1-0.3)=0.48 主要操作: 按照给定证据的V和它的所有双亲的联合概率,重新表达给定证据的询问结点的所求条件概率。 直到所有的概率值可从CPT表中得到,推理完成。
贝叶斯网络(推理自学) 《Artificial Intelligence: A New Synthesis》 Nils. J. Nilsson, 机械工业出版社,1999 Probabilistic Inference in Polytrees (p.332)
第五章 不确定性推理 概述 概率论基础 Bayes网络 主观Bayes方法 确定性方法 证据理论
第五章 不确定性推理 概述 概率论基础 Bayes网络 主观Bayes方法 确定性方法 证据理论
主观贝叶斯方法(概述) 在Prospector的探矿系统的研究过程中提出的。 贝叶斯规则: 原有贝叶斯公式只考虑A出现对B的影响,没有考虑A不出现的影响。 贝叶斯规则: 当B为n个互不相容事件的集合时,贝叶斯公式可 写为:
主观贝叶斯方法(概述) 思路 先定好应该怎么办,再凑公式。主要是避开P(A| B)的计算。
主观贝叶斯方法(概述) 规则的不确定性 定义: 表示A为真时,对B的影响。(规则成立的充分性) (确定性理论中没有考虑这点)
主观贝叶斯方法(规则的不确定性) 几率函数O(X) O(X)称为先验几率。表示证据X的出现概率和不出现的概率之比,显然O(X)是P(X)的增函数,且有: 当 P(X)=0, 有O(X)=0 当 P(X)=0.5, 有 O(X)=1 当 P(X)=1, 有O(X)=∞ 由此可见,几率函数实际上表示了证据X的不确定性。 相应有, 称为后验几率.
主观贝叶斯方法(规则的不确定性) O(X)的性质 O(X)与LN,LS的关系 P(X) = 0时, O(X) = 0 假 O(B|A) = LS • O(B) O(B|~A) = LN • O(B)
主观贝叶斯方法(规则的不确定性) ,且必须满足:
主观贝叶斯方法(规则的不确定性) LS、LN≥0,不独立。 LS, LN不能同时 >1或 <1 LS, LN可同时=1
主观贝叶斯方法(证据A的不确定性) P(A)或O(A)表示证据A的不确定性
主观贝叶斯方法(推理计算1) A必出现时: O(B|A) = LS•O(B) O(B|~A) = LN•O(B) 若需要概率时:
主观贝叶斯方法(推理计算2) A不确定时:即P(A) 1 (1976年的算法) 向前看一步A’, A’ 为与A有关的所有观察 P(B|A’) = P(B|A)P(A| A’)+P(B|~A)P(~A| A’) P(A| A’) = 1时,证据A必然出现(P95) P(A| A’) = 0时,LN代替上式 的LS, 公式(2) P(A| A’) = P(A) 时,(A’对A无影响),由上式 P(B| A’) = P(B)
主观贝叶斯方法(推理计算2) P(A| A’)与P(B| A’)坐标系上的三点:(P96) 两点也可以做曲线(或折线、直线)。由差值法从线上得到其它点的结果,具体过程可参考教科书上例题。
主观贝叶斯方法(推理计算2) 插值计算公式
线性插值图
主观贝叶斯方法(推理计算3) 两个证据时:
主观贝叶斯方法(推理计算2) 互相独立证据导出同一假设
例题(1) 已知:P(A)=1,P(B1)=0.04, P(B2)=0.02 R1:A→B1 LS=20 LN=1 R2:B1→B2 LS=300 LN=0.001 计算:P(B2|A)。分析:当使用规则R2时,证据B1并不是确定的发生了,即P(B1)≠1,因此要采用插值方法。 解:先依照A必然发生,由定义和R1得: O(B1) = P(B1)/(1-P(B1) = 0.04/(1-0.04) = 0.0417 O(B1|A) = LS*O(B1)=0.83 P(B1|A) = O(B1|A )/(1+O(B1|A ) = 0.83/(1+0.83) = 0.454 然后假设P(B1|A)=1,计算: O(B2) = P(B2)/(1-P(B2) = 0.02 P(B2|B1) = LS*O(B2)/(1+ LS*O(B2)) = 300*0.02/(300*0.02+1)=0.857 最后进行插值:P(B1|A) > P(B1), P(B2)=0.02, P(B1)=0.04 (已知), P(B2|A) = 0.02 + (0.857-0.02)(0.454-0.04)/(1-0.04) = 0.38
例题(2) 已知:证据A1,A2必然发生,且P(B1)=0.03 规则如下:R1:A1→B1 LS=20 LN=1; R2:A2→B1 LS=300 LN=1 求B1的更新值。 解: 依R1,P1(B)=0.03 O(B1)=0.03/(1-0.03)=0.030927 O(B1|A1)=LS×O(B1)=20×0.030927=0.61855 P(B1|A1)= 0.61855/(1+0.61855)=0.382 使用规则R1后,B1的概率从0.03上升到0.382 依R2:O(B1|A1A2)=300×O(B1|A1)=185.565 P(B1|A1A2)= 185.565/(1+185.565)=0.99464 使用规则R2后,B1的概率从0.382上升到0.99464
主观贝叶斯方法 主观Bayes方法的评价 优点: 缺点: 计算方法直观、明了。 要求Bj相互无关(实际不可能)。 P(A| B’)与P(Bi) 很难计算。 应用困难。
第五章 不确定性推理 概述 概率论基础 Bayes网络 主观Bayes方法 确定性方法 证据理论
第五章 不确定性推理 概述 概率论基础 Bayes网络 主观Bayes方法 确定性方法 证据理论
确定性方法(可信度方法) MYCIN系统研制过程中产生的不确定推理方法,第一个采用了不确定推理逻辑,70年代很有名。 提出该方法时应遵循的原则 不采用严格的统计理论。使用的是一种接近统计理论的近似方法。 用专家的经验估计代替统计数据 尽量减少需要专家提供的经验数据,尽量使少量数据包含多种信息。 新方法应适用于证据为增量式地增加的情况。 专家数据的轻微扰动不影响最终的推理结论。
确定性方法 理论基础 规则 以定量法为工具,比较法为原则的相对确认理论。 采用此方法的MYCIN系统的诊断结果不是只给出一个最可信结论及其可信度,而是给出可信度较高的前几位,供人们比较选用。 规则 规则的不确定性度量 证据(前提)的不确定性度量。 推理计算。
确定性方法 理论基础 规则 以定量法为工具,比较法为原则的相对确认理论。 采用此方法的MYCIN系统的诊断结果不是只给出一个最可信结论及其可信度,而是给出可信度较高的前几位,供人们比较选用。 规则 规则的不确定性度量 证据(前提)的不确定性度量。 推理计算。
确定性方法 理论基础 规则 以定量法为工具,比较法为原则的相对确认理论。 采用此方法的MYCIN系统的诊断结果不是只给出一个最可信结论及其可信度,而是给出可信度较高的前几位,供人们比较选用。 规则 规则的不确定性度量 证据(前提)的不确定性度量。 推理计算。
规则 (规则的不确定性度量) 规则 A → B, 可信度表示为CF(B, A)。
规则 (规则的不确定性度量) CF(B, A)表示的意义 结论 证据为真时相对于P(~B) = 1 - P(B)来说,A对B为真的支持程度。即A发生更支持B发生。 此时 CF(B, A)≥ 0。 或,相对于P(B)来说,A对B为真的不支持程度。即A发生不支持B发生。 此时 CF(B, A)< 0。 结论 -1 ≤ CF(B, A) ≤ 1
规则 (规则的不确定性度量) CF(B, A)的特殊值: 实际应用中CF(B, A)的值由专家确定,并不是由P(B|A), P(B)计算得到的。
确定性方法 理论基础 规则 以定量法为工具,比较法为原则的相对确认理论。 采用此方法的MYCIN系统的诊断结果不是只给出一个最可信结论及其可信度,而是给出可信度较高的前几位,供人们比较选用。 规则 规则的不确定性度量 证据(前提)的不确定性度量。 推理计算。
确定性方法 理论基础 规则 以定量法为工具,比较法为原则的相对确认理论。 采用此方法的MYCIN系统的诊断结果不是只给出一个最可信结论及其可信度,而是给出可信度较高的前几位,供人们比较选用。 规则 规则的不确定性度量 证据(前提)的不确定性度量。 推理计算。
规则 (证据的不确定性度量) 证据A的可信度表示为CF( A) 同样有:-1 ≤ CF( A) ≤ 1 CF( A) > 0, 表示A以CF( A)程度为真 CF( A) < 0, 表示A以CF( A)程度为假
确定性方法 理论基础 规则 以定量法为工具,比较法为原则的相对确认理论。 采用此方法的MYCIN系统的诊断结果不是只给出一个最可信结论及其可信度,而是给出可信度较高的前几位,供人们比较选用。 规则 规则的不确定性度量 证据(前提)的不确定性度量。 推理计算。
确定性方法 理论基础 规则 以定量法为工具,比较法为原则的相对确认理论。 采用此方法的MYCIN系统的诊断结果不是只给出一个最可信结论及其可信度,而是给出可信度较高的前几位,供人们比较选用。 规则 规则的不确定性度量 证据(前提)的不确定性度量。 推理计算。
规则 (推理计算 1) “与”的计算: A1 ∧ A2 →B “或”的计算: A1 ∨ A2 →B “非”的计算: 规则 (推理计算 1) “与”的计算: A1 ∧ A2 →B CF(A1 ∧ A2 ) = min { CF(A1), CF(A2 )} “或”的计算: A1 ∨ A2 →B CF(A1 ∨ A2 ) = max { CF(A1), CF(A2 )} “非”的计算: CF(~A ) = ~CF(A ) 由A, A →B, 求 B: CF(B) = CF(A )·CF(B,A ) (CF(A ) < 0 时可以不算即为“0”)
规则 (推理计算 2) 合成,由两条规则求出再合并: 由CF1(B)、 CF2(B),求 CF(B)
规则 (推理计算 3) 更新,由CF(A)、A →B、CF(B, A )、CF(B),求 B : 当A必然发生,CF(A)=1时:
规则 (推理计算 4) 当A不必然发生,CF(A)<1时: 规则A B不可使用,即此计算不必进行。 用CF(A)CF(B, A)代替CF(A)=1时的CF(B, A)即可。 CF(A) < 0, 规则A B不可使用,即此计算不必进行。 (如MYCIN系统CF(A)0.2就认为是不可使用的。其目的是使专家数据经轻微扰动不影响最终结果。)
规则 (推理计算 - 改进) 注意:以上公式不满足组合交换性。 解决方法: 异号时 从定义上改进
例题 已知:R1:A1→B1 CF(B1,A1)=0.8 R2:A2→B1 CF(B1,A2)=0.5 R3:B1∧A3→B2 CF(B2,B1∧A3)=0.8 CF(A1)=CF(A2)=CF(A3)=1;CF(B1)= CF(B2)=0; 计算 CF(B1)、CF(B2) 本题可图示为
解:依规则R1, CF(B1|A1)=CF(B1)+CF(B1,A1)(1-CF(B1))=0.8, 即更新后CF(B1)=0.8 依规则R2: CF(B1|A2)=CF(B1)+CF(B1,A2)(1-CF(B1))=0.9 更新后CF(B1)=0.9 依R3,先计算 CF(B1∧A3)=min(CF(A3),CF(B1))=0.9 由于CF(B1∧A3)<1, CF(B2| B1∧A3)= CF(B2)+ CF(B1∧A3)×CF(B2,B1∧A3) ×(1-CF(B2))=0+0.9×0.8(1-0)=0.72 答:更新后的可信度分别是:CF(B1)=0.9,CF(B2)=0.72
规则 (推理计算) 评论 可信度方法的宗旨不是理论上的严密性,而是处理实际问题的可用性。 不可一成不变地用于任何领域,甚至也不能适用于所有科学领域。推广至一个新领域时必须根据情况修改。
第五章 不确定性推理 概述 概率论基础 Bayes网络 主观Bayes方法 确定性方法 证据理论
第五章 不确定性推理 概述 概率论基础 Bayes网络 主观Bayes方法 确定性方法 证据理论
证据理论 (Evident Theory) 概述 证据的不确定性 规则的不确定性 推理计算
证据理论 (Evident Theory) 概述 由Dempster首先提出,并由他的学生Shafer发展起来,也称D-S理论。在专家系统的不精确推理中已得到广泛的应用。 (也用在模式识别中) 证据理论中引入了信任函数,它满足概率论弱公理。在概率论中,当先验概率很难获得,但又要被迫给出时,用证据理论能区分不确定性和不知道的差别。所以它比概率论更合适于专家系统推理方法。 当概率值已知时,证据理论就成了概率论。因此,概率论是证据理论的一个特例,有时也称证据沦为广义概率论。
证据理论 (预备知识) 集合论 朴素集合论体系 公理集合论体系 表示: A,B,C集合;a,b,c集合中的元素 aA: a为A中元素, a属于A aA: a不是A中元素, a不属于A 列举法:A={a,b,c}; 描述法:C={x|P(x)},具有性质P的集和
证据理论 (预备知识(性质)) 集合中的元素是各不相同的 集合中的元素不规定顺序 集合的两种表示方法有时可以相互转换 如:A={2,4,6,…} A={x|x>0且x为偶数}
证据理论 (预备知识(定义)) 子集定义:若B中的每个元素都是A中的元素,则称B是A的子集。也称A包含B或B含于A,记作B A,其符号化形式为 B A x(x Bx A) 若B不是A的子集,则记作B A,其符号化形式为 B A x(x Bx A) 相等定义:若A包含B且B包含A,则称A与B相等,记作A=B,即 A=B x(x B x A) 真命题: AA 若AB且 AB,则 B A 若AB且 BC,则 A C
证据理论 (预备知识(定义)) 真子集定义:若A为B的子集,且AB,则称A为B的真子集,或B真包含 A,记作AB。即 全集定义:如果限定所讨论的集合都是某一集合的子集,则称该集合为全集。常记作E
证据理论 (预备知识(定义)) 空集定义:不拥有任何元素的集合称为空集合,简称空集,记作。 定理:空集是一切集合的子集。 推论:空集是唯一的。
证据理论 (预备知识(定义)) 幂集定义:称由A的所有子集组成的集合为A的幂集。 记作2A 求幂集:设A={a,b,c} 0元子集为: 2元子集为:{a,b},{a,c,},{b,c} 3元子集为:{a,b,c}=A A的幂集={,{a},{b},{c},{a,b},{a,c,},{b,c},{a,b,c}} 定理:A的元素个数| A |=n(n为自然数),则|2A |= n。
证据理论 (预备知识(运算)) 并记定义:称A与B的所有元素组成的集合为A与B的并集。记作AB , 称为并运算符。 AB 的描述表示 AB ={x|x A ∨ x B} A1, A2, …An为n个集合, A1 A2 … An = {x| i(1in x Ai }, 简记为
证据理论 (预备知识(运算)) 交集定义:称A与B的公共元素组成的集合为A与B的交集。记作A B , 称为交运算符。 A B 的描述表示 A B ={x|x A x B} A1, A2, …An为n个集合, A1 A2 … An = {x| i(1in x Ai }, 简记为
证据理论 (预备知识(运算)) 互不相交定义:若A B= , 称A,B是不交的,设 A1, A2, …可数个集合,若对任意i j,均有Ai Aj = ,则称A1, A2, … 是互不相交的。
证据理论 (预备知识(恒等式)) 等幂率:A A=A; A A=A 交换率:A B=BA; AB = BA 结合率:(A B)C= A (BC); (AB)C= A(BC) 分配率:A (BC)= (A B) (B C) A(B C)= (AB) (B C) 摩根率:~(A B)=~A~ B ~(AB) =~A~B
证据理论 (预备知识(恒等式)) 吸收率:A(AB)= A; A(AB)=A 零 率:AE=E; A =
证据理论 (Evident Theory) 概述 证据的不确定性 规则的不确定性 推理计算
证据理论 (Evident Theory) 概述 证据的不确定性 规则的不确定性 推理计算
证据理论 (Evident Theory) 证据理论中,一个样本空间称为一个识别框架U, U由一系列对象构成,对象之间两两互斥,且包含当前要识别的全体对象。 证据理论的基本问题是,已知识别框架U,判明U中一个先验的未定元素属于U中某个子集A的程度。
证据理论 (证据的不确定性) 证据: 用集合U来表示:如U中的每个元素代表一种疾病。讨论一组疾病A发生的可能性时,A变成了单元(某些假设)的集合。 Ai中元素间是互斥的,但U内元素Ai间不是互斥的。
据理论集合空间分布示意图
证据理论 (证据的不确定性) 基本概率分配函数: (在U的幂集2U上定义,取值[0,1]) m(A)表示了证据对U的子集A成立的一种信任度 有: 空集为零 意义 若A属于U,且不等于U,表示对A的精确信任度 若A等于U,表示这个数不知如何分配
证据理论 (证据的不确定性) 信任函数 2U→[0,1]。(在U的幂集2U上定义,取值[0,1]) Bel(A) = 有: Bel(Φ) = m(Φ) = 0 , Bel(U) = = 1 Bel类似于概率密度函数,表示A中所有子集的基本概率分配数值的和,用来表示对A的总信任度。
证据理论 (证据的不确定性) 似然函数 性质: 0 ≤ Bel(A) ≤ Pl(A) ≤1 ( Bel是Pl的一部分) (在U的幂集2U上定义,取值[0,1]) Pl(A) = 1 - Bel(~A) = 性质: 0 ≤ Bel(A) ≤ Pl(A) ≤1 ( Bel是Pl的一部分) 称Bel(A)和Pl(A)是A的下限不确定性值和上限不确定性值。
证据理论 (证据的不确定性) 设函数f(Bel(A), Pl(A)) ,则有如下特殊值: f(1,1):表示A为真
证据理论 (证据的不确定性) 定义: 性质: 对于A U 其中|A|、|U|为集合内元素个数。 f1(Φ) = 0, 0≤f1(A)≤1
证据理论 概述 证据的不确定性 规则的不确定性 推理计算
证据理论 概述 证据的不确定性 规则的不确定性 推理计算
证据理论 (规则的不确定性) 推理形式: 设子集合A、B,其中A = {a1, a2, …, al}, B = {b1, b2, …, bk}, 用相应的向量(c1, c2, …, ck)描述规则A→B, 其中:ci≥0, 1≤i≤k, 且∑cj≤1, 1≤j≤k 已知事件A,由f1(A)求bk, bk = f1(A)ck
证据理论 概述 证据的不确定性 规则的不确定性 推理计算
证据理论 概述 证据的不确定性 规则的不确定性 推理计算
证据理论 (推理计算) f1(A1∧A2) = min { f1(A1), f1(A2)} f1(A1∨A2) = max { f1(A1), f1(A2)} 已知f1(A),A → B,(c1, c2, …, ck)。求f1(B) 规定:m({b1}, {b2}, …,{bk}) = (f1(A)c1,f1(A)c2,…, f1(A)ck) m (U) = 1 –
证据理论 (推理计算) 证据的组合:m1, m2在U上的合成 (对于同样的证据,由于来源不同,得到二个概率分配函数m1, m2 ) 定义:m = m1⊙ m2 规定:m(Φ) = 0 , m(A) = 其中 K-1=1- 且 K-1 0。 若K-1 = 0,认为m1,m2矛盾,没有联合基本概率分配函数 。
证据理论 (推理计算) K的含义:把空集所丢弃的正交和按比例地补到非空集上。使得 满足。 无K时: m(A) = 但,有违反定义的时候。 即,合成的分配函数是两两相交所得集合的分配函数的总和。 但,有违反定义的时候。 如: 且,m1(A), m2(B) 0 那么:
例题 已知:f1(A1) = 0.40 ,f1(A2)=0.50,|U| = 20. A1→B={b1,b2,b3},(c1,c2,c3)=(0.1,0.2,0.3) A2→B={b1,b2,b3},(c1,c2,c3)=(0.5,0.2,0.1) 求:f1(B) 解:(1)先求:m1({b1},{b2},{b3})=(0.4*0.1,0.4*0.2,0.4*0.3) =(0.04,0.08,0.12); m1(U)=1- [m1({b1})+m1({b2})+m1({b3})]=0.76; m2({b1},{b2},{b3})=(0.5*0.5,0.5*0.2,0.5*0.1) =(0.25,0.10,0.05); m2(U)=1- [m2({b1})+m2({b2})+m2({b3})]=0.70;
例题 求m =m1⊙ m2 1/K=m1({b1})*m2({b1})+ m1({b1})*m2({U})+ m1({b2})*m2({b2})+ m1({b2})*m2({U})+ m1({b3})*m2({b3})+ m1({b3})*m2({U})+ m1({U})*m2({b1})+ m1({U})*m2({b2})+ m1({U})*m2({b3})+ m1({U})*m2({U}) =0.01+0.028+0.008+0.056+0.06+0.084+0.19+0.076+0.038+0.532 =1/1.082 有: m({b1})=K*(m1({b1})*m2({b1})+m1({b1})*m2({U}) +m1({U})*m2({b1})) =1.082*(0.01+0.028+0.19)=0.247 m({b2})=K*(m1({b2})*m2({b2})+m1({b2})*m2({U}) +m1({U})*m2({b2}))=1.082*(0.008+0.056+0.076) =0.151 m({b3})=K*(m1({b3})*m2({b3})+m1({b3})*m2({U})+m1({U})* m2({b3}))=1.082*(0.06+0.084+0.038)=0.138 m(U)=1-[ m({b1})+ m({b2})+ m({b3})]=0.464
例题 最后:Bel(B)=m({b1})+ m({b2})+ m({b3})=0.536 P1(B)=1-Bel(~B) 由于基本概率分配函数只定义在B集合和全集U之上,所以其它集合的分配函数值为0,即Bel(~B)=0 所以,可得 P1(B)=1-Bel(~B)=1 f1(B)=Bel(B)+(P1(B)-Bel(B))*|B|/|U| =0.536+(1-0.536)*3/20=0.606
第五章 不确定性推理 The End