贝叶斯决策理论 4.1 引言 4.2几种常用的决策规则 4.3正态分布时的统计决策 4.4关于分类器的错误率问题.

Slides:



Advertisements
Similar presentations
目录 上页 下页 返回 结束 习题课 一、导数和微分的概念及应用 二、导数和微分的求法 导数与微分 第二章.
Advertisements

2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
第八章 第四节 机动 目录 上页 下页 返回 结束 一个方程所确定的隐函数 及其导数 隐函数的微分法.
2.6 隐函数微分法 第二章 第二章 二、高阶导数 一、隐式定义的函数 三、可微函数的有理幂. 一、隐函数的导数 若由方程 可确定 y 是 x 的函数, 由 表示的函数, 称为显函数. 例如, 可确定显函数 可确定 y 是 x 的函数, 但此隐函数不能显化. 函数为隐函数. 则称此 隐函数求导方法.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
第二章 导数与微分. 二、 微分的几何意义 三、微分在近似计算中的应用 一、 微分的定义 2.3 微 分.
全微分 教学目的:全微分的有关概念和意义 教学重点:全微分的计算和应用 教学难点:全微分应用于近似计算.
第三节 微分 3.1 、微分的概念 3.2 、微分的计算 3.3 、微分的应用. 一、问题的提出 实例 : 正方形金属薄片受热后面积的改变量.
§3.4 空间直线的方程.
圆的一般方程 (x-a)2 +(y-b)2=r2 x2+y2+Dx+Ey+F=0 Ax2+Bxy+Cy2+Dx+Ey+ F=0.
第五章 二次型. 第五章 二次型 知识点1---二次型及其矩阵表示 二次型的基本概念 1. 线性变换与合同矩阵 2.
第三章 函数逼近 — 最佳平方逼近.
四种命题 2 垂直.
恰当方程(全微分方程) 一、概念 二、全微分方程的解法.
高等数学电子教案 第五章 定积分 第三节 微积分基本定理.
第五节 微积分基本公式 、变速直线运动中位置函数与速度 函数的联系 二、积分上限函数及其导数 三、牛顿—莱布尼茨公式.
一、原函数与不定积分 二、不定积分的几何意义 三、基本积分公式及积分法则 四、牛顿—莱布尼兹公式 五、小结
第二节 微积分基本公式 1、问题的提出 2、积分上限函数及其导数 3、牛顿—莱布尼茨公式 4、小结.
第四章 定积分及其应用 4.3 定积分的概念与性质 微积分基本公式 定积分的换元积分法与分部积分法 4.5 广义积分
第四章 函数的积分学 第六节 微积分的基本公式 一、变上限定积分 二、微积分的基本公式.
定积分的换元法 和分部积分法 换元公式 分部积分公式 小结 1/24.
§5.3 定积分的换元法 和分部积分法 一、 定积分的换元法 二、 定积分的分部积分法 三、 小结、作业.
第5章 定积分及其应用 基本要求 5.1 定积分的概念与性质 5.2 微积分基本公式 5.3 定积分的换元积分法与分部积分法
第三节 格林公式及其应用(2) 一、曲线积分与路径无关的定义 二、曲线积分与路径无关的条件 三、二元函数的全微分的求积 四、小结.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
第二章 导数与微分 第二节 函数的微分法 一、导数的四则运算 二、复合函数的微分法.
2-7、函数的微分 教学要求 教学要点.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
初中数学八年级下册 (苏科版) 10.4 探索三角形 相似的条件(2).
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
计算机数学基础 主讲老师: 邓辉文.
§2 求导法则 2.1 求导数的四则运算法则 下面分三部分加以证明, 并同时给出相应的推论和例题 .
第一章 函数 函数 — 研究对象—第一章 分析基础 极限 — 研究方法—第二章 连续 — 研究桥梁—第二章.
第十章 方差分析.
第七章 参数估计 7.3 参数的区间估计.
若2002年我国国民生产总值为 亿元,如果 ,那么经过多少年国民生产总值 每年平均增长 是2002年时的2倍? 解:设经过 年国民生产总值为2002年时的2倍, 根据题意有 , 即.
第一章 函数与极限.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
数列.
抽样和抽样分布 基本计算 Sampling & Sampling distribution
6.4不等式的解法举例(1) 2019年4月17日星期三.
第二十二章 曲面积分 §1 第一型曲面积分 §2 第二型曲面积分 §3 高斯公式与斯托克斯公式.
3.8.1 代数法计算终点误差 终点误差公式和终点误差图及其应用 3.8 酸碱滴定的终点误差
模型分类问题 Presented by 刘婷婷 苏琬琳.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
§1体积求法 一、旋转体的体积 二、平行截面面积为已知的立体的体积 三、小结.
第五节 对坐标的曲面积分 一、 对坐标的曲面积分的概念与性质 二、对坐标的曲面积分的计算法 三、两类曲面积分的联系.
复习.
正切函数的图象和性质 周期函数定义: 一般地,对于函数 (x),如果存在一个非零常数T,使得当x取定义域内的每一个值时,都有
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
3.1 变化率与导数   3.1.1 变化率问题 3.1.2 导数的概念.
第五节 缓冲溶液pH值的计算 两种物质的性质 浓度 pH值 共轭酸碱对间的质子传递平衡 可用通式表示如下: HB+H2O ⇌ H3O++B-
一 测定气体分子速率分布的实验 实验装置 金属蒸汽 显示屏 狭缝 接抽气泵.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
第一节 不定积分的概念与性质 一、原函数与不定积分的概念 二、不定积分的几何意义 三、基本积分表 四、不定积分的性质 五、小结 思考题.
第三章 函数的微分学 第二节 导数的四则运算法则 一、导数的四则运算 二、偏导数的求法.
学习任务三 偏导数 结合一元函数的导数学习二元函数的偏导数是非常有用的. 要求了解二元函数的偏导数的定义, 掌握二元函数偏导数的计算.
第四节 随机变量函数的概率分布 X 是分布已知的随机变量,g ( · ) 是一个已知 的连续函数,如何求随机变量 Y =g(X ) 的分布?
第一部分:概率 产生随机样本:对分布采样 均匀分布 其他分布 伪随机数 很多统计软件包中都有此工具 如在Matlab中:rand
一元二次不等式解法(1).
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
正弦、余弦函数的性质 华容一中 伍立华 2017年2月24日.
§2 方阵的特征值与特征向量.
难点:连续变量函数分布与二维连续变量分布
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
第三节 数量积 向量积 混合积 一、向量的数量积 二、向量的向量积 三、向量的混合积 四、小结 思考题.
一元一次方程的解法(-).
Presentation transcript:

贝叶斯决策理论 4.1 引言 4.2几种常用的决策规则 4.3正态分布时的统计决策 4.4关于分类器的错误率问题

4.1 引 言 模式识别的分类问题是根据识别对象特征的观察值将其分到某个类别中去。 4.1 引 言 模式识别的分类问题是根据识别对象特征的观察值将其分到某个类别中去。 例:医生要根据病人血液中白细胞的浓度来判断病人是否患血液病。 两类的识别问题。

4.1 引 言 根据医学知识和以往的经验医生知道:患病的人,白细胞的浓度服从均值2000,方差1000的正态分布;未患病的人,白细胞的浓度服从均值7000,方差3000的正态分布;一般人群中,患病的人数比例为0.5%。 一个人的白细胞浓度是3100,医生应该  做出怎样的判断?

贝叶斯决策理论 2.1 引 言 贝叶斯决策理论方法的假设: 2.1 引 言 贝叶斯决策理论 贝叶斯决策理论方法的假设: 各类别总体的概率分布是已知的; 要决策分类的类别数是一定的。 在连续情况下,假设要识别的对象有d种特征量x1,x2,…,xd,这些特征的所有可能的取值范围构成了d维特征空间,称 x = [x1,x2,…,xd]T 为d维特征向量。

2.1 引 言 假设说明 假设要研究的分类问题有c个类别ωi,i =l,2,…,c;对应于各个类别ωi出现的先验概率P(ωi)及类条件概率密度函数p(x/ωi)是已知的。 如果在特征空间已观察到某一向量x, x = [x1,x2,…,xd]T 那么应该把x分到哪一类去才是最合理呢? 这就是本章所要研究的主要问题。

4.2 几种常用的决策规则 基于最小错误率的贝叶斯决策 基于最小风险的贝叶斯决策 在限定一类错误率条件下使另一类错误率为最小的两类别决策 极小化极大决策 序贯分类方法

4.2.1基于最小错误率的贝叶斯决策 利用概率论中的贝叶斯公式,得出使错误率为最小的分类规则,称之为基于最小错误率的贝叶斯决策。 4.2 几种常用的决策规则 4.2.1基于最小错误率的贝叶斯决策 利用概率论中的贝叶斯公式,得出使错误率为最小的分类规则,称之为基于最小错误率的贝叶斯决策。

举例说明 以鱼分类为例说明解决问题的过程。 假设已抽取出d个表示鱼的特征,成为一个d维空间的向量x,目的是要将x分类为鲈鱼或者鲑鱼。 2.2.1基于最小错误率的贝叶斯决策 举例说明 以鱼分类为例说明解决问题的过程。 假设已抽取出d个表示鱼的特征,成为一个d维空间的向量x,目的是要将x分类为鲈鱼或者鲑鱼。 如果用ω表示状态,就是将x归类于两种可能的自然状态之一,则 ω=ω1 表示鲈鱼 ω=ω2 表示鲑鱼

只以先验概率决策存在问题 假设已知出现鲈鱼的先验概率为P(ω1)和出现鲑鱼的先验概率为P(ω2)。 在两类别问题中存在 2.2.1基于最小错误率的贝叶斯决策 只以先验概率决策存在问题 假设已知出现鲈鱼的先验概率为P(ω1)和出现鲑鱼的先验概率为P(ω2)。 在两类别问题中存在 P(ω1)+ P(ω2)=1

只以先验概率决策存在问题 若P(ω1)> P(ω2),ω=ω1; P(ω1)< P(ω2),ω=ω2。 2.2.1基于最小错误率的贝叶斯决策 只以先验概率决策存在问题 若P(ω1)> P(ω2),ω=ω1; P(ω1)< P(ω2),ω=ω2。 如果P(ω1)=0.9 , P(ω2)=0.1, P(ω1)> P(ω2),出现的鱼归为鲈鱼。如果仅做一次判别,这种分类可能是合理的;如果多次判别,则根本未达到要把鲈鱼与鲑鱼区分开的目的。

2.2.1基于最小错误率的贝叶斯决策 解决方法 利用对鱼观察到的光泽度提高分类器的性能。不同的鱼产生不同的光泽度,将其表示为概率形式的变量,设x是连续的随机变量,其分布取决于类别状态,表示为p(x|ω),即类条件概率分布(class-conditional probability density)函数,则 p(x|ω1)与p(x|ω2)之间的区别就表示为鲈鱼与鲑鱼间光泽度的区别,如图2.1所示:

图2.1 类条件概率密度函数图 概率函数已经归一化,每条曲线下的面积为1 2.2.1基于最小错误率的贝叶斯决策 图2.1 类条件概率密度函数图 概率函数已经归一化,每条曲线下的面积为1

类条件概率密度p(x|ωi),i=1,2,利用贝叶斯公式 2.2.1基于最小错误率的贝叶斯决策 已知:状态先验概率P(ωi),i=1,2。 类条件概率密度p(x|ωi),i=1,2,利用贝叶斯公式

条件概率P(ωi|x)称为状态的后验概率 2.2.1基于最小错误率的贝叶斯决策 条件概率P(ωi|x)称为状态的后验概率 贝叶斯公式实质上是通过观察x把状态的先验概率P(ωi) 转化为状态的后验概率P(ωi|x),如图2.2所示。 图2.2 P(ω1) =2/3和P(ω2)=1/3 及图2.1下的后验 概率图

如果P(ω1|x)> P(ω2|x),则把x归类于鲈鱼ω1; 2.2.1基于最小错误率的贝叶斯决策 基于最小错误率的贝叶斯决策规则为: 如果P(ω1|x)> P(ω2|x),则把x归类于鲈鱼ω1; 反之P(ω1|x)< P(ω2|x),则把x归类于鲑鱼ω2。 上面的规则可简写为: ⑴如果 P(ωi|x)= P(ωj|x),则x∈ωi

利用贝叶斯公式(1)还可以得到几种最小错误率贝叶斯决策规则的等价形式: 2.2.1基于最小错误率的贝叶斯决策 利用贝叶斯公式(1)还可以得到几种最小错误率贝叶斯决策规则的等价形式: ⑵如果 p(x|ωi) P(ωi )= p(x|ωj) P(ωj), 则 x∈ωi ω1 ⑶若 ,则x∈ < ω2 ⑷对上式的l(x)取自然对数的负值,可写为 若h(x)=-ln[l(x)]=-lnp(x|ω1)+ lnp(x|ω2) < ln ω1 ω2 > 则 x∈

2.2.1基于最小错误率的贝叶斯决策 举例 假设在某个局部地区细胞识别中正常(ω1)和异常(ω2)两类先验概率分别为正常状态:P(ω1)=0.9;异常状态:P(ω2)=0.1。现有一待识的细胞,其观察值为x,从类条件概率密度分布曲线上查得p(x|ω1)=0.2,p(x|ω2)=0.4。试对该细胞x进行分类。 课堂练习

解:利用贝叶斯公式,分别计算出ω1及ω2的后验概率。 2.2.1基于最小错误率的贝叶斯决策 解:利用贝叶斯公式,分别计算出ω1及ω2的后验概率。 P(ω2|x)=1- P(ω1|x)=1-0.818=0.182 根据贝叶斯决策规则(2),有 P(ω1|x) = 0.818 > P(ω2|x) = 0.182 所以合理的决策是把 x 归类于正常状态。

从这个例子可见,决策结果取决于实际观察到的类条件概率密度p(x|ωi)和先验概率P(ωi)两者。 2.2.1基于最小错误率的贝叶斯决策 从这个例子可见,决策结果取决于实际观察到的类条件概率密度p(x|ωi)和先验概率P(ωi)两者。 在这个例子中由于状态ω1的先验概率比ω2的先验概率大好几倍,使先验概率在做出决策中起了主导作用。

2.2.1基于最小错误率的贝叶斯决策 最小错误率贝叶斯决策规则证明 错误率-平均错误率,以P(e)来表示,其定义为

2.2.1基于最小错误率的贝叶斯决策

多类别决策 在多类决策的最小错误率贝叶斯决策规则。如果 P(ωi|x)= P(ωj|x),则x∈ωi 2.2.1基于最小错误率的贝叶斯决策 多类别决策 在多类决策的最小错误率贝叶斯决策规则。如果 P(ωi|x)= P(ωj|x),则x∈ωi p(x|ωi)P(ωi)= p(x|ωj )P(ωj),则x∈ωi

多类别决策 多类别决策过程中,要把特征空间分割成R1,R2,…,Rc个区域,可能错分的情况很多,平均错误概率P(e)将由c(c-1)项组成。 2.2.1基于最小错误率的贝叶斯决策 多类别决策 多类别决策过程中,要把特征空间分割成R1,R2,…,Rc个区域,可能错分的情况很多,平均错误概率P(e)将由c(c-1)项组成。

即: 2.2.1基于最小错误率的贝叶斯决策 P(e) = [P(x∈R2|ω1)+ P(x∈R3|ω1)+…P(x∈Rc|ω1)]P(ω1) +…… +[P(x∈R1|ωc)+ P(x∈R2|ωc)+…P(x∈Rc-1|ωc)]P(ωc) 每行c-1项

直接求P(e)的计算量较大。如果代之计算平均正确分类概率P(c),则 2.2.1基于最小错误率的贝叶斯决策 直接求P(e)的计算量较大。如果代之计算平均正确分类概率P(c),则 c项 P(e)=1-P(c)

Bayes Decision Theory (General) 2.2.1基于最小错误率的贝叶斯决策 Bayes Decision Theory (General) Generalize Bayes Decision Theory by 允许使用多于一个的特征(allowing to use multi features) 允许多于两种类别状态(allowing to use more that two states) 允许有其他行为而不仅仅是判定类别(allowing actions rather than choosing states) 引入损失函数代替误差概率(introducing a loss function rather than probability of error)

P(Wi)就是先验概率,而p(X|Wi)则需要根据高斯概率密度函数进行估计: 程序 P(Wi)就是先验概率,而p(X|Wi)则需要根据高斯概率密度函数进行估计:

程序 多元高斯概率密度函数

小节 关键:确定先验分布和类条件分布 P144 例5.6 Sunny,cool,High,true

2.2.2基于最小风险的贝叶斯决策 2.2 几种常用的决策规则 x: feature vector (d×1) x = [x1,x2,…,xd]T 状态空间states (classes) Ω由c个自然状态(c类)组成。 Ω={ω1,ω2,…ωc} actions (allows possibility of rejection) A ={ , ,… } loss for taking action i for state j

2.2.2基于最小风险的贝叶斯决策

2.2.2基于最小风险的贝叶斯决策 根据贝叶斯公式,后验概率为 其中

2.2.2基于最小风险的贝叶斯决策 对于给定的x如果采取决策 ,从决策表可见,对应于决策 , 可以在c个 ,j=1,…,c值中任取一个,其相应概率为P(ωj|x)。 因此在采取决策 情况下的条件期望损失R( |x)为 i=1,2,…,a

只是反映了对某一x的取值采取决策 所带来的风险。 2.2.2基于最小风险的贝叶斯决策 定义期望风险R为 期望风险R反映对整个特征空间上所有x的取值采取相应的决策 所带来的平均风险; 如果在采取每一个决策或行动时,都使其条件风险最小,则对所有的x做出决策时,其期望风险也必然最小。 只是反映了对某一x的取值采取决策 所带来的风险。 最小风险贝叶斯决策

2.2.2基于最小风险的贝叶斯决策 最小风险贝叶斯决策规则为 如果 则 最小风险贝叶斯决策的实现步骤:

2.2.2基于最小风险的贝叶斯决策 ⑴在已知P(ωj),p(x|ωj),j=1,2…,c及给出待识别的x的情况下,根据贝叶斯公式计算出后验概率: j=1,2,…,c

⑵利用计算出的后验概率及决策表,按(2-15)计算出采取 ,i=1,2,…,a的条件风险R( |x) 2.2.2基于最小风险的贝叶斯决策 ⑵利用计算出的后验概率及决策表,按(2-15)计算出采取 ,i=1,2,…,a的条件风险R( |x) i=1,2,…,a

⑶对⑵中得到的a个条件风险值R( |x), i=1,2,…,a 进行比较,找出使条件风险最小的决策 ,即 2.2.2基于最小风险的贝叶斯决策 ⑶对⑵中得到的a个条件风险值R( |x), i=1,2,…,a 进行比较,找出使条件风险最小的决策 ,即 即 就是最小风险贝叶斯决策。

2.2.2基于最小风险的贝叶斯决策 举例 例2.2假设在某个局部地区细胞识别中正常(ω1)和异常(ω2)两类先验概率分别为正常状态:P(ω1)=0.9;异常状态:P(ω2)=0.1。现有一待识的细胞,其观察值为x,从类条件概率密度分布曲线上查得p(x|ω1)=0.2,p(x|ω2)=0.4。损失函数分别为 , , , 。试对该细胞x按最小风险贝叶斯决策进行分类。

举例 2.2.2基于最小风险的贝叶斯决策 ——当x∈ω1时决策为x∈ω1的损失, ——当x∈ω1时决策为x∈ω2的损失,

2.2.2基于最小风险的贝叶斯决策 解:已知条件为P(ω1)=0.9,P(ω2)=0.1,p(x|ω1)=0.2,p(x|ω2)=0.4, c = 2, , , , 。 根据例2.1的计算结果可知后验概率为 P(ω1|x) = 0.818, P(ω2|x) = 0.182

2.2.2基于最小风险的贝叶斯决策 再按下式计算出条件风险 由于 x∈ω2

最小错误率和最小风险贝叶斯决策规则的关系。 2.2.2基于最小风险的贝叶斯决策 最小错误率和最小风险贝叶斯决策规则的关系。 设损失函数为0-1损失函数 i,j=1,2,…,c

2.2.2基于最小风险的贝叶斯决策 条件风险为 表示对x采取决策ωi的条件错误概率

2.2.2基于最小风险的贝叶斯决策 在0 — 1损失函数时,使 的最小风险贝叶斯决策就等价于 的最小错误率贝叶斯决策。   由此可见,最小错误率贝叶斯决策就是在0-1损失函数条件下的最小风险贝叶斯决策。前者是后者的特例。

两类分类问题的最小风险贝叶斯决策 有大量的方式来表述最小风险决策规则,每种都有自己的优点。用后验概率的形式表述为,如果 那么判决为ω1。 2.2.2基于最小风险的贝叶斯决策 两类分类问题的最小风险贝叶斯决策 有大量的方式来表述最小风险决策规则,每种都有自己的优点。用后验概率的形式表述为,如果 那么判决为ω1。

两类分类问题的最小风险贝叶斯决策 2.2.2基于最小风险的贝叶斯决策 通常,一次错误判决所造成的损失比正确判决要大,且因子λ21-λ11和λ12-λ22都是正的。 实践中,尽管必须通过损失函数的差别对后验概率作调整,但是判决通常是依据最可能的类别状态来决定的。 利用贝叶斯公式,也可用先验概率和条件密度来表示后验概率,这种等价规则为: 如果 那么判决为ω1。

两类分类问题的最小风险贝叶斯决策 另一种表示方法是,在合理假设λ21>λ11的条件下,如果下式成立,则判决为ω1。 2.2.2基于最小风险的贝叶斯决策 两类分类问题的最小风险贝叶斯决策 另一种表示方法是,在合理假设λ21>λ11的条件下,如果下式成立,则判决为ω1。 这种判决规则的形式主要依赖于x的概率密度。

2.2.2基于最小风险的贝叶斯决策 图2-3图2-1所示的分布的似然比p(x|ω1)/p(x|ω2)。如果引入一个0-1损失或分类损失,那么判决边界将由阈值θω决定;而如果损失函数对将模式ω2判为ω1的惩罚大于反过来的情况(即λ21> λ12)。将得到较大的阈值θb,使得R1变小

2.2.3 在限定一类错误率条件下使另一类错误率为最小的两类别决策 2.2 几种常用的决策规则 2.2.3 在限定一类错误率条件下使另一类错误率为最小的两类别决策 在两类别决策问题中,有犯两种错误分类的可能性:(1)在采取决策ω1时其实际自然状态为ω2;(2)在采取决策ω2时其实际自然状态为ω1,这两种错误的概率分别是P(ω2)·P2(e)和P(ω1)·P1(e)。 最小错误率贝叶斯决策是使这两种错误率之和P(e)为最小。

2.2.3 在限定一类错误率条件下使另一类错误率为最小的两类别决策 2.2 几种常用的决策规则 2.2.3 在限定一类错误率条件下使另一类错误率为最小的两类别决策 由于先验概率P(ω1)和P(ω2)对具体问题来说往往是确定的,所以一般称P1(e),P2(e)为两类错误率。 实际中,有时要求限制其中某一类错误率不得大于某个常数而使另一类错误率尽可能地小。

2.2.3 在限定一类错误率条件下使另一类错误率为最小的两类别决策 2.2 几种常用的决策规则 2.2.3 在限定一类错误率条件下使另一类错误率为最小的两类别决策 例如在癌细胞识别中,把异常误判为正常的损失更为严重,所以常希望这种误判的错误率P2(e)很小,即P2(e)=ε0,ε0是一个很小的常数,在这种条件下再要求P1(e)尽可能地小。 这样的决策可看成是在P2(e)=ε0条件下,求P1(e)极小值的条件极值问题。

2.2.3 在限定一类错误率条件下使另一类错误率为最小的两类别决策 2.2 几种常用的决策规则 2.2.3 在限定一类错误率条件下使另一类错误率为最小的两类别决策 可以用求条件极值的拉格朗日(Lagrange)乘子法解决。 拉格朗日乘子法是一种在等式约束条件下的优化算法。基本思想是将等式的约束问题转化为无约束问题。 拉格朗日乘子法为: =0

2.2.3 在限定一类错误率条件下使另一类错误率为最小的两类别决策 2.2 几种常用的决策规则 2.2.3 在限定一类错误率条件下使另一类错误率为最小的两类别决策 按Lagrange乘子法建立数学模型为 目的是求γ的极小值 已知 其中R1是类别ω1的决策域,R2是类别ω2的决策域,而R1+R2=R,R为整个特征空间,即决策是把整个特征空间分割成不相交的二个区域R1和R2,若被识别样本x落入到R1则就判定为属于ω1类,反之则属于ω2类。 根据类条件概率密度的性质,有

2.2.3 在限定一类错误率条件下使另一类错误率为最小的两类别决策 2.2 几种常用的决策规则 2.2.3 在限定一类错误率条件下使另一类错误率为最小的两类别决策 则 对x和 求导 得

2.2.3 在限定一类错误率条件下使另一类错误率为最小的两类别决策 2.2 几种常用的决策规则 2.2.3 在限定一类错误率条件下使另一类错误率为最小的两类别决策 满足左式的最佳 及满足右式的边界面就能使 极小。此时其决策规则可以写为 如果 ,则x∈ ω2 > ω1 或 如果 ,则 < ω2 x∈ ω1

2.2.3 在限定一类错误率条件下使另一类错误率为最小的两类别决策 2.2 几种常用的决策规则 2.2.3 在限定一类错误率条件下使另一类错误率为最小的两类别决策 这种在限定一类错误率 为常数而使另一类错误率 最小的决策规则也称Neyman-Pearson决策规则。 与最小错误率贝叶斯决策规则对比 则x∈ < ω1 ω2 其中R1是类别ω1的决策域,R2是类别ω2的决策域,而R1+R2=R,R为整个特征空间,即决策是把整个特征空间分割成不相交的二个区域R1和R2,若被识别样本x落入到R1则就判定为属于ω1类,反之则属于ω2类。

2.2.3 在限定一类错误率条件下使另一类错误率为最小的两类别决策 2.2 几种常用的决策规则 2.2.3 在限定一类错误率条件下使另一类错误率为最小的两类别决策 可以看出Neyman-Pearson决策规则与最小错误率贝叶斯决策规则都是以似然比为基础的,所不同的只是最小错误率决策用的阈值是先验概率之比P(ω2)/P(ω1),而Neyman-Pearson决策用的阈值则是Lagrange乘子 ,类似地,最小风险贝叶斯决策规则可以写成似然比形式:即 <

2.2.3 在限定一类错误率条件下使另一类错误率为最小的两类别决策 2.2 几种常用的决策规则 2.2.3 在限定一类错误率条件下使另一类错误率为最小的两类别决策 但在高维时,求解边界面是不容易的,这时可利用似然比密度函数来确定 。似然比为l(x)=p(x|ω1)/ p(x|ω2),似然比密度函数为p(l|ω2),求解 的显式解不容易求出。

㈠多类情况 2.2.6 分类器、判别函数及判定面 ㈠多类情况 2.2 几种常用的决策规则 ⒈判别函数  有很多方式表述分类器,其中用的最多的是一组判别函数gi(x),i=1,2,…,c。用于表示多类决策规则: 如果使gi(x)>gj(x)对一切j≠i成立,则将x归于ωi类。

㈠多类情况 贝叶斯分类器可以简单自然地表示成这种形式:在最小错误率的情况下,gi(x)可定义为: 2.2.6 分类器、判别函数及判定面 ⑴ gi(x)= P(ωi|x) ⑵gi(x)= p(x|ωi)P(ωi) ⑶ gi(x)= lnp(x|ωi)+lnP(ωi)

2.2.6 分类器、判别函数及判定面 ㈠多类情况 ⒉决策面方程 各决策域Ri被决策面所分割,这些决策面是特征空间中的超曲面,相邻的两个决策域在决策面上其判别函数值是相等的,如图2-5所示。如果Ri和Rj是相邻的,则分割它们的决策面方程应满足 gi(x)= gj(x)

㈠多类情况 ⒉决策面方程 2.2.6 分类器、判别函数及判定面 R1 R3 R2 p(x|ω2)P(ω2) p(x|ω1)P(ω1) 图2.5 (a)一维情况决策面为分界点 p(x|ω1)P(ω1) p(x|ω2)P(ω2) p(x|ω3)P(ω3) x R1 R3 R2 决策边界

㈠多类情况 ⒉决策面方程 2.2.6 分类器、判别函数及判定面 图2-6在这个二维的两类问题的分类器中,概率密度为高斯分布,判决边界由两个 双曲线构成,因此判决区域R2并非是简单 的连通的。椭圆轮廓线标记出1/e乘以概 率密度的峰值

㈠多类情况 ⒊分类器设计 分类器可看成是由硬件或软件组成的一个“机器”。 2.2.6 分类器、判别函数及判定面 ㈠多类情况 ⒊分类器设计 分类器可看成是由硬件或软件组成的一个“机器”。 它的功能是先计算出c个判别函数gi,再从中选出对应于判别函数为最大值的类作为决策结果,下图用框图形式表示了这种分类器。 很多由软件组成的分类器已经模块化。

2.2.6 分类器、判别函数及判定面 ㈠多类情况 ⒊分类器设计 分类器的网络结构

㈡两类问题 ㈡两类问题 ⒈判别函数 2.2.6 分类器、判别函数及判定面 在两类情况下。仅定义一个判别函数 g(x)=g1(x)-g2(x) 并将决策规则表示为 如果 g(x)>0,则决策ω1;g(x)<0,则决策ω2。显然,可定义出如下的判别函数: ⑴ g(x)=P(ω1|x)-P(ω2|x) ⑵ g(x)=p(x|ω1 )P(ω1)-p(x|ω2)P(ω2) ⑶

p(x|ω1)P(ω1)-p(x|ω2 )P(ω2)=0 2.2.6 分类器、判别函数及判定面 ㈡两类问题 ⒉决策面方程 决策面方程 g(x)=0 相应于前面 (2)的决策面方程为 p(x|ω1)P(ω1)-p(x|ω2 )P(ω2)=0 其它可类似得出。

㈡两类问题 ⒊分类器设计 两类分类器可看作只是计算判别函数g(x)的一个"机器"。它根据计算结果的符号将x分类,其结构框图如2.7所示。 2.2.6 分类器、判别函数及判定面 ㈡两类问题 ⒊分类器设计 两类分类器可看作只是计算判别函数g(x)的一个"机器"。它根据计算结果的符号将x分类,其结构框图如2.7所示。 判别计算 阈值单元 g x1 x2 xd + 1 ω1 -1 ω2 决策 图 2.7 +1 -1

例2.3 对例2.1,2.2分别写出其判别函数和决策面方程。 2.2.6 分类器、判别函数及判定面 例2.3 对例2.1,2.2分别写出其判别函数和决策面方程。 解: ⑴对例2.1利用前面式中的(2) g(x)=p(x|ω1 )P(ω1)-p(x|ω2)P(ω2) 其对应的判别函数为 g(x)=0.9p(x|ω1 )-0.1p(x|ω2 ) 决策面方程为g(x)=0即 9p(x|ω1)-p(x|ω2)=0

⑵对例2.2,判别函数可定义为 而 故其判别函数为 g(x)=0.9p(x|ω1)-0.6p(x|ω2 ) 决策面方程为g(x)=0即 2.2.6 分类器、判别函数及判定面 ⑵对例2.2,判别函数可定义为 而 故其判别函数为 g(x)=0.9p(x|ω1)-0.6p(x|ω2 ) 决策面方程为g(x)=0即 9p(x|ω1)-6p(x|ω2 )=0

练习题

答案

练习 P 134 书中的例子,变换参数取值后,重新计算最小风险决策