Download presentation
Presentation is loading. Please wait.
1
教材:模式识别(第三版) 张学工编著 清华大学出版社
条件概率密度函数的最大似然估计 Maximum Likelihood Estimation of Class-conditional Probability Density Function 任课教师: 刘琼 自动化学院 教材:模式识别(第三版) 张学工编著 清华大学出版社
2
讲授提纲 问题提出 最大似然估计 基于最大似然估计的模式分类实例
3
讲授提纲 问题提出 贝叶斯决策论 贝叶斯公式 最大似然估计 基于最大似然估计的模式分类实例
4
问题提出(1/4) 80条鲑鱼,20条多宝鱼
5
? 问题提出(2/4) 贝叶斯决策论 第一种情况:不知晓这条鱼的任何信息,判决依据P(ωi)的大小;结论: 鲑鱼
第二种情况: 给你这条鱼的宽度值 x,判决依据P (ωi| x); 鲑鱼 贝叶斯决策论
6
问题提出(3/4) 贝叶斯公式 用非正式的英语表述 先验概率 类条件概率密度 后验概率 总体密度 根据领域知识或大量样本中计算
各类样本所占的比例得到 类条件概率密度 后验概率 总体密度 所有样本关于特征x的概率密度
7
问题提出(4/4) 函数形式 估计目标 估计方法 已知 函数中的未知参数 参数估计 未知 非参数估计 (kn近邻估计、Parzen窗法 )
( 最大似然估计、贝叶斯估计 ) 未知 非参数估计 (kn近邻估计、Parzen窗法 )
8
讲授提纲 问题提出 最大似然估计 假设条件 主要思想 求解方法及解的分析 正态分布参数的最大似然估计 基于最大似然估计的模式分类实例
9
最大似然估计的假设条件 假设条件: 函数形式已知 参数确定但未知 样本独立同分布 类类互不干扰
①类条件概率密度 p(x |ωi ) 的函数形式是已知的,但是其中的某些参数是未知的 ②待估计参数θ 是确定性的未知量 ③按类别将样本划分 c 类,第 i 样本都是从类条件概率密度 p(x |ωi ) 的总体中独立地抽取出来的 ④第 i 类的样本不包含有关 θj (i≠j)的信息。不同类别的函数在参数上相互独立,每一类样本可以独立进行处理 函数形式已知 参数确定但未知 样本独立同分布 类类互不干扰
10
它们是独立地按照概率密度 p(x | ωi ,θ ) 抽取出来的(独立同分布样本)
设ωi类样本集有 N 个样本 它们是独立地按照概率密度 p(x | ωi ,θ ) 抽取出来的(独立同分布样本) 似然函数可以表示为: 含义:从总体中抽取 x1,…xN 这样 N 个样本的联合概率(可能性)
11
最大似然估计的主要思想 最大似然估计的主要思想:如果在一次观察中一个事件出现了,则我们可以认为这一事件出现的可能性很大。现在,样本集(x1,…xN )在一次观察(从概率总体中抽取一组样本)中居然出现了,则我们认为似然函数 l(θ) 应该达到最大值 为了便于分析,可以取似然函数的对数,即 对数函数是单调增函数,H(θ) 与 l(θ) 的最大值点相同
12
求最大似然估计量的方法 如果H(θ) 满足连续可微的数学性质,可以直接应用高等数学的知识来求最大值点,即求梯度(偏导数),并令其等于零,解线性或者非线性方程组得到估计量 假设: 有s个参数 梯度算子
13
求解过程: 从中求解出 θ 的最大似然估计量
14
最大似然估计结果的分析 可能存在多个解 解决方法:使得似然函数最大的解才是最大似然估计量
15
有可能求不出正确的解(比如均匀分布)
16
例:正态分布函数的最大似然估计 单变量正态分布的概率密度函数 要求的未知参数(均值与方差)
已知 ,利用最大似然估计法,针对上述样本集,求出均值与方差的估计值
17
对数似然函数 求偏导数
18
解释: 正态分布总体均值的最大似然估计量是样本属性值的算术平均(无偏) 正态分布总体方差的最大似然估计量是样本方差的算术平均(渐进无偏)
推广到多元正态分布 (无偏)
19
讲授提纲 问题提出 最大似然估计 基于最大似然估计的模式分类实例
20
? 基于最大似然估计的模式分类实例 已知条件: 问题:对箱中的鱼进行贝叶斯分类决策 80条鲑鱼,20条多宝鱼
对于宽度特征,两类鱼均服从正态分布 箱中这条鱼的宽度为10cm 问题:对箱中的鱼进行贝叶斯分类决策
21
Step1:数据准备 数据获取:对80条鲑鱼和20条多宝鱼分别测得他们的宽度值 数据预处理:剔除野值数据(如发育不正常的个例)
特征形成:每一条鱼有两个数据: 类别标识 宽度(特征) …… …….
22
Step2 :类条件概率密度函数估计 两类样本分别满足各自的正态分布,利用最大似然估计方法分别求出鲑鱼和多宝鱼关于宽度特征的均值和方差的最大似然估计量为 鲑鱼关于宽度特征的均值和方差的最大似然估计结果: 多宝鱼关于宽度特征的均值和方差的最大似然估计结果:
23
Step3:后验概率计算 关于宽度特征的类条件概率密度曲线 关于宽度特征的后验概率曲线
24
Step4:分类决策 当黑箱中鱼的宽度为10cm时 决策结果:该鱼为多宝鱼
25
小结 概率密度函数估计的目的与基本概念 最大似然函数参数估计方法,并应用于正态分布中的参数估计(均值与方差)
目的:用于最小错误率贝叶斯决策分类 概念: 某类关于特征x的概率分布,依据分布函数形式是否已知,可将估计方法分为两类 最大似然函数参数估计方法,并应用于正态分布中的参数估计(均值与方差) 方法:通过将似然函数对未知参数求偏导数,并令其为0,解方程组得到未知参数的估计量 正态分布:均值——无偏估计;方差——渐近无偏估计 基于最大似然估计对模式进行分类决策
26
END
Similar presentations