模式识别 Pattern Recognition

Slides:



Advertisements
Similar presentations
Chapter 2 Combinatorial Analysis 主講人 : 虞台文. Content Basic Procedure for Probability Calculation Counting – Ordered Samples with Replacement – Ordered.
Advertisements

桂林市 2011 年高三第二次调研考 试质量分析暨备考教学建议 桂林市教育科学研究所 李陆桂. 二调平均分与一调、 2010 广西高考英语平均分的比较 科目 类别 英语 文科文科 2010 年广西 一调 二调 与 10 年广西相差
期末考试作文讲解 % 的同学赞成住校 30% 的学生反对住校 1. 有利于培养我们良好的学 习和生活习惯; 1. 学生住校不利于了解外 界信息; 2 可与老师及同学充分交流有 利于共同进步。 2. 和家人交流少。 在寄宿制高中,大部分学生住校,但仍有一部分学生选 择走读。你校就就此开展了一次问卷调查,主题为.
重建精细管理意识 不能粗线条管理 不简单敷衍人民 不轻易指责媒体 不与媒体对立冲突 粗心 粗糙 粗略 粗鲁 粗暴 不消极等待自生自灭
微積分 精華版 Essential Calculus
宏 观 经 济 学 N.Gregory Mankiw 上海杉达学院.
教材:模式识别(第三版) 张学工编著 清华大学出版社
第四章 概率密度函数的非参数估计 2学时.
雅思大作文的结构 Presented by: 总统秘书王富贵.
-Artificial Neural Network- Hopfield Neural Network(HNN) 朝陽科技大學 資訊管理系 李麗華 教授.
Chapter 8 Liner Regression and Correlation 第八章 直线回归和相关
糖尿病肾病的护理 陈佳莉.
沐阳老年社区.
云实践引导产业升级 沈寓实 博士 教授 MBA 中国云体系产业创新战略联盟秘书长 微软云计算中国区总监 WinHEC 2015
版權所有 翻印必究 指導教授:林克默 博士 報告學生:許博淳 報告日期: 2011/10/24. 版權所有 翻印必究 Results and discussion The crystalline peak at 33° corresponds to the diffraction of the (200)
XI. Hilbert Huang Transform (HHT)
Operating System CPU Scheduing - 2 Monday, August 11, 2008.
A TIME-FREQUENCY ADAPTIVE SIGNAL MODEL-BASED APPROACH FOR PARAMETRIC ECG COMPRESSION 14th European Signal Processing Conference (EUSIPCO 2006), Florence,
深層學習 暑期訓練 (2017).
3-3 Modeling with Systems of DEs
Euler’s method of construction of the Exponential function
Introduction To Mean Shift
IV. Implementation IV-A Method 1: Direct Implementation 以 STFT 為例
Some Effective Techniques for Naive Bayes Text Classification
期末考的範圍遠遠多於期中考,要了解的定理和觀念也非常多
Population proportion and sample proportion
美國大聯盟球場之旅 選擇優於市場的投資組合
第六章 参数估计 §6.1 点估计的几种方法 §6.2 点估计的评价标准 §6.3 最大似然估计 §6.4 最小方差无偏估计
关于数学教育 华东师范大学数学系 张奠宙 永安 4 4.
Differential Equations (DE)
What are samples?. Chapter 6 Introduction to Inferential Statistics Sampling and Sampling Designs.
Chapter 4 歸納(Induction)與遞迴(Recursion)
微積分網路教學課程 應用統計學系 周 章.
非線性規劃 Nonlinear Programming
On Some Fuzzy Optimization Problems
Continuous Probability Distributions
Properties of Continuous probability distributions
Sampling Theory and Some Important Sampling Distributions
Digital Terrain Modeling
光流法 (Optical Flow) 第八章 基于运动视觉的稠密估计 光流法 (Optical Flow)
主讲人: 吕敏 { } Spring 2016,USTC 算法基础 主讲人: 吕敏 { } Spring 2016,USTC.
Chapter 7 Sampling and Sampling Distributions
Inventory System Changes and Limitations
Interval Estimation區間估計
子博弈完美Nash均衡 我们知道,一个博弈可以有多于一个的Nash均衡。在某些情况下,我们可以按照“子博弈完美”的要求,把不符合这个要求的均衡去掉。 扩展型博弈G的一部分g叫做一个子博弈,如果g包含某个节点和它所有的后继点,并且一个G的信息集或者和g不相交,或者整个含于g。 一个Nash均衡称为子博弈完美的,如果它在每.
消費者偏好與效用概念.
最大熵模型简介 A Simple Introduction to the Maximum Entropy Models
模式识别 Pattern Recognition
谈模式识别方法在林业管理问题中的应用 报告人:管理工程系 马宁 报告地点:学研B107
Version Control System Based DSNs
高性能计算与天文技术联合实验室 智能与计算学部 天津大学
相關統計觀念復習 Review II.
公钥密码学与RSA.
Inter-band calibration for atmosphere
The Bernoulli Distribution
Q & A.
Nucleon EM form factors in a quark-gluon core model
Efficient Query Relaxation for Complex Relationship Search on Graph Data 李舒馨
Review of Statistics.
名词从句(2).
Resolving Conflicts 解决冲突
定语从句(11).
More About Auto-encoder
动词不定式(6).
何正斌 博士 國立屏東科技大學工業管理研究所 教授
Chapter 9 Validation Prof. Dehan Luo
Class imbalance in Classification
簡單迴歸分析與相關分析 莊文忠 副教授 世新大學行政管理學系 計量分析一(莊文忠副教授) 2019/8/3.
Principle and application of optical information technology
Gaussian Process Ruohua Shi Meeting
Presentation transcript:

模式识别 Pattern Recognition IPL 武汉大学电子信息学院 模式识别 Pattern Recognition 第三章 概率密度密度的估计

第三章 概率密度的估计 IPL 内容目录 1 3.1 引言 3.2 参数估计 2 3.3 非参数估计 3 3.4 讨论 4

3.1 引言 分类器 功能结构 基于样本的Bayes分类器:通过估计类条件概率密度函数,设计相应的判别函数 基于样本的直接确定判别函数方法 MAX g1 . g2 gc x1 x2 xn a(x) 基于样本的Bayes分类器:通过估计类条件概率密度函数,设计相应的判别函数 基于样本的直接确定判别函数方法 第三章概率密度密度的估计

基于样本的Bayes分类器设计 Bayes决策需要已知两种知识: 知识的来源:对问题的一般性认识或一些训练数据 各类的先验概率P(ωi) 各类的条件概率密度函数p(x|ωi) 知识的来源:对问题的一般性认识或一些训练数据 基于样本的两步Bayes分类器设计 利用样本集估计P(ωi)和p(x|ωi) 基于上述估计值设计判别函数及分类器 面临的问题: 如何利用样本集进行估计 估计量的评价 第三章概率密度密度的估计

基于样本的Bayes分类器 训练 样本集 最一般情况下适用的“最优”分类器:错误率最小,对分类器设计在理论上有指导意义。 样本分布的 统计特征: 概率 密度函数 决策规则: 判别函数 决策面方程 最一般情况下适用的“最优”分类器:错误率最小,对分类器设计在理论上有指导意义。 获取统计分布及其参数很困难,实际问题中并不一定具备获取准确统计分布的条件。 第三章概率密度密度的估计

直接确定判别函数 基于样本的直接确定判别函数方法: 引言 针对各种不同的情况,使用不同的准则函数,设计出满足这些不同准则要求的分类器。 这些准则的“最优”并不一定与错误率最小相一致:次优分类器。 实例:正态分布最小错误率贝叶斯分类器在特殊情况下,是线性判别函数g(x)=wTx(决策面是超平面),能否基于样本直接确定w? 训练样本集 决策规则: 判别函数 决策面方程 选择最佳准则 第三章概率密度密度的估计

概率密度估计的方法 引言 类的先验概率的估计: 类条件概率密度估计的两种主要方法: 用训练数据中各类出现的频率估计 依靠经验 参数估计:概率密度函数的形式已知,而表征函数的参数未知,通过训练数据来估计 最大似然估计 Bayes估计 非参数估计:密度函数的形式未知,也不作假设,利用训练数据直接对概率密度进行估计 Parzen窗法 kn-近邻法 第三章概率密度密度的估计

3.2 参数估计 统计量:样本集的某种函数f(K), K={x1, x2 ,…, xN} 参数空间:总体分布的未知参数θ所有可能取值组成的集合(Θ) 点估计的估计量和估计值: 第三章概率密度密度的估计

估计量的评价标准 估计量的评价标准:无偏性,有效性,一致性 无偏性:E( )=θ 有效性:D( )小,更有效 一致性:样本数趋于无穷时, 依概率趋于θ: 第三章概率密度密度的估计

3.2.1 最大似然估计 Maximum Likelihood (ML) 样本集可按类别分开,不同类别的密度函数的参数分别用各类的样本集来训练。 概率密度函数的形式已知,参数未知,为了描述概率密度函数p(x|ωi)与参数θ的依赖关系,用p(x|ωi,θ)表示。 估计的参数θ是确定而未知的,Bayes估计方法则视θ为随机变量。 独立地按概率密度p(x|θ)抽取样本集 K={x1, x2 ,…, xN},用K估计未知参数θ 第三章概率密度密度的估计

似然函数 最大似然估计 似然函数: 对数(loglarized)似然函数: 第三章概率密度密度的估计

最大似然估计 最大似然估计 第三章概率密度密度的估计

最大似然估计示意图 最大似然估计 第三章概率密度密度的估计

计算方法 最大似然估计 最大似然估计量使似然函数梯度为0 : 第三章概率密度密度的估计

一元正态分布例解 最大似然估计 第三章概率密度密度的估计

一元正态分布均值的估计 最大似然估计 第三章概率密度密度的估计

一元正态分布方差的估计 最大似然估计 第三章概率密度密度的估计

多元正态分布参数最大似然估计 最大似然估计 均值估计是无偏的,协方差矩阵估计是有偏的。 协方差矩阵的无偏估计是: 第三章概率密度密度的估计

3.2.2 贝叶斯估计-最大后验概率 用一组样本集D={x1, x2 ,…, xN}估计未知参数θ 未知参数θ视为随机变量,先验分布为 p(θ),而在已知样本集D出现的条件下的后验概率为p(θ|D) 最大后验概率估计-Maximum a posteriori (MAP) 第三章概率密度密度的估计

决策问题与估计问题 决策问题: 样本x 决策ai 真实状态wj 状态空间A是离散空间 先验概率P(wj) 贝叶斯估计 决策问题: 样本x 决策ai 真实状态wj 状态空间A是离散空间 先验概率P(wj) 参数估计问题: 样本集D 估计量^s 真实参数s 参数空间S是连续空间 参数的先验分布p(s) 第三章概率密度密度的估计

贝叶斯(最小风险)估计 参数估计的条件风险:给定x条件下,估计量的期望损失 参数估计的风险:估计量的条件风险的期望 贝叶斯估计 参数估计的条件风险:给定x条件下,估计量的期望损失 参数估计的风险:估计量的条件风险的期望 贝叶斯估计:使风险最小的估计 第三章概率密度密度的估计

贝叶斯估计(II) 贝叶斯估计 损失函数定义为误差平方: 定理 3.1: 如果定义损失函数为误差平方函数,则有: 第三章概率密度密度的估计

贝叶斯估计的步骤 确定θ的先验分布 p(θ) 由样本集D={x1, x2 ,…, xN}求出样本联合分布:p(D|θ) 计算θ的后验分布 计算贝叶斯估计 第三章概率密度密度的估计

一元正态分布例解 样本集: K={x1, x2 ,…, xN} 用贝叶斯估计方法求μ的估计量 总体分布密度为: 均值μ未知,μ的先验分布为: 第三章概率密度密度的估计

一元正态分布例解(II) 贝叶斯估计 计算μ的后验分布: 计算μ的贝 叶斯估计: 第三章概率密度密度的估计

贝叶斯学习 贝叶斯学习:利用θ的先验分布 p(θ)及样本提供的信息求出θ的后验分布p(θ|K) ,然后直接求总体分布p(x|K) 第三章概率密度密度的估计

贝叶斯学习 Assume again that the unknown density p(x) has known parametric form (i.e., with parameters θ). The dependence of p(x) on θ is denoted as p(x/θ). p(x/D) would be the estimate of p(x/θ) given D 第三章概率密度密度的估计

贝叶斯学习 The above equation implies if we are less certain about the exact value of θ, we should consider a weighted average of p(x/θ) over the possible values of θ. Bayesian estimation approach estimates a distribution for p(x/D) rather than making point estimates like ML 第三章概率密度密度的估计

贝叶斯学习_步骤 Compute p(x/D) as follows: From p(θ ), compute p(θ/D) using Bayes’ formula: Compute p(x/D) as follows: 第三章概率密度密度的估计

与ML解的关系 第三章概率密度密度的估计 Suppose p(θ/D) peaks very sharply at , and then p(x/D) can be approximated as follows: (i.e., the best estimate is obtained by setting ) This is in fact the ML solution (i.e., p(D/θ) peaks at 第三章概率密度密度的估计

一元正态分布例解 计算μ的后验分布: 总体分布密度为: 均值μ未知,μ的先验分布为: 样本集: D={x1, x2 ,…, xN} 独立抽取 贝叶斯学习 总体分布密度为: 均值μ未知,μ的先验分布为: 样本集: D={x1, x2 ,…, xN} 独立抽取 计算μ的后验分布: 第三章概率密度密度的估计

一元正态分布例解 D不依赖于参数 第三章概率密度密度的估计

一元正态分布例解 (always lies between) 第三章概率密度密度的估计

一元正态分布例解 第三章概率密度密度的估计

一元正态分布例解 Bayesian Learning 第三章概率密度密度的估计

递归的贝叶斯学习 As the number of samples increases, p(x/D) converges to p(x/θ) -- develop an incremental algorithm: Dn: (x1, x2, …., xn-1, xn) Rewrite p(D/θ) as follows (using ) Dn-1 第三章概率密度密度的估计

递归的贝叶斯学习 Then, p(θ/D) becomes: n=1,2,… 第三章概率密度密度的估计

递归的贝叶斯学习 Training Data: 4 7 2 8 p(θ/D4) peaks at p(θ/D0) 第三章概率密度密度的估计

递归的贝叶斯学习 ML estimate: Bayesian estimate: 第三章概率密度密度的估计

一元正态分布例解(II) 贝叶斯学习 直接计算总体密度: 第三章概率密度密度的估计

Bayes估计小结 Given a large number of samples, p(θ/Dn) will have a very strong peak at ; in this case: There are cases where p(θ/Dn) contains more than one peaks (i.e., more than one θ explains the data); in this case, the solution p(x/θ) should be obtained by integration. In general, p(x/Dn) converges to p(x/ θ) whether or not having one maximum. 第三章概率密度密度的估计

ML与Bayes估计的比较 Number of training data Computational complexity The two methods are equivalent assuming infinite number of training data. For small training data sets, they give different results in most cases. Computational complexity ML uses differential calculus or gradient search for maximizing the likelihood. Bayesian estimation requires complex multidimensional integration techniques. 第三章概率密度密度的估计

ML与Bayes估计的比较 Solution complexity Easier to interpret ML solutions (i.e., must be of the assumed parametric form). A Bayesian estimation solution might not be of the parametric form assumed. Prior distribution If the prior distribution p(θ) is uniform, Bayesian estimation solutions are equivalent to ML solutions. 第三章概率密度密度的估计

ML与Bayes估计的比较 Broad or asymmetric p(θ/D) General comments In this case, the two methods will give different solutions. Bayesian methods will explicitly exploit such information. General comments There are strong theoretical and methodological arguments supporting Bayesian estimation. In practice, ML estimation is simpler and can lead to comparable performance. 第三章概率密度密度的估计

3.2.3 混合高斯模型 Mixed gaussian distribution 密度函数具有如下形式:正态模型的线性组合 需估计的参数: 参数 估计 Mixed gaussian distribution 密度函数具有如下形式:正态模型的线性组合 需估计的参数: 采用迭代法进行参数估计 第三章概率密度密度的估计

3.3 非参数估计 非参数估计:密度函数的形式未知,也不作假设,利用训练数据直接对概率密度进行估计。又称作模型无关方法。 参数估计需要事先假定一种分布函数,利用样本数据估计其参数。又称作基于模型的方法 两种主要非参数估计方法: 核函数方法 Parzen窗法 kN-近邻法 神经网络方法:PNN 第三章概率密度密度的估计

3.3.1 核函数方法 估计的目的:从样本集K= {x1, x2,…, xN}估计样本空间中任何一点的概率密度p(x) 非参数 估计 估计的目的:从样本集K= {x1, x2,…, xN}估计样本空间中任何一点的概率密度p(x) 基本方法:用某种核函数表示某一样本对待估计的密度函数的贡献,所有样本所作贡献的线性组合视作对某点概率密度p(x)的估计 第三章概率密度密度的估计

核函数方法图解 非参数 估计 第三章概率密度密度的估计

基本方法 非参数 估计 基本思想: 两种常用的方法: Parzen窗法: kN-近邻法: 第三章概率密度密度的估计

基本方法 P(X’)为P(X)在R内的变化值,P(X)就是要求的总体概率密度 R P(x) 第三章概率密度密度的估计

基本方法 假设有N个样本X=(X1, X2,… XN)T都是按照P(X)从总体中独立抽取的。若N个样本中有k个落入在R内的概率符合二项分布 数学期望: E(k)=k=NP 对 概率P的估计: 设P(x’)在R内连续变化,当R逐渐减小的时候,小到使P(x)在其上几乎没有变化时,则 第三章概率密度密度的估计

基本方法 ∴ ∴ 条件密度的估计 第三章概率密度密度的估计 讨论:①当V固定的时候N增加, k也增加,当 (V足够小) ∴ 条件密度的估计 (V足够小) 讨论:①当V固定的时候N增加, k也增加,当 只反映了P(x)的空间平均估计而反映不出空间的变化 ② N固定,体积变小 当 k=0时 当 所以起伏比较大,噪声比较大,需要对V进行改进 第三章概率密度密度的估计

基本方法 对体积V进行改进: 为了估计X点的密度,我们构造一串包括X的区域序列R1,R2,.. RN.对R1采用一个样本进行估计,对R2采用二个样本进行估计..。设VN是RN的体积,KN是N个样本落入VN的样本数则 密度的第N次估计: KN是N个样本落入VN的样本数 ∴PN(x)是P(x)的第N次估计 第三章概率密度密度的估计

基本方法 若PN(x)收敛于P(x)应满足三个条件: ① ,当N↑时,VN↓,N→∞,VN→0 这时虽然样本数多,但由于VN↓,落入VN内的样本KN 也减小,所以空间变化才反映出来  ② ,N ↑ ,kN ↑ ,N与KN同相变化   ③ ,KN的变化远小于N的变化。 因此尽管在R内落入了很多的样本,但同总数N比较, 仍然是很小的一部分。 第三章概率密度密度的估计

3.3.2 Parzen窗法 超立方体内样本数: 某点概率密度p(x)的估计 样本集KN= {x1, x2,…, xN} 非参数 估计 样本集KN= {x1, x2,…, xN} 区域RN是一个d维超立方体,棱长hN,体积VN= hNd 定义窗函数: 超立方体内样本数: 某点概率密度p(x)的估计 第三章概率密度密度的估计

核函数的选择 非参数 估计 核函数需满足归一化条件: 两种常用的核函数: 均匀核: 正态核: 第三章概率密度密度的估计

窗宽的选择 估计收敛的充要条件: 为保证估计依概率渐进收敛到真实的概率密度,即: hN是控制“窗”宽度的参数,根据样本的数量选择。 非参数 估计 hN是控制“窗”宽度的参数,根据样本的数量选择。 太大:平均化,分辨力低 太小:统计变动大 为保证估计依概率渐进收敛到真实的概率密度,即: 估计收敛的充要条件: 第三章概率密度密度的估计

不同窗宽的估计效果 非参数 估计 第三章概率密度密度的估计

Parzen窗法示例 非参数 估计 第三章概率密度密度的估计

有限样本的影响 均方误差最小(MSE)准则 N d N4/(d+4) 16 1 0.1 32 2 178 5 3162 10 3E+13 非参数 估计 均方误差最小(MSE)准则 N d N4/(d+4) 16 1 0.1 32 2 178 5 3162 10 3E+13 50 维数灾难(Curse of Dimensionality): 当维数较高时,样本数量无法达到精确估计的要求。 第三章概率密度密度的估计

3.3.3 kN-近邻法 均匀核函数Parzen估计,窗宽固定,不同位置落在窗内的样本点的数目是变化的。 非参数 估计 均匀核函数Parzen估计,窗宽固定,不同位置落在窗内的样本点的数目是变化的。 kN-近邻估计:把窗扩大到刚好覆盖kN个点。落在窗内的样本点的数目固定,窗宽是变化的。kN根据样本总数N选择。 概率密度估计表达式:点x处窗的“体积”是Vn: 第三章概率密度密度的估计

kN-近邻法举例 kN的选择: 渐进收敛容易保证; 有限样本性质、最小平方误差与Parzen窗几乎相同 第三章概率密度密度的估计 非参数 估计 kN的选择: 渐进收敛容易保证; 有限样本性质、最小平方误差与Parzen窗几乎相同 第三章概率密度密度的估计

3.4 讨论 概率密度函数包含了随机变量的全部信息,是导致估计困难的重要原因。 高维概率分布的估计无论在理论上还是实际操作中都是一个十分困难的问题。 进行模式识别并不需要利用概率密度的所有信息,只需要求出分类面。 先估计概率密度,再进行分类,可能走了“弯路”。 第三章概率密度密度的估计

习题 一元正态分布的最大似然估计: 用C/Java语言设计一程序片断,计算上题中的估计参数(μ,σ2) 假设样本x服从正态分布N(μ,σ2) 已获得一组样本 x1 , x2 , … , xN 用C/Java语言设计一程序片断,计算上题中的估计参数(μ,σ2) 试简述参数估计,非参数估计等概念间的关系 证明对正态总体的期望u的最大似然估计是无偏的,对方差s2的最大似然估计是有偏的。 第三章概率密度密度的估计

1.在给定样本的情况下,分别基于Parzen窗的方法和ML的方法估计这批样本的概率密度函数。 2.分别基于这两种方法的得到的概率密度函数构造分类器,对两类数据进行分类。比较他们的分类结果。 第三章概率密度密度的估计