模式识别 Pattern Recognition

Slides:

Advertisements

Similar presentations

Chapter 2 Combinatorial Analysis 主講人 : 虞台文. Content Basic Procedure for Probability Calculation Counting – Ordered Samples with Replacement – Ordered.

Advertisements

桂林市 2011 年高三第二次调研考试质量分析暨备考教学建议桂林市教育科学研究所李陆桂. 二调平均分与一调、 2010 广西高考英语平均分的比较科目类别英语文科文科 2010 年广西一调二调与 10 年广西相差

期末考试作文讲解 % 的同学赞成住校 30% 的学生反对住校 1. 有利于培养我们良好的学习和生活习惯； 1. 学生住校不利于了解外界信息； 2 可与老师及同学充分交流有利于共同进步。 2. 和家人交流少。在寄宿制高中，大部分学生住校，但仍有一部分学生选择走读。你校就就此开展了一次问卷调查，主题为.

重建精细管理意识不能粗线条管理不简单敷衍人民不轻易指责媒体不与媒体对立冲突粗心粗糙粗略粗鲁粗暴不消极等待自生自灭

微積分精華版 Essential Calculus

宏观经济学 N.Gregory Mankiw 上海杉达学院.

教材：模式识别（第三版）张学工编著清华大学出版社

第四章概率密度函数的非参数估计 2学时.

雅思大作文的结构 Presented by: 总统秘书王富贵.

-Artificial Neural Network- Hopfield Neural Network(HNN) 朝陽科技大學資訊管理系李麗華教授.

Chapter 8 Liner Regression and Correlation 第八章直线回归和相关

糖尿病肾病的护理陈佳莉.

沐阳老年社区.

云实践引导产业升级沈寓实博士教授 MBA 中国云体系产业创新战略联盟秘书长微软云计算中国区总监 WinHEC 2015

版權所有翻印必究指導教授：林克默博士報告學生：許博淳報告日期： 2011/10/24. 版權所有翻印必究 Results and discussion The crystalline peak at 33° corresponds to the diffraction of the (200)

XI. Hilbert Huang Transform (HHT)

Operating System CPU Scheduing - 2 Monday, August 11, 2008.

A TIME-FREQUENCY ADAPTIVE SIGNAL MODEL-BASED APPROACH FOR PARAMETRIC ECG COMPRESSION 14th European Signal Processing Conference (EUSIPCO 2006), Florence,

深層學習暑期訓練 (2017).

3-3 Modeling with Systems of DEs

Euler’s method of construction of the Exponential function

Introduction To Mean Shift

IV. Implementation IV-A Method 1: Direct Implementation 以 STFT 為例

Some Effective Techniques for Naive Bayes Text Classification

期末考的範圍遠遠多於期中考，要了解的定理和觀念也非常多

Population proportion and sample proportion

美國大聯盟球場之旅選擇優於市場的投資組合

第六章参数估计 §6.1 点估计的几种方法 §6.2 点估计的评价标准 §6.3 最大似然估计 §6.4 最小方差无偏估计

关于数学教育华东师范大学数学系张奠宙永安 4 4.

Differential Equations (DE)

What are samples?. Chapter 6 Introduction to Inferential Statistics Sampling and Sampling Designs.

Chapter 4 歸納(Induction)與遞迴(Recursion)

微積分網路教學課程應用統計學系周章.

非線性規劃 Nonlinear Programming

On Some Fuzzy Optimization Problems

Continuous Probability Distributions

Properties of Continuous probability distributions

Sampling Theory and Some Important Sampling Distributions

Digital Terrain Modeling

光流法 (Optical Flow) 第八章基于运动视觉的稠密估计光流法 (Optical Flow)

主讲人：吕敏 { } Spring 2016，USTC 算法基础主讲人：吕敏 { } Spring 2016，USTC.

Chapter 7 Sampling and Sampling Distributions

Inventory System Changes and Limitations

Interval Estimation區間估計

子博弈完美Nash均衡我们知道，一个博弈可以有多于一个的Nash均衡。在某些情况下，我们可以按照“子博弈完美”的要求，把不符合这个要求的均衡去掉。扩展型博弈G的一部分g叫做一个子博弈，如果g包含某个节点和它所有的后继点，并且一个G的信息集或者和g不相交，或者整个含于g。一个Nash均衡称为子博弈完美的，如果它在每.

消費者偏好與效用概念.

最大熵模型简介 A Simple Introduction to the Maximum Entropy Models

模式识别 Pattern Recognition

谈模式识别方法在林业管理问题中的应用报告人：管理工程系马宁报告地点：学研B107

Version Control System Based DSNs

高性能计算与天文技术联合实验室智能与计算学部天津大学

相關統計觀念復習 Review II.

公钥密码学与RSA.

Inter-band calibration for atmosphere

The Bernoulli Distribution

Nucleon EM form factors in a quark-gluon core model

Efficient Query Relaxation for Complex Relationship Search on Graph Data 李舒馨

Review of Statistics.

名词从句(2).

Resolving Conflicts 解决冲突

定语从句（11）.

More About Auto-encoder

动词不定式（6）.

何正斌博士國立屏東科技大學工業管理研究所教授

Chapter 9 Validation Prof. Dehan Luo

Class imbalance in Classification

簡單迴歸分析與相關分析莊文忠副教授世新大學行政管理學系計量分析一(莊文忠副教授) 2019/8/3.

Principle and application of optical information technology

Gaussian Process Ruohua Shi Meeting

Presentation transcript:

模式识别 Pattern Recognition IPL 武汉大学电子信息学院模式识别 Pattern Recognition 第三章概率密度密度的估计

第三章概率密度的估计 IPL 内容目录 1 3.1 引言 3.2 参数估计 2 3.3 非参数估计 3 3.4 讨论 4

3.1 引言分类器功能结构基于样本的Bayes分类器：通过估计类条件概率密度函数，设计相应的判别函数基于样本的直接确定判别函数方法 MAX g1 . g2 gc x1 x2 xn a(x) 基于样本的Bayes分类器：通过估计类条件概率密度函数，设计相应的判别函数基于样本的直接确定判别函数方法第三章概率密度密度的估计

基于样本的Bayes分类器设计 Bayes决策需要已知两种知识：知识的来源：对问题的一般性认识或一些训练数据各类的先验概率P(ωi) 各类的条件概率密度函数p(x|ωi) 知识的来源：对问题的一般性认识或一些训练数据基于样本的两步Bayes分类器设计利用样本集估计P(ωi)和p(x|ωi) 基于上述估计值设计判别函数及分类器面临的问题：如何利用样本集进行估计估计量的评价第三章概率密度密度的估计

基于样本的Bayes分类器训练样本集最一般情况下适用的“最优”分类器：错误率最小，对分类器设计在理论上有指导意义。样本分布的统计特征：概率密度函数决策规则：判别函数决策面方程最一般情况下适用的“最优”分类器：错误率最小，对分类器设计在理论上有指导意义。获取统计分布及其参数很困难，实际问题中并不一定具备获取准确统计分布的条件。第三章概率密度密度的估计

直接确定判别函数基于样本的直接确定判别函数方法：引言针对各种不同的情况，使用不同的准则函数，设计出满足这些不同准则要求的分类器。这些准则的“最优”并不一定与错误率最小相一致：次优分类器。实例：正态分布最小错误率贝叶斯分类器在特殊情况下，是线性判别函数g(x)=wTx（决策面是超平面），能否基于样本直接确定w? 训练样本集决策规则：判别函数决策面方程选择最佳准则第三章概率密度密度的估计

概率密度估计的方法引言类的先验概率的估计：类条件概率密度估计的两种主要方法：用训练数据中各类出现的频率估计依靠经验参数估计：概率密度函数的形式已知，而表征函数的参数未知，通过训练数据来估计最大似然估计 Bayes估计非参数估计：密度函数的形式未知，也不作假设，利用训练数据直接对概率密度进行估计 Parzen窗法 kn-近邻法第三章概率密度密度的估计

3.2 参数估计统计量：样本集的某种函数f(K)， K={x1, x2 ,…, xN} 参数空间：总体分布的未知参数θ所有可能取值组成的集合(Θ) 点估计的估计量和估计值：第三章概率密度密度的估计

估计量的评价标准估计量的评价标准：无偏性，有效性，一致性无偏性：E( )=θ 有效性：D( )小，更有效一致性：样本数趋于无穷时，依概率趋于θ：第三章概率密度密度的估计

3.2.1 最大似然估计 Maximum Likelihood (ML) 样本集可按类别分开，不同类别的密度函数的参数分别用各类的样本集来训练。概率密度函数的形式已知，参数未知，为了描述概率密度函数p(x|ωi)与参数θ的依赖关系，用p(x|ωi,θ)表示。估计的参数θ是确定而未知的，Bayes估计方法则视θ为随机变量。独立地按概率密度p(x|θ)抽取样本集 K={x1, x2 ,…, xN}，用K估计未知参数θ 第三章概率密度密度的估计

似然函数最大似然估计似然函数：对数(loglarized)似然函数：第三章概率密度密度的估计

最大似然估计最大似然估计第三章概率密度密度的估计

最大似然估计示意图最大似然估计第三章概率密度密度的估计

计算方法最大似然估计最大似然估计量使似然函数梯度为0 ：第三章概率密度密度的估计

一元正态分布例解最大似然估计第三章概率密度密度的估计

一元正态分布均值的估计最大似然估计第三章概率密度密度的估计

一元正态分布方差的估计最大似然估计第三章概率密度密度的估计

多元正态分布参数最大似然估计最大似然估计均值估计是无偏的，协方差矩阵估计是有偏的。协方差矩阵的无偏估计是：第三章概率密度密度的估计

3.2.2 贝叶斯估计-最大后验概率用一组样本集D={x1, x2 ,…, xN}估计未知参数θ 未知参数θ视为随机变量，先验分布为 p(θ)，而在已知样本集D出现的条件下的后验概率为p(θ|D) 最大后验概率估计-Maximum a posteriori (MAP) 第三章概率密度密度的估计

决策问题与估计问题决策问题: 样本x 决策ai 真实状态wj 状态空间A是离散空间先验概率P(wj) 贝叶斯估计决策问题: 样本x 决策ai 真实状态wj 状态空间A是离散空间先验概率P(wj) 参数估计问题：样本集D 估计量^s 真实参数s 参数空间S是连续空间参数的先验分布p(s) 第三章概率密度密度的估计

贝叶斯(最小风险)估计参数估计的条件风险：给定x条件下，估计量的期望损失参数估计的风险：估计量的条件风险的期望贝叶斯估计参数估计的条件风险：给定x条件下，估计量的期望损失参数估计的风险：估计量的条件风险的期望贝叶斯估计：使风险最小的估计第三章概率密度密度的估计

贝叶斯估计(II) 贝叶斯估计损失函数定义为误差平方：定理 3.1: 如果定义损失函数为误差平方函数，则有：第三章概率密度密度的估计

贝叶斯估计的步骤确定θ的先验分布 p(θ) 由样本集D={x1, x2 ,…, xN}求出样本联合分布：p(D|θ) 计算θ的后验分布计算贝叶斯估计第三章概率密度密度的估计

一元正态分布例解样本集： K={x1, x2 ,…, xN} 用贝叶斯估计方法求μ的估计量总体分布密度为：均值μ未知，μ的先验分布为：第三章概率密度密度的估计

一元正态分布例解(II) 贝叶斯估计计算μ的后验分布：计算μ的贝叶斯估计：第三章概率密度密度的估计

贝叶斯学习贝叶斯学习：利用θ的先验分布 p(θ)及样本提供的信息求出θ的后验分布p(θ|K) ，然后直接求总体分布p(x|K) 第三章概率密度密度的估计

贝叶斯学习 Assume again that the unknown density p(x) has known parametric form (i.e., with parameters θ). The dependence of p(x) on θ is denoted as p(x/θ). p(x/D) would be the estimate of p(x/θ) given D 第三章概率密度密度的估计

贝叶斯学习 The above equation implies if we are less certain about the exact value of θ, we should consider a weighted average of p(x/θ) over the possible values of θ. Bayesian estimation approach estimates a distribution for p(x/D) rather than making point estimates like ML 第三章概率密度密度的估计

贝叶斯学习_步骤 Compute p(x/D) as follows: From p(θ ), compute p(θ/D) using Bayes’ formula: Compute p(x/D) as follows: 第三章概率密度密度的估计

与ML解的关系第三章概率密度密度的估计 Suppose p(θ/D) peaks very sharply at , and then p(x/D) can be approximated as follows: (i.e., the best estimate is obtained by setting ) This is in fact the ML solution (i.e., p(D/θ) peaks at 第三章概率密度密度的估计

一元正态分布例解计算μ的后验分布：总体分布密度为：均值μ未知，μ的先验分布为：样本集： D={x1, x2 ,…, xN} 独立抽取贝叶斯学习总体分布密度为：均值μ未知，μ的先验分布为：样本集： D={x1, x2 ,…, xN} 独立抽取计算μ的后验分布：第三章概率密度密度的估计

一元正态分布例解 D不依赖于参数第三章概率密度密度的估计

一元正态分布例解 (always lies between) 第三章概率密度密度的估计

一元正态分布例解第三章概率密度密度的估计

一元正态分布例解 Bayesian Learning 第三章概率密度密度的估计

递归的贝叶斯学习 As the number of samples increases, p(x/D) converges to p(x/θ) -- develop an incremental algorithm: Dn: (x1, x2, …., xn-1, xn) Rewrite p(D/θ) as follows (using ) Dn-1 第三章概率密度密度的估计

递归的贝叶斯学习 Then, p(θ/D) becomes: n=1,2,… 第三章概率密度密度的估计

递归的贝叶斯学习 Training Data: 4 7 2 8 p(θ/D4) peaks at p(θ/D0) 第三章概率密度密度的估计

递归的贝叶斯学习 ML estimate: Bayesian estimate: 第三章概率密度密度的估计

一元正态分布例解(II) 贝叶斯学习直接计算总体密度：第三章概率密度密度的估计

Bayes估计小结 Given a large number of samples, p(θ/Dn) will have a very strong peak at ; in this case: There are cases where p(θ/Dn) contains more than one peaks (i.e., more than one θ explains the data); in this case, the solution p(x/θ) should be obtained by integration. In general, p(x/Dn) converges to p(x/ θ) whether or not having one maximum. 第三章概率密度密度的估计

ML与Bayes估计的比较 Number of training data Computational complexity The two methods are equivalent assuming infinite number of training data. For small training data sets, they give different results in most cases. Computational complexity ML uses differential calculus or gradient search for maximizing the likelihood. Bayesian estimation requires complex multidimensional integration techniques. 第三章概率密度密度的估计

ML与Bayes估计的比较 Solution complexity Easier to interpret ML solutions (i.e., must be of the assumed parametric form). A Bayesian estimation solution might not be of the parametric form assumed. Prior distribution If the prior distribution p(θ) is uniform, Bayesian estimation solutions are equivalent to ML solutions. 第三章概率密度密度的估计

ML与Bayes估计的比较 Broad or asymmetric p(θ/D) General comments In this case, the two methods will give different solutions. Bayesian methods will explicitly exploit such information. General comments There are strong theoretical and methodological arguments supporting Bayesian estimation. In practice, ML estimation is simpler and can lead to comparable performance. 第三章概率密度密度的估计

3.2.3 混合高斯模型 Mixed gaussian distribution 密度函数具有如下形式：正态模型的线性组合需估计的参数：参数估计 Mixed gaussian distribution 密度函数具有如下形式：正态模型的线性组合需估计的参数：采用迭代法进行参数估计第三章概率密度密度的估计

3.3 非参数估计非参数估计：密度函数的形式未知，也不作假设，利用训练数据直接对概率密度进行估计。又称作模型无关方法。参数估计需要事先假定一种分布函数，利用样本数据估计其参数。又称作基于模型的方法两种主要非参数估计方法：核函数方法 Parzen窗法 kN-近邻法神经网络方法：PNN 第三章概率密度密度的估计

3.3.1 核函数方法估计的目的：从样本集K= {x1, x2,…, xN}估计样本空间中任何一点的概率密度p(x) 非参数估计估计的目的：从样本集K= {x1, x2,…, xN}估计样本空间中任何一点的概率密度p(x) 基本方法：用某种核函数表示某一样本对待估计的密度函数的贡献，所有样本所作贡献的线性组合视作对某点概率密度p(x)的估计第三章概率密度密度的估计

核函数方法图解非参数估计第三章概率密度密度的估计

基本方法非参数估计基本思想：两种常用的方法： Parzen窗法: kN-近邻法: 第三章概率密度密度的估计

基本方法 P(X’)为P(X)在R内的变化值,P(X)就是要求的总体概率密度 R P(x) 第三章概率密度密度的估计

基本方法假设有N个样本X=(X1, X2,… XN)T都是按照P(X)从总体中独立抽取的。若N个样本中有k个落入在R内的概率符合二项分布数学期望： E(k)=k=NP 对概率P的估计：设P(x’)在R内连续变化,当R逐渐减小的时候,小到使P(x)在其上几乎没有变化时，则第三章概率密度密度的估计

基本方法 ∴ ∴ 条件密度的估计第三章概率密度密度的估计讨论:①当V固定的时候N增加, k也增加，当 (V足够小) ∴ 条件密度的估计 (V足够小) 讨论:①当V固定的时候N增加, k也增加，当只反映了P(x)的空间平均估计而反映不出空间的变化 ② N固定,体积变小当 k=0时当所以起伏比较大,噪声比较大,需要对V进行改进第三章概率密度密度的估计

基本方法对体积V进行改进：为了估计X点的密度,我们构造一串包括X的区域序列R1,R2,.. RN.对R1采用一个样本进行估计，对R2采用二个样本进行估计..。设VN是RN的体积，KN是N个样本落入VN的样本数则密度的第N次估计： KN是N个样本落入VN的样本数 ∴PN(x)是P(x)的第N次估计第三章概率密度密度的估计

基本方法若PN(x)收敛于P(x)应满足三个条件： ① ，当N↑时，VN↓，N→∞，VN→0 这时虽然样本数多，但由于VN↓，落入VN内的样本KN 也减小，所以空间变化才反映出来 ② ，N ↑ ，kN ↑ ，N与KN同相变化 ③ ，KN的变化远小于N的变化。因此尽管在R内落入了很多的样本，但同总数N比较, 仍然是很小的一部分。第三章概率密度密度的估计

3.3.2 Parzen窗法超立方体内样本数：某点概率密度p(x)的估计样本集KN= {x1, x2,…, xN} 非参数估计样本集KN= {x1, x2,…, xN} 区域RN是一个d维超立方体，棱长hN，体积VN= hNd 定义窗函数：超立方体内样本数：某点概率密度p(x)的估计第三章概率密度密度的估计

核函数的选择非参数估计核函数需满足归一化条件：两种常用的核函数：均匀核：正态核：第三章概率密度密度的估计

窗宽的选择估计收敛的充要条件：为保证估计依概率渐进收敛到真实的概率密度，即： hN是控制“窗”宽度的参数，根据样本的数量选择。非参数估计 hN是控制“窗”宽度的参数，根据样本的数量选择。太大：平均化，分辨力低太小：统计变动大为保证估计依概率渐进收敛到真实的概率密度，即：估计收敛的充要条件：第三章概率密度密度的估计

不同窗宽的估计效果非参数估计第三章概率密度密度的估计

Parzen窗法示例非参数估计第三章概率密度密度的估计

有限样本的影响均方误差最小(MSE)准则 N d N4/(d+4) 16 1 0.1 32 2 178 5 3162 10 3E+13 非参数估计均方误差最小(MSE)准则 N d N4/(d+4) 16 1 0.1 32 2 178 5 3162 10 3E+13 50 维数灾难(Curse of Dimensionality): 当维数较高时，样本数量无法达到精确估计的要求。第三章概率密度密度的估计

3.3.3 kN-近邻法均匀核函数Parzen估计，窗宽固定，不同位置落在窗内的样本点的数目是变化的。非参数估计均匀核函数Parzen估计，窗宽固定，不同位置落在窗内的样本点的数目是变化的。 kN-近邻估计：把窗扩大到刚好覆盖kN个点。落在窗内的样本点的数目固定，窗宽是变化的。kN根据样本总数N选择。概率密度估计表达式：点x处窗的“体积”是Vn：第三章概率密度密度的估计

kN-近邻法举例 kN的选择：渐进收敛容易保证；有限样本性质、最小平方误差与Parzen窗几乎相同第三章概率密度密度的估计非参数估计 kN的选择：渐进收敛容易保证；有限样本性质、最小平方误差与Parzen窗几乎相同第三章概率密度密度的估计

3.4 讨论概率密度函数包含了随机变量的全部信息，是导致估计困难的重要原因。高维概率分布的估计无论在理论上还是实际操作中都是一个十分困难的问题。进行模式识别并不需要利用概率密度的所有信息，只需要求出分类面。先估计概率密度，再进行分类，可能走了“弯路”。第三章概率密度密度的估计

习题一元正态分布的最大似然估计：用C/Java语言设计一程序片断，计算上题中的估计参数(μ,σ2) 假设样本x服从正态分布N(μ,σ2) 已获得一组样本 x1 , x2 , … , xN 用C/Java语言设计一程序片断，计算上题中的估计参数(μ,σ2) 试简述参数估计，非参数估计等概念间的关系证明对正态总体的期望u的最大似然估计是无偏的，对方差s2的最大似然估计是有偏的。第三章概率密度密度的估计

1.在给定样本的情况下，分别基于Parzen窗的方法和ML的方法估计这批样本的概率密度函数。 2.分别基于这两种方法的得到的概率密度函数构造分类器，对两类数据进行分类。比较他们的分类结果。第三章概率密度密度的估计