Presentation is loading. Please wait.

Presentation is loading. Please wait.

Chp9:参数推断 主要内容 参数推断的基本概念 参数推断的方法 矩方法

Similar presentations


Presentation on theme: "Chp9:参数推断 主要内容 参数推断的基本概念 参数推断的方法 矩方法"— Presentation transcript:

1 Chp9:参数推断 主要内容 参数推断的基本概念 参数推断的方法 矩方法
极大似然估计(Maximum Likelihood Estimator, MLE ) MLE的性质 卡-皮尔逊提出了使用矩来估计参数的方法。 Fisher则在1912年到1922年间提出了最大似然估计方法,基于直觉,提出了估计的一致性、有效性和充分性的概念。

2 参数推断 假设已知模型的函数形式 其中 为参数空间 目标: 估计参数

3 例子 一些流行的参数模型的例子: 线性判别分别(LDA) (分类) 混合高斯模型 (密度估计) 高斯噪声模型 (回归)

4 参数估计 假设有一类模型函数 ,如所有的高斯函数的集合,其参数参数空间为 。
假设有一类模型函数 ,如所有的高斯函数的集合,其参数参数空间为 通常我们只对一些函数 感兴趣,如均值或均值的函数。因此 为感兴趣参数(parameter of interest), 为冗余参量(nuisance parameter)。 有多种方法可用来估计模型的参数 矩估计法 极大似然估计:更流行 贝叶斯方法

5 矩方法 矩方法得到的估计虽然不是最优的,但是很容易计算 可用作很多迭代算法的初始值 基本思想:矩匹配 当其他方法不可用时,可用矩方法
对真正的矩和样本矩进行匹配

6 矩方法 j阶矩: j阶样本矩: 矩方法:取前k阶矩 真正的矩 样本矩

7 例:Bernoulli分布 令 , 一阶矩 一阶样本矩 所以我们得到估计

8 例:高斯分布 令 ,参数为 , 一阶矩 一阶样本矩 二阶矩 二阶样本矩 所以

9 极大似然估计(MLE) 极大似然估计 似然函数 对似然函数求最大值 极大似然估计的性质

10 似然函数 令 为IID,其PDF为 ,似然函数定义为
有时也记为 或 ,表示似然函数为在给定x的情况下,参数θ的函数。 似然函数在数值上是数据的联合密度,但它是参数θ的函数, 。因此似然函数通常不满足密度函数的性质,如它对θ的积分不必为1。

11 似然的解释 若X是离散的,则 。如果我们比较两个参数θ1和θ2的似然值,如果
则观测到的样本更可能发生在θ = θ1下,也就是说,相比θ2 ,θ1是一个更可信的猜测。 对连续的X, 但通常我们并不将似然解释为参数θ的概率

12 极大似然估计 log似然函数定义为: ,它和似然函数在相同的位置取极大值。
极大似然估计(MLE) 是使得 最大的 ,即 log似然函数定义为: ,它和似然函数在相同的位置取极大值。 同样,相差常数倍也不影响似然函数取极大值的位置。因此似然函数中的常数项也可以抛弃。

13 例:Bernoulli分布 令 , 则概率函数 似然函数为 其中 所以 解方程

14 例:高斯分布 令 ,参数为 ,似然函数(忽略常数项)为 其中 为样本均值 为样本方差 因为

15 例:高斯分布 log似然函数为 解方程 得到 可以证明,这是似然函数的全局最大值。

16 对似然函数求最大值 对似然函数求极值(求导) 需注意的问题:要找到似然函数的全局极大值 解析法(如上例中的高斯模型) 数值计算:优化算法
如梯度下降法 如EM算法(如下例中的混合高斯模型) 需注意的问题:要找到似然函数的全局极大值 一阶导数为0只是必要条件,非充分条件 而且一阶导数为0只能找到函数定义域内部的局部极值点。如在边界上取极值,一阶导数可能不为0。因此还必须检验边界。

17 例:均匀分布 则概率函数 考虑一个固定的值,假设对于某一个i,有 ,则 因此令 所以 递减函数

18 混合高斯模型(GMM) (Mixture of Gaussians Model)
假设有K个成分 每个成分从均值为 、协方差矩阵为 的高斯分布产生数据 假设每个数据点根据如下规则产生: 随机选择一个成分,选择第k个成分的概率为 从第k个成分产生数据:

19 混合高斯模型 问题:给定IID数据 ,求参数 MLE不能解析求得,因此我们通过数值计算(如EM算法)求解。
将完整数据 转换为非完整数据/缺失数据 ,其中 为 所属的类别。

20 EM EM用于混合模型参数推断的具体过程请参见参考文献和参考ppt Matlab函数:ecmnmle 再下次课上讲述
[Mean, Covariance] = ecmnmle (Data, InitMethod, MaxIterations, Tolerance, Mean0, Covar0 )

21 EM for GMM 第t次的估计为 则第t+1次的估计为 E步 M步

22 EM总结 总结 参考文献 EM会收敛到局部极值,但不保证收敛到全局最优 适合的情况
缺失数据不太多时 数据维数不太高时(数据维数太高的话,E步的计算很费时) 参考文献 Jeff A. Bilmes, A Gentle Tutorial of the Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models

23 下节课内容 MLE的性质


Download ppt "Chp9:参数推断 主要内容 参数推断的基本概念 参数推断的方法 矩方法"

Similar presentations


Ads by Google