Presentation is loading. Please wait.

Presentation is loading. Please wait.

本节课内容 MLE的性质 MLE很流行是因为MLE有一些很好的性质.

Similar presentations


Presentation on theme: "本节课内容 MLE的性质 MLE很流行是因为MLE有一些很好的性质."— Presentation transcript:

1 本节课内容 MLE的性质 MLE很流行是因为MLE有一些很好的性质

2 MLE的性质 MLE的一些性质( 为参数的真值) 这些只在满足正则条件下成立,正则条件度量 的平滑性。 一致性:
渐近正态: 渐近有效/最优:在所有的无偏估计中,MLE的方差最小 近似于贝叶斯估计(在贝叶斯推理部分讲述) 这些只在满足正则条件下成立,正则条件度量 的平滑性。

3 MLE的一致性 一致性: 依概率收敛于真值 ,即 为了证明这一性质,引入KL散度/KL距离

4 相对熵:KL散度 若f 和g为两个pdf,它们之间的KL散度/距离(Kullback-Leibler Divergence)定义为
通常情况下 我们用 来表示

5 可识别性(Identifiability)
如果 意味着 ,我们说模型 是可识别的 这表示不同的参数值对应不同的分布。后面我们都假设模型是可辨识识别的。 连续型分布通常是可识别的,而离散型分布有时是不可识别的。

6 MLE = Minimizing KL Divergence
令 表示 的真值。极大化 等价于极大化: 相对 是一个常数。

7 MLE的一致性 根据大数定律, 收敛于 ,在 时取极大值 因此 ,在 时取极大值 因为 ,且当 时, 根据MLE的定义,当 时, 取极大值
根据大数定律, 收敛于 ,在 时取极大值 因为 ,且当 时, 因此 ,在 时取极大值 根据MLE的定义,当 时, 取极大值 所以可以猜测MLE是一致估计: 因为Xi ~ f(x;theta-star)

8 MLE的一致性 9.13 定理:令 表示的真实值,定义 且 假设 并且对任意 令 表示极大似然估计,则
9.13 定理:令 表示的真实值,定义 假设 并且对任意 令 表示极大似然估计,则 因为Xi ~ f(x;theta-star)

9 MLE的同变性 等价性:令 是 的一个一一映射函数。令 是 的MLE,则 是 的MLE。 证明:令 表示函数g的反函数,则 对 ,有
对 ,有 其中 。 则 ,有

10 MLE的等价性 例9.15:令 , 则 的MLE为 令 ,则 的MLE为 随机变量变换的MLE的点估计

11 MLE的渐近正态性 渐近正态性: 为了证明这一性质,引入记分函数和Fisher信息 当记分函数和Fisher信息的形式比较简单时,可解析求解
可以给出渐进方差 为了证明这一性质,引入记分函数和Fisher信息 当记分函数和Fisher信息的形式比较简单时,可解析求解 若解析计算困难,可用参数bootstrap方法计算

12 Sir Ronald Aylmer Fisher
记分函数(score function)定义为 用来估计θ Fisher信息定义为 告诉记分数里包含了θ 的多少信息 Sir Ronald Aylmer Fisher ( )

13 记分函数 vs. 似然函数 再定义一个总记分函数:记分函数在样本上的和 似然函数为 所以
即总记分函数为似然函数的一阶导数,表示似然函数的变化率 对MLE,

14 记分函数的性质 记分函数的期望为0: 证明:

15 记分函数的性质 (1) 经验总记分函数为0: (2) 总记分函数的期望为0: 当与 和 匹配时,对 求期望才为0
当与 和 匹配时,对 求期望才为0 所以当总记分函数为0是的 会产生的一个一致估计

16 Fisher信息 用于计算某个估计量的方差 Fisher信息:记分函数的方差 其中 为当n= 1时的Fisher信息
告诉了记分函数包含了的多少信息 Fisher信息:记分函数的方差 其中 为当n= 1时的Fisher信息 容易计算

17 Fisher信息 所以要证明 转换为证明

18

19

20 Fisher信息 二阶导数 度量了 的曲率 曲率越大,信息越多 信息越多,曲率越大(越不平滑/陡峭),MLE越确定,估计的方差越小
二阶导数 度量了 的曲率 即当变化时,似然函数的平滑程度 曲率越大,信息越多 信息越多,曲率越大(越不平滑/陡峭),MLE越确定,估计的方差越小 曲率越大,信息越多:F(x;theta) 对theta的曲率越大, 表示F(x;theta) 对theta越陡峭,即theta较小的变化会引起f(x:theta)较大的变化,即theta提供的关于f的信息比较多 信息越多,曲率越大,MLE越确定,估计的方差越小:

21 渐近正态性 令 ,在满足合适的正则条件下, 换句话说, 用标准方差的估计值 代替se,该结论仍然成立,即
令 ,在满足合适的正则条件下, 换句话说, 用标准方差的估计值 代替se,该结论仍然成立,即 因此对任意极大似然估计量,我们可以近似其置信区间。

22

23

24

25

26 渐近正态置信区间 则当 时, 即 为 置信区间。 例: ,所以95%置信区间为

27 多维参数模型 令 ,MLE为 定义Fisher信息矩阵为 为 的逆矩阵。

28 多维参数模型 在合适的正则条件下, 同时,若 为 的第j个成分,则 其中 为矩阵 的第j个对角线上的元素 和 的协方差近似为

29 例:Bernoulli分布 例9.20:令 1、

30 例:Bernoulli分布(续) 例9.20(续) 2、 3、95%置信区间为

31 例:正态分布 例9.21:令 1、

32 例:正态分布(续) 例9.21(续) 2、

33 例:正态分布(续) 例9.21(续) 2、

34 例:正态分布(续) 例9.21(续) 2、

35 MLE的最优性 在所有的无偏估计中,MLE的方差最小 渐近相对有效性

36 相对有效性 假设 ,则MLE为 。 θ的另一个合理的估计是样本的中值 。 MLE 满足 中值估计满足 二者都收敛于正确值,但中值的方差更大。
中值:

37 相对有效性 一般的,假设有两个估计 和 , U对T的渐近相对有效性(asymptotic relative efficiency)定义为 。 在上述正态分布例子中, ,意味着中值估计只有效利用了63%的数据。 但中值估计比均值估计更鲁棒 鱼和熊掌不可兼得

38 MLE的最优性 如果 为MLE,且 为另一个估计,则 因此MLE的(渐近)方差最小,我们称之为MLE是有效的或是渐近最优的。
注意:所有的结果都是在基于模型是正确的基础之上预测的。 如果模型不正确,MLE不一定是最优的

39 Delta方法 令 ,其中g 为一个平滑函数, 根据MLE的同变性, 的MLE为 Delta方法的问题: 的分布?

40 Delta方法 若 ,其中g 为可微函数,且 其中 所以若 则当 时,

41 Delta方法 例9.25:设 Fisher信息函数是 MLE 的标准差是 的MLE是 由于 ,根据delta方法 所以,95%置信区间是

42 多维参数模型的Delta方法 令 ,g的导数为 假设 ,令 ,则 其中 , ,

43 例:多维参数模型的Delta方法 9.29例:令 则MLE为

44 其他一些与MLE相关的主题 MLE vs. 贝叶斯(贝叶斯推断) MLE与最小二乘法(回归)
非形式化的,可画出数据的分布图(如直方图) 如有多个峰,则假设正态分布就有问题 形式化:假设检验 拟合优度检验 (goodness-of fit test)

45 下节课内容 MLE的迭代计算 牛顿法 EM算法


Download ppt "本节课内容 MLE的性质 MLE很流行是因为MLE有一些很好的性质."

Similar presentations


Ads by Google