本节课内容 MLE的性质 MLE很流行是因为MLE有一些很好的性质.

Slides:



Advertisements
Similar presentations
第一章 、随机事件与概率 1.1 、随机事件 1.2 、随机事件的概率 1.3 、随机事件概率的计算 1.4 、伯努利概型.
Advertisements

第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
第二章 导数与微分 习题课 主要内容 典型例题 测验题. 求 导 法 则求 导 法 则 求 导 法 则求 导 法 则 基本公式 导 数 导 数 微 分微 分 微 分微 分 高阶导数 高阶微分 一、主要内容.
目录 上页 下页 返回 结束 习题课 一、导数和微分的概念及应用 二、导数和微分的求法 导数与微分 第二章.
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
第八章 第四节 机动 目录 上页 下页 返回 结束 一个方程所确定的隐函数 及其导数 隐函数的微分法.
一、会求多元复合函数一阶偏导数 多元复合函数的求导公式 学习要求: 二、了解全微分形式的不变性.
2.6 隐函数微分法 第二章 第二章 二、高阶导数 一、隐式定义的函数 三、可微函数的有理幂. 一、隐函数的导数 若由方程 可确定 y 是 x 的函数, 由 表示的函数, 称为显函数. 例如, 可确定显函数 可确定 y 是 x 的函数, 但此隐函数不能显化. 函数为隐函数. 则称此 隐函数求导方法.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
第二章 导数与微分 一. 内 容 要 点 二. 重 点 难 点 三. 主 要 内 容 四. 例 题与习题.
第二章 导数与微分. 二、 微分的几何意义 三、微分在近似计算中的应用 一、 微分的定义 2.3 微 分.
全微分 教学目的:全微分的有关概念和意义 教学重点:全微分的计算和应用 教学难点:全微分应用于近似计算.
2.3 函数的微分. 四川财经职业学院 课前复习 高阶导数的定义和计算方法。 作业解析:
第三节 微分 3.1 、微分的概念 3.2 、微分的计算 3.3 、微分的应用. 一、问题的提出 实例 : 正方形金属薄片受热后面积的改变量.
Chp11:贝叶斯推断 内容: 贝叶斯观点和贝叶斯方法 贝叶斯推断 vs. 频率推断.
第二部分:统计推断 Chp6:统计推断概述 Chp7:非参数推断 Chp8:Bootstrap Chp9:参数推断 Chp10:假设检验
第五章 二次型. 第五章 二次型 知识点1---二次型及其矩阵表示 二次型的基本概念 1. 线性变换与合同矩阵 2.
第三章 函数逼近 — 最佳平方逼近.
例题 教学目的: 微积分基本公式 教学重点: 牛顿----莱布尼兹公式 教学难点: 变上限积分的性质与应用.
第二节 微积分基本定理 一、积分上限函数及其导数 二、积分上限函数求导法则 三、微积分基本公式.
高等数学电子教案 第五章 定积分 第三节 微积分基本定理.
第五节 微积分基本公式 、变速直线运动中位置函数与速度 函数的联系 二、积分上限函数及其导数 三、牛顿—莱布尼茨公式.
一、原函数与不定积分 二、不定积分的几何意义 三、基本积分公式及积分法则 四、牛顿—莱布尼兹公式 五、小结
第二节 微积分基本公式 1、问题的提出 2、积分上限函数及其导数 3、牛顿—莱布尼茨公式 4、小结.
定积分性质和微积分学基本定理 一、 定积分性质 二、 变上限积分函数 三、 定积分基本公式.
第四章 函数的积分学 第六节 微积分的基本公式 一、变上限定积分 二、微积分的基本公式.
第5章 定积分及其应用 基本要求 5.1 定积分的概念与性质 5.2 微积分基本公式 5.3 定积分的换元积分法与分部积分法
定积分习题课.
第三节 格林公式及其应用(2) 一、曲线积分与路径无关的定义 二、曲线积分与路径无关的条件 三、二元函数的全微分的求积 四、小结.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
第三章 导数与微分 习 题 课 主要内容 典型例题.
2-7、函数的微分 教学要求 教学要点.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
第5章 §5.3 定积分的积分法 换元积分法 不定积分 分部积分法 换元积分法 定积分 分部积分法.
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
例1 :甲击中的环数; X :乙击中的环数; Y 平较高? 试问哪一个人的射击水 : 的射击水平由下表给出 甲、乙两人射击,他们
第2章 一元线性回归 2 .1 一元线性回归模型 2 .2 参数 的估计 2 .3 最小二乘估计的性质 2 .4 回归方程的显著性检验
计算机数学基础 主讲老师: 邓辉文.
§2 求导法则 2.1 求导数的四则运算法则 下面分三部分加以证明, 并同时给出相应的推论和例题 .
EM算法 一种参数估计的方法.
第一章 函数 函数 — 研究对象—第一章 分析基础 极限 — 研究方法—第二章 连续 — 研究桥梁—第二章.
第七章 参数估计 7.3 参数的区间估计.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
抽样和抽样分布 基本计算 Sampling & Sampling distribution
Chp9:参数推断 主要内容 参数推断的基本概念 参数推断的方法 矩方法
概 率 统 计 主讲教师 叶宏 山东大学数学院.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
正切函数的图象和性质 周期函数定义: 一般地,对于函数 (x),如果存在一个非零常数T,使得当x取定义域内的每一个值时,都有
定理21.9(可满足性定理)设A是P(Y)的协调子集,则存在P(Y)的解释域U和项解释,使得赋值函数v(A){1}。
第16讲 相似矩阵与方阵的对角化 主要内容: 1.相似矩阵 2. 方阵的对角化.
§8.3 不变因子 一、行列式因子 二、不变因子.
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
1.设A和B是集合,证明:A=B当且仅当A∩B=A∪B
概 率 统 计 主讲教师 叶宏 山东大学数学院.
第三章 函数的微分学 第二节 导数的四则运算法则 一、导数的四则运算 二、偏导数的求法.
学习任务三 偏导数 结合一元函数的导数学习二元函数的偏导数是非常有用的. 要求了解二元函数的偏导数的定义, 掌握二元函数偏导数的计算.
第一部分:概率 产生随机样本:对分布采样 均匀分布 其他分布 伪随机数 很多统计软件包中都有此工具 如在Matlab中:rand
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
数据统计与分析 秦 猛 南京大学物理系 第11讲 办公室:唐仲英楼A
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
2019/5/20 第三节 高阶导数 1.
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
正弦、余弦函数的性质 华容一中 伍立华 2017年2月24日.
§2 方阵的特征值与特征向量.
第三节 函数的微分 3.1 微分的概念 3.2 微分的计算 3.3 微分的应用.
第四节 向量的乘积 一、两向量的数量积 二、两向量的向量积.
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
贝叶斯估计 Bayes Estimation
第四章 函数的 积分学 第七节 定积分的换元积分法     与分部积分法 一、定积分的换元积分法 二、定积分的分部积分法.
§2 自由代数 定义19.7:设X是集合,G是一个T-代数,为X到G的函数,若对每个T-代数A和X到A的函数,都存在唯一的G到A的同态映射,使得=,则称G(更严格的说是(G,))是生成集X上的自由T-代数。X中的元素称为生成元。 A变, 变 变, 也变 对给定的 和A,是唯一的.
Presentation transcript:

本节课内容 MLE的性质 MLE很流行是因为MLE有一些很好的性质

MLE的性质 MLE的一些性质( 为参数的真值) 这些只在满足正则条件下成立,正则条件度量 的平滑性。 一致性: 渐近正态: 渐近有效/最优:在所有的无偏估计中,MLE的方差最小 近似于贝叶斯估计(在贝叶斯推理部分讲述) 这些只在满足正则条件下成立,正则条件度量 的平滑性。

MLE的一致性 一致性: 依概率收敛于真值 ,即 为了证明这一性质,引入KL散度/KL距离

相对熵:KL散度 若f 和g为两个pdf,它们之间的KL散度/距离(Kullback-Leibler Divergence)定义为 通常情况下 我们用 来表示

可识别性(Identifiability) 如果 意味着 ,我们说模型 是可识别的 这表示不同的参数值对应不同的分布。后面我们都假设模型是可辨识识别的。 连续型分布通常是可识别的,而离散型分布有时是不可识别的。

MLE = Minimizing KL Divergence 令 表示 的真值。极大化 等价于极大化: 相对 是一个常数。

MLE的一致性 根据大数定律, 收敛于 ,在 时取极大值 因此 ,在 时取极大值 因为 ,且当 时, 根据MLE的定义,当 时, 取极大值 根据大数定律, 收敛于 ,在 时取极大值 因为 ,且当 时, 因此 ,在 时取极大值 根据MLE的定义,当 时, 取极大值 所以可以猜测MLE是一致估计: 因为Xi ~ f(x;theta-star)

MLE的一致性 9.13 定理:令 表示的真实值,定义 且 假设 并且对任意 令 表示极大似然估计,则 9.13 定理:令 表示的真实值,定义 且 假设 并且对任意 令 表示极大似然估计,则 因为Xi ~ f(x;theta-star)

MLE的同变性 等价性:令 是 的一个一一映射函数。令 是 的MLE,则 是 的MLE。 证明:令 表示函数g的反函数,则 对 ,有 对 ,有 其中 。 则 ,有

MLE的等价性 例9.15:令 , 则 的MLE为 令 ,则 的MLE为 随机变量变换的MLE的点估计

MLE的渐近正态性 渐近正态性: 为了证明这一性质,引入记分函数和Fisher信息 当记分函数和Fisher信息的形式比较简单时,可解析求解 可以给出渐进方差 为了证明这一性质,引入记分函数和Fisher信息 当记分函数和Fisher信息的形式比较简单时,可解析求解 若解析计算困难,可用参数bootstrap方法计算

Sir Ronald Aylmer Fisher 记分函数(score function)定义为 用来估计θ Fisher信息定义为 告诉记分数里包含了θ 的多少信息 Sir Ronald Aylmer Fisher (1890-1962)

记分函数 vs. 似然函数 再定义一个总记分函数:记分函数在样本上的和 似然函数为 所以 即总记分函数为似然函数的一阶导数,表示似然函数的变化率 对MLE,

记分函数的性质 记分函数的期望为0: 证明:

记分函数的性质 (1) 经验总记分函数为0: (2) 总记分函数的期望为0: 当与 和 匹配时,对 求期望才为0 当与 和 匹配时,对 求期望才为0 所以当总记分函数为0是的 会产生的一个一致估计

Fisher信息 用于计算某个估计量的方差 Fisher信息:记分函数的方差 其中 为当n= 1时的Fisher信息 告诉了记分函数包含了的多少信息 Fisher信息:记分函数的方差 其中 为当n= 1时的Fisher信息 容易计算

Fisher信息 所以要证明 转换为证明

Fisher信息 二阶导数 度量了 的曲率 曲率越大,信息越多 信息越多,曲率越大(越不平滑/陡峭),MLE越确定,估计的方差越小 二阶导数 度量了 的曲率 即当变化时,似然函数的平滑程度 曲率越大,信息越多 信息越多,曲率越大(越不平滑/陡峭),MLE越确定,估计的方差越小 曲率越大,信息越多:F(x;theta) 对theta的曲率越大, 表示F(x;theta) 对theta越陡峭,即theta较小的变化会引起f(x:theta)较大的变化,即theta提供的关于f的信息比较多 信息越多,曲率越大,MLE越确定,估计的方差越小:

渐近正态性 令 ,在满足合适的正则条件下, 换句话说, 用标准方差的估计值 代替se,该结论仍然成立,即 令 ,在满足合适的正则条件下, 换句话说, 用标准方差的估计值 代替se,该结论仍然成立,即 因此对任意极大似然估计量,我们可以近似其置信区间。

渐近正态置信区间 令 则当 时, 即 为 置信区间。 例: ,所以95%置信区间为

多维参数模型 令 ,MLE为 则 定义Fisher信息矩阵为 为 的逆矩阵。

多维参数模型 在合适的正则条件下, 同时,若 为 的第j个成分,则 其中 为矩阵 的第j个对角线上的元素 和 的协方差近似为

例:Bernoulli分布 例9.20:令 1、

例:Bernoulli分布(续) 例9.20(续) 2、 3、95%置信区间为

例:正态分布 例9.21:令 1、

例:正态分布(续) 例9.21(续) 2、

例:正态分布(续) 例9.21(续) 2、

例:正态分布(续) 例9.21(续) 2、

MLE的最优性 在所有的无偏估计中,MLE的方差最小 渐近相对有效性

相对有效性 假设 ,则MLE为 。 θ的另一个合理的估计是样本的中值 。 MLE 满足 中值估计满足 二者都收敛于正确值,但中值的方差更大。 中值:

相对有效性 一般的,假设有两个估计 和 , 且 U对T的渐近相对有效性(asymptotic relative efficiency)定义为 。 在上述正态分布例子中, ,意味着中值估计只有效利用了63%的数据。 但中值估计比均值估计更鲁棒 鱼和熊掌不可兼得

MLE的最优性 如果 为MLE,且 为另一个估计,则 因此MLE的(渐近)方差最小,我们称之为MLE是有效的或是渐近最优的。 注意:所有的结果都是在基于模型是正确的基础之上预测的。 如果模型不正确,MLE不一定是最优的

Delta方法 令 ,其中g 为一个平滑函数, 根据MLE的同变性, 的MLE为 Delta方法的问题: 的分布?

Delta方法 若 ,其中g 为可微函数,且 则 其中 所以若 则当 时,

Delta方法 例9.25:设 Fisher信息函数是 MLE 的标准差是 的MLE是 由于 ,根据delta方法 所以,95%置信区间是

多维参数模型的Delta方法 令 ,g的导数为 假设 ,令 ,则 其中 , ,

例:多维参数模型的Delta方法 9.29例:令 则MLE为

其他一些与MLE相关的主题 MLE vs. 贝叶斯(贝叶斯推断) MLE与最小二乘法(回归) 非形式化的,可画出数据的分布图(如直方图) 如有多个峰,则假设正态分布就有问题 形式化:假设检验 拟合优度检验 (goodness-of fit test)

下节课内容 MLE的迭代计算 牛顿法 EM算法