Chp7:非参数估计 CDF估计 点估计 区间估计 统计函数估计
Chp7:非参数估计 一个非参数模型的例子: “非参数”并不意味着没有参数,而是指模型不能参数化(有无限个参数)。
非参数化方法 一些流行的非参数化方法: 直方图、核密度估计 (密度估计) 样条、小波回归 (回归) 核判别分析、最近邻、支持向量机SVM (分类)
非参数化方法 非参数模型有时亦称局部模型(local model) 如:核回归 常用核函数 :
CDF估计和统计函数估计 回到最基本状态,无需任何假设
经验分布函数 (Empirical Distribution Function, EDF) 令 为IID,则经验分布函数 定义为 其中 称为指示函数(indicator function)。 注意: 是基于排序好的样本数据的一个步长函数,在有样本时跳 1/n 。
是F的一个很好估计? 给定x, 是一个随机变量: 服从二项分布 所以
是F的一个很好估计? 所以 无偏估计 一致估计
EDF的置信区间 Glivenko-Cantelli 定理 Dvoretzky-Kiefer-Wolfowitz (DKW)不等式 如果 ,则 Dvoretzky-Kiefer-Wolfowitz (DKW)不等式 如果 ,则对任意 可根据下面的步骤构造F的1-α置信区间。
EDF置信区间 定义 则对任意F和所有x 所以 为F的 非参数置信区间。 其中
CDF估计举例 例7.2:神经纤维上相邻脉冲的相隔时间 时间t 95%的置信区间中的参数为:
统计函数的估计 统计函数/统计泛函:F的任意函数 统计函数的估计:嵌入式估计量(Plug-in Estimator) 均值: 方差: 中值: 的嵌入式估计量为 插入 代替未知的F
嵌入式估计量:线性函数 若对某个函数 ,有 ,则称T为一个线性函数。 T为一个线性函数: 该函数的嵌入式估计量为 例如:均值
例:方差 方差: 因此 注意:与样本方差稍有不同。 该估计不是无偏估计
例:偏度 令 和 分别表示随机变量X的均值和方差,偏度定义为: 表示分布偏离对称的程度。 因为 所以 的嵌入式估计量为:
例:样本相关系数 令 表示X与Y之间的相关系数,其中 为二元随机向量的分布 。 其中 用 代替 中的F,得到样本相关系数:
例:样本分位数 令F为密度为f的严格增函数 第p分位数: 的估计为 由于 不可逆,为避免歧义,定义 称为样本分位数。
线性函数估计的置信区间 通常可以假定线性函数满足中心极限定理,即 这样只要知道了 ,就可以比较容易得到置信区间:渐近正态性 这样只要知道了 ,就可以比较容易得到置信区间:渐近正态性 基于正态的置信区间: 如95%的置信区间为: 问题:标准误差 的估计
标准误差 的估计 影响函数 Bootstrap方法
影响函数 (Influence Functions) 影响函数用于估计一个嵌入式估计量的标准误差。影响函数定义为 其中δx 为x处的一个Delta函数, 为F和点x的混合体 影响函数形式同导数相同,表示统计函数 的变化率。影响函数越大,当F变成 时, 变化越大(与估计的方差有关) 概率为1- 概率为
经验影响函数 影响函数为 简记为 经验影响函数为
影响函数的性质 令 为一个线性函数, 则 1. 证明: T(F)是线性函数
影响函数的性质 2. 对任意G,有 证明:
影响函数的性质 3. L的期望为0 证明:
影响函数的性质 L的方差 4. 令 ,若 ,则 证明:根据性质2,令 所以 根据CLT,
影响函数的性质 5. 令 则 其中 证明:
影响函数的性质 证明(续):类似的, 根据大数定律, 另 所以
影响函数的性质 6. 证明:根据性质4和性质5,将性质4中 中的 用其估计 代替,极限分布仍然成立,即 或
影响函数与标准误差 对线性函数, 令 得到标准误差估计: 最后: 可用于计算置信区间
例:均值 线性函数为 嵌入式估计量为 , 所以95%的置信区间为 。 与直接用方差的嵌入式估计量 结果一致
例7.11:Plasma Cholesterol 51位无心脏病病人的血浆胆固醇
例7.11:Plasma Cholesterol 320位动脉狭窄病人的血浆胆固醇
例7.11:Plasma Cholesterol 两组的差别: 无心脏病 195.27 5.0 有心脏病 216.19 2.4 两组的差别: 初步结论:有心脏病的病人的胆固醇更高。这个结论的可靠性需考察该估计的标准误差: 95%的置信区间: 方差较小该结论比较可靠 但并不能马上说明胆固醇会引起心脏病(不一定是因果关系)
总结 CDF估计 点估计、偏差、区间估计(方差) 统计函数估计 点估计:嵌入式估计量 区间估计(方差) :影响函数、Bootstrap
作业 Chp7的2、3、4、8、9 下节课内容 Bootstrap