第五章 假设检验 Hypothesis Testing 数理统计课题组
本章大纲 1. 假设检验的基本概念 2.Neyman-Pearson 范式 3. 和假设检验有关的两个问题 4. 广义似然比检验 5. 单样本检验的几个实例 6. 两个样本的比较 7. 实验设计
学习目标 理解假设检验的直观概念和 Neyman- Pearson 范式 了解假设检验方法的可能缺陷 掌握广义似然比检验 掌握正态、多项、泊松总体的假设检验 掌握 Hanging Rootogram 和概率图 掌握两个独立样本的比较 理解实验设计
本章详细大纲 假设检验的基本概念 Neyman-Pearson 范式 Neyman-Pearson 引理 显著性水平的确定和 p- 值 一致最优检验 和假设检验有关的两个问题 置信区间和假设检验的对偶关系 如何选择原假设 广义似然比检验 – 广义似然比方法 – 多项分布的广义似然比检验 – 泊松分布的广义似然比检验 单样本检验的几个实例 两个样本的比较
(Hypothesis Testing) 1. 假设检验的基本概念 (Hypothesis Testing) 硬币猜测游戏 用似然比 likelihood ratio 和 贝叶斯方法处理这个问题 正面朝上的概率 硬币 硬币 1 0.7
猜硬币中的似然比 如果你在 10 次抛掷中看到 2 次正面朝上。则 P 0 (2)/P 1 (2)=30 。这就是似然比。 硬币 0 出现这个结果的机会是硬币 1 的 30 倍
猜硬币中的似然比 根据抛掷结果计算出的后验概率成为评判 标准 C 是临界值 critical value
猜硬币中的错判概率 假定 c=1 。则判别规则如下: 因为结果有随机性,这个规则导致错判 错误分成两类: H 0 为真的时候拒绝 H 0 , H 0 为假的时候接受 H 0
临界值 c 对错判概率的影响 假定 c=0.1 ,即先验概率有差异
2.Neyman-Pearson 范式 不用贝叶斯方法 规避了先验概率的决定 对两个假设区别对待,一个成为原假设 H 0 (null hypotheses) ,另一个成为备择 假设 H 1 (alternative hypotheses) 由此导致在有些场合下选择原假设的困难
Neyman-Pearson 范式中的术语 第 I 类错误 (Type I Error) , H 0 为真的时候拒绝 H 0 检验的显著性水平 (significance level) ,第 I 类 错误的概率,通常记为 第 II 类错误 (Type I Error) , H 0 为假的时候接受 H 0 ,其概率记为 检验的功效 (power) , H 0 为假的时候拒绝 H 0 , 其概率记为 检验统计量 (test statistics) 拒绝域 (rejection region) 和接受域 (acceptance region) 原分布 (null distribution) ,在原假设为真的条 件检验统计量所服从的分布
Neyman-Pearson 引理 (lemma)
方差已知的正态
方差已知的正态
置信区间和假设检验的对偶关系
置信区间和假设检验的对偶关系:引理 A 引理 A
置信区间和假设检验:引理 A 证明 引理 A 证明 则按照 C(X) 的定义
置信区间和假设检验的对偶关系:引理 B 引理 B 证明
广义似然比检验 ( Generalized Likelihood Ratio Test ) 似然比检验在对两个简单假设进行检验的时候是 最优的。本节介绍的广义似然比检验将能够处理 比较复杂的假设形式。其原理和似然比有相似之 处。 一个比较自然的度量两个假设可信程度的指标是 两个假设的似然比。
广义似然比检验 因为在两个假设中,参数都有多个可能取值,所以 在可能的参数集合上取最大值是一个可以考虑的 出于数学处理上的考虑,把分母改成在 整个参数集合上取最大值
广义似然比检验: 方差未知正态总体的均值检验
多项分布的广义似然比检验 考虑多项分布的似然比检验。
多项分布的广义似然比检验
Pearson 卡方统计量和似然比 可以证明在 H 0 成立的条件下, Pearson 统计量和似然比渐近等价, 这里用 Taylor 展开做一直观解释。
Pearson 卡方统计量和似然比
Handy-Weinberg 均衡 在参数估计的例子中引入了 Handy-Weinberg 均衡
Bacterial Clump 用显微镜检查 0.01 毫升牛奶中的细菌群的数量. 计量方法是每个方格子里的数量 看起来用泊松分布是不错的 以下数据来自 Bliss and Fisher (1953)
Bacterial Clump
Fisher 重新检验孟德尔 (Mendel) 的数据 现代基因理论的结果孟德尔的观测结果 Pearson 卡方统计量= 0.604
泊松散布度检验 (dispersion test) 泊松分布的特点是均值和方差相等
泊松散布度检验 (dispersion test)
近似公式可以有如下解释:等于方差估计值除以 均值估计值的比率的 n 倍 泊松分布的方差和均值相等,但一般情况下的数据 的方差大于均值。因此这个检验称为散布度检验 比如负二项分布和泊松分布相比就具有 更大的散布程度
泊松散布度检验:石棉纤维
泊松散布度检验:细菌菌落
更多的评估拟合优度的方法 Hanging rootograms Probability plots 正态性检验
Hanging rootograms 原理:用图象展示观测值和拟合值的直方 图之间的差异 演示数据:来自 Martin, Gudzinowicz and Fanger 1975 ,共 152 通常会用正态分布来拟合所得到的数据
Hanging rootograms
Probability plots 要对一组数据对某个理论分布的拟合程度进行定性判断, 概率图是极为有用的一种图形工具
Probability plots 均匀-均匀概率图
Probability plots
概率图 显然这条曲线 不是线性的 均匀 - 三角概率图
概率图:概率积分变换 probability integral transformation
概率图:特定的 F(x)
概率图: Michelson 光速测定实验结果
正态性检验
比较两个独立样本 (Independent Samples)
比较两个独立样本:基于正态分布
比较两个独立样本:基于正态分布 方差已知
比较两个独立样本:基于正态分布 方差未知
定理 A 的证明 统计量可以表示为 U/V. U 服从标准正态分布. V 等于卡方随机变量除以其分布自由度. U/V 服从 t 分布
比较两个独立样本:基于正态分布 方差未知
比较两个独立样本:基于正态分布 方差未知,例 A 问题: 今有 A 和 B 两种决定冰的热功当量的方法 此处放箱线图
比较两个独立样本:基于正态分布 方差未知,例 A 自由度为 19 的 t 分布的.975 分位点等于 即 (.015,.065)
两样本假设检验 双侧备择假设 two-sided alternative 单侧备择假设 one-sided alternative
两样本假设检验,续例 A
检验 H 0 对 H 1 等价于似然比检验
求最大值:似然比的分子部分
求最大值:似然比的分母部分
似然比的计算结果
分子部分的变换
如果方差不相等 以它为 t 统计量的分母,所得到的统计量不再服从 t 分布, 但近似服从自由度为下述结果取整之后的结果的 t 分布
教材例 [ 待处理 ]
教材例 下面是对数变换的模型
变异系数 (coefficient of variation) 一个分布的标准差和均值的比率称为变异系数 (coefficient of variation)
对于变换后的数据, t 统计量为.917 , p- 值为.37 。 没有理由拒绝原假设。 95% 置信区间是 (-.61,.23)
功效 (power) 计算功效对于在规划实验时确定样本量的大小具有重要意义。 检验的功效是在原假设为假的时候拒绝原假设的概率。 影响两样本 t 检验的四个要素包括:
功效的计算
例 A 。两样本比较。样本量均为 18 ,来自正态总体, 标准差都是 5 ,显著性水平.05 。
非参数方法: Mann-Whitney 检验 这个检验也叫 Wilcoxon 秩和检验 (Wilcoxon Rank Sum Test) 将 m+n 次实验分配给处理组和对照组, 随机抽取 n 个分配给对照组,剩下的 m 个给处理组 要检验的原假设是处理没有效应。 如果原假设通过检验,就说明结果中的差异是由随机化造成的 统计量的计算方法如下 1 、将 m+n 个观测值放在一起,按照升序排列。 (为简化问题,假定没有并列名次。实际上,出现并列 名次并不影响我们的计算)。 2 、计算来自对照组的观测值的秩的和 3 、如果秩和太大或者太小就可以拒绝原假设
Mann-Whitney 检验的简单例子 4 位受试,随机抽取其中两名进入处理组,剩下两名在对照组 表中的数据是实验结果(响应值),括号中出现的是这个值的秩 对照组的秩和等于 7 ,处理组的秩和等于 3 这个差异足以让我们相信在处理组和对照组的结果之间 存在系统的差别吗?让我们来做一个概率计算。
Mann-Whitney 检验的简单例子 Mann-Whitney 检验的关键思想是: 我们可以用显式公式计算原假设下的秩和分布。 在原假设下,所有观测值的秩的组合 都是等概率的。这样一共有 4!=24 种结果。 特别地,处理组的结果的秩 有 6 种,也应该是等概率出现的。
Mann-Whitney 检验 实际中的检验问题不可能有这么小的 m 和 n
Mann-Whitney 检验:例 A 数据来自教材 423 页,例 A 排序结果,有并列排名 并列排名的处理方式: 比如有 4 个值都等于 。它们 占据的名次为 3,4,5 和 6 ,则每个 数的秩都等于 ( )/4=4.5
Mann-Whitney 检验:例 A
Mann-Whitney 检验:定理 A 证明提示: 利用教材 的定理 A 和 B
Mann-Whitney 检验:定理 A 的证明
Mann-Whitney 检验 1.Mann-Whitney 检验不依赖正态假设 2. 用排序名次取代实际数字,对离群值不敏感 3. 可以证明,如果正态假设成立,则 Mann-Whitney 检 验和 t 分布的功效几乎相等 4. 下面我们用另一种观点看待 Mann-Whitney 检验
Mann-Whitney 检验
贝叶斯方法
解释是完全不一样的
贝叶斯方法 补充例题
比较配对样本 comparing paired samples 许多实验中使用的不是独立样本,而是配对样本。 医学实验。受试可能按照年龄、体重或者患病程度 配对,然后每个对中的一个成员会被随机分到处理组 ,另一个进入对照组。 或者,对是由同一位受试在计量 “ 之前 ” 和 “ 之后 ” 构成 关键问题是如何处理 “ 不独立 ” 样本的相关性
比较配对样本
配对实验的优势在于,如果 X 和 Y 的相关系数大于 0 , 则估计值的方差更小
比较配对样本:正态分布
比较配对样本:正态分布,例 A 数据: Levine(1973) 研究
比较配对样本:正态分布
比较配对样本非参数方法, 符号秩检验 signed rank text