§6.3 假设检验的基本概念 我们将讨论不同于参数估计的另一类重要的统计推断问题. 这就是根据样本的信息检验关于总体的某个假设是否正确. §6.3 假设检验的基本概念 我们将讨论不同于参数估计的另一类重要的统计推断问题. 这就是根据样本的信息检验关于总体的某个假设是否正确. 这类问题称作假设检验问题 .
何为假设检验? 假设检验是指施加于一个或多个总体的概率分布或参数的假设.所作假设可以是正确的,也可以是错误的. 为判断所作的假设是否正确, 从总体中抽取样本,根据样本的取值,按一定原则进行检验, 然后作出接受或拒绝所作假设的决定.
若对参数 一无所知 用参数估计 的方法处理 若对 参数 有所 了解 但有怀 疑猜测 需要证 实之时 用假设 检验的 方法来 处理
假设检验的内容 总体分布已知时 检验关于未知参 数的某个假设 参数检验 非参数检验 假设检验 总体分布未知时 对分布类型的假 设检验问题
假设检验的理论依据 假设检验所以可行,其理论背景为实际推断原理,即“小概率原理” 人们在实践中普遍采用的一个原则: 小概率事件在一次试验中基本上不会发生 .
小概率事件在一次试验中基本上不会发生. 这里有两个盒子,各装有100个球. 下面我们用一例说明这个原则. 这里有两个盒子,各装有100个球. 99个白球 一个红球 99个红球 一个白球
现从两盒中随机取出一个盒子,问这 个盒子里是白球99个还是红球99个?
我们不妨先假设:这个盒子里有99个白球. 现在我们从中随机摸出一个球,发现是 此时你如何判断这个假设是否成立呢? 假设其中真有99个白球,摸出红球的概率只有1/100,这是小概率事件. 小概率事件在一次试验中竟然发生了, 不能不使人怀疑所作的假设.
例子中所使用的推理方法,可以称为 带概率性质的反证法 不妨称为概率反证法. 它不同于一般的反证法 一般的反证法要求在原假设成立的条件下导出的结论是绝对成立的,如果事实 与之矛盾,则完全绝对地否定原假设.
概率反证法的逻辑是: 如果小概率事件在一次试验中居然发生,我们就以很大的把握否定原假设. 在假设检验中,我们称这个小概率为显著性水平,用 表示. 的选择要根据实际情况而定. 常取
假设检验步骤 例 某工厂生产的一种螺钉,标准要求长度是32.5毫米. 实际生产的产品,其长度X假定服从正态分布 未知,现从该厂生产的一批产品中抽取6件, 得尺寸数据如下: 32.56, 29.66, 31.64, 30.00, 31.87, 31.03 问这批产品是否合格? 分析:这批产品(螺钉长度)的全体组成问题的总体X. 现在要检验E(X)是否为32.5.
已知 X~ 未知. 第一步: 提出原假设和备择假设 第二步: 取一检验统计量,在H0成立下 求出它的分布 能衡量差异 大小且分布 已知
第三步: 对给定的显著性水平 =0.01,查表确定临界值 ,使 即“ ”是一个小概率事件 . 得否定域 W: |t |>4.0322 对给定的显著性水平 =0.01,查表确定临界值 ,使 即“ ”是一个小概率事件 . 小概率事件在一次 试验中基本上不会 发生 . 得否定域 W: |t |>4.0322
这并不意味着H0一定对,只是差异还不够显著,不足以否定H0 . 拒绝域 W: |t |>4.0322 第四步: 将样本值代入算出统计量 t 的实测值, | t |=2.997<4.0322 没有落入 拒绝域 故接受H0 . 这并不意味着H0一定对,只是差异还不够显著,不足以否定H0 .
假设检验步骤 (1) 建立假设 (2) 在 为真时,选择统计量 (3) 确定拒绝域 (4) 作出判断
假设检验的两类错误 假设检验会不会犯错误呢? 由于作出结论的依据是 小概率原理 小概率事件在一次试验中基本上 不会发生 . 不是一定不发生
在给定的前提下,接受还是拒绝原假设完全取决于样本值, 因此所作检验可能导致以下两类错误的产生: 弃真错误 第一类错误 取伪错误 第二类错误
H0为真 实际情况 决定 拒绝H0 接受H0 H0不真 第一类错误 正确 第二类错误 假设检验的两类错误 H0为真 实际情况 决定 拒绝H0 接受H0 H0不真 第一类错误 正确 第二类错误 犯两类错误的概率: 显著性水平 P{第一类错误}= P{拒绝H0|H0为真}= , P{第二类错误}= P{接受H0|H0不真}= .
两类错误是互相关联的, 当样本容量固定时,一类错误概率的减少导致另一类错误概率的增加. 要同时降低两类错误的概率 ,或者要在 不变的条件下降低 ,需要增加样本容量.
§6.4 正态总体的参数检验 1.一个正态总体 (1)关于 的检验 给定显著性水平与样本值(x1,x2,…,xn ) H0 : 0 ; H1 : 0 构造统计量
U 检验法 ”是一个小概率事件. 也就是说,“ 故我们可以取拒绝域为: W: 如果由样本值算得该统计量的实测值落入区域W,则拒绝H0 ;否则,不能拒绝H0 . U 检验法
U 检验法 (2 已知) 原假设 H0 备择假设 H1 检验统计量及其 H0为真时的分布 拒绝域 0 0 0 < 0 0 > 0
T 检验法 (2 未知) 原假设 H0 备择假设 H1 检验统计量及其 H0为真时的分布 拒绝域 0 0 0 < 0 0 > 0
H0: 100 ; H1: 100 U 检验法 构造统计量 拒绝 >
未知. 接受 <
(2)关于 2 的检验 检验法( 已知) 原假设 检验统计量及其在 拒绝域 H0 H0为真时的分布 备择假设 H1 2= 02 2 02 2 02 2< 02 2 02 2> 02
检验法( 未知) 原假设 检验统计量及其在 拒绝域 H0 H0为真时的分布 备择假设 H1 2= 02 2 02 2 02 2< 02 2 02 2> 02
拒绝 >
2. 单侧检验与双侧检验 前面各例的检验,拒绝域取在两侧, ——称为双侧检验. 单侧检验—拒绝域取在左侧或右侧. 下面看一个单侧检验的例子:
例 某织物强力指标X的均值 =21公斤. 改进工艺后生产一批织物,今从中取30件,测得 =21. 55公斤 解:提出假设: 是 一小概率事件 取统计量 否定域为 W : =2.33
代入 =1.2, n=30,并由样本值计算得统计 U=2.51>2.33 故拒绝原假设H0 . 落入否定域 U=2.51>2.33 故拒绝原假设H0 . 这时可能犯第一类错误,犯错误的概率不超过0.01.
随机测试16台马达, 平均消耗电流为0.92安培,标准差为0.32安培. 例 某厂生产小型马达,说明书上写着:在正常负载下平均消耗电流不超过0.8 安培. 随机测试16台马达, 平均消耗电流为0.92安培,标准差为0.32安培. 设马达所消耗的电流 服从正态分布, 取显著性水平为 = 0.05, 问根据此样本, 能否否定厂方的断言? H0 : 0.8 ; H1 : > 0.8 假设 H0 : 0.8 ; H1 : < 0.8
解一 H0 : 0.8 ; H1 : > 0.8 未知, 选检验统计量: 拒绝域为 将 代入得 落在拒绝域外 故接受原假设 H0 , 即不能否定厂方断言.
解二 H0 : 0.8 ; H1 : < 0.8 选用统计量 拒绝域 现 落在拒绝域外 故接受原假设, 即否定厂方断言.
上述两种解法得到不同的结论 第一种假设是不轻易否定厂方的结论; 第二种假设是不轻易相信厂方的结论. 由例可见: 对问题的提法不同(把哪个假设作为原假设),统计检验的结果也会不同.
为何用假设检验处理同一问题会得到截然相反的结果? 这里固然有把哪个假设作为原假设从而引起检验结果不同这一原因;除此外还有一个根本的原因,即样本容量不够大. 若样本容量足够大,则不论把哪个假设作为原假设所得检验结果基本上应该是一样的.否则假设检验便无意义!
由于假设检验是控制犯第一类错 误的概率, 使得拒绝原假设 H0 的决策 变得比较慎重, 也就是 H0 得到特别的 保护. 因而, 通常把有把握的, 经验的 结论作为原假设, 或者尽量使后果严 重的错误成为第一类错误.
3.两个正态总体 设 X ~ N ( 1 1 2 ), Y ~ N ( 2 2 2 ) 两样本 X , Y 相互独立, 样本 (X1, X2 ,…, Xn ), ( Y1, Y2 ,…, Ym ) 显著性水平
(1) 关于均值差 1 – 2 的检验 原假设 H0 备择假设 H1 拒绝域 ( 12,22 已知) 检验统计量及其在 1 = 2 1 2 ( 12,22 已知) 1 2 1 < 2 1 2 1 >2
原假设 拒绝域 H0 其中 1 = 2 1 2 1 2 1 < 2 1 > 2 1 2 备择假设 H1 检验统计量及其在 H0为真时的分布 拒绝域 其中 12, 22未知 12 = 22
(2) 关于方差比 12 / 22 的检验 原假设 拒绝域 H0 1, 2 均未知 备择假设 H1 检验统计量及其在 12 = 22 12 22 1, 2 均未知 12 22 12 < 22 12 22 12 > 22
例 为比较两台自动机床的精度,分别取容量为11和9的两个样本,测量某个指标的尺寸(假定服从正态分布),得到下列结果: 车床甲:6.2, 5.7, 6.0, 6.3, 6.5, 6.0, 5.7, 5.8, 6.0, 5.8, 6.0; 车床乙:5.6, 5.7, 5.9, 5.5, 5.6, 6.0, 5.8, 5.5, 5.7. 在 =0.05时, 问这两台机床是否有同样的精度?
解:设两台自动机床的方差分别为 在 =0.05下检验假设: 其中 为两样本的样本方差 取统计量 否定域为 W: 或
由样本值可计算得F的实测值为: F =2.13 查表得 由于 0.26 < 2.13 < 4.3, 故接受H0 .
例 杜鹃总是把蛋生在别的鸟巢中, 现从两种鸟巢中得到杜鹃蛋24个.其中 9个来自一种鸟巢, 15个来自另一种鸟 例 杜鹃总是把蛋生在别的鸟巢中, 现从两种鸟巢中得到杜鹃蛋24个.其中 9个来自一种鸟巢, 15个来自另一种鸟 巢, 测得杜鹃蛋的长度(mm)如下: n = 9 21.2 21.6 21.9 22.0 22.0 22.2 22.8 22.9 23.2 m = 15 19.8 20.0 20.3 20.8 20.9 20.9 21.0 21.0 21.0 21.2 21.5 22.0 22.0 22.1 22.3
试判别两个样本均值的差异是仅 H0 : 1 = 2 ; H1 : 1 2 由随机因素造成的还是与来自不同的 鸟巢有关 解 取统计量
拒绝域 拒绝H0 即蛋的长度与不同鸟巢有关.
19. 设考生的考试成绩X ~ N ( , 2), 从中 随机地抽取40位考生的成绩,算得平均成绩为68分,标准差为17分. 问在显著性水平0.05下,是否可以认为这次考试的平均成绩为72分? 解
拒绝域: 落在拒绝域外,接受 即认为这次考试的平均成绩为72分.
解:提出假设: 取统计量 否定域为 W : =1.65
U=2.7>1.65 落入否定域 故拒绝原假设H0 .
第一阶段 故接受H0
第二阶段 H0 : 1 = 2 ; H1 : 1 2 取统计量 拒绝H0
23.设总体 是该总体的样本, 已知拒绝域 则犯第二类错误的概率是多少? 对假设检验
拒绝域 > 故接受H0