前面,我们已经了解到,在假设检验中使用的逻辑是: 如果原假设H0 是对的,那么衡量差异大小的某个 统计量落入区域 W(拒绝域) 是个小概率事件. 如果该统计量的实测值落入W, 也就是说, H0 成立下的小概率事件发生了,那么就认为H0不可信而否定它. 否则我们就不能否定H0. 我们称这个小概率为显著性水平,用 表示.
在前面的假设检验中,这个显著性水平是事先给定的. 如 根据给定的显著性水平,我们得到的假设检验结果只有两个,拒绝或不能拒绝原假设. 但作出这一结论或那一结论的可能性有多大,则往往不易清楚地显示出来.
例如从正态分布总体N( , 1)中抽样得X1,X2,…,Xn, 其中n=16. 要检验假设H0: =0; H1: ≠ 0 (显著性水平 =0.05) 取检验统计量为 拒绝域为 W:|U|>1.96
拒绝域为 W:|U|>1.96 设由样本算得 U =1.92, 则根据拒绝域,我们不能拒绝 =0, 也就是只能接受 =0. 设又有另一组样本,由样本算得U=0.48, 结论也是接受 =0. 对这两组样本而言,结论一致. 然而,我们会觉得,在后一场合,作出接受 的结论根据充分一些,而在前一场合,根据就不很够.
为了反映这一点,我们引进 检验的p值.
设有一个原假设H0 ,其拒绝域为|T|>C,T是检验统计量. 若对一组具体样本, 算出统计量T的值为T0,则称这组样本的p值是 p=P(|T|>|T0| | H0) 它的意思是,如果H0是对的,那么看到 |T|>|T0| 的概率有多大? 如果这个概率很小,我们就倾向于拒绝H0; 反之,如果这个概率不是很小,我们就不能拒绝H0.
类似地, 如果拒绝域为T>C,则p值是 p=P(T>T0| H0) , 如果拒绝域为T< C,则p值是 p=P(T<T0| H0 ) T0是对一组具体样本, 算出的统计量T的值. p值是当H0正确时,得到所观测的数据或更极端值的概率.
将显著性 水平 与p值 比较 若 p, 则不能 拒绝H0; 若 p,则拒绝H0.
在实践及各种统计软件中,人们并不事先指定显著性水平的值,而是很方便地利用上面定义的p值 在实践及各种统计软件中,人们并不事先指定显著性水平的值,而是很方便地利用上面定义的p值. 对于任意大于p值的显著性水平,人们可以拒绝原假设,但不能在任何小于它的水平下拒绝原假设. p值是人们可以拒绝原假设的 最小显著性水平
掷一枚均匀硬币100次, 正面55次 反面45次 问这枚硬币是否均匀? 提出假设 其中p为正面出现的概率. 取统计量 近似N(0,1) T H 正面55次 反面45次 问这枚硬币是否均匀? 提出假设 由中心极限定理 其中p为正面出现的概率. 取统计量 近似N(0,1) 为正面出现的频率.
我们来计算检验的p值. 先算出统计量U的实测值 检验的p值是: p=P{|U|>1} =1-P{|U|≤1} =2-2 (1) =2-2(0.8413)=0.3174 若给定显著性水平 <0.3174, U的实测值就不落入拒绝域, 此时不能拒绝H0.
由p值不难看出,出现65次正面时, 拒绝H0的把握较大; 出现60次正面时, 次之. 但若 <0.04, 则不能拒绝H0. 的检验结果 T H U值 决策 值 50次 50次 0.5 0 不能拒绝H0 0.3174 1 不能拒绝H0 45次 55次 40次 60次 0.0456 2 拒绝H0 35次 65次 0.0026 3 拒绝H0 由p值不难看出,出现65次正面时, 拒绝H0的把握较大; 出现60次正面时, 次之. 但若 <0.04, 则不能拒绝H0.
我们来看另一个例子: 1988年7月28日的纽约时报上刊登了一篇有关人们地理知识的文章. 这篇文章中描述了一个研究结果. 研究者们从四个国家抽取许多成年人并请他们鉴别在一张地图上的16个地方(包括13个国家、中非、波斯湾和太平洋);然后把每个人答对的个数加起来. 四个国家的样本中答对的个数的均值如下: 美国 6.9 墨西哥 8.2 大不列颠 9.0 法国 9.2
平均来看,法国的回答者有可能在地图上找到的地方比其他三个国家的人要多. 美国 6.9 墨西哥 8.2 大不列颠 9.0 法国 9.2 几国答对个数 的均值 平均来看,法国的回答者有可能在地图上找到的地方比其他三个国家的人要多. 这篇文章称“从统计显著性方面考虑,得分相差至少应在0.6以上才算有差异.” 也就是说,样本均值的不同可能仅仅归于随机性. 仅当两样本均值相差在0.6以上才认为两国均值是有差异的.
我们用 表示墨西哥的总体均值, 用 表示美国的总体均值 要检验的假设是: 美国 6.9 墨西哥 8.2 大不列颠 9.0 法国 9.2 几国答对个数 的均值 我们来探讨墨西哥的总体均值是否等于美国的总体均值. 我们用 表示墨西哥的总体均值, 用 表示美国的总体均值 要检验的假设是:
已知墨西哥的样本中有1200个观测,美国的样本中有1600个观测. 取检验统计量 已知n1=1200, n2=1600, 计算得t 的实测值等于4.25.
我们来计算检验的p值. 由于样本量很大,我们用正态分布N(0,1)近似 t 分布. 用计算机上软件可求得 p值=P(|t |>4.25)≈0.00001 因此样本均值的差大于等于1.3的概率也是0.00001. 换句话说,从均值相等的总体中抽取大约100000个样本才有可能碰到一次样本均值差在1.3以上,即在总体均值相等的情况下样本均值差异这么大是件罕见的事情 .
于是我们认为导致这个小概率出现的假设-------两总体均值相等是错误的. 因此拒绝假设H0. 即认为墨西哥和美国两个总体均值差异不是0. 或者说,1.3这个差异是统计显著的. 作出这种结论犯错误的概率非常小 . 由前述,只要显著性水平 大于0.00001,人们就可以拒绝原假设.