第十章 基于秩次的非参数检验
本章内容: 第一节 配对样本比较的Wilcoxon符号秩检验 第二节 两个独立样本比较的Wilcoxon秩和检验 第三节 完全随机设计多个样本比较的Kruskal-Wallis H 检验 第四节 随机区组设计多个样本比较的Friedman M检验
概述 前面所述的计量资料的t 检验和 F 检验 ,都是基于总体分布为正态分布、总体方差相等的前提下对总体均数进行的检验。这类检验方法总体分布为已知的函数形式,是对其总体参数作假设检验称为参数检验(parametric test)。
若总体分布未知或已知总体分布与检验所要求的条件不符,数据转换也不使其满足参数检验的条件,这时需要采用一种不依赖于总体分布的具体形式,与总体参数无关的检验方法。这种方法不受总体参数的影响,它检验的是分布,不是参数,称为非参数检验(nonparametric test)。
本章介绍常用的秩转换(rank transformation)的非参数检验,也称秩和检验(rank sum test),该类方法在非参数检验中占有重要地位。 秩转换的非参数检验是首先将定量数据从小到大,或等级从弱到强转换成秩后,再求秩和,计算检验统计量—秩统计量,做出统计推断。
由于秩统计量的分布与原数据总体分布无关,具有较好的稳健性,可用于任何分布类型的资料。 例如,一端或两端有不确定数值(如 <0.1,>15.0)的资料、总体分布为偏态或分布不明的小样本(比如n<30)资料、不满足参数检验条件的资料、等级资料等。 如果已知其计量资料满足(或近似满足)参数检验条件的,应该选用参数检验的方法,因为此时若选用秩转换的非参数检验的方法,会降低检验效能。
第一节 配对设计和单样本资料的符号秩和检验
一、 配对设计资料的符号秩和检验
配对设计计量资料两处理效应的比较,一般采用配对t检验,如果差数严重偏离正态分布,可采用Wilcoxon秩检验,亦称符号秩和检验(signed rank test)。一般认为,在数据满足配对t检验要求时,Wilcoxon秩检验的功效是检验效能的95%左右。
目的是推断配对样本差值的总体中位数是否和0有差别,即推断配对的两个相关样本所来自的两个总体中位数是否有差别。方法步骤见例8-1。
例10-1 某研究者欲研究保健食品对小鼠抗疲劳作用,将同种属的小鼠按性别和年龄相同、体重相近配成对子,共10对,并将每对中的两只小鼠随机分到保健食品两个不同的剂量组,过一定时期将小鼠杀死,测得其肝糖原含量(mg/100g),结果见表10-1, 问不同剂量组的小鼠肝糖原含量有无差别?
若多个差值为0,可通过提高测量工具的精度来解决。 检验步骤 1. 建立检验假设,确定检验水平 2. 求检验统计量T值 ①省略所有差值为0的对子数,令余下的有效对子数为n,见表10-1第(4)栏,本例 n=10; 若多个差值为0,可通过提高测量工具的精度来解决。
②按差值的绝对值从小到大编秩,然后分别冠以正负号。遇差值绝对值相等则取平均秩,称为相同秩(ties)(样本较小时,如果相同秩较多,检验结果会存在偏性,因此应提高测量精度,尽量避免出现较多的相同秩), 表10-1第(4)栏差值的绝对值为2.29有2个,其秩依次应为1,2,皆取平均秩为1.5,见表10-1第(5). ③任取正秩和或负秩和为T,本例取T=6.5。
3. 确定P值,作出推断结论 (1)查表法( 时) ,查T界值表(附表9), 判断原则:内大外小 。
(2)正态近似法(n>50时)超出附表9范围,可用正态近似法作u检验。
当n不很大时,统计量Z需要作如下的连续性校正:
二、一组样本资料的符号秩和检验 若单组随机样本来自正态总体,比较其总体均数与某常数是否不同,可用检验;若样本来自非正态总体或总体分布无法确定,也可用Wilcoxon符号秩和检验,检验总体中位数是否等于某已知数值。
例10-2 已知某地正常人尿氟含量的中位数为2.15mmol/L。今在该地某厂随机抽取12名工人,测得尿氟含量(mmol/L),结果见表10-2。问该厂工人的尿氟含量是否高于当地正常人?
1、 求差值 M x d - = ,见 表 10 - 2 的第( 2 )栏。 2、 检验假设 H :差值的总体中位数等于零,即 ) ( = M x d i - = ,见 表 10 - 2 的第( 2 )栏。 2、 检验假设 H :差值的总体中位数等于零,即 ) ( = d Md 1 H :差值的总体中位数不等于零,即 ) ( 箎 d Md 05 . = a 3. 编秩 对差值的绝对值编秩,方法同上。 4 . 求正、负秩和并确定检验统计量 本例, T + =62.5 , T - =3.5 , T + 与 T - 之和为 66 ,恰好等于 11 ( 11 +1)/2 ,表明秩和 的计算无误;取 T = min( T , T ) 3.5 + - = 。
5. 确定P值并做出推断结论 本例,n=11,T=3. 5,查配对设计用T界值表,得P<0. 005,按 α=0
第二节 完全随机化设计两独立样本的秩和检验
一、两组连续变量资料的秩和检验 例10-3 在河流监测断面优化研究中,研究者从某河流甲乙两个断面分别随机抽取10和15个样品,测得其亚硝酸盐氮(mg/L)的含量如表10-3,试比较甲乙两个河流断面亚硝酸盐氮的含量有无差别?
检验 步骤 求检验统计量T值:
确定P值,作出推断结论: (1)查表法 查T界值表(成组设计用),先从左侧找到n1(n1和n2中的较小者),本例为10;再从表上方找两组例数的差(n2-n1),本例,n2-n1=5;在两者交叉处即为T的临界值。将检验统计量T值与T临界值相比,若T值在界值范围内,其P值大于相应的概率;若T值等于界值或在界值范围外,其P值等于或小于相应的概率。本例, 概率为双侧0.05对应的T界值为94~166;T=136.0并未超出该范围,故P>0.05;按α=0.05检验水准,不拒绝H0 。不能认为某河流甲乙断面亚硝酸盐氮含量的总体分布的位置不同。
若Z超过标准正态分布的临界值,则拒绝 。
二、两组有序变量资料的秩和检验 例10-4 某研究者欲评价新药按摩乐口服液治疗高甘油三脂血症的疗效,将高甘油三脂血症患者189例随机分为两组,分别用按摩乐口服液和山楂精降脂片治疗,数据见表10-4,问两种药物治疗高甘油三脂血症的疗效有无不同?
①先确定各等级的合计人数、秩范围和平均秩,见表10-4的(4)栏、(5)栏和(6)栏,再计算两样本各等级的秩和,见(7)栏和(8)栏; ②本例T=7663;
③计算Z值
第三节 完全随机化设计多组独立样本的秩和检验
一、多组连续变量资料的秩和检验 例10-5 某研究者欲研究A、B两个菌种对小鼠巨噬细胞吞噬功能的激活作用,将60只小鼠随机分为三组,其中一组为生理盐水对照组,用常规巨噬细胞吞噬功能的监测方法,获得 三组的吞噬指数,试比较三组吞噬指数有无差别?
二、多组有序变量资料的秩和检验 例10-6 四种疾病患者痰液内嗜酸性粒细胞的检查结果 见表10-6。问四种疾病患者痰液内嗜酸性粒细胞的等级分布 有无差别?
第四节 随机化区组设计资料的秩和检验
例10-7 欲用学生的综合评分来评价四种教学方式的不同, 按照年龄、性别、年级、社会经济地位、学习动机相同和 智力水平、学习情况相近作为配伍条件,将4名学生分为一组, 共8组,每区组的4名学生随机分到四种不同的教学实验组, 经过相同的一段时间后,测得学习成绩的综合评分, 试比较四种教学方式对学生学习成绩的综合评分影响有无不同?
本例属随机化区组设计,观察指标为连续型变量资料, 各实验组(不同教学方式组)来自非正态总体, 不宜做随机化区组设计方差分析。