Download presentation
Presentation is loading. Please wait.
1
第11章 秩转换的非参数检验 (nonparametric test)
2
参数检验 parametric test 如 t 检验: F 检验: 这时,对总体参数的假设检验称为参数检验。
(1)总体分布类型已知,如率服从二项分布、样本均数服从正态分布; (2)由样本参数推断未知总体参数。 这时,对总体参数的假设检验称为参数检验。 如 t 检验: F 检验:
3
非参数检验(nonparametric test)对数据的总体分布类型不作严格假定,又称任意分布检验(distribution-free test),
它直接对总体分布的位置作假设检验。
4
秩转换 rank transformation
将数值变量值从小到大,或等级变量值从弱到强转换成秩次。 例 只大鼠存活天数: 存活天数4,10,7,50,3,15,2,9,13,>60,>60 秩次 例 名 肺炎病人的治疗结果: 危险程度 治愈 治愈 死亡 无效 治愈 有效 治愈 秩次 秩相同取平均秩!!
5
参数检验 非参数检验 (nonparametric test) (parametric test) 已知总体分布类型,对未知参数进行统计推断
对总体的分布类型不作严格要求 不受分布类型的影响,比较的是总体分布位置 依赖于特定分布类型,比较的是参数 优点:方法简便、易学易用,易于推广使用、应用范围广;可用于参数检验难以处理的资料(如等级资料,或含数值“>50mg”等 ) 缺点:方法比较粗糙,对于符合参数检验条件者,采用非参数检验会损失部分信息,其检验效能较低;样本含量较大时,两者结论常相同
6
应用非参数检验的首选情况: 1.不满足正态和方差齐性条件的小样本资料; 2.总体分布类型不明的小样本资料;
3.一端或二端是不确定数值(如<0.002、>65等)的资料(必选); 4.单向有序列联表资料; 5. 各种资料的初步分析。
7
配对样本比较的Wilcoxon符号秩检验 (Wilcoxon signed-rank test)
第一节 配对样本比较的Wilcoxon符号秩检验 (Wilcoxon signed-rank test) 1.配对样本差值的中位数与0的比较 2.单个样本中位数和总体中位数比较
8
1.配对样本差值的中位数和0比较 原方法(检测时间20分钟) 新方法(检测时间10分钟)测谷-丙转氨酶 问两法所得结果有无差别?
例 份血清 原方法(检测时间20分钟) 新方法(检测时间10分钟)测谷-丙转氨酶 问两法所得结果有无差别?
9
*配对差值经正态性检验,得0.1<P<0.2,可用配对t 检验
表 份血清两法测血清谷-丙转氨酶(nmol· S-1/L)的比较
10
检验步骤 1. 建立检验假设,确定检验水平 2. 求检验统计量T值
①省略所有差值为0的对子数,令余下的有效对子数为n,见表8-1第(4)栏,本例 n=11;
11
②按差值的绝对值从小到大编秩,然后分别冠以正负号。遇差值绝对值相等【称为相同秩(ties)】则取平均秩,(样本较小时,如果相同秩较多,检验结果会存在偏性,因此应提高测量精度,尽量避免出现较多的相同秩)
③任取正秩和或负秩和为T,本例取T=11.5。
12
3. 确定P值,作出推断结论 (1)当n≤50时,查T界值表(附表9,p534) 判断原则:T 在范围之外,P< ;
13
(2)若当n>50,超出附表9范围,可用正态近似法作Z检验。
14
2.单个样本中位数和总体中位数比较 例8-2 已知某地正常人尿氟含量的中位数为45.30 。(总体中位数)
例8-2 已知某地正常人尿氟含量的中位数为 。(总体中位数) 12名工人尿氟含量见表8-2第(1)栏(样本) 。问该厂工人的尿氟含量是否高于当地正常人? 与样本均数与总体均数比较的t检验的资料类型相同
15
表 名工人的尿氟含量与45.30( )比较 据经验尿氟含量不符合正态分布(本例为小样本资料,虽经正态性检验,得 ,但还是作非正态分布资料处理。
16
据表8-2第(3)、(4)栏,取T=1.5。
17
两个独立样本比较的Wilcoxon秩和检验Wilcoxon rank sum test
第二节 两个独立样本比较的Wilcoxon秩和检验Wilcoxon rank sum test
18
1.区间(计量)数据的两样本比较 符合参数条件时,采用两样本均数的t检验
19
例8-3 表8-5 肺癌病人和矽肺0期工人的RD值(cm)比较
20
检验 步骤 求检验统计量T 值: (同一组可直接写秩号)
21
确定P值,作出推断结论: p535
23
2.两样本等级(有序)资料的比较 表8-6 吸烟工人和不吸烟工人的HbCO(%)含量比较
24
①先确定各等级的合计人数、秩范围和平均秩,见表8-6的(4)栏、(5)栏和(6)栏,再计算两样本各等级的秩和,见(7)栏和(8)栏;
②本例T=1917;
25
③计算Z值
26
两独立样本比较还常用Mann-Whitney U检验
原理: 把第一个样本的n1(小于等于n2 )个变量值的每一个值,与第二个样本的每个变量值X逐个进行比较,每次比较均记录比较的结果: 小于X记1,与X相等记0.5,大于X记0。 比较结果之和即为U值。 例如:表8-5资料
27
表8-5 肺癌病人和矽肺0期工人的RD值(cm)比较
代入P129公式(8-3)计算Z值
28
完全随机设计多个样本比较的 Kruskal-Wallis H检验
第三节 完全随机设计多个样本比较的 Kruskal-Wallis H检验
29
一、多个独立样本(计量)比较的 Kruskal-Wallis H检验
H0 :多个总体分布位置相同; H1 :多个总体分布位置不全相同。 如果满足参数条件,这类资料一般作完全随机设计ANOVA
30
例8-5
33
样本数据存在相同秩的情况 例 比较小白鼠接种三种不同菌型伤寒杆菌9D、11C和DSC1后存活日数,结果见表8-10。问小白鼠接种三种不同菌型伤寒杆菌的存活日数有无差别?
36
2.多个有序(等级)数据样本的比较 例8-7
39
二、多个独立样本作两两比较的 Nemenyi法检验
当经过多个独立样本比较的kruskal-Wallis H检验拒绝H0,接受H1 ,认为多个总体分布位置不全相同时,若要进一步推断是哪两两总体分布位置不同,可用Nemenyi法检验(Nemenyi test)。
42
第四节 随机区组设计多个样本比较的 Friedman M检验
43
一、Friedman M检验方法 例8-9 8名受试对象在相同实验条件下分别接受4种不同频率声音的刺激,他们的反应率(%)资料见表8-12。问4种频率声音刺激的反应率是否有差别?
48
二、两两比较的q检验 当经过多个相关样本比较的Friedman M检验拒绝H0 ,接受H1 ,认为多个总体分布位置不全相同时,若要进一步推断是哪两两总体分布位置不同,可用q检验。
49
.
52
参数检验 parametric test 如 t 检验: F 检验: 这时,对总体参数的假设检验称为参数检验。
(1)总体分布类型已知,如率服从二项分布、样本均数服从正态分布; (2)由样本参数推断未知总体参数。 这时,对总体参数的假设检验称为参数检验。 如 t 检验: F 检验:
53
非参数检验(nonparametric test)对数据的总体分布类型不作严格假定,又称任意分布检验(distribution-free test),
它直接对总体分布的位置作假设检验。
54
秩转换 rank transformation
将数值变量值从小到大,或等级变量值从弱到强转换成秩次。 例 只大鼠存活天数: 存活天数4,10,7,50,3,15,2,9,13,>60,>60 秩次 例 名 肺炎病人的治疗结果: 危险程度 治愈 治愈 死亡 无效 治愈 有效 治愈 秩次 秩相同取平均秩!!
55
参数检验 非参数检验 (nonparametric test) (parametric test) 已知总体分布类型,对未知参数进行统计推断
对总体的分布类型不作严格要求 不受分布类型的影响,比较的是总体分布位置 依赖于特定分布类型,比较的是参数 优点:方法简便、易学易用,易于推广使用、应用范围广;可用于参数检验难以处理的资料(如等级资料,或含数值“>50mg”等 ) 缺点:方法比较粗糙,对于符合参数检验条件者,采用非参数检验会损失部分信息,其检验效能较低;样本含量较大时,两者结论常相同
56
Nonparametric statistics
非参数统计 Nonparametric statistics
57
参数分析和非参数分析 1)参数分析(parametric analysis):要求数据取自分布为已知的总体,或对数据的分布有要求。
2)非参数分析(nonparametric analysis):不要求数据取自分布为已知的总体,或对数据的分布无要求。不依赖总体分布具体形式的检验方法.。 例如:总体均数估计,t-test, ANOVA 用样本统计量对已知分布的未知参数进行估计或检验。 。
58
非参数分析方法的应用 1)配对两样本的比较 2)成组两样本的比较 3)成组多样本的比较 4)配伍多样本的比较 5)变量之间的关联性
59
一、Wilcoxon 符号秩和检验 应用: 配对样本总体均值的比较
60
1、Wilcoxon 符号秩和检验的概念 Wilcoxon 符号秩 (sign rank):将数据按其绝对值大小由小到大排列(0排除在外),给出顺序号(如果数据相同,取其顺序号的均数);然后每一个顺序号赋予一个和原数据相同的符号。这样得到的数称为符号秩。
61
例如:Wilcoxon符号秩的求法 Id x x d d rank
62
符号秩和 (sum of sign rank):
正秩和 T(+) =所有正的符号秩之和; 负秩和 T( - )=所有负的符号秩的绝对值之和。 例如: T(+)= =21.3 T (-)=| |=6.5 Id x x d rank
63
2、Wilcoxon符号秩和检验的方法步骤
1)统计假设: 2)计算秩、秩和、有效对子数n和T: T=min{T(+), T(-)} 3)确定统计量及其分布:当H0成立时,
64
连续性校正公式: 4)作出统计结论: a)当n 较小时,查附表10,确定推断H0的p-值: 如果T< T(n,α),则 p <α; 如果T >T(n,α),则 p >α。 b)当n 较大时,利用近似正态分布性进行统计推断。
65
3、Wilcoxon符号秩和检验法的应用举例
例1a: Id x x d rank
66
(3) 求T(+)和T(-):T(+)=21.5,T(-)=6.5 (4) 求T T=min{T(+), T(-)}=6.5
1. 建立检验假设,确定检验水准 α= 0.05 2. 计算统计量T 求差值d (2) 给d编秩并带上符号 (3) 求T(+)和T(-):T(+)=21.5,T(-)=6.5 (4) 求T T=min{T(+), T(-)}=6.5 3. 确定概率,判断结果 n=7,查附表10,T>T(7, 0.05)=2, p>0.05,不拒绝H0。
67
SAS 程序 data d1; input id x1 x2 ; d=x1-x2; cards; run; proc univariate; var d;
68
SAS 输出结果 Univariate Procedure Variable=D1 Moments N Sum Wgts Mean Sum Std Dev Variance Skewness Kurtosis USS CSS CV Std Mean T:Mean= Pr>|T| Num ^= Num > M(Sign) Pr>=|M| Sgn Rank Pr>=|S|
69
例1b:研究者用配对设计研究两种处理方法结果有无差异。由于数据不满足参数检验的假设条件,现决定用Wilcoxon符号秩和检验法分析数据。经计算两组数据差值 d 的符号秩和T=50, 有效对子数 n=59,试作统计推断。
70
2. 计算统计量 3. 确定P值,判断结果 1. 建立检验假设,确定检验水准 α= 0.05 T=50, n=59
z=6.30>2.58,P<0.01, 在α= 0.05检验水准上拒绝H0,可认为两种处理方法结果有显著性差异。
71
二、Wilcoxon 秩和检验 应用: 成组设计(完全随机设计)两样本总体均值的比较
72
1、Wilcoxon 秩和检验的概念 Wilcoxon 秩 (rank):将所有数据由小到大排列,给出顺序号(如果数据相同,取其顺序号的均数)。这样得到的数称为秩。 Wilcoxon秩的求法: Id x rank id x rank
73
秩和 (sum of rank): 秩和 T1 =样本数小的秩之和 秩和 T2=n1(n1+n2+1) – T1(假设 n1<n2) 例如: n1=6, n2=7,T1=36.5, T2=6(6+7+1) -36.5=47.5。 Id x rank id x rank 组秩和:
74
2、秩和检验的方法步骤 1)统计假设: 2)计算秩、秩和、样本数n1,n2和T: T=min{T1, T2}
3)确定统计量及其分布:当H0成立时,
75
连续性校正公式: 4)作出统计结论: a)当n 较小时,查附表11,确定推断H0的p-值: 如果T< T(n1,n2,α),则 p <α; 如果T >T(n1,n2,α),则 p >α。 b)当n 较大 时,利用近似正态分布性进行统计推断。
76
3、Wilcoxon秩和检验法的应用举例 例2a: Id x rank id x rank
77
2. 计算统计量T T=36.5, 3. 确定P值,判断结果 1. 建立检验假设,确定检验水准 α= 0.05
n1=6, n2=7, 查附表11得: T(6,7, 0.05)=27, T>T(6,7, 0.05), p>0.05,不拒绝H0。
78
SAS 程序 data d2; do id=1 to 7; do a=1 to 2; input y output; end; cards; run; proc npar1way data=d2 wilcoxon; class a; var y;
79
SAS 输出结果 N P A R 1 W A Y P R O C E D U R E
Wilcoxon Scores (Rank Sums) for Variable Y Classified by Variable A Sum of Expected Std Dev Mean A N Scores Under H0 Under H Score Average Scores Were Used for Ties Wilcoxon 2-Sample Test (Normal Approximation) (with Continuity Correction of .5) S = Z = Prob > |Z| =
80
例2b: 为研究慢性支气管病人痰液中嗜酸性粒细胞是否高于正常人,选择了24名正常人和44名患者。由于数据不满足参数检验的假设条件,现决定用Wilcoxon秩和检验法来分析数据。经计算正常人组的秩和T=560.5, 试作统计推断。
81
1. 建立检验假设,确定检验水准 α= 0.05 2. 计算统计量 T=560.5, n1=24,n2=44 3. 确定P值,判断结果 z=3.43>2.58,P<0.01, 在0.05检验水准上拒绝H0。 即可认为两者有显著性差异。
82
三、 Kruskal-Wallis 秩和检验
应用: 成组设计(完全随机设计)多个样本总 体均值的比较
83
1、Kruskal-Wallis 秩和检验的概念
K-W 秩 (rank):将所有数据由小到大排列,给出顺序号(如果数据相同,取其顺序号的均数)。这样得到的数称为秩。 例如:K-W秩的求法: x rank x rank x rank
84
秩和 (sum of rank): 组秩和 Ti =第 i 组的秩之和。 例如: n1=4, T1=16.5 n2=4, T2=26.0 n3=4, T3=35.5 n=n1+n2+n3=12 x rank x rank x rank
85
2、K-W秩和检验的方法步骤 1)统计假设: 2)计算秩和各组的秩和 Ti 和样本数 ni 3)确定统计量H:
86
当数据中有秩次相同的数据时: 其中, 4)作出统计推断。 当n 较小时,查附表13,确定推断H0 的 p-值; 如果min{ni}>5,用上述卡方分布作推断。
87
3、K-W秩和检验法的应用举例 例3a: x rank x rank x rank
88
1. 建立检验假设,确定检验水准 2. 计算统计量H H=3.496 3. 确定P值,判断结果 α= 0.05
1. 建立检验假设,确定检验水准 α= 0.05 2. 计算统计量H H=3.496 3. 确定P值,判断结果 查附表13,得到:p>0.10;不拒绝H0。
90
data d3; do id=1 to 4; do a=1 to 3; input y output; end; cards; run; proc npar1way wilcoxon; class a; var y; SAS 程序
91
SAS 输出结果 N P A R 1 W A Y P R O C E D U R E
Wilcoxon Scores (Rank Sums) for Variable Y Classified by Variable A Sum of Expected Std Dev Mean A N Scores Under H0 Under H Score Average Scores Were Used for Ties Kruskal-Wallis Test (Chi-Square Approximation) CHISQ = DF = Prob > CHISQ =
92
例3b:随机抽样得到正常人(A=1)、单纯性肥胖(A=2)和皮质醇增多症(A=3)的血浆总皮质醇测定值。问这三组人的血浆总皮质醇测定值有无显著性差异?
A=1 R1 A=2 R2 A=3 R3 Ti
93
1. 建立检验假设,确定检验水准 2. 计算统计量H 3. 确定P值,判断结果 α= 0.05
H=18.129> 2(0.01,2)=9.21, P<0.01, 拒绝H0,即三个组的测定值有显著性差异。
94
SAS 程序 data d4; do id=1 to 10; do a=1 to 3; input y @@; output; end;
cards; run; proc npar1way wilcoxon; class a; var y;
95
SAS 输出结果 N P A R 1 W A Y P R O C E D U R E
Wilcoxon Scores (Rank Sums) for Variable Y Classified by Variable A Sum of Expected Std Dev Mean A N Scores Under H0 Under H Score Average Scores Were Used for Ties Kruskal-Wallis Test (Chi-Square Approximation) CHISQ = DF = Prob > CHISQ =
96
四、Nemenyi 秩和检验 应用: 多个样本总体均值的两两比较
97
1、Nemenyi 秩和检验的方法步骤 1)统计假设: 2)计算第i组与第j组的平均秩和之差dij: 3)计算临界值:
4)结论:如果dij > d (i,j,α),则在α水平上拒绝H0。
98
2、 Nemenyi 秩和检验的应用举例 例3c,对三组人的血浆总皮质醇测定值进行多重比较。 α= 0.05 1)
在例3b中,H=18.129,S2=77.47, T1=96.5,T2=117.5,T3=251 因为组样本数相同,所以三个临界值相同,它是: 2 d(0.01)=6.9211 = 即 d(1,2)=2.1, p>0.05,不拒绝H0。
99
2)同理,d(1,3)=15.45,p<0.01,拒绝H0; d(2,3)=13.35,p<0.01,拒绝H0。
各组之间平均等级的两两比较 比较组别 P 1与2 2.1 >0.05 1与3 15.45 <0.01 2与3 13.35
100
五、Friedman 秩和检验 应用: 随机区组资料多个样本总体均值的总比较
101
例:今测得6名产妇羊水中前列腺素含量(ng)如下表,问不同时间羊水中前列腺素含量差别有无统计学意义?
102
表15.12 不同时间产妇羊水中前列腺素含量(ng)
编号 用药前 用药后1小时 产程开始 分娩时 (1) 0.040(2) (3) 22.2(4) (1) (2) (3) 21.1(4) (1) (2) (3) 17.7(4) (1) (2) (3) (4) (2) (1) (3) 14.58(4) (1) (2) (3) 13.93(4) mi (mi - E) (mi - E)
103
1. 建立检验假设,确定检验水准 2. 计算统计量M H0:不同时间羊水中前列腺素含量相同。
α= 0.05 2. 计算统计量M (1)在各区组(b)内编秩,相同数据取平均秩次 (2)求各处理组(k)秩和mi (3) 求平均秩E: b:区组数,k:处理数 本例b=6,k=4,则 (4) 计算M
104
3. 确定概率,判断结果 查附表12,当b=6,k=4时,M0.05=76。
因M=170>M0.05,P<0.05,故可认为不同时间羊水中前列腺素含量差异有统计学意义。 20.05(3)=7.81, 20.01(3)=11.34 2=17> 20.01(3) , P<0.01
105
SAS 程序 data a; input block group y @@; cards;
; Proc freq; tables block*group*y / noprint cmh2 scores=rank; run;
106
SAS 输出结果 The FREQ Procedure Summary Statistics for group by y
Controlling for block Cochran-Mantel-Haenszel Statistics (Based on Rank Scores) Statistic Alternative Hypothesis DF Value Prob Nonzero Correlation <.0001 Row Mean Scores Differ Total Sample Size = 24
107
六、随机区组资料的两两比较(P215) 应用: 随机区组资料多个样本总体均值的两两比较
108
七、等级相关 应用: 两个样本的相关分析 当两个变量不服从正态分布时,可以采用等级相关分析。
109
回忆: Pearson相关系数的估计和检验 1)估计相关系数ρ,估计公式: y x 80 307 75 259 90 341 70 237
其中,{xi}和{yi}是服从正态分布的两个随机变量, 分别是这两个随机变量的均值。
110
2、 计算估计值r 的标准误 3、 ρ的假设检验 H0: ρ=0 vs H1: ρ≠0 4、统计推断结论:查ν=n-2 的 t-分布表。
111
Spearman 相关系数的估计和检验 1、ρ的估计公式:
当两个随机变量{xi}和{yi}不服从正态分布或分布未知时,用下面公式估计相关系数,这就是Spearman相关系数。 其中{si}和{ti}分别是{xi}和{yi}的秩, 分别是{si}和{ti}的均值。
112
超出该表范围,可直接查相关系数界值表,=n-2
Spearman相关系数ρ的简化公式: 其中,d= s-t 2、 ρ 的假设检验 H0: ρ=0 vs H1: ρ≠0 n<50, 查附表14。 超出该表范围,可直接查相关系数界值表,=n-2
113
【例15. 6】 某地作肝癌病因研究,调查了10个不同地区肝癌死亡率(1/10万)与某种食物中黄曲霉素相对含量,见表15
【例15.6】 某地作肝癌病因研究,调查了10个不同地区肝癌死亡率(1/10万)与某种食物中黄曲霉素相对含量,见表15.16第(2)、(4)栏。试作等级相关分析 。
114
地区 黄曲霉素 肝癌 等级差 编号 相对含量x 等级 死亡率Y d d2 (1) (2) (3) (4) (5) (6)=(3)-(5)
等级差平方 编号 相对含量x 等级 死亡率Y d d2 (1) (2) (3) (4) (5) (6)=(3)-(5) (7)=(6)2 1 0.7 21.5 3 2 4 2 1.0 18.9 1.7 14.4 3.7 46.5 7 3 9 5 4.0 27.3 6 5.1 64.6 5.5 46.3 8 5.7 34.2 5.9 77.6 10 1 10.0 55.1 合计 42
115
H1:不同地区肝癌死亡率与黄曲霉素相对含量相关。
1. 建立检验假设,确定检验水准 H0: 不同地区肝癌死亡率与黄曲霉素相对含量不相关。 H1:不同地区肝癌死亡率与黄曲霉素相对含量相关。 α= 0.05 2. 计算统计量rs (1)编等级 (2)求等级差d及d2 (3) 计算rs rs=1- 3. 确定概率,判断结果 查表得rs0.05(10)=0.648, rs0.01(10)=0.794 P<0.05, 拒绝H0,可认为黄曲霉素与肝癌死亡率间 存在正相关。
116
data d5; input x y @@; cards;
run; proc corr nosimple spearman; var x y; SAS 程序
117
SAS 输出结果 Correlation Analysis 2 'VAR' Variables: X Y
Spearman Correlation Coefficients / Prob > |r| under Ho: Rho=0 / N = 10 X Y X Y SAS 输出结果
118
SUMMARY Wilcoxon符号秩和检验:配对设计两样本比较 Wilcoxon秩和检验:成组设计两样本比较
Kruskal-Wallis秩和检验:成组设计多样本比较 Nemenyi秩和检验:成组设计多样本两两比较 Friedman秩和检验:随机区组设计资料的多样本比较 Spearman 相关系数的估计和统计检验。
119
作业:实习册—P27:2,3,4 P ,4
Similar presentations