第十一章 非参数检验 (nonparametric test).

Slides:



Advertisements
Similar presentations
考试 1. 时间 :2011 年 11 月 14 日 18:30 2. 地点 : 待定 3. 方式 : 开卷考试 4. 题目类型:待定 5. 计算机操作要求:会用 spss 录数据、计算机 操作、认读结果、制作统计表、按假设检 验步骤进行假设检验.
Advertisements

主编 周仁郁. 4.1 非参数检验 配对秩和检验( Wilcoxon 法) 不依赖总体分布类型, 也不对总体参数进行统计推 断的假设检验, 称为非参数检验 配对资料比较时,H 0 为差值总体中位数 M d = 0 H 0 成立时, 配对数据的差值服从以 0 为中心的对称 分布. 把差值按绝对值从小到大用.
第十二章 非参数检验 (Nonparametric test)
SPSS 軟體與統計應用 Ya-Yun Cheng, How-Ran Guo
第八章 秩转换的非参数检验 (Nonparametric Test)
優良教師徵選 候選人:李采娟.
SPSS系统教程.
第五讲 非参数统计分析 吴成秋 南华大学公共卫生学院
Dr. Baokun Li 经济实验教学中心 商务数据挖掘中心
The application of medical statistics methods
人群健康研究的统计方法 预防医学系 指导教师:方亚 电话:
统 计 学 (第三版) 2008 作者 贾俊平 统计学.
第十章 基于秩次的非参数检验.
How to Use SPSS in Biomedical Data analysis
概率论与数理统计 课件制作:应用数学系 概率统计课程组.
生物統計與SAS軟體課程教學(三) 雙變項統計分析(一)
第六章 方差分析 (Analysis of Variance,ANOVA)
课题:人的高贵在于灵魂 湘潭就业职校:杨秀红.
6.6 单侧置信限 1、问题的引入 2、基本概念 3、典型例题 4、小结.
完全随机设计多样本资料秩和检验.
  秩转换的非参数检验 吴成秋 公共卫生学院预防医学系.
第 八 章 t 检 验.
第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 实习2 主讲人 陶育纯 医学统计学方法 实习2 主讲人 陶育纯 流行病与卫生统计学教研室
Dr. Hamda Qotba, B.Med.Sc, M.D, ABCM 翻译:acred(DXY)
第11章 秩转换的非参数检验 (nonparametric test).
無母數統計方法 符號檢定法 W-符號等級檢定法 W-等級和檢定法 K-W檢定法 連檢定 結論
Analysis of Variance 變異數分析
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
SAS  統計程序實作 CONTENTS By DR. Yang , Yi-Chiang /11/11.
第十章 兩母體之假設檢定 Inferences Based on Two-Samples:
第十六章 無母數統計.
第十六章 無母數統計 陳順宇 教授 成功大學統計系.
第二章 SAS的描述统计功能 2.1 描述性统计的基本概念 2.2 在SAS中计算统计量 2.3 统计图形.
第七章 SPSS的非参数检验.
第13章 有序分类变量的统计推断——非参数检验
用于计算智能研究 和人类主观测试的 统计检验 Hideyuki TAKAGI 日本 九州大学
4 統計分析程序的選擇.
统计软件应用 6 主讲人 陶育纯 SPSS统计分析 统计软件应用 6 主讲人 陶育纯 教案.
第十章 方差分析.
論文計畫書 國軍人員對廢軍品管理現況之研究─以空軍 後勤單位為例 指導教授:胡子陵博士 研究生:劉俊德.
受欢迎的课堂具有什么特征 课堂观察研究 问卷调查研究
第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 实习3 主讲人 陶育纯 医学统计学方法 实习3 主讲人 陶育纯 流行病与卫生统计学教研室
第七章 参数估计 7.3 参数的区间估计.
医学统计学方法 实习3 主讲人 陶育纯 医学统计学方法 实习3 主讲人 陶育纯
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 6 主讲人 陶育纯 医学统计学方法 6 主讲人 陶育纯 流行病与卫生统计学教研室
抽样和抽样分布 基本计算 Sampling & Sampling distribution
Introduction to Basic Statistics
数据分析的统计方法选择小结.
Introduction to Basic Statistics
模型分类问题 Presented by 刘婷婷 苏琬琳.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
第1章 数据的描述性分析 1.1 数据的数字特征 数据分析研究的对象是数据,一元数据是 个观测值
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
完全随机设计多组资料的比较 赵耐青 卫生统计教研室.
第五章 多总体的统计检验.
統 計 學 Power Power of the two-sample t test depends on four factors.
SAS软件应用基础 SAS过程步.
研究所生物統計課程整合說明 課程規劃及修課建議 楊奕馨 高雄醫學大學 藥學系 研究所生統課程授課教師
第7章 基本统计分析 2019/5/14.
第四节 多个样本均数的两两比较 多个样本均数的两两比较又称多重比较(multiple comparison),其目的是推断究竟哪些总体均数之间存在差别。
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
第三节 随机区组设计的方差分析 随机区组设计资料的总平方和可以分解为三项: (10.10).
Logistic回归 Logistic regression 研究生《医学统计学》.
统计工具的使用方法 主讲人 陶育纯 统计工具的使用方法 主讲人 陶育纯
第十五讲 区间估计 本次课讲完区间估计并开始讲授假设检验部分 下次课结束假设检验,并进行全书复习 本次课程后完成作业的后两部分
二、配对样本t检验 配对设计(paired design)定义:将受试对象按某些重要特征相近的原则配成对子,每对中的两个个体随机地给予两种处理,称为随机配对设计。
SAS 統計程序實作 PROC GLM 變異數分析 (PROC ANOVA)
SAS 統計程序實作 PROC NPAR1WAY 無母數檢定
SAS 統計程序實作 PROC MEANS (一個母體)
Presentation transcript:

第十一章 非参数检验 (nonparametric test)

参数检验 parametric test 如 t 检验: F 检验: 这时,对总体参数m、p的假设检验称为参数检验。 (1)总体分布类型已知,如率服从二项分布、样本均数服从正态分布; (2)由样本统计量推断未知总体参数。 这时,对总体参数m、p的假设检验称为参数检验。 如 t 检验: F 检验:

非参数检验(nonparametric test)对数据的总体分布类型不作严格假定,又称任意分布检验(distribution-free test), 它直接对总体分布的位置作假设检验。

参数检验 非参数检验 (nonparametric test) (parametric test) 已知总体分布类型,对未知参数进行统计推断 对总体的分布类型不作严格要求 不受分布类型的影响,比较的是总体分布位置 依赖于特定分布类型,比较的是参数 优点:方法简便、易学易用,易于推广使用、应用范围广;可用于参数检验难以处理的资料(如等级资料,或含数值“>50mg”等 ) 缺点:方法比较粗糙,对于符合参数检验条件者,采用非参数检验会损失部分信息,其检验效能较低;样本含量较大时,两者结论常相同

应用非参数检验的情况 1.不满足正态和方差齐性条件的小样本资料; 2.总体分布类型不明的小样本资料; 3.一端或二端是不确定数值(如<0.002、>65等)的资料(必选); 4.单向有序列联表资料; 5. 各种资料的初步分析。

本章介绍的非参数统计方法 均基于秩次 秩次(rank)——将数值变量值从小到大,或等级变量值从弱到强所排列的序号。 例1 11只大鼠存活天数: 存活天数4,10,7,50,3,15,2,9,13,>60,>60 秩次 3 6 4 9 2 8 1 5 7 10 11 10.5 10.5 例2 7名 肺炎病人的治疗结果: 危险程度 治愈 治愈 死亡 无效 治愈 有效 治愈 秩次 1 2 7 6 3 5 4 平均秩次 2.5 2.5 7 6 2.5 5 2.5 秩次相同(tie)取平均秩次!!

第二节 两个独立样本检验 Wilcoxon秩和检验 Wilcoxon rank sum test 第二节 两个独立样本检验 Wilcoxon秩和检验 Wilcoxon rank sum test 1.区间(计量)数据的两样本比较 2.有序(等级)数据的两样本比较

1.区间(计量)数据的两样本比较 符合参数条件时,采用两样本均数的t检验

例11.1 表11.1 不同作业的两组工人的血铅值 例数较小者为n1、T1

检验步骤 H0:两组总体分布位置相同; H1 :分布位置不相同;α=0.05 求检验统计量T 值 (同一组可直接写秩号)

确定P值,作出推断下结论 1. 查表法 (样本含量较小,根据T查P值) 本书为附表11 2. 较大作正态近似性检验

data a; input y g; cards; 5 1 6 1 7 1 9 1 12 1 13 1 15 1 18 1 21 1 17 2 18 2 20 2 25 2 34 2 43 2 2 ; proc npar1way wilcoxon; class g; var y; run; SAS 程序

SAS 输出结果 The NPAR1WAY Procedure Wilcoxon Scores (Rank Sums) for Variable y Classified by Variable g Sum of Expected Std Dev Mean g N Scores Under H0 Under H0 Score ----------------------------------------------------------------- 1 10 59.50 90.0 10.234386 5.950000 2 7 93.50 63.0 10.234386 13.357143 Average scores were used for ties. Wilcoxon Two-Sample Test Statistic 93.5000 Normal Approximation Z =2.9313 One-Sided Pr > Z 0.0017 Two-Sided Pr > |Z| 0.0034 t Approximation One-Sided Pr > Z 0.0049 Two-Sided Pr > |Z| 0.0098 Z includes a continuity correction of 0.5. Kruskal-Wallis Test Chi-Square 8.8813 DF 1 Pr > Chi-Square 0.0029

2.有序(等级)数据的两样本比较 常错误采用 卡方检验 名义数据的两样本比较,采用率或构成比的卡方 检验

表 吸烟与不吸烟工人的HbCO(%)含量的比较

①先确定各等级的合计人数、秩范围和平均秩,见表8-6的(4)栏、(5)栏和(6)栏,再计算两样本各等级的秩和,见(7)栏和(8)栏; ②本例T=1917;

③计算Z值

data a; input y g FREQ; cards; 1 1 1 2 1 8 3 1 16 4 1 10 5 1 4 1 2 2 2 2 23 3 2 11 4 2 4 5 2 0 ; proc npar1way wilcoxon; class g; FREQ FREQ; var y; run; SAS 程序

SAS 输出结果 The NPAR1WAY Procedure Wilcoxon Scores (Rank Sums) for Variable y Classified by Variable g Sum of Expected Std Dev Mean g N Scores Under H0 Under H0 Score ----------------------------------------------------------------- 1 39 1917.0 1560.0 96.426663 49.153846 2 40 1243.0 1600.0 96.426663 31.075000 Average scores were used for ties. Wilcoxon Two-Sample Test Statistic 1917.0000 Normal Approximation Z = 3.6971 One-Sided Pr > Z 0.0001 Two-Sided Pr > |Z| 0.0002 t Approximation One-Sided Pr > Z 0.0002 Two-Sided Pr > |Z| 0.0004 Z includes a continuity correction of 0.5. Kruskal-Wallis Test Chi-Square 13.7070 DF 1 Pr > Chi-Square 0.0002

第三节 K个独立样本检验 1.区间(计量)数据的多个样本比较 2.有序(等级)数据的多个样本比较 完全随机设计多个样本比较的 Kruskal-Wallis H检验 1.区间(计量)数据的多个样本比较 2.有序(等级)数据的多个样本比较

1.区间(计量)数据的多个样本比较 Kruskal-Wallis H检验 H0 :多个总体分布位置相同; H1 :多个总体分布位置不全相同。 如果满足参数条件,这类资料一般作完全随机设计ANOVA

data a; input y g; cards; 32.5 1 35.5 1 40.5 1 46 1 49 1 16 2 20.5 2 22.5 2 29 2 36 2 6.5 3 9 3 12.5 3 18 3 24 3 ; proc npar1way wilcoxon; class g; var y; run; SAS 程序

SAS 输出结果 The NPAR1WAY Procedure Wilcoxon Scores (Rank Sums) for Variable y Classified by Variable g Sum of Expected Std Dev Mean g N Scores Under H0 Under H0 Score ----------------------------------------------------------------- 1 5 63.0 40.0 8.164966 12.60 2 5 38.0 40.0 8.164966 7.60 3 5 19.0 40.0 8.164966 3.80 Kruskal-Wallis Test Chi-Square 9.7400 DF 2 Pr > Chi-Square 0.0077

2.有序(等级)数据的多个样本比较 这种数据常被错误采用卡方检验

data a; input y g FREQ; cards; 1 1 0 2 1 2 3 1 9 4 1 6 1 2 3 2 2 5 3 2 5 4 2 2 1 3 5 2 3 7 3 3 3 4 3 2 1 4 3 2 4 5 3 4 3 4 4 0 ; proc npar1way wilcoxon; class g; FREQ FREQ; var y; run; SAS 程序

SAS 输出结果 The NPAR1WAY Procedure Wilcoxon Scores (Rank Sums) for Variable y Classified by Variable g Sum of Expected Std Dev Mean g N Scores Under H0 Under H0 Score ----------------------------------------------------------------- 1 17 739.50 518.50 58.490529 43.500000 2 15 436.50 457.50 56.205491 29.100000 3 17 409.50 518.50 58.490529 24.088235 4 11 244.50 335.50 50.225150 22.227273 Average scores were used for ties. Kruskal-Wallis Test Chi-Square 15.5058 DF 3 Pr > Chi-Square 0.0014

多个独立样本作两两比较的 Nemenyi法检验

第四节 两个相关样本检验 配对样本比较的Wilcoxon符号秩检验 (Wilcoxon signed-rank test) 第四节 两个相关样本检验 配对样本比较的Wilcoxon符号秩检验 (Wilcoxon signed-rank test) 1.配对样本差值的中位数与0的比较 2.单个样本中位数和总体中位数比较

1.配对样本差值的中位数与0的比较 表 12份血清两法测血清谷-丙转氨酶(nmol· S-1/L)的比较

检验步骤 3. 确定P值,作出推断结论 1. 建立检验假设,确定检验水平 2. 求检验统计量T值 ①省略所有差值为0的对子数 ②按差值的绝对值从小到大编秩,相同秩(ties)】则取平均秩 ③任取正秩和或负秩和为T,本例取T=11.5。 3. 确定P值,作出推断结论

T 在范围之内,P> (T范围越小,P越大) (1)当n≤50时,查T界值表(附表10) 判断原则:T 在范围之外,P< ; T 在范围之内,P> (T范围越小,P越大) n=11,  =0.10 :13-53  =0.05 :10-56 T=11.5 (2)若当n>50,超出附表9范围,可用正态近似法作z检验。

SAS 程序 data d1; input id x1 x2 ; d=x1-x2; cards; 1 60 80 2 142 152 3 195 243 4 80 82 5 242 240 6 220 220 7 190 205 8 25 38 9 212 243 10 38 44 11 236 200 12 95 100 ; proc univariate; var d; run;

Test -Statistic- -----p Value------ SAS 输出结果 Univariate Procedure Variable=D1 Tests for Location: Mu0=0 Test -Statistic- -----p Value------ Student's t t 1.60232 Pr > |t| 0.1374 Sign M 3.5 Pr >= |M| 0.0654 Signed Rank S 21.5 Pr >= |S| 0.0566

2.单个样本中位数和总体中位数比较

SAS 程序 data d1; input x ; d=x-45.3; cards; 44.21 45.30 46.39 49.47 51.05 53.16 53.26 57.37 63.16 67.37 71.05 87.37 ; proc univariate; var d; run;

Signed Rank S 31.5 Pr >= |S| 0.0029 SAS 输出结果 Univariate Procedure Variable=D1 Tests for Location: Mu0=0 Test -Statistic- -----p Value------ Student's t t 3.287539 Pr > |t| 0.0072 Sign M 4.5 Pr >= |M| 0.0117 Signed Rank S 31.5 Pr >= |S| 0.0029

第五节 K个相关样本检验 随机区组设计多个样本比较的 Friedman M检验

在每个配伍组内编秩次

SAS 程序 data a; input block group y @@; cards; 1 1 8.4 1 2 9.6 1 1 8.4 1 2 9.6 2 1 11.6 2 2 12.7 3 1 9.4 3 2 9.1 4 1 9.8 4 2 8.7 5 1 8.3 5 2 8 6 1 8.6 6 2 9.8 7 1 8.9 7 2 9 8 1 7.8 8 2 8.2 1 3 9.8 1 4 11.7 2 3 11.8 2 4 12 3 3 10.4 3 4 9.8 4 3 9.9 4 4 12 5 3 8.6 5 4 8.6 6 3 9.6 6 4 10.6 7 3 10.6 7 4 11.4 8 3 8.5 8 4 10.8 ; Proc freq; tables block*group*y / noprint cmh2 scores=rank; run; SAS 程序

SAS 输出结果 The FREQ Procedure Summary Statistics for group by y Controlling for block Cochran-Mantel-Haenszel Statistics (Based on Rank Scores) Statistic Alternative Hypothesis DF Value Prob 1 Nonzero Correlation 1 15.0722 0.0001 2 Row Mean Scores Differ 3 15.1519 0.0017 Total Sample Size = 32

两两比较的q检验 .

表11.12 不同时间产妇羊水中前列腺素含量(ng) 编号 用药前 用药后1小时 产程开始 分娩时 1 0.032 (1) 0.040(2) 4.90(3) 22.2(4) 2 0.040(1) 0.074(2) 4.80(3) 21.1(4) 3 0.070(1) 0.093(2) 1.70(3) 17.7(4) 4 0.011(1) 0.099(2) 1.04(3) 3.93(4) 5 0.078(2) 0.074(1) 2.12(3) 14.58(4) 6 0.289(1) 0.300(2) 7.04(3) 13.93(4) mi 7 11 18 24 (mi - E) - 8 -4 3 9 (mi - E)2 64 16 9 81

1. 建立检验假设,确定检验水准 2. 计算统计量M H0:不同时间羊水中前列腺素含量相同。 α= 0.05 2. 计算统计量M (1)在各区组(b)内编秩,相同数据取平均秩次 (2)求各处理组(k)秩和mi (3) 求平均秩E: b:区组数,k:处理数 本例b=6,k=4,则 (4) 计算M

3. 确定概率,判断结果 查附表12,当b=6,k=4时,M0.05=76。 因M=170>M0.05,P<0.05,故可认为不同时间羊水中前列腺素含量差异有统计学意义。 20.05(3)=7.81, 20.01(3)=11.34 2=17> 20.01(3) , P<0.01

SAS 程序 data a; input block group y @@; cards; 1 1 0.032 1 2 0.04 1 3 4.9 1 4 22.2 2 1 0.04 2 2 0.074 2 3 4.8 2 4 21.1 3 1 0.07 3 2 0.093 3 3 1.7 3 4 17.7 4 1 0.011 4 2 0.099 4 3 1.04 4 4 3.93 5 1 0.078 5 2 0.074 5 3 2.12 5 4 14.58 6 1 0.289 6 2 0.3 6 3 7.04 6 4 13.93 ; Proc freq; tables block*group*y / noprint cmh2 scores=rank; run;

SAS 输出结果 The FREQ Procedure Summary Statistics for group by y Controlling for block Cochran-Mantel-Haenszel Statistics (Based on Rank Scores) Statistic Alternative Hypothesis DF Value Prob 1 Nonzero Correlation 1 16.8200 <.0001 2 Row Mean Scores Differ 3 17.0000 0.0007 Total Sample Size = 24

第六节 等级相关 应用: 两个样本的相关分析 当两个变量不服从正态分布时,可以采用等级相关分析。

回忆: Pearson相关系数的估计和检验 1)估计相关系数ρ,估计公式: y x 80 307 75 259 90 341 70 237 80 307 75 259 90 341 70 237 75 254 105 416 70 267 85 320 88 374 78 316 其中,{xi}和{yi}是服从正态分布的两个随机变量, 分别是这两个随机变量的均值。

2、 计算估计值r 的标准误 3、 ρ的假设检验 H0: ρ=0 vs H1: ρ≠0 4、统计推断结论:查ν=n-2 的 t-分布表。

Spearman 相关系数的估计和检验 ρ的估计公式: 与计算Pearson相关系数的区别:采用秩次代替原变量 当两个随机变量{xi}和{yi}不服从正态分布或分布未知时,用下面公式估计相关系数,这就是Spearman相关系数。 其中{si}和{ti}分别是{xi}和{yi}的秩次, 分别是{si}和{ti}的均值。 与计算Pearson相关系数的区别:采用秩次代替原变量

Spearman相关系数ρ的另一计算公式: 其中,d= s-t 相同秩次较多时 TX(或TY)=(t3-t)/12,t为X(或Y)中相同秩次的个数。

【例11. 6】 某地作肝癌病因研究,调查了10个不同地区肝癌死亡率(1/10万)与某种食物中黄曲霉素相对含量,见表15 【例11.6】 某地作肝癌病因研究,调查了10个不同地区肝癌死亡率(1/10万)与某种食物中黄曲霉素相对含量,见表15.16第(2)、(4)栏。试作等级相关分析 。

H1:不同地区肝癌死亡率与黄曲霉素相对含量相关。 1. 建立检验假设,确定检验水准 H0: 不同地区肝癌死亡率与黄曲霉素相对含量不相关。 H1:不同地区肝癌死亡率与黄曲霉素相对含量相关。 α= 0.05 2. 计算统计量rs (1)编等级 (2)求等级差d及d2 (3) 计算rs rs=1- 3. 确定概率,判断结果 查表得rs0.05(10)=0.648, rs0.01(10)=0.794 P<0.05, 拒绝H0,可认为黄曲霉素与肝癌死亡率间 存在正相关。

data d5; input x y ; cards; 0.7 21.5 1.0 18.9 1.7 14.4 3.7 46.5 4.0 27.3 5.1 64.6 5.5 46.3 5.7 34.2 5.9 77.6 10.0 55.1 ; proc corr nosimple spearman; var x y; run; SAS 程序

SAS 输出结果 Correlation Analysis 2 'VAR' Variables: X Y Spearman Correlation Coefficients / Prob > |r| under Ho: Rho=0 / N = 10 X Y X 1.00000 0.74545 0.0 0.0133 Y 0.74545 1.00000 0.0133 0.0 SAS 输出结果

1 3 2 2 3 1 4 7 5 4 6 9 7 6 8 5 9 10 10 8 data d5; input s t ; cards; 1 3 2 2 3 1 4 7 5 4 6 9 7 6 8 5 9 10 10 8 ; proc corr nosimple pearson; var s t; run; SAS 程序

总之: ① 分别将x与y从小到大编秩次,若遇相同值取平均秩次 Correlation Analysis 2 'VAR' Variables: X Y Pearson Correlation Coefficients / Prob > |r| under Ho: Rho=0 / N = 10 X Y X 1.00000 0.74545 0.0 0.0133 Y 0.74545 1.00000 0.0133 0.0 SAS 输出结果 总之: ① 分别将x与y从小到大编秩次,若遇相同值取平均秩次 ② 然后按前面Pearson相关系数的计算方法求解即得Spearman等级相关系数。

SUMMARY Wilcoxon符号秩检验:配对设计两样本比较 Wilcoxon秩和检验:完全随机设计两样本比较 Kruskal-Wallis秩和检验:完全随机设计设计多样本比较 (Nemenyi秩和检验:完全随机设计多样本两两比较) Friedman秩和检验:随机区组设计资料的多样本比较 Spearman 相关系数:两变量不满足直线相关分析的条件

作业:实习册—P27:2,3,4