第三篇 医学统计学方法
医学统计学方法 4 主讲人 陶育纯 http://cc.jlu.edu.cn/ss.html http://cc.jlu.edu.cn/ms.html 医学统计学方法 4 主讲人 陶育纯 流行病与卫生统计学教研室 2013.11.13
第五讲 课程名称:预防医学 主要教材: «卫生学» 第7版 仲来福 主编 人民卫生出版社 年级、专业:2011级医学五年制第一教班 仲来福 主编 人民卫生出版社 年级、专业:2011级医学五年制第一教班 授课时间:2013年11月14日 授课时数:4h 2013.11.13
目录 第九章 数值变量资料的统计分析(续) 第五节 方差分析 一、方差分析的基本思想 二、完全随机设计资料的方差分析 三、随机区组设计资料的方差分析 四、多个样本均数的两两比较 五、多样本方差的齐性检验 2013.11.13
第九章 数值变量资料的统计分析(续) 第五节 方差分析 一、方差分析的基本思想 方差分析的基本思想可通过下述例题7-1a说 明。 第四节所讲的t 检验和u 检验只适用于一组或两组样本均数的比较,对于两组以上样本均数的比较需要采用方差分析(analysis of variance, 简记 ANOVA)。 方差分析的基本思想可通过下述例题7-1a说 明。 2013.11.13
本研究为三组样本均数比较,属于完全随机设计分组。 例7-1a 为研究甲、乙、丙三种不同降温方法对高热病人的降温效果,某护师将某一时期住院的18名高热病人随机分为三组,每组采用一种降温方法,以体温降低值为指标,结果见表7-1a。问三种不同降温方法对高热病人的降温效果是否不同? 本研究为三组样本均数比较,属于完全随机设计分组。 2013.11.13
但是,同批数据多次反复使用t检验,显然会使犯I型 错误的概率增大。 统计学上的显著性差异从来就不是绝对的,而是概 率, — 两个组之间的比较当然可以! 但是,同批数据多次反复使用t检验,显然会使犯I型 错误的概率增大。 统计学上的显著性差异从来就不是绝对的,而是概 率, α=0.05,表示实际无差异,而检验得到有差异结果的概率。 例如:三组之间的相互比较,共3次。 —则不犯I型错误的概率为(1-0.05)3=0.857375, —则α被放大为0.142625。 2013.11.13
1. 总变异 全部测定值的大小不同体现了总变异,其测度可用所有的测定值Xij与总均数 的离均差平方和表示,记为SS总: 从测定结果看,全部18例数据的不同可形成 三种变异: 1. 总变异 全部测定值的大小不同体现了总变异,其测度可用所有的测定值Xij与总均数 的离均差平方和表示,记为SS总: 式(7-1) 式中用Xij 表示第i 个组的第j 个测定值,i =1,2,…,k , j =1,2,…,ni 。全部测定值的总均数用 表示。 2013.11.13
由于离均差平方和受到观测值的个数多少的影响,故SS总也与总例数N有关,确切地是与总的自由度ν总有关: 2. 组间变异 各组的样本均数 的不同体现了组间变异,它常反映的是处理因素或研究因素的效应,也包括了随机误差的影响。其测度可用各组的样本均数 与总均数 的离均差平方和表示: 2013.11.13
离均差平方和除以相应的自由度即得方差,又称均方MS。SS组间除以ν组间就得到组间均方: 式(7-3) SS组间也与组间的自由度ν组间有关: ν组间= k-1 离均差平方和除以相应的自由度即得方差,又称均方MS。SS组间除以ν组间就得到组间均方: MS组间 = SS组间 / ν组间 式(7-4) 2013.11.13
3. 组内变异 各组内的观测值的不同体现了组内变异,它主要反映的是由个体差异、测量误差、偶然因素等等造成的随机误差的影响。其测度可用各组的每个观测值Xij与本组均数 的离均差平方和表示: 式(7-5) SS组内的自由度ν组内为: ν组内= N- k 2013.11.13
SS组内除以ν组内就得到组内均方: MS组内 = SS组内 / ν组内 对于完全随机设计分组的多个样本均数的比 较,上述三种变异有以下关系: 式(7-6) 对于完全随机设计分组的多个样本均数的比 较,上述三种变异有以下关系: SS总 = SS组间+ SS组内 ν总 = ν组间+ ν组内 本例若三组样本均数来自同一总体,即: H0: μ甲=μ乙=μ丙 2013.11.13
则意味着三种不同降温方法效果总体相同,即组间变异与组内变异均只反映随机误差,若计算组间均方与组内均方的比值(即F值): F = MS组间/ MS组内 F值应接近1。反之,若三种不同降温方法效果总体不相同,则组间变异中多了处理因素(降 温方法)的效应,组间变异大于组内变异,上述 F值明显大于1。大到多大程度才有统计学意义?根据统计学家推导出上述统计量F的分布,通 式(7-7) 2013.11.13
过查F界值表(表9-12),得到在α检验水准下H0成立与否的概率P ,从而作出推断结论。 Fisher 方差分析的理论和方法最早是由英国统计学家R.A. Fisher创立的,为尊重Fisher,后人将上述统计量的分布以其名字的首字母命名为F分布,故方差分析又称为F检验(F test)。 Ronald A. Fisher (1890-1962) F界值常用 表示,其中α为检验水准; ν1为分子自由度,即组间自由度ν组间;ν2为分 母自由度,即组内自由度ν组内。可从教材的 2013.11.13
表9-12查得。当α=0.05,ν1=9,ν2=27,其 此界值的意义见图7-1a。 图7-1a 2013.11.13
总变异 ★ 方差分析的应用条件: ① 各样本相互独立; ② 各样本来自正态分布总体; ③ 各样本总体方差相等(方差齐)。 ★ 方差分析的基本思想: 所有测量值上的总变异按照其变异的来源分解为多个部份,然后进行相互比较,评价由某种因素所引起的变异是否具有统计学意义。 总变异 A因素变异 B因素变异 2013.11.13
二、完全随机设计资料的方差分析 按照完全随机化原则将受试对象分配到只有一个研究因素(或处理因素)的多个水平中,通过比较此多个水平分组的样本均数来推断研究因素的总体效应。此方法称为单因素方差分析 (one-way ANOVA)。 下面通过例7-1a完整地把方差分析的基本步骤列出来,并列出手工计算的过程。利用统计软件SPSS的计算过程参见相关参考书。 2013.11.13
方差分析的步骤如下: H0: μ甲=μ乙=μ丙 H1: μ甲、μ乙、μ丙不等或不全相等 α= 0.05 ⒈ 建立检验假设和确定检验水准 H0: μ甲=μ乙=μ丙 H1: μ甲、μ乙、μ丙不等或不全相等 α= 0.05 ⒉ 计算F 值 通过下面表7-2a所列计算公式求得F值。 2013.11.13
通过下面表7-1b下半部的计算结果代入上述公式可求得F值。 2013.11.13
i代表组号 j代表每组数据序号 + + = + + = ‖ ‖ ‖ ‖ + + = 2013.11.13
2013.11.13
通常把上述结果列成下述表7-4a的形式。 2013.11.13
H0,有统计学意义。可认为三种不同降温方法 效果总体不同或不全相同。 ⒊ 确定P 值和作出推断结论 由α=0.05,ν1=ν组间=2,ν2=ν组内=15,查 表9-12 ,得 ,今求得 F=27.52>3.68,则P<0.05,按α=0.05水准拒绝 H0,有统计学意义。可认为三种不同降温方法 效果总体不同或不全相同。 通过下图7-4a理解上述P 值大小的确定。 若要了解哪些组之间有差别,哪些组之间无差别,需要进一步作多重比较(后讲)。 2013.11.13
图7-4a 2013.11.13
三、随机区组设计资料的方差分析 随机区组设计(Randomized Block Design) (亦称配伍组设计)是配对设计的扩展,同样选择对研究结果有影响的非研究因素相同或相近的受试对象配成伍(称区组),每个配伍组内的受试对象(两个以上)接受不同的处理(称处理组)的试验设计方法。此方法主要用于控制受试对象的个体差异对实验效应的影响。 随机区组设计将数据按区组和处理组两个方向进行分组,在b个区组和k个处理组构成的bk(= 2013.11.13
N)个格子(cell)中,每个格子仅有一个数据Xij(i=1, 2, 3,…, k; j=1,2,3,…,b)而无重复,因此其方差分析属无重复数据的双向(因素)方差分析(two-way ANOVA)。两因素是指研究因素(或处理因素)和区组因素。 此方法的基本原理是将总变异分解为处理组间变异、区组(配伍组)间变异和误差三个部分。上述四种变异有以下关系: SS总 = SS处理+ SS区组+ SS误差 ν总 = ν处理+ ν区组+ ν误差 与单因素方差分析相比,由于从误差变异中分 2013.11.13
解出了反映个体差异的区组变异,使得误差更能反映随机误差的大小,较单因素方差分析更容易检验出处理组间的差别,从而提高了检验效率。 随机区组设计的方差分析计算公式见下表7-8a。 通过下面例7-2a具体讲解其计算分析过程。 例7-2a 某护理学基础教研室研究体温测试时间的长短对测试结果的影响,随机抽取10名健康女大学生,于午饭后休息1小时,对每位观察对象分别采用3、5、7、9分钟测试口腔温度,结果见下表7-6a。试比较测试时间的长短对测试结果有无影响? 2013.11.13
2013.11.13
本研究为同一受试对象先后接受四种不同的处理(即四种测试时间)的研究,属于随机区组设计,可用随机区组设计的方差分析检验。 2013.11.13
从本研究可以看出,两因素分别为,处理因素为测试时间,其水平有四个,即3、5、7、9四段时间,分成四个处理组;区组因素为受试对象个体差异,其水平有10个,即10个不同的受试对象,分成10个区组。 本例题作方差分析的步骤如下: 对处理组间: H0: μ3=μ5=μ7 =μ9 H1: μ3、μ5、μ7 、μ9不等或不全相等 α= 0.05 2013.11.13
对区组间: H0: μ1=μ2=… =μ10 H1: μ1、μ2、… 、μ10不等或不全相等 α= 0.05 按表7-8a所列计算公式求F值。利用表7-6b 的下部和右部的计算结果可得: 2013.11.13
2013.11.13
2013.11.13
2013.11.13
通常把上述结果列成下述表7-7a的形式。 由α=0.05,ν1=ν处理=3,ν2=ν误差=27,查 表9-12 ,得 ,今求得 表9-12 ,得 ,今求得 F处理=19.35>2.96,则P<0.05,按α=0.05水准 2013.11.13
拒绝H0,有统计学意义。可认为测试时间的长短 影响体温测试结果,测试时间短,测试结果低。 由α=0.05,ν1=ν区组=9,ν2=ν误差=27,查 表9-12, 得 ,今求得 F区组=6.13>2.25,则P<0.05,按α=0.05水准拒 绝H0,有统计学意义。可认为10名女大学生的 体温有差别。 通过下图7-2a理解上述P值大小的确定。 2013.11.13
图7-2a 2013.11.13
四、多个样本均数的两两比较 方差分析后,若推断结论是拒绝H0,则意味着各组样本均数所代表的总体均数间不同或不全相同。当要了解任意两总体均数间是否存在差别时,需在方差分析的基础上进一步做多个样本均数的两两比较,又称为样本均数间的多重比较。 根据所控制误差的类型和大小不同,均数间 差别的多重比较的方法很多。这里介绍常用的q 检验(Student-Newman-Keuls, SNK)、Dunnett法、Bonfferroni法。 2013.11.13
㈠ SNK法 q 检验的检验统计量的公式为: 式中 和 是要比较的两样本均数; 为两 式(9-29) 式(9-30) 式中 和 是要比较的两样本均数; 为两 样本均数之差的标准误;nA和nB是要比较的两样本含量; MS误差为方差分析中的误差均方。 2013.11.13
q 的分布与两比较组之间的组间跨度a 及自由度ν有关。组间跨度a 是指两对比组间所包含的组数(包括对比组自身);自由度ν即为ν误差。 根据组间跨度a ,自由度ν以及检验水准α查 q 界值表(见表9-19),即qα(ν,a) 。 当求得 q ≥ qα(ν,a) 时,按α检验水准拒 绝H0,两对比组间差别有统计学意义;反之,尚 不拒绝H0。 下面对例7-1a资料作均数间的多重比较。 2013.11.13
H0: μA=μB H1: μA≠μB α= 0.05 将三个样本均数由大到小排列并编组次: 组次 1 2 3 1.62 1.20 0.87 1 2 3 1.62 1.20 0.87 组别 甲法 乙法 丙法 本例n1= n2= n3=6,MS误差=0.03078,代入 2013.11.13
式(9-30)得: 列两两比较的q 检验计算表,见表7-18a。 2013.11.13
从表7-18a中第(7)项可以看出,三组中任两组的均数比较差别都有统计学意义。可认为三种不同 的降温方法效果不同,即甲法好,乙法次之,丙法 较差。 2013.11.13
㈡ Dunnett 法 Dunnett法其检验统计量为t, 故又称Dunnett t检验。它适用于 k–1个实验组与对照组均数的比较, 检验统计量的公式为: DUNNETT, Charles (1921-2007) 式(7-9) 2013.11.13
例7-4 对例7-2资料,问A方案、B方案(均为实验组)分别与C方案(对照组)的总体均数是否不同? (1)建立检验假设,确定检验水准 H0:μT=μC,即任一实验组与对照组的总体均数相等 H1:μT≠μC,即任一实验组的总体均数低于对照组的总体均数 α=0.05 (2)计算检验统计量 根据式(7-9)和例7-2的结果,列出下表7-19的计算表。 2013.11.13
㈢ Bonferroni 法 Bonferroni (3)确定P值,作出推断结论 将表7-19中第(3)栏tD取绝对值,并以计算MS误差时的自由度ν误差=18和实验组数a=k−1=2(不含对照组)查附表5的Dunnett t界值表得P值,列于表中第(4)栏。按α=0.05水准,A方案与C方案、B方案与C方案均拒绝H0,接受H1,有统计学意义。可以认为A方案与C方案、B方案与C方案大白兔血中白蛋白的减少量不同。 ㈢ Bonferroni 法 Bonferroni Bonferroni法是对检验水准进行调整,故又称Bonferroni调整(Bonferroni adjustment)法。该法的思想适用于所有的两两比较,无论是本章介绍的多个均数比较,还是前面的多个频率比较。 BONFERRONI, Carlo Emilio(1892-1960) 2013.11.13
例7-5 请对例7-1资料经ANOVA后认为有统计学意义的三总体均数进行两两比较。 (1)建立检验假设,确定检验水准 H0:μA=μB,即任两对比组的总体均数相等 H1:μA≠μB,即任两对比组的总体均数不等 (2)计算检验统计量 根据式(7-10)和例7-1的结果列出如下表7-20的计算表。 式(7-10) 2013.11.13
(3)确定P值,作出推断结论 将表7-20中第(4)栏t 取绝对值,并以计算MS误差时的自由度ν误差=30查附表2的t 界值表得P值,列于表中第(5)栏。按α’=0.0167水准,组1与2、1与3(即高脂正常剂量钙分别与高脂中剂量钙1.0%和高脂高剂量钙1.5%)均拒绝 ,差别有统计学意义,喂养9周前后体重差值不同。组2与3(即高脂中剂量钙1.0%与高脂高剂量钙1.5%)不拒绝 ,差别无统计学意义,还不能认两种高脂高剂量钙喂养9周前后体重差值不同。该结论同于前面的SNK法,其表述方法也一样。 2013.11.13
一、多样本方差的齐性检验 ㈠ 方差分析的前提条件 方差分析的前提条件: ① 各样本相互独立; ② 各样本来自正态分布总体; ③ 各样本总体方差相等(方差齐)。 对方差齐性的判断通常采用方差齐性检验(homogeneity of variance test)的方法。 2013.11.13
㈡ 方差齐性检验 1. Bartlett 2检验 该法用下式(8-17)计算。 式(9-31) Bartlett, M. S. (1910-2002) 式(9-31) 式中合并方差 亦即组内或误差的均方MS组内或MS误差。 2013.11.13
C 例7-6 请对例7-1作方差齐性的Bartlett 2检验。(略) 2. Levene 检验 该法是将原始观测值Xij转换为相应离差zij,然后按下述公式进行单向方差分析,以相应自由度查F界值表得到结论。 式(7-12) 式中N=ni,k为样本数。离差zij计算方法有多种,请参见相关参考书。 例7-7 请对例7-1作方差齐性的Levene检验。(略) C 2013.11.13