方差分析
第一节 概述 因素(因子)—— 可以控制的试验条件 因素的水平 —— 因素所处的状态或等级 第一节 概述 因素(因子)—— 可以控制的试验条件 因素的水平 —— 因素所处的状态或等级 单(双)因素方差分析——讨论一个(两个)因素对试验结果有没有显著影响。
例如:某厂对某种晴棉漂白工艺中酸液浓度(g/k)进行试验,以观察酸液浓度对汗布冲击强力有无显著影响。 序号 冲击强力 1 2 3 4 5 6 浓度 A1 16.2 15.1 15.8 14.8 17.1 15.0 A2 16.8 17.5 17.1 15.9 18.4 17.7 A3 19.0 20.1 18.9 18.2 20.5 19.7 方差分析就是把总的 试验数据的波动分成 1、反映因素水平改变引起的波动。 2、反映随机因素所引起的波动。 然后加以比较进行统 计判断,得出结论。
1、完全随机设计资料的方差分析(单因素方差分析) 2、随机区组设计资料的方差分析(二因素方差分析) 方差分析的基本思想:把全部数据关于总均值的离差平方和分解成几部分,每一部分表示某因素诸水平交互作用所产生的效应,将各部分均方与误差均方相比较,从而确认或否认某些因素或交互作用的重要性。 用公式概括为: 总变异=组间变异+组内变异 各因素引起 由个体差异引起(误差) 种类:常用方差分析法有以下4种 1、完全随机设计资料的方差分析(单因素方差分析) 2、随机区组设计资料的方差分析(二因素方差分析) 3、拉丁方设计资料的方差分析(三因素方差分析) 4、R*C析因设计资料的方差分析(有交互因素方差分析)
例:前例题 1、对数据的简化 得下表: 序号 冲击强力 1 2 3 4 5 6 浓度 A1 -8 -19 -12 -22 1 -20 -80 1454 A2 -2 5 1 -11 14 7 14 396 A3 20 31 19 12 35 27 144 3820 由表中数据可算出
计算 计算出F值:
列表: 方差来源 离差平方和 自由度 F值 F0.05 F0.01 显著性 因素A 4217.3 2 28.38 3.68 6.38 **(十分显著) 试验误差 1114.7 15 总误差 5332 17 说明: ,说明酸液浓度对汗布冲击强力有十分显著的影响。
第三节 双因素方差分析 例如:某厂对生产的高速钢铣刀进行淬火工艺试验,考察回火温度A和淬火温度B两个因素对强度的影响。今对两个因素各3个水平进行试验,得平均硬度见表: Bj 试验结果 B1(1210‘C)B2(1235’C)B3(1250‘C) Ai A1(280’C) 64 66 68 A2(300‘C) 66 68 67 A3(320’C) 65 67 68 假设:美中不足组合水平下服从正态分布、互相独立、方差相等。 所需要解决的问题是:所有Xij的均值是否相等。
方差分析表: 方差来源 离差平方和 自由度 F值 F0.05(2,4) F0.01(2,4) 显著性 因素A 1.56 2 FA=1.01 6.94 18.0 因素B 11.56 2 FB=7.46 6.94 18.0 * 试验误差 3.1 4 总误差 16.22 8 A影响不显著。 B影响显著,由于 高速钢洗刀的硬度越大越好,因此因素B可取B3水平,即淬火温度1250‘C为好,因素A水平的确定,应考虑经济方便,取A1水平为好。
SAS系统中区分两种情况: 1、每组观测数据相等,可用ANOVA过程处理以上四种情形的方差分析。 2、若每组观测数据不相等,可用GLM过程处理以上四种情形的方差分析。
均衡数据的方差分析(ANOVA过程) 过程说明: 1、PROC ANOVA; 可以是数值型和字符型 2、CLASS 变量表; 3、MODEL 因变量表=效应; 4、MEANS 效应[/选择项]; 5、ALPHA=p 显著性水平(缺省值为0.05) 可以是数值型和字符型 CLASS和MODEL是必需的, CLASS必须的MODEL之前。 输出因变量均数,对主效应均数间的检验。 是指因变量与自变量效应,模型如下: 1、主效应模型 MODEL y=a b c; (a b c是主效应,y是因变量) 2、交互模型 MODEL y=a b c a*b a*c b*c a*b*c; 3、嵌套效应 MODEL y=a b c(a b); 4、混合效应模型号 MODEL y=a b(a) c(a) b*c(a);
例:1、单因素方差分析 某劳动卫生组织研究棉布、府绸、的确凉、尼龙四种衣料内棉花吸附十硼氢量。每种衣料做五次测量,所得数据如下。试检验各种衣料见棉花吸附十硼氢量有没有显著差别? 棉布 府绸 的确凉 尼龙 2.33 2.48 3.06 4.00 2.00 2.34 3.06 5.13 2.93 2.68 3.00 4.61 2.73 2.34 2.66 2.80 2.33 2.22 3.06 3.60
单因素方差分析SAS程序的输入: 循环语句 删除变量 CLASS和MODEL语句是必需的,CLASS必须出现在MODEL语句前。
单因素方差分析SAS程序输出结果: 结论: 在CLASS语句中指出的P值。P《0.003,可得出各衣料组间有非常显著差异。 组间占总的比例
2、两因素方差分析 例:用4种不同方法治疗8名病者,其血浆凝固时间的资料如表, 试分析影响血浆凝固的因素。 处理组 受试者编号(区组) 1 2 3 4 8.4 9.4 9.8 12.2 12.8 15.2 12.9 14.4 9.6 9.1 11.2 9.8 9.8 8.8 9.9 12.0 8.4 8.2 8.5 8.5 8.6 9.9 9.8 10.9 8.9 9.0 9.2 10.4 7.9 8.1 8.2 10.0
两因素方差分析SAS程序的输入:
两因素方差分析SAS程序输出结果: 结论:总误差:F=14.04,P《0.0001,故总体有非常显著差异。 A因素:F=6.62,P《0.0025,故认为因素A(治疗方法)对血浆凝固时间影响很大。 B因素:F=17.2,P《0.0001,故认为因素B(不同病者)对血浆凝固时间影响很大。
3、三因素方差分析(交互作用不存在) 例:五种防护服,由五人各在不同的五天中穿着测定脉搏数,如表。 试比较五种防护服对脉搏数有无不同。 受试者 试验日期 甲 乙 丙 丁 戊 A129.8 B116.2 C114.8 D104.0 E100.6 B144.4 C119.2 D113.2 E132.8 A115.2 C143.0 D118.0 E115.8 A123.0 B103.8 D133.4 E110.8 A114.0 B 98.0 C110.6 E142.8 A110.6 B105.8 C120.0 D109.8
三因素方差分析SAS程序的输入:
三因素方差分析SAS程序输出结果: 结论: 因F=6.80, P《0.0011,故总体有非常显著差异。 其中K因素影响极大F=16.27, 因素P、C都无显著差异。
4、有交互因素的方差分析 例:治疗缺铁性贫血病人12例,分为4组给予不同治疗,一个月后观察红细胞增加(百万/mm),资料如表。试分析两种药物对红细胞增加的影响。 甲药(A) 不用(A0) 用(A1) 不用B0 用 B1 0.8 0.9 0.7 1.3 1.2 1.1 0.9 1.1 1.0 2.1 2.2 2.0 乙药(B)
有交互因素方差分析SAS程序的输入:
有交互因素方差分析SAS程序输出结果: 结论: 因F=98.75, P=0.0001<0.01,故总体有非常显著的差异, 因素A、B、A*B都对红细胞增加数有非常大的影响。
非平衡数据的方差分析(GLM过程) 在SAS/STAT中GLM(General Linear Models)过程分析功能最多。包括: 1、简单回归(一元) 2、加权回归 3、多重回归及多元回归 4、多项式回归 5、方差分析(尤其不平衡分析) 6、偏相关分析 7、协方差分析 8、多元方差分析 9、反应面模型分析 10、重复测量方差分析
MODEL语句反映因变量与自变量的模型,其形式: GLM过程在方差分析中的应用: MODEL语句反映因变量与自变量的模型,其形式: 模型说明 模型类型 MODEL Y=A BC; 主效应 MODEL Y=A B A*B; 交互效应 MODEL Y=A B A(B); 嵌套效应 MODEL Y1 Y2=A B; 多元方差分析 MODEL Y=A X; 协方差分析 A,B,C是分类变量,X,Y是连续型变量。
1、不平衡单因素方差分析 例:健康男子各年龄组淋巴细胞转化率(%)如表,问各组淋巴细胞转化率的均数之间的差异是否显著? 11-20岁 58 61 61 62 63 68 70 70 74 78 41-50岁 54 57 57 58 60 60 63 64 66 61-75岁 43 52 55 56 60
不平衡单因素方差分析SAS程序的输入:
不平衡单因素方差分析SAS程序输出结果:
2、不平衡二因素方差别分析 假设如下数据作二因素方差分析 因素B b1 b2 b3 3.3 2.6 1.5 3.6 3.1 1.9 0.8 1.6 3.2 2.6 5.2 4.7 2.2 1.3 4.2 4.3 5.3 2.8 2.0 2.9 4.4 3.8 4.4 5.1 3.9 2.9 3.1 2.9 3.5 4.9 2.5 4.8 4.6 5.6 3.9 3.0 a1 a2 因素A
不平衡二因素方差分析SAS程序的输入:
不平衡二因素方差分析SAS程序输出结果: 结论: GLM按两种方法输出 1、按有交互作用输出 2、按主效应输出。