第 八 章 方差分析和回归分析
在工农业生产中产量的高低、质量的优劣,经济管理中效果的好坏等,往往是由许多因素所至。这就要从众多因素中找出主要因素,分析该因素处在何种状态时,使产量高、质量优、管理效果好。 要解决这类问题: 一、设计一个试验(试验设计); 二、如何分析多因素多状态下试验结果的差异性? 当两个总体方差相等时,可用 t 检验来检验两个总体均值间的差异性;当总体是三个或三个以上时如何检验呢?就要用本章的方差分析。它是在二十世纪20 年代由英国著名统计学家R.A.Fisher首先应用到农业试验中的。 方差分析的作用:从方差的角度分析试验数据、判断各因素各状态对试验结果影响大小。 由于试验设计不同,方差分析的方法也有所不同。本章重点介绍单、双因素方差分析。
几个概念 例1 检验某种激素对羊羔增重的效应。选用3个剂量进行试验,加上对照(不用激素)在内,每次试验要用4只羊羔,若进行4次重复,则共需要16只羊羔。研究激素用量对羊羔增重的影响是否显著。 羊羔的增重(kg/每头/每200日) 处理 重复 1(对照) 2 3 4 1 47 50 57 54 52 53 65 62 67 69 74 51 59 试验中,我们所关心的指标,即羊羔的增重数量,称为试验指标或响应值;影响增重数量(响应值)的指标是激素,称为因素;激素用量(因素的状态)称为因素的水平或简称水平。本例中有1个因素,4个水平,故称为单因素试验。
在方差分析中,通常取1-3个因素进行研究。因素的每一个状态称为一个水平,水平可以是数量化的,也可以是定性的。 例1为单因素四水平试验。也就是四个总体的比较问题。 本例中有一因素 (激素, 记为A) 四个不同水平 (分别记为A1, A2, A3, A4)。可认为一个激素水平的增重量就是一个总体,在方差分析中总假定各总体独立地服从同方差的正态分布,即第j个激素水平的增重量是一个随机变量,它服从分布N(j , 2) i=1, 2, 3, 4. 要检验假设 若拒绝H0,我们就认为这四个激素水平的平均增重量之间有显著差异;反之,就认为各激素水平间增重量的不同是由随机因素引起的。 方差分析是检验同方差的若干正态母体均值是否相等的一种统计分析方法。
1.单因素方差分析 例2 一批由同种原料织成的同一种布,用不同染整工艺处理,然后进行缩水率试验,考察染整工艺对缩水率的影响,在其它条件尽可能相同时,测得缩水率(%)如下表。 水平 重复 A1 A2 A3 A4 A5 1 4.3(x11) 6.1(x12) 6.5(x13) 9.3(x14) 9.5(x15) 2 7.8(x21) 67.3(x22) 8.3(x23) 8.7(x24) 8.8(x25) 3 3.3(x31) 4.2(x32) 8.6(x33) 7.2(x34) 11.4(x35) 4 6.5(x41) 4.1(x42) 8.2(x42) 10.1(x44) 7.8(x45) 由于xij~N(j , 2) ,所以假定xij具有下述数据结构式: 其中ij~N(j , 2)且相互独立。要检验的假设是:
这里,并不要求n1, n2, …,nk完全相同。 观测数据及计算列表如下。 一般地,设单因素试验中,因素A有k个水平 (总体),记为A1,A2,…,Ak,相应的响应值(试验结果)X1,X2,…,Xk 是 k个相互独立的总体,且Xj~N(j, 2)( j =1, 2, …, k)。 今对第j个总体进行nj次重复观测,得到nj个观测数据xij(i=1, 2, …, nj ),这可以看成是取自Xj的一个容量为nj的样本。 这里,并不要求n1, n2, …,nk完全相同。 观测数据及计算列表如下。
单因素方差分析数据及计算表
由于xij~N(j , 2) ,所以假定xij具有下述数据结构式: 为了方便起见,把参数的形式改变,并记 称μ为一般平均,j为因素A的第j个水平Aj的效应,容易看出,k个效应满足关系式: 单因子方差分析模型中的数据结构式可以写成: xij=+j+ij, j=1,2,…,k; i=1,2,…,nj ; 所要检验的假设可以写成:H0: a1=a2=…=ak=0
引起诸xij波动的原因有两个:一个是假设H0为真时,xij的波动纯粹是随机性引起的;另一个可能是假设不真而引起的。因而我们就想用一个量来刻划诸xij之间的波动,并把引起波动的上述两个原因从中分离出来,用另外两个量表示出来,通过比较这两个量来检验H0的真实性。记
St =SA +Se — 平方和分解公式 E(Se)=(n-k)2 它反映了观测数据 总离差平方和: 总的变异程度 组间平方和: 反映了随机误差ij 对响应值影响的总和 组内(误差)平方和: 可以证明 St =SA +Se — 平方和分解公式 E(Se)=(n-k)2 若H0成立,则
当H0为真时, 是2的两个无偏估计,故比值 不应太大。当F值过大时,可以认为假设H0不真。 可以证明,当假设H0为真时,有 于是 对于 显著性水平,查出临界值F( k-1, n-k). 若 F>F(k-1, n-k),则在水平下拒绝H0 ,即认为有些水平对响应值的影响有显著差异。
记St, SA, Se的自由度为ft, fA, fB, 可以证明如下自由度分解公式: 单因素方差分析表 记St, SA, Se的自由度为ft, fA, fB, 可以证明如下自由度分解公式: ft = fA + fB
2 双因素方差分析 设在某试验中,有二个因素A、B在变动。 因素A取m个不同水平 A1,A2,…,Am, 因素B取r个不同水平 B1,B2,…,Br, 在(Ai, Bj)水平组合下的试验结果独立地服从N(ij,2)分布。 观测数据及计算表见教材表9.8。数学模型为
例3 将土质基本相同的一块耕地分成均等的五个地块,每块又分成均等的四个小区。有四个品种的小麦,在每一地块内随机分种在四个区上,每小区的播种量相同,测得收获量如下表 (单位:公斤),试以显著性水平1=0.05, 2=0.01考察品种和 地块对收获量的影响是否显著。 这是一个双因素无重复试验的方差分析问题。
一、双因素无重复试验的方差分析 若ij=+i+j,我们称该方差分析模型为无交互作用的方差分析模型。此时,我们只需对(Ai, Bj)的每个组合各做一次试验,记其结果为xij,则 xij=+i+j+ij。因此,无交互作用的方差分析模型为 假设有两个: H01: α1=α2=…=am=0 H02: β1=β2=…=βr=0 若检验结果拒绝H01 (H02),则认为因子A (B) 的不同水平对结果有显著影响,若二者均不拒绝,那就说明因子A与B的不同水平组合对结果无显著影响。
总的偏差平方和 反映了数据xij总的波动大小。 因素A的偏差平方和 反映因素A的水平间的差异引起的波动。 因子B的偏差平方和 反映了因素B的水平间的差异引起的波动。 误差平方和 反映了随机误差引起的波动。
在H01,H02为真时 对给定的显著性水平,当 FA>F(m-1, (m-1)(r-1))时拒绝H01, FB>F(r-1, (m-1)(r-1))时拒绝H02 .
例3 将土质基本相同的一块耕地分成均等的五个地块,每块又分成均等的四个小区。有四个品种的小麦,在每一地块内随机分种在四个区上,每小区的播种量相同,测得收获量如下表(单位:公斤),试以显著性水平α1=0.05,α2=0.01考察品种和地块对收获量的影响是否显著。 查表得临界值F0.05(4,12)=3.26,F0.01(3,12)=5.95。由于 FB<F0.05(4,12),故认为地块不同对收获量无显著影响。 由于FA>F0.01(3,12),故认为品种不同对收获量影响极显著。
二、双因素等重复试验的方差分析 若ij≠ + i + j ,则称 = ij - - i - j为因子A的第i个水平与因子B的第j个水平的交互效应,它们满足关系式: 为了研究交互效应是否对结果有显著影响,那么在(Ai,Bj) 水平组合下至少要做t(≥2)次试验,记其结果为xijk,则 要检验假设: H01: 1= 2=…=m=0 H02: 1= 2=…= r=0 H03: 对一切i, j 有 ij=0
将总的离差平方和分解: Se反映了误差的波动;SA,SB,SA×B除反映误差的波动外还分别反映了因子A的效应的差异,因子B的效应的差异,交互效应的差异所引起的波动。我们分别称它们为误并的偏差平方和,因子A的偏差平方和,因子B的偏差的平方和以及交互作用A×B的偏差平方和。
对给定的显著性水平α,
例4 在某化工生产中为了提高收率,选了三种不同浓度,四种不同温度做试验。在同一浓度与温度组合下各做两次试验,其收率数据如下面计算表所列(数据均已减去75)。试在α=0.05显著性水平下检验不同浓度、不同温度以及它们间的交互作用对收率有无显著影响。
解 经计算的方差分析表 方差分析结果表明,只有因子A是显著的(因为4.09>3.89) 即浓度不同将对收率产生显著影响;而温度及交互作用的影响都 不显著,这说明要提高收率必须把浓度控制好。