Presentation is loading. Please wait.

Presentation is loading. Please wait.

第三章 方差分析 Chapter 3 ANOVA (Analysis of Variance)

Similar presentations


Presentation on theme: "第三章 方差分析 Chapter 3 ANOVA (Analysis of Variance)"— Presentation transcript:

1 第三章 方差分析 Chapter 3 ANOVA (Analysis of Variance)

2 第三章 方差分析 方差是平方和除以自由度的商。 方差分析是判断多组数据( K≥3 )之间平均数差异是否显著的一种假设测验方法。2个样本平均数可用 t 或U测验的方法来评定其差数的显著性。如果有K个平均数,且K≥3,若仍然用两两比较的方法来测验,则需要作K(K-1)/2次测验,如果K=10,则需要45次测验,不但测验程序繁琐,而且在理论上,其显著水平已经扩大了。因此,对于多样本平均数的假设测验,需采用一种更为合适的统计方法,即方差分析法(Fisher, 1923)。

3 第三章 方差分析 例如,若有5组数据要比较,则共需要比较(5×4)/2=10次。若H0正确,每次接受的概率为1-α=0.95,10次都接受的概率为0.9510≈0.60,因此,α’=1-0.60=0.40,即犯第一类错误的概率为0.40,这显然是不能接受的。 方差分析是将总变异分裂为各个因素的相应变异,作出其数量估计,从而发现各个因素在变异中所占的重要程度,而且除了可控制因素所引起的变异后,其剩余变异又可提供试验误差的准确而无偏的估计,作为统计假设测验的依据。

4 第三章 方差分析 本章主要内容: 第一节 方差分析的基本原理和方法。 第二节 单向分组资料的方差分析。 第三节 两向分组资料的方差分析。

5 第一节 方差分析的基本原理和方法 1. 自由度和平方和的分解 2. F分布(F Distribution)
第三章 方差分析 第一节 方差分析的基本原理和方法 1. 自由度和平方和的分解 2. F分布(F Distribution) 3. 多重比较(multiple comparisons) 4. 方差分析的基本假定 5. 数据转换

6 1、自由度和平方和的分解 设有K组样本,每样本均具有n个观察值,则该资料共有nk个观察值,数据如下表。
第一节 方差分析的基本原理和方法 1、自由度和平方和的分解 设有K组样本,每样本均具有n个观察值,则该资料共有nk个观察值,数据如下表。 表 每组具n个观察值的k组样本的符号表 组别 1 2 …… i n 总和 平均 均方 . J k X11 X12 X1j X1n X21 X22 X2j X2n Xi1 Xi2 Xij Xin Xjn Xkn T1 T2 Ti Tk Xij,i=1,2,……k,j=1,2,……n。

7 总变异是nk个观察值的变异,故其自由度为nk-1,平方和SST为:
第一节 方差分析的基本原理和方法 总平方和 (SST) 总变异是nk个观察值的变异,故其自由度为nk-1,平方和SST为: 式中,C 称为矫正数。

8 总平方和SST=组内平方和SSe+处理平方和SSt

9 上述总变异的自由度和平方和可分解为组间和组内两个部分。组间变异即k个平均数的变异,故其自由度为k-1,平方和 SSt 为:
第一节 方差分析的基本原理和方法 上述总变异的自由度和平方和可分解为组间和组内两个部分。组间变异即k个平均数的变异,故其自由度为k-1,平方和 SSt 为: 组内的变异为各组内观察值与组平均数的相差,故每组具有n-1个自由度,平方和为 ,而总共有k 组资料,故组内自由度为k(n-1),而组内平方和SSe为:

10 因此,上述资料的自由度和平方和的分解式为: 总自由度=组间自由度 + 组内自由度 (nk-1)=(k-1)+ k(n-1)
第一节 方差分析的基本原理和方法 因此,上述资料的自由度和平方和的分解式为: 总自由度=组间自由度 + 组内自由度 (nk-1)=(k-1)+ k(n-1) 总平方和=组间平方和 + 组内平方和

11 第一节 方差分析的基本原理和方法 均方的计算:

12 方差分析表 变异来源 平方和SS 自由度DF 均方MS F值 处理间 SSt K-1 St2 St2/ Se2 处理内/误差 SSe
第一节 方差分析的基本原理和方法 方差分析表 变异来源 平方和SS 自由度DF 均方MS F值 处理间 SSt K-1 St2 St2/ Se2 处理内/误差 SSe K(n-1) Se2 总变异 SST nk-1

13 接受HA,即东方红3号小麦蛋白质含量的变异大于农大139。
第一节 方差分析的基本原理和方法 例1:测定东小麦品种东方红3号的蛋白质含量(%)10次,得其平均数为14.3,方差为1.621;测定农大139号的蛋白质含量5次,得其平均数为11.7,方差为0.135。试测验东方红3号小麦蛋白质含量的变异是否比农大139为大。 假设:H0:δ12= δ22 ;HA: δ12 > δ22 。 显著水平:α=0.05, DF1=9, DF2=4时, F0.05,(9,4)=6.00。 推断:此F>F0.05,所以,P<0.05 接受HA,即东方红3号小麦蛋白质含量的变异大于农大139。

14 分析:两样本分别来自于两个不同的总体,总体方差均为未知,不能假设σ12 =σ22。可采用近似 t 分布两尾测验的方法。
东方红3:均数:14.3,方差:1.621,n1=10 农大139:均数:11.7,方差:0.135,n2=5 回顾t测验法: 分析:两样本分别来自于两个不同的总体,总体方差均为未知,不能假设σ12 =σ22。可采用近似 t 分布两尾测验的方法。 假设:H0:μ1= μ2;HA: μ1≠μ2。 显著水平:α=0.05。 计算;两个样本的样本容量不同,需转换自由度。

15 推断:接受HA,否定H0,即两品种蛋白质含量有极显著差异。
计算t值; 查表,t0.05,11=2.301。 计算值|t|=5.98> t0.05,11,故P<0.05 推断:接受HA,否定H0,即两品种蛋白质含量有极显著差异。 在σ1≠ σ2时的t 测验,如果两个样本的样本容量相同n1=n2=n,则在 t 测验时,可不必进行自由度的转换,可直接取自由度为n-1。

16 第一节 方差分析的基本原理和方法 例2:以A、B、C、D4种药剂处理水稻种子,其中A为对照,每处理得4个苗高观察值,结果如下表,试进行自由度和平方和的分解,并测验药剂间变异是否显著大于药剂内变异? 表 水稻不同药剂处理的苗高 假设:H0:δ12= δ22 ;HA: δ12 > δ22 。 显著水平:α=0.05, DF1=3, DF2=12时, F0.05,(3,12)=3.49。 药剂 A B C D 19 23 21 13 24 27 20 18 15 22 25 总和 76 92 72 96 T=336 平均数

17 自由度分解: 总变异自由度=4×4-1=15 药剂间自由度=4-1=3 药剂内自由度=4(4-1)=12 平方和分解: SST=222
第一节 方差分析的基本原理和方法 自由度分解: 总变异自由度=4×4-1=15 药剂间自由度=4-1=3 药剂内自由度=4(4-1)=12 平方和分解: SST=222 SSt=104 SSe=SST-SSt= =118 均方: ST2=222/15=14.80 St2=104/3=34.67 Se2=118/12=9.83 其中, Se2为4种药剂内变异的合并均方,是试验误差的估计值;药剂均方St2则为试验误差加上不同药剂对苗高的效应。

18 推断:接受HA,即测验药剂间变异显著地大于药剂内变异,不同药剂对水稻苗高具有不同效应。
第一节 方差分析的基本原理和方法 变异 平方和 自由度 均方 处理间 104 3 34.67 误差 118 12 9.83 总变异 222 15 14.8 查表5(F值表):自由度(3;12) F.05=3.49;F.01=5.95 推断:接受HA,即测验药剂间变异显著地大于药剂内变异,不同药剂对水稻苗高具有不同效应。

19 方差分析表 变异来源 自由度DF 平方和SS 均方MS F值 处理间 K-1 SSt St2= SSt/df1 F=St2/ Se2 误差
第一节 方差分析的基本原理和方法 方差分析表 变异来源 自由度DF 平方和SS 均方MS F值 处理间 K-1 SSt St2= SSt/df1 F=St2/ Se2 误差 K(n-1) SSe Se2= Sse/df2 总变异 nk-1 SST 平方和 自由度 均方 F F0.05 SSt= St2=104/3= St2/ Se2=3.53* SSe=SST-SSt= Se2=118/12=9.83 SST= ST2=222/15=14.80

20 第一节 方差分析的基本原理和方法 2. F分布 F Distribution

21 定义:在一个平均数为μ,方差为σ的正态总体中,随机抽取两个独立样本,并求得其均方S12和S22 ,我们将这两个均方的比值定义为F。
F Distribution 定义:在一个平均数为μ,方差为σ的正态总体中,随机抽取两个独立样本,并求得其均方S12和S22 ,我们将这两个均方的比值定义为F。 此F值具有S12的自由度ν1和S22的自由度ν2。如果我们在给定的ν1和ν2下进行一系列抽样,就可得到一系列的F值,这一系列的F值呈F分布。理论统计研究证明,F分布具有平均数μF=1和取值区间为【0,+∞】的一组曲线,而某一特定的曲线的形状则仅决定于参数ν1和ν2。 ν1 =1或ν1=2时,F分布曲线呈反向“J”型;当ν1≥3时,曲线呈偏态。

22 当ν1 =1或ν1=2时,F分布曲线呈反向“J”型; 当ν1≥3时,曲线呈偏态。
F Distribution 当ν1 =1或ν1=2时,F分布曲线呈反向“J”型; 当ν1≥3时,曲线呈偏态。 f(F) ν1 =5, ν2=4 ν1 =1, ν2=5 ν1 =2, ν2=5 1 2 3 4 5 6 7 0.2 0.4 0.6 0.8 1.0 F 因自由度不同的F分布曲线

23 所以附表5的数值实际是专供测验S12 的总体方差σ12是否显著大于S22 的总体方差σ22而用的。
F Distribution F分布下一定区间的概率可从已制成的统计表查出。附表5系各种v1和v2下右尾概率α=0.05和α=0.01时的临界F值(一尾概率表)。如查附表5,v1=3,v2=12时,F0.05 =3.49,F0.01=5.95,即表示如以v1=3(n1 =4)、v2=12(n2 =13)在一正态总体中进行连续抽样,则所得F值大于3.49的仅有5%,而大于5.95的仅有1%。 所以附表5的数值实际是专供测验S12 的总体方差σ12是否显著大于S22 的总体方差σ22而用的。 (H0:σ12≤σ22 ;HA:σ12>σ22)。 在作F则验时,应以取大值的均方(S12)作分子、取小值的均方(S22)作分母计算F值。若所得F>F0.05或> F0.01。则该F值即为在α=0.05或α=0.01水平上显著,应否定H0,接受HA;若所得F<F0.05,则接受H0。

24 (2)S12和S22彼此独立两个条件。当资料不符合这些条件时,需作适合转换。
F Distribution 在方差分析的体系中,F测验某项变异因素的效应或方差是否真实存在。所以在计算F值时,总是将要测验的那一项变异因素的均方作分子,而以另一项变异因素(如试验误差项)的均方作分母。这个问题与方差分析的模型和各项变异来源的期望均方有关。在此测验中,如果作分子的均方小于作分母的均方,则F<1;此时不必查F表即可确定P>0.05,应接受H0。 F 测验需具备: (1)变数 x 遵循正态分布N(μ,σ2) (2)S12和S22彼此独立两个条件。当资料不符合这些条件时,需作适合转换。

25 3. 多重比较(multiple comparisons)
在上例中,接受了HA,仅是指出了东方红3号小麦蛋白质含量的变异大于农大139的。但是,是否各个平均数彼此间都有显著差异呢?还是仅有一部分平均数间有显著差异而另一部分平均数间没有显著差异?仅根据上述分析结果是无法确定的。要明确各个平均数彼此间的差异显著性,还必须对各平均数进行多重比较。 3.1、最小显著差数测验法 3.2、最小显著极差测验法 (1) Duncan’s新复极差测验法(Duncan,1955) (2) q测验 3.3、比较方法的选择

26 least significant difference,简称LSD法。 用此法测验多个平均数时,首先算得平均数差数的标准误:
multiple comparisons 3.1 最小显著差数测验法 least significant difference,简称LSD法。 用此法测验多个平均数时,首先算得平均数差数的标准误: 式中,Se2为方差分析时的误差均方值,n为样本容量。然后查t表得Se2所具有自由度下两尾概率值为α的临界t值tα,计算得最小显著差数: 若两个平均数的差数>LSDα,即为在α水平上显著。

27 例3:以A、B、C、D4种药剂处理水稻种子,各药剂处理后的苗高平均数依次为19、23、18、24cm,作多重比较。
multiple comparisons 例3:以A、B、C、D4种药剂处理水稻种子,各药剂处理后的苗高平均数依次为19、23、18、24cm,作多重比较。 已经算得Se2=9.83,A为对照。 药剂 A B C D 19 23 21 13 24 27 20 18 15 22 25 总和 76 92 72 96 T=336 平均 假设: H0: μB= μA, μC= μA, μD= μA; HA:μB≠μA, μC≠μA,μD≠μA。 显著水平:α=0.05 SS DF MS F F0.05 *

28 可以看出,只有XD与对照在0.05上有显著差异,其余两个药剂和对照无显著差异。
multiple comparisons SS DF MS F F0.05 * DF=12时,显著水平:α=0.05 查t分布表, t0.05=2.179, 平均数 A 19 B 23 C 18 D 24 可以看出,只有XD与对照在0.05上有显著差异,其余两个药剂和对照无显著差异。 注:用LSD法测验多个样本的所有平均数间的差异显著性是不合理的,因为LSD 实质是t测验。

29 (1)Duncan’s新复极差测验法(Duncan,1955)
multiple comparisons 3.2 最小显著极差测验法 least significant ranges,简称LSR法。此法的特点是不同平均数间的比较采用不同的显著差数标准,克服了LSD法的局限性,可用于多样本平均数间的差异显著性比较。这里主要介绍两种类型: (1)Duncan’s新复极差测验法(Duncan,1955) 又称最短显著极差(Shortest significant ranges, SSR)。 式中, SE为平均数的标准误;Se2为误差均方,n为样本容量。

30 multiple comparisons 查SSR表,查得Se2所具有自由度下,P=2,3,…,k 时的SSRα值,其中P为两极差间所包含的平均数个数。根据上述公式利用SSRα值计算最小显著极差LSR α值。 具体做法是:将各平均数按大小顺序排列,用各个P的LSR值测验平均数极差的显著性,凡两极差<LSR 者为接受H0;凡两极差≥LSR 者为接受HA。

31 例3:以A、B、C、D4种药剂处理水稻种子,各药剂处理后的苗高平均数依次为19、23、18、24cm,作多重比较。
multiple comparisons 例3:以A、B、C、D4种药剂处理水稻种子,各药剂处理后的苗高平均数依次为19、23、18、24cm,作多重比较。 由于已经算得Se2=9.83,且A为对照。 假设:H0:μB= μA, μC= μA, μD= μA; HA:μB ≠ μA, μC≠ μA, μD ≠ μA。 显著水平:α=0.05 SS DF MS F F0.05 * 平均数 A 19 B 23 C 18 D 24 查SSR表, DF=12,P=2时,SSR0.05=3.08,LSR0.05=1.57 ×3.08=4.84 同理可得,DF=12,P=3时,SSR0.05=3.23,LSR0.05=1.57 ×3.23=5.07 同理可得,DF=12,P=4时,SSR0.05=3.33,LSR0.05=1.57 ×3.33=5.23

32 平均数从大到小排序: D 24 B 23 A 19 C 18 D与B比:24-23=1<4.84 ; 不显著
multiple comparisons 比较依据: (显著水平:α=0.05) P=2时,LSR0.05=1.57 ×3.08=4.84 P=3时,LSR0.05=1.57 ×3.23=5.07 P=4时,LSR0.05=1.57 ×3.33=5.23 平均数从大到小排序: D 24 B A 19 C 18 D与B比:24-23=1<4.84 ; 不显著 D与A比:24-19=5<5.07 ; 不显著 D与C比:24-18=6>5.23 ; 显 著 B与A比:23-19=4<4.84 ; 不显著 B与C比:23-18=5<5.07 ; 不显著 A与C比:19-18=1<4.84 ; 不显著

33 结论:4个药剂处理水稻的苗高的显著差异来源于处理D和C在α 0.05水平的显著差异,其余皆差异不显著。
multiple comparisons 平均数从大到小排序: D 24 B A 19 C 18 比较依据: (显著水平:α=0.01) P=2时,LSR0.05=1.57 ×4.32=6.78 P=3时,LSR0.05=1.57 ×4.55=7.14 P=4时,LSR0.05=1.57 ×4.68=7.35 D与B比:24-23=1<6.78 ; 不显著 D与A比:24-19=5<7.14 ; 不显著 D与C比:24-18=6>7.35 ; 不显著 B与A比:23-19=4<6.78 ; 不显著 B与C比:23-18=5<7.14 ; 不显著 A与C比:19-18=1<6.78 ; 不显著 结论:4个药剂处理水稻的苗高的显著差异来源于处理D和C在α 0.05水平的显著差异,其余皆差异不显著。

34 q测验与新复极差测验相似,其区别仅在于计 算最小显著极差LSR值时不是查SSR表,而是查q表, 采用下式计算:
multiple comparisons (2) q测验 q测验与新复极差测验相似,其区别仅在于计 算最小显著极差LSR值时不是查SSR表,而是查q表, 采用下式计算:

35 例3:以A、B、C、D4种药剂处理水稻种子,各药剂处理后的苗高平均数依次为19、23、18、24cm,作多重比较。
multiple comparisons 例3:以A、B、C、D4种药剂处理水稻种子,各药剂处理后的苗高平均数依次为19、23、18、24cm,作多重比较。 由于已经算得Se2=9.83,且A为对照。 假设:H0:μB= μA, μC= μA, μD= μA; HA:μB ≠ μA, μC≠ μA, μD ≠ μA。 显著水平:α=0.05

36 multiple comparisons DF=12, P=2、2、4,q0.05。查q表 DF=12, P=2时,q0.05=3.08,LSR0.05=1.57×3.08=4.84 同理可得,DF=12, P=3时,q0.05=3.77,LSR0.05=1.57×3.77=5.92 同理可得,DF=12, P=4时,q0.05=4.20,LSR0.05=1.57×4.20=6.59 按同样的方法,可计算出LSR0.01值。详细结果见下表: 表 LSR值 p 2 3 4 q0.05 3.08 3.77 4.20 q0.01 4.32 5.04 5.50 LSR0.05 4.84 5.92 6.59 LSR0.01 6.78 7.91 8.64

37 平均数从大到小排序: D 24 B 23 A 19 C 18 D与B比:24-23=1<4.84, 不显著
multiple comparisons 平均数从大到小排序: D 24 B A 19 C 18 p 2 3 4 LSR0.05 4.84 5.92 6.59 LSR0.01 6.78 7.91 8.64 D与B比:24-23=1<4.84, 不显著 D与A比:24-19=5<5.92, 不显著 D与C比:24-18=6<6.59,不显著 B与A比:23-19=4<4.84, 不显著 B与C比:23-18=5<5.92, 不显著 A与C比:19-18=1<4.84, 不显著 结果表明,各平均数之间差异均不显著。

38 处理 平均数 0.05 0.01 D 24 a A B 23 ab 19 C 18 b 多重比较结果的表示方法 (1)、标记字母法:
multiple comparisons 多重比较结果的表示方法 (1)、标记字母法: 比较依据: (显著水平:α=0.05) P=2时,LSR0.05=1.57 ×3.08=4.84 P=3时,LSR0.05=1.57 ×3.23=5.07 P=4时,LSR0.05=1.57 ×3.33=5.23 表 新复极差测验结果的字母标记 处理 平均数 0.05 0.01 D 24 a A B 23 ab 19 C 18 b D与B比:24-23=1<4.84, 不显著 D与A比:24-19=5<5.07, 不显著 D与C比:24-18=6>5.23, 显 著 B与A比:23-19=4<4.84, 不显著 B与C比:23-18=5<5.07, 不显著 A与C比:19-18=1<4.84, 不显著

39 多重比较结果的表示方法 (1)、标记字母法: 将全部平均数从大到小依次排列; 在最大的平均数上标记字母a;
multiple comparisons 多重比较结果的表示方法 (1)、标记字母法: 将全部平均数从大到小依次排列; 在最大的平均数上标记字母a; 将该平均数与以下各平均数相比,凡相差不显著的都标记上字母a,直至某一个与之相差显著的平均数则标记字母b。 再以标有字母b的平均数为标准,与上方各个比它大的平均数比较,凡不显著的一律标记字母b。 再以标记字母b的最大平均数为标准,与以下各个未标记的平均数比较,凡不显著的继续标记字母b,直至某一个与之相差显著的平均数则标记字母c。 如此往复循环下去,直至最小的一个平均数有了标记字母为止。

40 multiple comparisons (2)、梯形表法 将全部平均数从大到小依次排列,计算出各个平均数间的差数。凡达到0.05水平的差数在右上角标记一个“*”号,凡达到0.01水平的差数在右上角标记两个“**”号,凡未达到0.05水平的差数则不做任何标记。 比较依据: (显著水平:α=0.05) P=2时,LSR0.05=1.57 ×3.08=4.84 P=3时,LSR0.05=1.57 ×3.23=5.07 P=4时,LSR0.05=1.57 ×3.33=5.23 表 新复极差测验结果的字母标记 处理 平均数 差 异 -18 -19 -23 D 24 6* 5 1 B 23 4 A 19 C 18

41 3.3、比较方法的选择 依据确定的比较标准 与对照或确定的对象相比,一般可用最小显著差数法。 依据否定或接受H0的重要性决定。
multiple comparisons 3.3、比较方法的选择 依据确定的比较标准 与对照或确定的对象相比,一般可用最小显著差数法。 依据否定或接受H0的重要性决定。 (不同比较方法的差异) 将上述例题中所使用过的最小显著差数法中的LSD0.05, LSD0.01、Duncan’s新复极差测验中的LSR0.05, LSR0.01、q测验中的LSR0.05, LSR0.01等值列表:

42 Duncan’s新复极差测验 最小显著差数法 LSD0.05=4.84 LSD0.01=6.78 p 2 3 4 SSR0.05 3.08
multiple comparisons 最小显著差数法 LSD0.05= LSD0.01=6.78 p 2 3 4 SSR0.05 3.08 3.23 3.33 SSR0.01 4.33 4.55 4.68 LSR0.05 4.84 5.07 5.23 LSR0.01 6.78 7.14 7.35 Duncan’s新复极差测验 p 2 3 4 q0.05 3.08 3.77 4.20 q0.01 4.32 5.04 5.50 LSR0.05 4.84 5.92 6.59 LSR0.01 6.78 7.91 8.64 q 测验法

43 (a)当k=2时,LSD法、SSR测验法、q测验法的显著尺度是完全相同的。
multiple comparisons 最小显著差数法 新复极差测验 q测验法 p 2 3 4 LSR0.05 4.84 5.07 5.23 LSR0.01 6.78 7.14 7.35 p 2 3 4 LSR0.05 4.84 5.92 6.59 LSR0.01 6.78 7.91 8.64 LSD0.05=4.84 LSD0.01=6.78 从上述结果可以看出: (a)当k=2时,LSD法、SSR测验法、q测验法的显著尺度是完全相同的。 (b)当k>=3时,三种测验方法的显著尺度是不同的。 LSD法最低、q测验法最高、SSR测验法介于两者之间。因此,对于试验结论事关重大或有严格要求的试验,宜采用q测验;一般试验可采用SSR测验;试验中各个处理皆与对照相比时,可用LSD测验。 LSD测验必须经过F测验确认各平均数间有显著差异之后,才宜应用;而SSR和q测验可以不经过F测验。

44 方差分析的基本步骤小结: 将资料总变异的自由度和平方和分解为各变异因素的自由度和平方和。 计算均方。
第一节 方差分析的基本原理和方法 方差分析的基本步骤小结: 将资料总变异的自由度和平方和分解为各变异因素的自由度和平方和。 计算均方。 计算均方比,做出F测验,以明确各个变异因素的重要程度。 对各个平均数进行多重比较。

45 第一节 方差分析的基本原理和方法 4、方差分析的基本假定 方差分析的数学模型 期望均方 方差分析的基本假定

46 4、方差分析的基本假定 方差分析的数学模型 1 2 i n 均数 . k X11 X12 X1j X1n X21 X22 X2j X2n Xi1 Xi2 Xij Xin Xk1 Xk2 Xkj Xkn 方差分析是建立在一定的线性可加模型的基础上,即每一个观察值可以按照变异原因划分为若干个线性组成部分,这是分解平方和和自由度的理论依据。 设在一个平均数为μ,方差为δ2的正态总体中随机抽取容量为n的一组样本。由于随机误差,每一个xi都和总体平均数μ 有差别,这个差别就是随机误差εi。另外,不同处理也会有一定差异,因而可得, µ 是总体平均数,τi为试验处理效应(τi=µi -µ ),εi为随机误差,具有分布N(0, δ2) 。

47 将总体分成K个组,使每组成为该总体的一个亚总体,分别给予不同的处理,处理效应为ti,则各个亚总体的平均数为:
4、方差分析的基本假定 将总体分成K个组,使每组成为该总体的一个亚总体,分别给予不同的处理,处理效应为ti,则各个亚总体的平均数为: 任一个亚组总体的任一个观察值 xij 的线性模型为: 即,每一个观察值皆由共同原总体平均数、处理效应和随机误差三个部分相加而成。 由样本所估计的线性模型为: 由总体的线性模型为:

48 是 µ 的无偏估计量,ti是τi的无偏估计量, 是所属亚总体误差方差σi2的无偏估计。
4、方差分析的基本假定 总体的线性模型为: 样本的线性组成为: 是 µ 的无偏估计量,ti是τi的无偏估计量, 是所属亚总体误差方差σi2的无偏估计。 但假设H0: μ1=μ2=……时 可以看作是总体σ2的无偏估计。

49 不同类型资料的线性可加模型是各不相同的。
4、方差分析的基本假定 处理效应ti:每一个样本的平方和是 K个样本的平方和是 , 处理间的方差是: 因为 ,故 估计了 或写为: 6.16 6.17 不同类型资料的线性可加模型是各不相同的。

50 4、方差分析的基本假定 期望均方 主要分析τ(处理效应)的假定 方差分析的线性模型可分为固定模型(fixed model)和随机模型(random model): 从理论上讲,固定模型是指各处理的平均效应 τ(=µi-µ)是固定的一个常量,且满足∑τi =0,但常数未知;随机模型是指各处理效应τi不是一个常量,而是从平均数为0,方差为στ2 的正态总体中得到的一个随机变量,即τi~ N(0, στ2)。 固定模型主要研究并估计处理效应:即仅在供试范围内了解处理间的效应。如,不同品种、肥料、农药,不同处理方法的差异等。 随机模型主要研究并估计总体变异:即通过样本推断总体特征,因为样本仅是总体的随机变量。τ

51 固定模型仅在供试处理范围内了解处理间的不同效应。例如,欲了解不同药剂的防治效果、不同品种的产量或抗病性差异、肥料、密度处理效应差异等。
4、方差分析的基本假定 固定模型仅在供试处理范围内了解处理间的不同效应。例如,欲了解不同药剂的防治效果、不同品种的产量或抗病性差异、肥料、密度处理效应差异等。 如果想通过不同处理对这些处理所属总体进行推断,则属于随机模型处理的范围。例如通过一个地方的药剂防治试验想了解某种药剂在该地区或更大范围的应用效果如何?或通过品种试验欲了解该品种在该地区的变异情况如何,则属于随机模型的处理范围。

52 固定模型(fixed model) 例:有5个品种,各取样3次,组成简单的方差分析资料。 方差分析表为:
4、方差分析的基本假定 固定模型(fixed model) 1 2 3 4 5 均数 X11 X12 X13 X21 X22 X23 X31 X32 X33 X41 X42 X43 X51 X52 X53 例:有5个品种,各取样3次,组成简单的方差分析资料。 方差分析表为: 变异来源 SS DF MS 期望均方 品种间 品种内 σ2 固定模型中τi属于固定效应,限制条件为∑τi =0。 为固定效应的方差,即: 品种内均方估计了 品种间均方估计了 固定效应的方差

53 固定模型的F测验: 若处理效应τ=0(H0:µ1= µ2 =… µk ), 则F的期望值=1。 该例中F>1,则接受HA:τ≠0。
4、方差分析的基本假定 固定模型的F测验: 若处理效应τ=0(H0:µ1= µ2 =… µk ), 则F的期望值=1。 该例中F>1,则接受HA:τ≠0。 比较处理效应的试验都应该用固定模型。

54 4、方差分析的基本假定 随机模型(random model) 例:研究水稻杂交F5代系间单株干草重量的遗传变异,随机抽取76个系进行测验,每系取2个样品测定干草重(g/株)。测定结果的方差分析表如下: 变异 SS DF MS 期望均方 系间 系内 σ2 随机模型中τi是从总体中随机抽出,服从N(0, στ2)。 这里 为随机效应的方差。

55 随机模型的F测验: 查表:当n1=75, n2=76时,F.05=1.48;F.01=1.74 该例F=4.09,说明系间差异大于系内变异。
4、方差分析的基本假定 随机模型的F测验: 查表:当n1=75, n2=76时,F.05=1.48;F.01=1.74 该例F=4.09,说明系间差异大于系内变异。 若处理效应τ=0(H0:µ1= µ2 =… µk ), 则F的期望值=1。 该例中F>1,则接受HA:τ≠0。

56 这里27.51表示系间差异,即系间遗传变异 。 σ2 代表环境条件所导致的变异,记作 。
4、方差分析的基本假定 该例F>1,说明 存在, 即系间差异存在。 变异 SS DF MS 期望均方 系间 系内 σ2 进一步分析系间差异。 这里27.51表示系间差异,即系间遗传变异 。 σ2 代表环境条件所导致的变异,记作 。 代表系间表型变异。 数量遗传学中的遗传率(h2)为: 即F5代家系的表型变异中有60%是归属于遗传变异的原因。

57 固定模型与随机模型的区别 固定模型 随机模型 目的
研究特定处理,即了解几个固定处理的τ值,对一个试验讲,年间试验处理不变。用τ效应说明结果。 了解处理所在总体的某个性状的变异,即了解τ的变异度,所以每个试验应是随机的,年间试验处理可变。 结论 仅能说明本试验的结果,不能外推。 可以外推到有限总体的变异。 F测验 H0: µ1= µ2 =… µk H0: =0,HA: ≠0 表达 效应的方差

58 方差分析的基本假定 x=μ+τi+βj+εij
4、方差分析的基本假定 方差分析的基本假定 方差分析是建立在一定的线性模型的基础上的。它具有三类原因或效应:(1)处理原因或效应,(2)环境原因或效应 ,(3)试验误差(这是处理内和环境内的其他非可控因素的变异),故其线性模型为 x=μ+τi+βj+εij 建立这一模型,有如下3个基本假定:

59 4、方差分析的基本假定 方差分析的基本假定 处理效应与环境效应应该是“可加性”的。对于非可加性资料,一般需作对数转换或其他转换,使其效应变为可加性,才能符合方差分析的线性模型。 试验误差应该是随机的、彼此独立的,而且作正态分布,具有平均数为零。 N(0, δ2) 所有试验处理必须具有共同的误差方差,即误差同质性假定。

60 (1) 处理效应与环境效应等应该是“可加性”
4、方差分析的基本假定 (1) 处理效应与环境效应等应该是“可加性” 依据(xij-μ)=(τi+βj+εij) 上式两边各取平方求其总和,则得平方和为:   Σ(x-μ)2=bΣτi2+aΣβj2+Σεij2 因为三类原因均各自独立,所以右边有三个乘积和,即Στβ、Στε和Σβε,皆为零值。因而得到总平方和等于处理效应平方和加环境效应平方和再加上试验误差平方和。

61 可加性特性是方差分析的主要特性,是根据线性模型而产生的必然结果。当从样本估计时,则为
4、方差分析的基本假定 可加性特性是方差分析的主要特性,是根据线性模型而产生的必然结果。当从样本估计时,则为 Σ(x-x0)2=bΣ(xi.-x0)2+aΣ(x.j-x0) 2+Σ(x-xi.-x.j+x0) 2 或       SST=SSA+SSB+SSe 由于方差分析具有效应必须可加的假定,故必然导致试验中的Στ=0,Σβ=0和Σε=0。一般言之,即各种效应总和与试验误差ε总和皆等于零。

62 4、方差分析的基本假定 (2)试验误差ε 应该是随机的、彼此独立的,而且作正态分布,具有平均数为零。以为多样本的F测验是假定k个样本从k个正态总体中抽取的,所以ε一定是随机性的。在田间试验中,处理安排在每一区组中均用独立的随机步骤决定而不用顺序排列;这些措施都是为了保证各个误差的彼此独立性和随机性。顺序排列设计的主要缺点是不能获得无偏的试验误差估计,以致方差分析不能进行。 如果试验误差ε不作正态分布,则将表现为一个处理的误差趋向于作为处理平均数的一种函数关系。例如,在二项分布数据,平均数为p,方差为p(1-p)/n,方差与平均数有函数关系。如果这种函数关系是已知的,则可对观察值进行反正旋转换或对数转换、平方根值转换,从而使误差ε作成近似的正态分布。

63 4、方差分析的基本假定 (3)所有试验处理必须具有共同的误差方差即误差同质性假定  因为方差是将各处理的的误差合并而获得一个共同的误差方差,因此必须假定资料中有这样一个共同的方差存在,即假定各处理的ε都具有N(0,σ2)的,这就是所谓误差的同质性假定。如果各处理的误差 都具有异质性(σi2≠σ2),则在假设测验中必然会使某些处理的效应得不到正确的反映。所以,如果发现各处理内的方差相差比较悬殊,一般可用Bartlett氏法测验其是否同质,如果不同质(σi2≠σ2),可将方差特别大或变异特殊的处理从从全试验中剔除,或者将试验分成几个部分,使每一部分具有比较同质的误差方差,以作出较为准确的假设测验。  

64 5、数据转换 “可加性” 表 可加模型与非可加模型的比较 处理 可加性 倍加性 倍加性取对数 1组 2组 A 10 20 1.00 1.30
第一节 方差分析的基本原理和方法 5、数据转换 “可加性” 表 可加模型与非可加模型的比较 处理 可加性 倍加性 倍加性取对数 1组 2组 A 10 20 1.00 1.30 B 30 40 60 1.48 1.78 注意1组到2 组的变化

65 5、数据转换 平方根转换:如果样本平均数与其方差有比例关系,采用平方根转换可获得一个同质的方差,也可减少非可加性的影响。
第一节 方差分析的基本原理和方法 5、数据转换 平方根转换:如果样本平均数与其方差有比例关系,采用平方根转换可获得一个同质的方差,也可减少非可加性的影响。 对数转换:对于成倍加性或可乘性资料常采用对数转换,可获得一个同质的方差。 反正弦转换:对于成数或百分数资料,当p<0.3或p>0.7时需作反正弦转换。 如: 80% 20%

66

67

68

69

70 作业题: 作业: P128,6.6;6.9 A:75、62、71、58、73; 数据(01)、(02) B:81、85、68、92、90;
数据(01)比较三种方法是否有差异: A:75、62、71、58、73; B:81、85、68、92、90; C:73、79、60、75、81。 地区1(a) 地区2(b) 处理 苗期 拔节 灌浆 1 4.00 8.00 7.00 4.0 10.0 12.0 2 5.00 6.0 14.0 3 6.00 9.00 3.5 9.0 11.5 4 3.00 5 5.0 7.0 6 4.50 2.0 7 1.00 2.00 3.0 8 9 1.50 2.5 数据(02)比较不同生育期间是否有差异?


Download ppt "第三章 方差分析 Chapter 3 ANOVA (Analysis of Variance)"

Similar presentations


Ads by Google