Presentation is loading. Please wait.

Presentation is loading. Please wait.

统 计 学 (第三版) 2008 作者 贾俊平 统计学.

Similar presentations


Presentation on theme: "统 计 学 (第三版) 2008 作者 贾俊平 统计学."— Presentation transcript:

1 统 计 学 (第三版) 2008 作者 贾俊平 统计学

2 统计名言 警惕过多地假设检验。你对数据越 苛求,数据会越多地向你供认,但 在威逼下得到的供词,在科学询查 的法庭上是不容许的。
——Stephen M.Stigler 2008年8月

3 7.1 方差分析的基本原理 7.2 单因子方差分析 7.3 双因子方差分析 7.4 实验设计初步
第 7 章 方差分析与实验设计 7.1 方差分析的基本原理 7.2 单因子方差分析 7.3 双因子方差分析 7.4 实验设计初步

4 学习目标 方差分析的基本思想和原理 单因子方差分析 多重比较 双因子方差分析的方法 实验设计方法与数据分析 2008年8月

5 不同运动队的平均成绩之间是否有显著差异?
奥运会女子团体射箭比赛,每个对有3名运动员。进入最后决赛的运动队需要进行4组射击,每个队员进行两次射击。这样,每个组共射出6箭,4组共射出24箭 在2008年8月10日进行的第29届北京奥运会女子团体射箭比赛中,获得前3名的运动队最后决赛的成绩如下表所示 2008年8月

6 不同运动队的平均成绩之间是否有显著差异?
每个队伍的24箭成绩可以看作是该队伍射箭成绩的一个随机样本。获得金牌、银牌和铜牌的队伍之间的射箭成绩是否有显著差异呢? 如果采用第6章介绍的假设检验方法,用分布做两两的比较,则需要做次比较。这样做不仅繁琐,而且每次检验犯第Ι类错误的概率都是,作多次检验会使犯第Ι类错误的概率相应地增加,检验完成时,犯第Ι类错误的概率会大于。同时,随着检验的次数的增加,偶然因素导致差别的可能性也会增加 采用方差分析方法很容易解决这样的问题,它是同时考虑所有的样本数据,一次检验即可判断多个总体的均值是否相同,这不仅排除了犯错误的累积概率,也提高了检验的效率方差分析方法就很容易解决这样的问题,它是同时考虑所有的样本数据,一次检验即可判断多个总体的均值是否相同,这不仅排除了犯错误的累积概率,也提高了检验的效率 2008年8月

7 第 7 章 方差分析与实验设计 7.1 方差分析的基本原理 7.1.1 什么是方差分析? 7.1.2 从误差分析入手
第 7 章 方差分析与实验设计 方差分析的基本原理 什么是方差分析? 从误差分析入手 在什么样的前提下分析?

8 7.1 方差分析的基本原理 什么是方差分析?

9 什么是方差分析(ANOVA)? (analysis of variance)
方差分析的基本原理是在20世纪20年代由英国统计学家Ronald A.Fisher在进行实验设计时为解释实验数据而首先引入的 检验多个总体均值是否相等 通过分析数据的误差判断各总体均值是否相等 研究分类型自变量对数值型因变量的影响 一个或多个分类型自变量 两个或多个 (k 个) 处理水平或分类 一个数值型因变量 有单因子方差分析和双因子方差分析 单因子方差分析:涉及一个分类的自变量 双因子方差分析:涉及两个分类的自变量 2008年8月

10 什么是方差分析? (例题分析) 【 例 】确定超市的位置和竞争者的数量对销售额是否有显著影响,获得的年销售额数据(单位:万元)如下表 因子
什么是方差分析? (例题分析) 【 例 】确定超市的位置和竞争者的数量对销售额是否有显著影响,获得的年销售额数据(单位:万元)如下表 因子 样本数据 水平或处理 2008年8月

11 什么是方差分析? (例题分析) 如果只考虑“超市位置”对销售额是否有显著影响,实际上也就是要判断不同位置超市的销售额均值是否相同
什么是方差分析? (例题分析) 如果只考虑“超市位置”对销售额是否有显著影响,实际上也就是要判断不同位置超市的销售额均值是否相同 若它们的均值相同,意味着“超市位置”对销售额没有显著影响;若均值不全相同,则意味着“超市位置”对销售额有显著影响 “超市位置”就是分类自变量,“销售额”则是数值因变量。“超市位置”是要检验的对象,称为因子(factor),商业区、居民小区、写字楼是因子的3个取值,称为水平(level)或处理(treatment)。每个因子水平下得到的销售额为样本观测值 方差分析要解决的问题就是判断超市的位置对销售额是否有显著影响。设商业区、居民小区和写字楼3个位置超市的销售额均值是否相同 2008年8月

12 7.1 方差分析的基本原理 从误差分析入手

13 方差分析的基本原理 (误差分解) 总误差(total error)
反映全部观测数据的误差称 所抽取的全部36家超市的销售额之间差异 随机误差(random error)—组内误差(within-group error) 由于抽样的随机性造成的误差 反映样本内部数据之间的随机误差 处理误差(treatment error)—组间误差(between-group error) 不同的处理影响所造成的误差 反映样本之间数据的差异 2008年8月

14 方差分析的基本原理 (误差分解) 数据的误差用平方和(sum of squares)表示,记为SS
总平方和(sum of squares for total)记为SST 反映全部数据总误差大小的平方和 抽取的全部36家超市销售额之间的误差平方和 组内平方和(within-group sum of squares)记为SS组内 反映组内误差大小的平方和 比如,每个位置超市销售额的误差平方和 只包含随机误差 组间平方和(between-group sum of squares)记为SS组间 反映组间误差大小的平方和 比如,同位置超市销售额之间的误差平方和 既包括随机误差,也包括处理误差 2008年8月

15 方差分析的基本原理 (误差分解) 误差平方和的分解及其关系 = + = + 总误差 随机误差 处理误差 总平方和 (SST) 组内平方和
组间平方和 (SS组间) = + 2008年8月

16 方差分析的基本原理 (误差分析) 误差的大小用均方(mean square)来表示,也称为方差(variance)
平方和除以相应的自由度 总平方和(SST)的自由度为n-1;组内平方和(SS组内)的自由度为n-k ;组间平方和(SS组间)的自由度为k-1 组内平方和除以相应的自由度结果称为组内方差(within-group variance);组间平方和除以相应的自由度结果称为组间方差(between-group variance) 2008年8月

17 方差分析的基本原理 (误差分析) 判断原假设是否成立,就是判断组间方差与组内方差是否有显著差异
若原假设成立,组间均方与组内均方的数值就应该很接近,它们的比值就会接近1 若原假设不成立,组间均方会大于组内均方,它们之间的比值就会大于1 当这个比值大到某种程度时,就可以说不同水平之间存在着显著差异,即自变量对因变量有影响 2008年8月

18 7.1 方差分析的基本原理 在什么样的前提下分析?

19 方差分析的基本假定 正态性(normality)。每个总体都应服从正态分布,即对于因子的每一个水平,其观测值是来自正态分布总体的简单随机样本
在例7.1中,要求每个位置超市的销售额必须服从正态分布 检验总体是否服从正态分布的方法有很多,包括对样本数据作直方图、茎叶图、箱线图、正态概率图做描述性判断,也可以进行非参数检验等 方差齐性(homogeneity variance)。各个总体的方差必须相同,对于分类变量的个水平,有12=22=…=k2 在例7.1中,要求不同位置超市的销售额的方差都相同 独立性(independence)。每个样本数据是来自因子各水平的独立样本(该假定不满足对结果影响较大) 在例7.1中,3个样本数据是来自不同位置超市的3个独立样本 2008年8月

20 方差分析中基本假定  如果原假设成立,即H0 :m1=m2=m3 1  2  3  4 不同位置超市的平均销售额相等
意味着每个样本都来自均值为、方差为 2的同一正态总体 f(X) X 1  2  3  4 2008年8月

21 方差分析中基本假定 若备择假设成立,即H1 :mi (i=1,2,3)不全相等 1  2  3 至少有一个总体的均值是不同的
3个样本分别来自均值不同的3个正态总体 f(X) X 1  2  3 2008年8月

22 第 7 章 方差分析与实验设计 7.2 单因子方差分析 检验步骤 关系有多强? 哪些均值之间有显著差异?

23 7.2 单因子方差分析 检验步骤

24 单因子方差分析 (one-way analysis of variance)
只考虑一个分类型自变量影响的方差分析 比如,在例7.1中,只考虑超市位置一个因子对销售额度影响,或者只考虑竞争者数量对销售额的影响,都属于单因子方差分析 分析步骤包括 提出假设 构造检验统计量 做出决策 2008年8月

25 提出假设 一般提法 注意:拒绝原假设,只表明至少有两个总体的均值不相等,并不意味着所有的均值都不相等 H0 :m1 = m2 =…= mk
自变量对因变量没有显著影响 H1 :m1 ,m2 ,… ,mk不全相等 自变量对因变量有显著影响 注意:拒绝原假设,只表明至少有两个总体的均值不相等,并不意味着所有的均值都不相等 2008年8月

26 构造检验的统计量F 将组间方差MS组间除以组内方差MS组内即得到所需要的检验统计量F
当H0为真时,二者的比值服从分子自由度为k-1、分母自由度为 n-k 的 F 分布,即 组间平方和 组内平方和 2008年8月

27 做出决策  将统计量的值F与给定的显著性水平的临界值F进行比较(或计算出统计量的P值),做出决策
若P< ,拒绝原假设H0 ,表明均值之间的差异是显著的,所检验的因子对观察值有显著影响 若F>F ,不拒绝原假设H0 ,无证据表明所检验的因子对观察值有显著影响 2008年8月

28 作出决策 (F分布与拒绝域) a F(k-1,n-k) F 分布 如果均值相等,F=MS组间/MS组内1 拒绝H0 不拒绝H0 F
拒绝H0 不拒绝H0 F 如果均值相等,F=MS组间/MS组内1 2008年8月

29 单因子方差分析 (例题分析) 【例】检验超市位置对销售额是否有显著影响 (=0.05) 2008年8月

30 单因子方差分析 (例题分析) 提出假设。设不同位置超市销售额的均值分别为1(商业区)、 2(居民小区)和3 (写字楼) ,提出的假设为
H0 :1  2  3 H1 :1 , 2 , 3 不全相等 检验方差分析的前提 进行分析并做出决策 2008年8月

31 单因子方差分析 (方差分析假定的判断) 箱线图分析 好像不一样? 2008年8月

32 单因子方差分析 (方差分析假定的判断) 概率图分析 2008年8月

33 用Excel进行方差分析  用Excel进行方差分析 第1步:选择“工具 ”下拉菜单 第2步:选择【数据分析】选项
第3步:在分析工具中选择【单因子方差分析】 , 然后选择【确定】 第4步:当对话框出现时 在【输入区域 】方框内键入数据单元格区域 在【】方框内键入0.05(可根据需要确定) 在【输出选项 】中选择输出区域  用Excel进行方差分析 2008年8月

34 单因子方差分析 (例题分析) 拒绝H0 2008年8月

35 7.2 单因子方差分析 关系有多强?

36 关系强度的测量 拒绝原假设表明因子(自变量)与观测值之间有显著关系
组间平方和(SS组间)度量了自变量(超市位置)对因变量(销售额)的影响效应 当组间平方和比组内平方和(SSE)大,而且大到一定程度时,就意味着两个变量之间的关系显著,大得越多,表明它们之间的关系就越强。反之,就意味着两个变量之间的关系不显著,小得越多,表明它们之间的关系就越弱 2008年8月

37 关系强度的测量 变量间关系的强度用自变量平方和(SS组间) 占总平方和(SST)的比例大小来反映 自变量平方和占总平方和的比例记为R2 ,即
例题分析:R2=44.74%,R=0.6689。表明超市位置(自变量)对销售额(因变量)的影响效应占总效应的44.74%。尽管并不高,但超市位置对销售额的影响都已经达到了统计上显著的程度。R表明超市位置与销售额之间已达到中等以上的相关 2008年8月

38 7.2 单因子方差分析 哪些均值之间有显著差异?

39 多重比较的意义 在拒绝原假设的条件下,通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异
比较方法有多种,若Fisher提出的最小显著差异方法,简写为LSD 2008年8月

40 多重比较的LSD方法 提出假设 计算检验的统计量: 计算LSD 决策:若 ,拒绝H0
H0: mi=mj (第i个总体的均值等于第j个总体的均值) H1: mimj (第i个总体的均值不等于第j个总体的均值) 计算检验的统计量: 计算LSD 决策:若 ,拒绝H0 2008年8月

41 多重比较的LSD方法 (例题分析) 第1步:提出假设 检验1: 检验2: 检验3: 第2步:计算检验统计量 检验1: 检验2: 检验3:
2008年8月

42 多重比较的LSD方法 (例题分析) 第3步:计算LSD 第4步:做出决策 不拒绝H0,没有证据表明商业区和居民小区的超市销售额之间有显著差异
2008年8月

43 用SPSS进行方差分析和多重比较 用SPSS进行方差分析
第1步:选择【Analyze】  【Compare Means】  【One-Way-ANOVA】进入主对话框 第2步:因变量(投诉次数)选入【Dependent List】,将自变量(行业)选入【Factor)】 第3步 (需要多重比较时)点击【Post-Hoc】从中选择一种方法,如LSD; (需要均值图时)在【Options】下选中【Means plot】,(需要相关统计量时) 选择【Descriptive】,点击【Continue】回到主对话框。点击【OK】 用SPSS进行方差分析 2008年8月

44 用SPSS进行方差分析和多重比较 方差齐性表检验 方差分析表 2008年8月

45 用SPSS进行方差分析和多重比较 多重比较 2008年8月

46 用SPSS进行方差分析和多重比较 带误差线(Error Bar)的均值图(Means Plots) 总体均值95%的置信区间 2008年8月

47 第 7 章 方差分析与实验设计 7.3 双因子方差分析 不考虑交互作用 考虑交互作用

48 7.3 双因子方差分析 不考虑交互作用

49 双因子方差分析 (two-way analysis of variance)
分析两个因子(行因子Row和列因子Column)对实验结果的影响 如果两个因子对实验结果的影响是相互独立的,分别判断行因子和列因子对实验数据的影响,这时的双因子方差分析称为无交互作用的双因子方差分析或无重复双因子方差分析(Two-factor without replication) 如果除了行因子和列因子对实验数据的单独影响外,两个因子的搭配还会对结果产生一种新的影响,这时的双因子方差分析称为有交互作用的双因子方差分析或可重复双因子方差分析 (Two-factor with replication ) 2008年8月

50 双因子方差分析的基本假定 每个总体都服从正态分布 各个总体的方差必须相同 观察值是独立的
对于因子的每一个水平,其观察值是来自正态分布总体的简单随机样本 各个总体的方差必须相同 对于各组观察数据,是从具有相同方差的总体中抽取的 观察值是独立的 2008年8月

51 双因子方差分析 (例题分析) 【例】有4个品牌的彩电在5个地区销售,为分析彩电的品牌(品牌因子)和销售地区(地区因子)对销售量的影响,对每显著个品牌在各地区的销售量取得以下数据。试分析品牌和销售地区对彩电的销售量是否有显著影响?(=0.05) 不同品牌的彩电在5个地区的销售量数据 品牌因子 地区因子 地区1 地区2 地区3 地区4 地区5 品牌1 品牌2 品牌3 品牌4 365 345 358 288 350 368 323 280 343 363 353 298 340 330 260 333 308 2008年8月

52 分析步骤 (提出假设) 提出假设 对行因子提出的假设为 对列因子提出的假设为
H0:m1 = m2 = … = mi = …= mk (mi为第i个水平的均值) H1:mi (i =1,2, … , k) 不全相等 对列因子提出的假设为 H0: m1 = m2 = … = mj = …= mr (mj为第j个水平的均值) H1: mj (j =1,2,…,r) 不全相等 2008年8月

53 双因子方差分析 (例题分析)  提出假设 对品牌因子提出的假设为 对地区因子提出的假设为
H0:m1=m2=m3=m (品牌对销售量无显著影响) H1:mi (i =1,2, … , 4) 不全相等 (有显著影响) 对地区因子提出的假设为 H0:m1=m2=m3=m4=m5 (地区对销售量无显著影响) H1:mj (j =1,2,…,5) 不全相等 (有显著影响) 2008年8月

54 分析步骤 (构造检验的统计量) 计算平方和(SS) 总误差平方和 行因子误差平方和 列因子误差平方和 随机误差项平方和 2008年8月

55 分析步骤 (构造检验的统计量) SST = SS行 +SS列+SS残差
2008年8月

56 分析步骤 (构造检验的统计量) 计算均方(MS) 误差平方和除以相应的自由度 三个平方和的自由度分别是
总误差平方和SST的自由度为 kr-1 行因子平方和SSR的自由度为 k-1 列因子平方和SSC的自由度为 r-1 误差项平方和SSE的自由度为 (k-1)×(r-1) 2008年8月

57 分析步骤 (构造检验的统计量) 计算均方(MS) 行因子的均方,记为MS行,计算公式为 列因子的均方,记为MS列,计算公式为
2008年8月

58 分析步骤 (构造检验的统计量) 计算检验统计量( F ) 检验行因子的统计量 检验列因子的统计量 2008年8月

59 分析步骤 (做出决策)  计算出统计量的P值与给定的显著性水平比较,  用Excel进行无重复双因子分析
若PR< ,拒绝原假设H0 ,表明均值之间的差异是显著的,即所检验的行因子对观察值有显著影响 若PC < ,拒绝原假设H0 ,表明均值之间有显著差异,即所检验的列因子对观察值有显著影响  用Excel进行无重复双因子分析 2008年8月

60 双因子方差分析 (关系强度的测量) 行平方和(SS行)度量了品牌这个自变量对因变量(销售量)的影响效应
这两个平方和加在一起则度量了两个自变量对因变量的联合效应 联合效应与总平方和的比值定义为R2 其平方根R反映了这两个自变量合起来与因变量之间的关系强度 2008年8月

61 双因子方差分析 (关系强度的测量) 例题分析 品牌因子和地区因子合起来总共解释了销售量差异的83.94%
其他因子(残差变量)只解释了销售量差异的16.06% R=0.9162,表明品牌和地区两个因子合起来与销售量之间有较强的关系 2008年8月

62 7.3 双因子方差分析 考虑交互作用

63 可重复双因子分析 (提出假设) 提出假设 对行因子提出的假设为 对列因子提出的假设为 对交互作用的假设为
H0:m1 = m2 = … = mi = …= mk (mi为第i个水平的均值) H1:mi (i =1,2, … , k) 不全相等 对列因子提出的假设为 H0: m1 = m2 = … = mj = …= mr (mj为第j个水平的均值) H1: mj (j =1,2,…,r) 不全相等 对交互作用的假设为 H0:不无交互作用 H1: 有交互作用 2008年8月

64 SST=SS行+SS列+SS交互+SS残差
可重复双因子分析 (平方和的计算) 总平方和: 行变量平方和: 列变量平方和: 交互作用平方和: 误差项平方和: SST=SS行+SS列+SS交互+SS残差 2008年8月

65 计算出统计量的P值,若P<,拒绝原假设
可重复双因子分析 (构造检验统计量) 检验行因子的统计量 检验列因子的统计量 检验交互作用的统计量 计算出统计量的P值,若P<,拒绝原假设 2008年8月

66 可重复双因子分析 (例题分析) 【例】检验超市位置、竞争者数量及其交互作用对销售额是否有显著影响(=0.05) 2008年8月

67 可重复双因子分析 (Excel检验步骤)  用Excel进行可重复双因子分析 第1步:选择“工具”下拉菜单,并选择【数据分析】选项
第2步:在分析工具中选择【方差分析:可重复双因子分 析】,然后选择【确定】 第3步:当对话框出现时 在【输入区域】方框内键入数据区域(A1:C11) 在【】方框内键入0.05(可根据需要确定) 在【每一样本的行数】方框内键入重复实验次数(5) 在【输出区域】中选择输出区域 选择【确定】  用Excel进行可重复双因子分析 2008年8月

68 第 7 章 方差分析与实验设计 7.4 实验设计初步 完全随机化设计 随机化区组设计 因子设计

69 实验设计与方差分析 2008年8月

70 7.4 实验设计初步 完全随机化设计

71 完全随机化设计 (completely randomized design)
“处理”被随机地指派给实验单元的一种设计 “处理”是指可控制的因子的各个水平 “实验单元(experiment unit)”是接受“处理”的对象或实体 在实验性研究中,感兴趣的变量是明确规定的,因此,研究中的一个或多个因子可以被控制,使得数据可以按照因子如何影响变量来获取 对完全随机化设计的数据采用单因子方差分析 2008年8月

72 完全随机化设计 (例题分析) 【例】一家种业开发股份公司研究出3个新的小麦品种:品种1、品种2、品种3。为分析不同品种对产量的影响,需要选择一些地块,在每个地块种上不同品种的小麦,然后获得产量数据进行分析。这一过程就是实验设计的过程 这里的“小麦品种”就是实验因子或因子,品种1、品种2、品种3就是因子的3个不同水平,称为处理 假定选取3个面积相同的地块,这里的“地块”就是接受处理的对象或实体,称为实验单元 将每个品种随机地指派给其中的一个地块,这一过程就是随机化设计过程 2008年8月

73 完全随机化设计 (例题分析) 实验数据:  单因子方差分析 2008年8月

74 完全随机化设计 (例题分析) 方差分析: 2008年8月

75 7.4 实验设计初步 随机化区组设计

76 随机化区组设计 (randomized block design)
再将各种处理随机地指派给各个区组 比如在上面的例子中,首先根据土壤的好坏分成几个区组,假定分成4个区组:区组1、区组2、区组3、区组4,每个区组中有三个地块 在每个区组内的3个地块以抽签的方式决定所种的小麦品种 分组后再将每个品种(处理)随机地指派给每一个区组的设计就是随机化区组设计 实验数据采用无重复双因子方差分析 2008年8月

77 随机化区组设计 (例题分析) 实验数据:  无重复双因子方差分析 2008年8月

78 随机化区组设计 (例题分析) 方差分析: 2008年8月

79 7.4 实验设计初步 因子设计

80 因子设计 (factorial design)
感兴趣的因子有两个 如:小麦品种和施肥方式 假定有甲、乙两种施肥方式,这样3个小麦品种和两种施肥方式的搭配共有3×2=6种。如果我们选择30个地块进行实验,每一种搭配可以做5次实验,也就是每个品种(处理)的样本量为5,即相当于每个品种(处理)重复做了5次实验 考虑两个因子(可推广到多个因子)的搭配实验设计称为因子设计 该设计主要用于分析两个因子及其交互作用对实验结果的影响 实验数据采用可重复双因子方差分析 2008年8月

81 因子设计 (例题分析) 实验数据:  可重复双因子方差分析 2008年8月

82 因子设计 (例题分析) 方差分析: 2008年8月

83 本章小结 方差分析的思想和原理 方差分析中的基本假设 单因子方差分析 双因子方差分析 实验设计与数据分析 2008年8月

84 结 束 THANKS


Download ppt "统 计 学 (第三版) 2008 作者 贾俊平 统计学."

Similar presentations


Ads by Google