Download presentation
Presentation is loading. Please wait.
1
应用统计第4章 第六章 方差分析
2
本章教学目标 本章主要内容 了解方差分析可以解决那些实际问题; 了解应用方差分析的基本条件; 掌握方差分析的基本概念及其分析方法;
正确使用 Excel 软件求解单因素和双因素方差分析问题及其运行输出结果分析. 本章主要内容 §4.1 方差分析概述 §4.2 单因素方差分析 §4.3 双因素方差分析 本章重点:考虑交互作用的双因素方差分析
3
§6.1 方差分析概述 在生产经营管理过程中,通常有很多因素会影响产品的质量、产量、销售量等指标。
如农作物的产量受品种、肥料、气候、雨水、光照、土壤、播种量等众多因素的影响; 产品销售量受品牌、质量、价格、促销手段、竞争产品、顾客偏好、季节、居民收入水平等众多因素的影响; 化工产品的得率受温度、压力、催化剂、原料配比等因素的影响。 因此需要了解: ⑴哪些因素会对所研究的指标产生显著影响; ⑵这些影响因素在什么状况下可以产生最好的结果。 方差分析就是解决这类问题的一种统计分析方法。
4
【案例1】哪种促销方式效果最好? 某大型连锁超市为研究各种促销方式的效果,选择下属 4 个门店,分别采用不同促销方式,对包装食品各进行了4 个月的试验。 试验结果如下: 超市管理部门希望了解: ⑴不同促销方式对销售量是否有显著影响? ⑵哪种促销方式的效果最好?
5
【案例2】如何确定最优生产工艺 影响某化工厂化工产品得率的主要因素是反应温度和催化剂种类。
为研究产品的最优生产工艺,在其他条件不变的情况下,选择了四种温度和三种催化剂,在不同温度和催化剂的组合下各做了一次试验,测得结果如下: 化工产品得率试验(得率:%)
6
案例 2 要研究的问题 ⑴温度是否对该产品的得率有显著影响? 若有显著影响,应将温度控制在什么范围内可使得率最高?
⑵催化剂是否对该产品的得率有显著影响? 若有显著影响,哪种催化剂的效果最好? ⑶温度和催化剂的不同组合是否对产品得率有显著影响? 如有显著影响,哪种温度和催化剂的组合可使得率最高?
7
一. 方差分析的基本概念 记 A, B, C ··· 为试验中状态发生变化的因素, 称因素在试验中所取的不同状态为水平。
设因素 A 有 a 个水平,记为 A1, A2, ···, Aa;因素 B 有 b个水平,记为 B1, B2, ···, Bb 等。 若试验中只有一个变动的因素,就称为单因素试验; 若有两个变动的因素,就称为双因素试验; 若有两个以上的变动因素,则称为多因素试验。 二.方差分析的基本假设 设因素 A 在水平 Ai 下的某项指标为总体 Xi,则假定 Xi ~N( i, 2 ), Xi 相互独立
8
三.方差分析的目的 就是要检验原假设 H0:1 = 2 = ··· = a 是否成立。
进一步还应确定使效果达到最佳的水平。 若不能拒绝 H0,则说明因素 A 对该项指标无显著影响,试验结果中的差异主要是由其他未加控制的因素和试验误差所引起的。 虽然可以用两两 t 检验法来检验各 i 间是否存在显著差异,但 t 检验无法检验多个因素间的交互效应,而这正是方差分析要解决的主要问题。
9
§6.2 单因素方差分析 一.基本概念 xij = i + ij 记水平 Ai 下的 ni 个试验结果为 xij ,则
i = 1, 2,···, a;j = 1, 2,···, ni ij ~ N(0, 2 ),且相互独立 其中 ij 是由各种无法控制的因素引起的随机误差。 上式说明,试验结果 xij 受到两方面的影响: ⑴因素 A 的水平 Ai 的均值 i ⑵随机误差 ij
10
称 为一般平均。 称 i = i - ; i = 1, 2, ···, a 为水平 Ai 的效应, 反映了水平 Xi 的均值与一般平均 的差异。 从而要检验的原假设可改写为: H0:1= 2 = ··· = a = 0
11
二.方差分析的基本方法 方差分析 的基本思路: 将因素的不同水平和随机误差对试验结果的影响 进行分离,
并比较两者中哪一个对试验结果 xij 的影 响起主要作用。 若因素的不同水平对试验结果 xij 的影响是主要的, 就拒绝 H0, 说明因素 A 对试验结果有显著影响; 若试验结果 xij 中的差异主要是由随机误差引起的, 就不能拒绝 H0, 说明因素 A 对试验结果无显著影响。 为此,需要对总的偏差平方和进行分解。
12
1.总的偏差平方和 为总的偏差平方和, 它反映了样本数据 xij 间总的差 异量的大小。 为便于对 ST 进行分解,
记水平 Ai 下的样本均值为
13
2. 偏差平方和的分解 其中 反映了各样本(同一水平)内的数据差异, 主要是由随机误差所引起的, 称为误差平方和或组内平方和。
反映了各样本(不同水平)间数据的差异, 主要是由因素A的不同水平效应间的差异引起的, 称为因素 A的平方和 或 组间平方和。 利用 SA 和 Se 之比就可以构造出检验 H0 的统计量。
14
3. 检验 H0 的统计量 可以证明, 当 H0 为真时, 统计量 ~ F (a-1, N-a) 故在给定水平 下,若
F > F (a-1, N-a) 就拒绝 H0, 说明各水平 Ai 的效应间存在显著差异, 或称因素 A 的作用是显著的。 由于 SA /(a-1) 和 Se /(N-a) 分别是组间数据和组内 数据的样本方差, 故称这种基于检验样本方差比的 方法为方差分析。
15
三.方差分析表 单因素方差分析表 若 F > F0.001(a-1, N-a),称因素 A 的作用极高度显著;
若 F0.01 (a-1, N-a) > F > F0.05(a-1, N-a),称因素 A 的作用一般显著; 若 F < F0.05(a-1, N-a),则认为因素 A 的作用不显著。
16
四.进一步的分析 若因素 A 的作用是显著的,接下来还需要确定: 1. 因素 A 的哪一水平效果最好? 这可以通过求出各 来确定,
它是 i 的优良估计。 2. 因素 A 的各水平间是否都存在显著差异? 这可以通过对各 i 进行两两 t 检验来确定。 如果存在多个效果最好的水平(它们间并无显著差异),就可以有多种最优水平可供决策者选择。
17
【案例1】哪种促销方式效果最好? 某大型连锁超市为研究各种促销方式的效果,选择下属4个门店,分别采用不同促销方式,对包装食品各进行了4个月的试验。 试验结果如下: 超市管理部门希望了解: ⑴不同促销方式对销售量是否有显著影响? ⑵哪种促销方式的效果最好?
18
案例 1 分析 可用 Excel 的【工具】→“数据分析”→“方差分析:单因素方差分析”求解单因素方差分析问题。 案例 1 的方差分析表
其中:P-value —— P 值,为检验中达到的显著性水平, 其含义与 t 检验中“P(T<=t)单尾”相同。 F crit —— 在水平 (默认0.05)下拒绝域的临界值 F。 ∵ P-value = < 0.001 故不同的促销方式对商品销售额有极高度显著影响。
19
进一步的分析 由 Excel 或 SPSS 软件的运行输出结果还可得:
由 SPSS 软件的运行输出结果还直接可得到对各 i 的 t 检验结果如下( =0.05): 1 2 4 (广告宣传) 1 (有奖销售) 2 (买一送一) 4 * * (特价销售) 3 * * * 用 Excel 也可得到
20
方差分析结论: 特价销售的效果最好,买一送一次之,广告宣传和有奖销售的效果最差,两者间无显著差异。
21
§6.3 双因素方差分析 在许多情况下, 需要同时分析多个因素对某个指 标的影响。 当试验中同时有多个因素在变化时, 不仅要考虑
§6.3 双因素方差分析 在许多情况下, 需要同时分析多个因素对某个指 标的影响。 当试验中同时有多个因素在变化时, 不仅要考虑 每个因素对试验指标的影响, 还要考虑各因素不同 水平间的相互搭配对试验指标的综合影响。 由各因素的不同水平组合所产生的影响, 称为因 素间的交互作用。
22
xij = ij+ij = + i +βj + ij
一.不考虑交互作用的双因素方差分析 1. 无交互作用时的双因素试验 设试验中有 A, B 两个变动的因素, 因素 A 取 a 个水平, 因素 B 取 b 个水平。 在 Ai 和 Bj 组合下的试验效果为总 体 Xij 。 Xij~N( ij , 2 ), 且相互独立 i =1, 2, ..., a;j =1, 2, ..., b 当不考虑交互作用时, 在两个因素的各水平 Ai 和 Bj 组合下只需分别进行一次试验, 记试验结果为 xij 。 同样, 称 i 为因素 A 的水平 Ai 的效应; βj 为因素 B 的水平 Bj 的效应。 并称 为一般平均 xij = ij+ij = + i +βj + ij 则
23
2. 要检验的假设 在无交互作用的双因素方差分析中,要检验的原假设有以下两个: H01:1 = 2 = ··· = a = 0
H02:β1= β2 = ··· = βb = 0 若拒绝 H01,说明因素 A 的作用显著; 若拒绝 H02,说明因素 B 的作用显著。
24
3. 偏差平方和的分解 与单因素方差分析完全类似地,可将总的偏差平方和 ST 分解为以下三项:
其中 Se 仅反映了随机误差引起的数据波动,称为误差平方和; SA 主要是由因素A各水平效应的不同所产生的差异,称为因素 A 的平方和或 A 的组间平方和。 SB 主要是由因素 B 各水平效应的不同所产生的差异,称为因素 B 的平方和或 B 的组间平方和。
25
4. 检验用的统计量 同样可以证明:当 H01 为真时,统计量 ~ F( a-1, (a-1)(b-1) ) 当 H02 为真时,统计量
~ F(b-1, ( a-1)(b-1) ) 当 FA > F ( a-1,(a-1)(b-1) ) 时,拒绝 H01; 当 FB > F ( b-1,(a-1)(b-1) ) 时,拒绝 H02。
26
5. 方差分析表 无交互作用的双因素方差分析表
27
【案例2】如何确定最优生产工艺? 影响某化工厂化工产品得率的主要因素是反应温度和使用的催化剂种类。为研究产品的最优生产工艺条件,在其他条件不变的情况下,选择了四种温度和三种催化剂,在不同温度和催化剂的组合下各做了一次试验,测得结果如下: 化工产品得率试验(%)
28
案例 2 分析 可用 Excel 【工具】→“数据分析”→“方差分析:无重复双因素分析”求解无交互作用的双因素方差分析问题。
案例2的方差分析表 ∵因素 A 的 P-value = > 0.05 因素 B 的 P-valu = 0.49 > 0.05 故温度和催化剂对该化工产品的得率都无显著影响!?
29
问题出在哪里? 以上结论既不符合实际情况, 也违背化学反应的 基本常识。 由本案例的试验数据可以明显看出, 温度和催化剂
不同搭配下的得率之间是存在显著差异的。 显然,很可能是由于未考虑因素间的交互作用,才导致了错误的分析结果。
30
二.考虑交互作用的双因素方差分析 1. 考虑交互作用时的双因素试验 ⑴交互效应
记 A, B 间的交互作用为 A×B, , i , j 的定义同前。 由于存在交互作用,因此 ij ≠ + i + j 称 ( )ij = ij - - i - j 为 Ai 与 Bj 的交互效应,它反映了两因素间不同水平的组合对试验结果的影响。 因此,总体 Xij 的均值可表示为 ij = + i + j + ( )ij
31
(2)要检验的假设 由于考虑了交互作用,因此要检验的原假设有以下三个: H01:1= 2 = ··· = a = 0
H02:1= 2 = ··· = b = 0 H03:( )ij = 0;对一切 i, j 为检验交互作用,就需要在每一 Ai Bj 水平组合下进行重复试验。 记 xijk 为在 Ai Bj 组合下的第 k 次试验的结果。
32
2.偏差平方和的分解 其中 Se , SA , SB 的含义同前; SA×B 则主要是由交互效应所引起的差异,称为 A×B 间平方和。
完全类似地,可以将总的偏差平方和 ST 作如下分解: 其中 Se , SA , SB 的含义同前; SA×B 则主要是由交互效应所引起的差异,称为 A×B 间平方和。
33
3.检验用的统计量 同样可以证明: 当 H01为真时, ~ F( a-1, ab(n-1) ) 当 H02为真时,
~F( b-1, ab (n-1) ) 当 H03为真时, ~ F( (a-1)(b-1), ab(n-1) ) 故 H01, H02, H03 的拒绝域分别为: FA > F( a-1,ab(n-1) ) FB > F( b-1,ab(n-1) ) FA×B > F( (a-1)(b-1),ab(n-1) )
34
4.方差分析表 有交互作用的双因素方差分析表
35
【案例2】如何确定最优生产工艺? 影响某化工厂产品得率的主要因素是反应温度和使用的催化剂种类。为研究产品的最优生产工艺条件,在其他条件不变的情况下,选择了四种温度和三种催化剂,在不同温度和催化剂的组合下各做了两次试验,测得结果如下: 化工产品得率试验(%)
36
重新求解案例2 可用 Excel 【工具】→“数据分析”→“方差分析:可重复双因素分析” 求解考虑交互作用的双因素方差分析问题。 方差分析表
37
运行结果分析 ∵因素 A 的 P-value = 0.0298 < 0.05
因素 B 的 P-value = < 0.01 交互作用的 P-value = 8.3E-5 < 0.001 ∴ 温度对得率有显著影响; 催化剂对得率的影响是高度显著的; 温度与催化剂的交互作用对得率的影响是极高度显著的。 这说明各种催化剂都有最佳的催化温度。 由本案例可知,如果因素间存在显著的交互作用而在方差分析时未加考虑,就会得出错误结论。 故对双因素和多因素方差分析,通常都应考虑交互作用。
38
进一步的分析 由 Excel 的运行输出结果还可得到各 如下:
可知 A2B2 和 A3B1 这两种组合可使得率最高,且这两种组合的平均得率之间无显著差异,而其他组合与它们之间都存在显著差异。 在使用第二种催化剂时,应将温度控制在 70 oC; 而使用第一种催化剂时,应将温度控制在80 oC 。 平均得率都可达到 96% 左右。
Similar presentations