第十二章 變異數分析 陳順宇 教授 成功大學統計系
變異數分析是用來 檢定多組平均數是否相等的問題, 不是在檢定變異數相等的問題
12.1 變異數分析簡介 在第九章例9.6我們檢定甲、乙 兩家公司輪胎平均壽命是否有顯著差異? 如果要問的是甲、乙、丙、丁 12.1 變異數分析簡介 在第九章例9.6我們檢定甲、乙 兩家公司輪胎平均壽命是否有顯著差異? 如果要問的是甲、乙、丙、丁 四家公司輪胎平均壽命有無顯著差異, 那要如何進行呢?
一對對做比較 也許初學者會想這有什麼困難呢? 只要一對對做比較, 先比較甲、乙兩組有無差異, 再比較甲、丙有無差異,
如果做兩次的一對對平均數的比較 都沒有差異, 那甲、乙、丙三家廠商輪胎平均壽命 就沒有差異了,
但問題在於每一次做檢定時, 作決策必有犯錯的風險 (即有犯錯機會,如型I、型II誤差),
例如上述做2次比較, 如每次訂的顯著水準是0.05, 則2次合計後犯型I誤差是多少, 就無法真正算出, 可能會高達0.05 + 0.05 = 0.10也不一定。
例12.1、 有甲、乙、丙三種包裝設計, 比較兩兩組間平均銷售量 是否有顯著差異? 各隨機找10家商店銷售, 結果甲、乙、丙的 樣本平均銷售量與標準差分別如下
甲 乙 丙 商店數 10 10 10 平均數 46 42 50 標準差 5 5 5
(1) 檢定甲、乙兩種包裝設計 平均銷售量是否有顯著差異? (2) 檢定甲、丙兩種包裝設計 (3) 檢定乙、丙兩種包裝設計
(1) 甲、乙兩組比較
甲、乙兩種包裝設計 平均銷售量沒有顯著差異
(2) 甲、丙兩組比較
甲、丙兩種包裝設計 平均銷售量沒有顯著差異
(3) 乙、丙兩組比較
乙、丙兩種包裝設計 平均銷售量有顯著差異
12.2 一因子模式
一因子的配置
一因子模式(Ⅰ)
其中
變異數分析(ANOVA) 用來檢定 k 組母體平均數是否相等問題, 寫成數學式子是檢定
對誤差項我們有3個基本假設: (1) 常態性(各個誤差取自常態分配) (2) 均質性(各個誤差變異數相等) (3) 獨立性(各個誤差間無相關)
一因子模式(Ⅱ):
平均數是否有顯著差異? 即檢定
式很大時,就應棄卻
組內平方和(或殘差平方和)
組間平方和(B) (或因子A的平方和(SSA))
F檢定
例12.2 輪胎平均壽命 設陽明貨運公司想從甲、乙、丙、丁 四家輪胎廠商中選一家廠商採購輪胎, 各從四家廠商隨機抽樣10個輪胎做測試 例12.2 輪胎平均壽命 設陽明貨運公司想從甲、乙、丙、丁 四家輪胎廠商中選一家廠商採購輪胎, 各從四家廠商隨機抽樣10個輪胎做測試 試問此四家廠商輪胎平均壽命 是否有顯著差異?( = 0.05)
表12.3 四種廠牌輪胎壽命
變異數分析
組間平方和
組內平方和
結論是顯著, 即四組輪胎的平均壽命不相等
表12.2 四種廠牌輪胎壽命 ANOVA表
P值與F值的關係圖
一因子的模式
平方和分解 (直角三角形畢氏定理)
例12.3、(例12.1續) 甲、乙、丙三種包裝設計, 各隨機找10家商店銷售, 結果甲、乙、丙樣本平均銷售量與 標準差如表12.1,
甲 乙 丙 商店數 10 10 10 平均數 46 42 50 標準差 5 5 5
試以ANOVA檢定甲、乙、丙 三種包裝的平均銷售量是否有顯著差異?
三種包裝設計 ANOVA表
三種肥料對蕃茄產量的影響 農夫想研究甲、乙、丙 三種肥料對蕃茄產量的影響, 他有一塊長方形土地共1200坪地, 如果他將此土地分成三區, 每區400坪各施一種肥料, 實驗設計配置圖如下
只有一筆資料無法做統計推論
每區再細分成幾塊大小相等的地
無隨機效果混合
完全隨機實驗配置圖
例12.6甲、乙、丙三種肥料其蕃茄產量如下
資料整理
12.3 各組母體變異數之檢定
哈雷檢定法
例12.7、(例12.2續) 試檢定甲、乙、丙、丁四家輪軩公司 輪胎壽命的變異數是否相等(a=0.05)?
12.4 集區設計 在例12.6農夫研究3種肥料對 蕃茄產量影響的一因子實驗設計, 是利用完全隨機設計做配置, 看起來很公平, 12.4 集區設計 在例12.6農夫研究3種肥料對 蕃茄產量影響的一因子實驗設計, 是利用完全隨機設計做配置, 看起來很公平, 但如果此塊地水源在左邊(或土壤愈左邊愈肥沃)則上面安排顯然對乙肥料較有利 (因抽籤結果乙肥在左邊配置實驗較多次),
因此如何消除這種由“抽籤”(不是有意的) 所造成的不公平呢? 統計學家想到了“集區”設計,
以水源為集區設計配置圖
集區設計模式
各種平方和
例12.8、設三種肥料對蕃茄產量影響之集區設計
資料如下
ANOVA表
12.5 因子設計 在例12.6中水源是影響蕃茄產量的因素, 農夫感興趣的是肥料與澆水量 如何影響產量,
這包括三個問題 (1)肥料是否影響產量? (2)澆水量多少是否會影響產量? (3)那一種配方可使產量最多 (即肥料與澆水量一起考量) 。
此為二因子的實驗設計問題 (1)、(2)兩個問題分別是討論 肥料與澆水量的主效用, (3)就要考量肥料與澆水量是否 有“交互作用”的問題了?
實驗的配置圖可能如下
表12.10 二因子樣本平均數表
表12.11 二因子母體平均數表
配方模式
例12.9、 若以圖12.5配置做實驗結果產量如下 試問6種肥料與澆水量配方的蕃茄 平均產量是否有差異?
表12.12 肥料與澆水量對蕃茄產量影響之資料
表12.13 因子A,B 各水準下蕃茄產量的平均數與標準差
由所有30筆產量的標準差
總平方和
組間平方和
組內平方和
故有證據說6種配方之平均產量 有顯著差異
12.5.2 二因子模式 (有交互作用)
可加性
不是可加性
二因子(有重覆實驗)設計模式
因素A的主效用估計
因素B的主效用估計
因素A,B的交互作用估計
殘差
檢定的是交互作用存不存在的問題,即檢定
A, B兩種主效用是否顯著,即檢定
平方和
表12.14 二因子設計ANOVA表
例12.10、三種肥料與 二種澆水量對蕃茄產量影響 試檢定 (1)肥料因素與澆水量因素 是否對產量有交互作用? (2)肥料因素的主效用是否存在? (3)澆水量因素的主效用是否存在?
表12.12 肥料與澆水量對蕃茄產量之影響資料
平均數與標準差分別
交互作用平方和
由例12.9得殘差平方和
肥料的因素平方和
各種肥料對蕃茄平均 產量有顯著差異
澆水量的因素平方和
澆水量對蕃茄平均產量 有顯著差異
例12.11交互作用問題 某食品公司研究在媒體做廣告與 在店頭陳列商品對提升顧客購買 咖啡、餅乾、奶昔 三種食品意願是否有幫助? ( m表平均100人中有意願購買的人數) 試問廣告與陳列分別對 咖啡、餅乾、奶昔是否有交互作用?
有意願購買的人數
圖12.3 廣告與陳列對咖啡購買意願交互作用圖示
圖12.4 廣告與陳列對餅乾購買意願交互作用圖示
圖12.5 廣告與陳列對奶昔購買意願交互作用圖示
例12.12、 某人想研究甲、乙、丙、丁 四種包裝對某食品銷售量是否有影響? 隨機找40家規模大致相同的商店, 分成4組,每組10家, 各銷售一種包裝設計食品一個月, 記錄銷售量如下
四種包裝設計銷售量
試問四種包裝的平均 銷售量是否有顯著差異?
總平均與標準差分別為
組間平方和
總平方和
殘差平方和
一因子(包裝)ANOVA表
例12.13(例12.12續) 若四種包裝甲、乙、丙、丁設計分別是: 甲是彩色、凱蒂貓, 乙是彩色、皮卡丘, 丙是黑白、凱蒂貓, 丁是黑白、皮卡丘,
故四種包裝設計分成兩個因子,分別為 因子A色彩(分成彩色與黑白兩水準), 因子B玩偶(凱蒂貓與皮卡丘兩水準),:
其水準配合(配方)可以下列 交叉設計表示
資料如表12.16,試問 (1) 色彩(因子A)的主效用是否顯著? (2) 玩偶(因子B)的主效用是否顯著? (3) AB交互作用是否顯著?
兩因子各種配方平均數
二維模式ANOVA表
結論: (1)色彩(因子A)是顯著的, 即不同色彩兩種包裝設計會影響銷售量。 (2)玩偶(因子B)是顯著的, 即不同玩偶會影響銷售量。 (3)色彩與玩偶的交互作用是不顯著的。
第十二章 摘要 1.變異數分析(ANOVA) 不是在檢定幾組母體變異數是否相等 而是在檢定幾組母體的平均數是否相等
2.了解由兩組獨立樣本的t檢定 擴充到多組獨立樣本的檢定。
4.一因子模式為 右邊有(總平均),(因子A)與(殘差) 三項,故ANOVA表中有三個平方和
5. 二因子模式(有交互作用)為 右邊有(總平均),(因子A),(因子B), (交互作用),(殘差)五項, 故ANOVA表中有五個平方和
6. 集區設計模式為 右邊有(總平均),(因子A),(因子B), (殘差)四項, 故ANOVA表中有四個平方和
7. 集區設計模式與 二因子(無交互作用)模式完全相同, 但以設計角度看是不同的想法
8. 集區設計是兩組相關樣本(成對)的擴充, 所以也可以集區設計來做 成對資料的檢定。
11.了解ANOVA中可控因子的水準與 配方之意義,以及 不可控因子(誤差項)的基本假設 (均質性、常態性、獨立性)。
12.了解實驗設計的基本觀念, 以及實驗資料與觀察資料的異同。
13.了解集區設計的重要性, 並知道它與二因子設計的差異
14.知道二因子交互作用的意義, 明瞭不用兩次單因子實驗設計, 而用一次的二因子實驗設計的理由
15.以圖解與分析兩種方式探討 因子間的交互作用是否存在? 並且知道在交互作用不存在時, 如何簡化模式與分析資料