第一章
第九章 變異數分析 第一章
本章綜覽 變異數分析 (analysis of variance, 簡稱為 ANOVA) : 將一組資料的總變動量,依可能造成變動的因素分解成不同的部分,並且以假設檢定的方法來判斷這些因素是否的確能解釋資料的變動。例如判斷飼料品牌是否會對牛乳產量造成影響。 完全隨機設計:討論一種因子的影響力。 隨機集區設計:討論無重複試驗雙因子的影響力。 雙因子變異數分析:討論雙因子的影響力。
變異數分析--名詞定義 變異數分析最初是用來分析經過適當設計或控制的試驗所產生的資料。 試驗單位(experiment unit):接受試驗的人或物。 因子 (factor):研究者所能控制或調整的因素。 處方 (treatment):因子的各種水準或類別。 反應變數 (response variable):試驗單位對不同處方的反應。 例如: 若想知道飼料品牌 (因子) 是否會影響乳牛 (試驗單位),可以觀察在各種飼料品牌 (處方) 餵養下,牛乳產量 (反應變數) 的變動情形。
完全隨機設計 完全隨機設計 (completely randomized design):一個試驗中,研究者將不同的處方以隨機的方式分派給各個試驗單位的試驗設計。 在完全隨機設計下,對每一種處方,就會有一組反應變數,而各組變數的個數可能各自不同。
完全隨機設計 假設有 M 種處方。虛無假設為 M 種處方的均數一樣。 H0:μ1=μ2= …=μM。 令 代表第 j 組反應變數的平均數。 令 代表全部樣本的樣本平均數。 完全隨機設計的重要公式: 總平方和 (TSS) = 因子平方和 (FSS) + 誤差平方和 (ESS)。
完全隨機設計 變異數分析的基本想法:在反應變數的總變動量中,若不同處方會產生不同的效果,總平方和中由各種處方所造成的變動應該比較大,故因子平方和應遠較誤差平方和為大。當兩者有顯著差距時,便認為因子的確對試驗單位造成影響,故應拒絕虛無假設。 但這些平方和會隨試驗單位的個數增加而增加。所以在衡量因子平方和與誤差平方和的相對重要性時,必需考慮其平均數 (而非總量)。 把總量除以個別的自由度後可以得到平均數,並以此作檢定。
完全隨機設計--自由度與平均數 自由度就是試驗單位的個數減去限制式的數目,因此其等式為: N – 1(TSS) = M – 1(FSS) + N – M(ESS)。 平均數如下:
完全隨機設計--檢定統計量 假設對任一處方 j , Yij 為 i.i.d. 的常態隨機變數 N (μj, σ02),則可以用 MSF 與 MSE 的比值來作為檢定統計量。在虛無假設之下: 根據樣本觀察值計算出的統計量之值大於 F 分配的臨界值時,拒絕虛無假設。並推論:不同處方所造成的變動顯著的大於誤差所形成的變動,所以因子的確會影響試驗單位的反應。 上述結果和三個重要假設有關:獨立性、常態性、變異數齊一性。
完全隨機設計-- 例9.3 下表包含了不同教育程度下,人員的月平均薪資資料 (單位:萬元)。 變異數分析表為
隨機集區設計 當每種處方下的反應變數各有不同特性而非相同分配時,不能用上一節的作法。要將試驗單位再劃分成許多集區來討論。 隨機集區設計 (randomized block design): 先將試驗單位依其特質或屬性歸類於不同的集區 (block),處方則隨機分派於同一集區內的各個試驗單位,而且一種處方只用於集區內的一個試驗單位。 假設修正為: Yij 為互相獨立的常態隨機變數,其均數為 μij = μ*+βi+γj,變異數為 σ02。 若欲分析因子的效果,虛無假設為 H0: γ 1= γ 2= … = γM = 0. 若欲分析集區的效果,虛無假設為 H0:β1= β 2= … = βN = 0.
隨機集區設計 總變動量的分解: 總平方和 (TSS) =因子平方和 (FSS) +集區平方和 (BSS) + 誤差平方和 (ESS) 自由度的等式變為: NM-1= M-1+ N-1+ (N-1)(M-1)。 (TSS) (FSS) (BSS) (ESS)
隨機集區設計 平方和的平均如下:
隨機集區設計-- 檢定統計量 加入集區因子之後,檢定因子效果的檢定統計量為: 檢定集區效果的檢定統計量為: 上述結果仍和三個反應變數的重要假設有關:獨立性、常態性、變異數齊一性。
隨機集區設計—例9.5 下表是來自不同地區的員工薪資,我們將該表與地區名綜合於下表。(單位: 萬元) 變異數分析表為
隨機集區設計—例9.5 在 5% 的顯著水準下,F (2,4) 的臨界值為 6.9443,所以φF 和 φB 均拒絕虛無假設。因此推論不同的教育程度與不同的地區都會造成平均薪資顯著的差異。 和例 9.3 相比,可發現在考慮集區效果之後,誤差平方和變得非常小。即教育程度和地區的差異已經解釋了薪資中絕大部分的變動。
雙因子變異數分析 雙因子變異數分析:考慮兩個因子對試驗單位可能產生的影響。 在雙因子變異數分析中,不僅要區分不同因子的個別效果,還要考慮因子之間交互作用所產生的效果,又稱之為交叉效果 (cross effect)。 假設第一類因子有 N 種不同的處方,第二類因子有 M 種處方,而且每一試驗單位都同時接受兩類因子的處方,且每一種處方的組合都有 K 個反應變數。
雙因子變異數分析 假設修正如為: Yijk 為相互獨立的常態隨機變數,其均數為 μij = μ*+βi+γj+δij,變異數為 σ02。 若欲分析第一類因子的效果,虛無假設為 H0:β1= β 2= … = βN= 0. 若欲分析第二類因子的效果,虛無假設為 H0:γ1= γ2= … = γM = 0. 無交叉效果的虛無假設為 H0: δij = 0.
雙因子變異數--總變動量的分解 總變動量分解成: 總平方和 (TSS) = 第一類因子平方和 (FSS1) +第二類因子平方和 (FSS2) + 交叉平方和 (CSS) + 誤差平方和 (ESS)
雙因子變異數-- 自由度 NMK – 1(TSS) = (N – 1)(FSS1) + (M – 1)(FSS2) 自由度的等式變為: NMK – 1(TSS) = (N – 1)(FSS1) + (M – 1)(FSS2) + (N – 1)(M – 1)(CSS)+(NMK – NM) (ESS) 。 在獨立性、常態性、變異數齊一性三個假設成立下,可以用 F 分配來作檢定。
雙因子變異數-- 檢定統計量 檢定第一類因子效果的檢定統計量為: 檢定第二類因子效果的檢定統計量為: 檢定交叉效果的檢定統計量變為:
雙因子變異數分析-- 例9.6 假設考慮兩個可能影響薪資的因子:性別 (第一類) 和教育程度 (第二類)。第一類因子有兩種處方: 男與女;第二類因子有三種處方: 國中 (含) 以下, 高中, 大學 (含) 以上。在不同的處方組合下的月平均薪資資料如下表 (單位: 萬元)。
雙因子變異數分析-- 例9.6(續) 變異數分析表為 φ1~F(1,12), φ2~F(1,12), φc~F(1,12), 在 5% 顯著水準之下,其臨界值分別為 4.7472, 3.8853 和 3.8853。所以 φ1 和 φ2 均拒絕虛無假設,即性別和教育程度均對平均薪資有影響。但因 φc 不拒絕虛無假設,因此推論兩個因子並無因共同作用而產生交叉效果。
雙因子變異數分析 我們可以將「集區」視作與現有因子之間相互獨立的另一種因子,故隨機集區設計下的單因子變異數分析亦可視作一種特別的雙因子變異數分析變異數分析方式。 由於此時兩種因子只同時用於一個試驗單位,這種變異數分析可稱作「無重複試驗的雙因子變異數分析」 。 在 Excel 中則稱為「雙因子變異數分析:無重複試驗」。