ANOVA簡介 許晉誠 2009.10.14
釋名 全名「平均數的變異數分析」 藉由分析不同組資料的變異數來檢驗 不同條件是否會造成不同結果。 (英文僅作「analysis of variance」,未能表其全意) 藉由分析不同組資料的變異數來檢驗 不同條件是否會造成不同結果。 變異數分析其實就是F檢定的應用。 (F test是1920年代由Ronald Fisher提出的統計方法。 F test, t test和χ2 test是3個最常見的檢定)
嚴格的統計學在做ANOVA前,會先用一些方法來檢查資料是否符合這三大假設。 常態性假設: 每組反應變數的母體均為常態分配。 每株辣椒的產量的母體服從常態分布。 同質性假設: 每組的母體變異數都相等。 各組辣椒植株產量的母體變異數相等。 獨立性假設: 抽自各母體的各組隨機樣本互為獨立。 每株辣椒的產量互相獨立。
範例 現有辣椒種子1袋。 取出9粒,平分成三組,各施加不同品質的肥料。 ▼收成後的產量
邏輯與算法 k = 一組有幾個樣本 n = 總樣本數 SS = 平方和;下標B代表組間、E代表組內 =(各組平均值-總平均值)2 =(組內各樣本值-該組平均值)2 k = 一組有幾個樣本 n = 總樣本數 SS = 平方和;下標B代表組間、E代表組內 MSB/MSE = SSB/SSE除以各自的自由度 ※當F值越大,表示組平均數的分散情形越嚴重。 ※若F>臨界值,即可拒絕虛無假設。
算法 nj =第j組的樣本數 Xj =第j組的平均值 =(各組平均值-總平均值)2的總和 =(組內各樣本值-該組平均值)2的總和
運算流程整理 求出各組平均值 求出總平均值 如下,由左向右運算,求出F值。
統計學名詞講解 虛無假設: 研究者欲檢定其正確性的假設。 ANOVA的虛無假設便是各組的平均值都相等。 亦即 顯著水準: 當統計量出現的機率超過了這個水準之後,研 究者便可推斷:參與比對的數據,其母體間有 顯著的差異,進而推翻虛無假設。
ANOVA專用名詞解釋 名詞 釋義 範例 因子 (解釋變數) Factor 就是條件。 肥料 因子水準 Factor level 條件的種類或等級。 普通化肥 高速化肥 急速化肥 反應變數 (應變數、預測變數) Response 研究者關切的結果。 辣椒的產量
範例 現有辣椒種子1袋。 取出9粒,平分成三組,各施加不同品質的肥料。 因子 反應變數
後續處理 有時候我們希望看兩組兩組之間有沒有差別,而不 是看一個整體的,此時就會用到以下的方法: 假設各組變異數相同 假設各組變異數不同 各組n相等 1. Tukey HSD (Honestly Significant Difference) test 2. NK (Newman-Keuls) method 各組n不相等 3. Scheffe's method 4. Duncan's (new multiple range) test 假設各組變異數不同 5. Dunnett
限制 ANOVA最大的限制有三: 必須使用區間純量或比例純量。 (不是很重要,反正就是說要有物理意義) 各類別的樣本數要接近(最好相等)。 必須使用區間純量或比例純量。 (不是很重要,反正就是說要有物理意義) 各類別的樣本數要接近(最好相等)。 只能告訴我們樣本間的差異是否到達顯著水準, 不能告訴我們哪個類別或樣本和其它的類別或樣 本的不同點。
疑問 Q1:為什麼要除以N-1? A2:為了使些估計量成為不偏估計量(unbiased estimator)。 Q2:F(v1, v2) F分配是什麼? X~ χ2(d)
回想樣本標準差... E[S2] = σ2 ‧樣本變異數: ‧樣本標準數:S 樣本變異數是母體變異數的估計量。 統計學告訴我們: 此處要除以(n-1)才會使該估計量為不偏估計量。 E[S2] = σ2
謝謝聆聽