Analysis of Variance 變異數分析 觀念 在前幾章中,我們學會了如何檢定兩母體平均數是否有差異。在本章中,我們將介紹對於兩個以上母體的平均值的比較。 檢定三個或以上的母體平均數是否相等的統計方法,或檢定名目變數或序列尺度的因子對於等距尺度或比率尺度的依變數是否有影響統計方法稱為變異數分析。 社會統計(上) ©蘇國賢2004
Analysis of Variance 變異數分析 觀念 例如: 比較各省籍(台灣、大陸、客家人)人士在平均收入及教育年數上的差異。 大學中各年級的同學智商是否有別? 三種不同的教學方法對於學生的成績是否有影響? 社會統計(上) ©蘇國賢2004
Analysis of Variance 變異數分析 觀念 在比較多組母體的平均值時,我們通常不採用兩兩比較的方式,主要的原因有二: 一、這種做法太浪費時間,因為比較幾個母體可能產生很多的比較組,例如比較五個母體的平均值差異,如果以兩兩比較的方式,我們必須進行C52=10次的t-test。 二、如果每組的顯著水準皆為α,則全體比較的顯著水準會高於α。 社會統計(上) ©蘇國賢2004
Analysis of Variance 變異數分析 觀念 假設我們在.05的顯著水準下要檢定下列虛擬假設: H0: u1=u2=u3 如果拆成下列三組虛擬假設: H0: u1=u2 , H0: u1=u3 , H0: u2=u3 每個假設被「接受」的機率為.95,三個假設全部被接受的機率為.953=.857,也就是說當假設為真但被推翻的機率為(1 - 0.857) = 0.143 > 0.05 遠高於顯著水準。 社會統計(上) ©蘇國賢2004
Analysis of Variance 變異數分析 觀念 因此我們需要在共同的顯著水準α下,同時考量多個平均值得差異,我們以F分配來進行檢定,稱之為變異數分析(ANOVA) 。 這個名稱容易令人產生誤解,我們是根據樣本資料的變量分析,來檢定母體平均數是否有差異。 社會統計(上) ©蘇國賢2004
Analysis of Variance 變異數分析 觀念 The One-Factor ANOVA Model單因子變異數分析 設我們從k個母體中得到樣本資料來檢定下列虛擬假設: H0: u1 = u2 = … = uk。 H1: 至少有兩個平均值不同。 社會統計(上) ©蘇國賢2004
Analysis of Variance 變異數分析 觀念 消費者很想知道哪種車最省油,比較A, B, C三種車款每加崙可以行駛的里數如下: 社會統計(上) ©蘇國賢2004
Analysis of Variance 變異數分析 觀念 三種汽車每單位汽油的里數皆相同 Q:我們所觀察到的樣本平均數差異是否大到足以推翻上面的虛擬假設? 社會統計(上) ©蘇國賢2004
Analysis of Variance 變異數分析 觀念 Q:各組平均值的差異是來自於抽樣誤差還是母體差異? 社會統計(上) ©蘇國賢2004
Analysis of Variance 變異數分析 觀念 例如A車與B車的平均值差異為1.4里,這個差異是否大到我們可以有信心的說u1與u2也有差異? 這個問題決定於x1, x2是否為母體平均值的精確估計值。 社會統計(上) ©蘇國賢2004
Analysis of Variance 變異數分析 觀念 如果標準差很小,則兩個樣本平均值一點點的差距都可能是母體平均值不同的訊號。 同理,如果標準差過大,則即使我們觀察到樣本平均值之間有很大的差距,我們也不太有信心能夠宣稱母體的平均數真的有別
Analysis of Variance 變異數分析 觀念 樣本標準差或變異數測量各個樣本內,各觀察值之間的變異程度。 如果樣本內的變異數很小,則各樣本之間平均數的差距若過大,為母體平均數不同的有力證據 反之,如果樣本內的變異數過大,則即使樣本平均值之間有差異,我們仍然很難下斷論說母體的平均值不同。
Analysis of Variance 變異數分析 觀念 因此檢定各樣本的平均值是否相同的問題涉及比較樣本內的變異(組內差異)及樣本間的變異(組間差異)。所以通常稱之為變異數分析。
樣本內的變異數很小 C B A 18 19 20 21 22 23
樣本平均數雖然相同 樣本內的變異數很大 C B A 15 17 19 21 23 25 27
變異數分析中的幾個專有名詞 我們經常設計研究來了解造成某種現象變化的原因,例如我們想要了解為什麼有時候種植西瓜會甜有時候不會甜(甜度變動),這種我們欲了解的變動稱為依變項(dependent variable)、被解釋變項、或反應變項(response variable)。 我們懷疑西瓜的甜度與栽種過程中是否施肥有關,將某些西瓜種籽加以施肥處理,其他西瓜保持自然生長,這種造成依變項產生變化的變數稱之為因子(factor)或獨立變項、 自變項(independent variable) 。 社會統計(上) ©蘇國賢2004
自變數與依變數 在上面的例子中,比較各種汽車的里程數,何者為依變項?何者為獨立變項? 依變項:每加崙里數 自變項:車種 ©蘇國賢2004 社會統計(上) ©蘇國賢2004
因子水準(Factor level)與處理(Treatment) 因子水準為某因子(自變數)之特殊形式或不同狀態,例如我們可以將「施肥」細分成三個水準:完全不施肥、施輕肥、施重肥。 如果解釋的因子為單一(施肥與否),稱為單因子分析,如果解釋因子在兩個以上(施肥與否+栽種溫度),稱為多因子分析。 社會統計(上) ©蘇國賢2004
因子水準(Factor level)與處理(Treatment) 社會統計(上) ©蘇國賢2004
變異數分析的邏輯 假設從K個母體中抽取大小分別為n1, n2, n3…nk的K個獨立隨機樣本。我們對母體有下列的假設: 各母體皆為常態分配,且有共同相同的變異數σ2。 以u1, u2, …uk 來表示母體的平均數,單因子分析檢證下虛擬假設 H0: u1=u2…=uk vs. H1: 至少有兩組平均數不同 社會統計(上) ©蘇國賢2004
Xi j 共有K個母體 μ1, σ1 μ2, σ2 μk, σk x21 xn2,2 i代表在樣本中的序號,i = 1,2, …nj x12 x1k x3k x11 x22 x32 x2k x31 Xi j j代表樣本組別,j = 1,2, …k
分別來自k母體的k個樣本 第k組樣本共有nk個觀察值 各組樣本數可以不同,分別為n1, n2,…nk, 總樣本數n= n1+n2+…+nk
變異數分析的邏輯 社會統計(上) ©蘇國賢2004
變異數的分解 總平均數 任何一部車與總平均的差異稱為總差異: 社會統計(上) ©蘇國賢2004
變異數的分解 總平均數 任何一廠牌與總平均的差異稱為由因子所引起的差異(difference due to factor) ©蘇國賢2004 社會統計(上) ©蘇國賢2004
變異數的分解 總平均數 同一廠牌中,任何一部車與該廠牌的平均數之間的差異稱為隨機差異(difference due to error 社會統計(上) ©蘇國賢2004
變異數的分解 總平均數 總差異 = 由因子所引起的差異 + 隨機差異 社會統計(上) ©蘇國賢2004
變異數的分解 總差異 = 由因子所引起的差異+ 隨機差異 因子的影響 隨機差異的影響 總平均 社會統計(上) ©蘇國賢2004
變異數的分解 兩邊取平方和 社會統計(上) ©蘇國賢2004
Sum of Squares in ANOVA變異數分析中的平方和 變異數分析是透過各組樣本內的變異與組間變異之比較來檢證各組平均值是否相等的一種方法。 全體樣本資料的總變異量為: 即個別觀察值與總平均數差距的平方和,稱為總變異量或總平方和。 社會統計(上) ©蘇國賢2004
Sum of Squares in ANOVA變異數分析中的平方和 變異數分析將總變異量分解成下列兩部分: 總變異 =組內變異(或未解釋變異) + 組間變異(或已解釋變異) = Within-group Sum of Squares or Sum of Squares Within (SSW) + Between-Group Sum of Squares or Sum of Squares Between (SSB) Total Sum of Squares (TSS) 社會統計(上) ©蘇國賢2004
Sum of Squares Within組內變異 組內各個觀察值之間的差異稱為隨機差異(difference due to random error),為不能被因子所解釋的差異。 在各組樣本內的變異,即每一個組內觀察值的誤差平方和: 在樣本組內,由於無法解釋的隨機變異,每一個觀察值xij與該組平均數會有所不同,因此組內的誤差稱為sum of squares due to error or error sum of squares (誤差平均和) 社會統計(上) ©蘇國賢2004
Sum of Squares Within組內變異 社會統計(上) ©蘇國賢2004
Between-Group Sum of Squares 組間變異 任何一組的平均數與總平均數之間的差異稱為因子引起的差異(difference due to factor) 組間變異是因為已知為處理(treatment)所造成的,因此稱為已解釋變異或處理平方和(treatment sum of squares): 社會統計(上) ©蘇國賢2004
Sum of Squares Between組間變異 社會統計(上) ©蘇國賢2004
Sum of Squares Identity 總變異 =組內變異(或未解釋變異) + 組間變異(或已解釋變異) SST = SSW + SSB 22.64 = 3.04 + 19.6 社會統計(上) ©蘇國賢2004
Mean Square Within 以變異數分析來檢定母體平均數是否相等必須基於下列假設: Xij are independent and Xij ~ N(uj, σ2) 變異數齊一性(homoegeneity): 每個小母體的變異數皆相等,σj2=σ2 如何估計母體變異數? ANOVA檢定奠基於用不同的方式來估計未知的共同母體變異數σ2 社會統計(上) ©蘇國賢2004
Mean Square Within 從第一組樣本的觀察值中我們可以得到一個母體變異數的不偏觀察值(unbiased estimator): 同理 社會統計(上) ©蘇國賢2004
Variance of Discrete Random Variable 複習 社會統計(上) ©蘇國賢2004
複習
Mean Square Within 雖然各組樣本的變異數皆為母體變異數的不偏估計式,但是一更佳,更有效率的估計式為充分運用所有的樣本觀察值,即將各組的觀察值集合起來一起得到一個混和估計式: 社會統計(上) ©蘇國賢2004
Mean Square Within 第j組的組內變異 這個混和估計式等於各組樣本變異數sj2的加權平均數,其加權權數為: ©蘇國賢2004 社會統計(上) ©蘇國賢2004
Mean Square Within 估計式的分子部分等於SSW,即各組組內變異的總和。 社會統計(上) ©蘇國賢2004
Mean Square Within 我們把上式稱為MSW (Mean Square Within)組內均和,有時稱為Mean Square Error (MSE) ,其中分母部分為MSW的自由度(degree of freedom) 社會統計(上) ©蘇國賢2004
Mean Square Within 為什麼MSW可以用來估計σ2?證明MSW為σ2的不偏估計式。 社會統計(上) ©蘇國賢2004
Mean Square Between 另一種估計母體變異數σ2為利用已知的 社會統計(上) ©蘇國賢2004
Mean Square Between 如果母體為常態分配,則樣本平均數的抽樣分配為: 為了方便討論,我們假設每一個樣本的樣本數相同,即n1= n2=n3=…=nk。 如果虛擬假設為真H0: u1=u2=…= uk,則 會有相同的機率分配。 社會統計(上) ©蘇國賢2004
Mean Square Between 因為每一個個別樣本皆為獨立樣本,所以我們可以將 視為從 中抽出K個觀察值的隨機樣本 社會統計(上) ©蘇國賢2004
Mean Square Between 從這個由樣本平均數所組成的樣本所計算出來的樣本變異數 稱為Mean Square Between (MSB) 社會統計(上) ©蘇國賢2004
Mean Square Between 數學上我們可以證明: 社會統計(上) ©蘇國賢2004
Mean Square Between 社會統計(上) ©蘇國賢2004
Mean Square Between 社會統計(上) ©蘇國賢2004
Mean Square Between 社會統計(上) ©蘇國賢2004
Mean Square Between 當虛擬假設所有的母體平均數皆相同為真,則SSB/(K-1)為母體變異數的不偏估計式 =0 社會統計(上) ©蘇國賢2004
Mean Square Between 當虛擬假設為不真,則SSB/(K-1)為母體變異數的偏差估計式,且偏差隨著 > 0 社會統計(上) ©蘇國賢2004
Mean Square Between Mean Square Between (MSB): 其中分母K-1為MSB的自由度,MSB又稱為Between-group mean square 或 Mean square due to treatments (MSTR) 社會統計(上) ©蘇國賢2004
ANOVA 這兩種方式皆可估計母體的變異數 當H0為真時, 當H0為不真時, 因此MSB及MSW的比率提供我們判斷虛擬假設是否無真的訊息。 社會統計(上) ©蘇國賢2004
Graphical Explanation of ANOVA 可以個別先計算每一個分配的變異數,然後取加權平均來估計σ2 也可以將所有資料彙整後再來估計σ2 pooled 社會統計(上) ©蘇國賢2004
Graphical Explanation of ANOVA 如果三個母體的平均值相等,則兩種方式估計的σ2應該將等 如果三個母體的平均值不等,則pooled資料所估計的母體變異數會大於σ2 pooled 社會統計(上) ©蘇國賢2004
ANOVA test statistic F In One-way ANOVA, the test statistics is 如果H0為不真,則MSB會高估母體變異數,F值會大於1。F愈大,H0愈不可能為真。 如果假設為真,則F統計量依循自由度為(K-1)及(n-K)的F 分配。 社會統計(上) ©蘇國賢2004
F Distribution 欲比較兩母體變異數是否相等時,我們可以計算樣本變異數的比值: 如果比率很接近1,則我們相信母體變異數很有可能一樣,如果此比值很大或很小,則母體變異數相等的機率不高。 究竟此比值要多大或多小才能推翻母體變異數相等的虛擬假設? 社會統計(上) ©蘇國賢2004
F Distribution 為了回答此問題,我們必須知道S21/S22此一隨機變數的抽樣分配。設有兩常態分配的母體: 且X1與X2互相獨立,自X1, X2中分別取獨立隨機樣本n1, n2,令: 社會統計(上) ©蘇國賢2004
F Distribution 若虛無假設為真,即σ21=σ22,則檢定量為: 若將變異數較大者視為來自母體1,則統計檢定量的值會大於1。此時單尾檢定都是右尾檢定 社會統計(上) ©蘇國賢2004
F Distribution 社會統計(上) ©蘇國賢2004
Performing one-way ANOVA test 假設我們要檢證下列的虛擬假設: 假設K母體皆為常態分配且有共同的變異數σ2 STEP1: 從母體中抽取樣本規模為n1, n2, …nK的K個樣本。 社會統計(上) ©蘇國賢2004
Performing one-way ANOVA test STEP2: 計算MSW 及MSB: STEP3: 計算F統計量: 社會統計(上) ©蘇國賢2004
Performing one-way ANOVA test 檢證 先計算SSB及SSW 社會統計(上) ©蘇國賢2004
Performing one-way ANOVA test 社會統計(上) ©蘇國賢2004
Performing one-way ANOVA test 社會統計(上) ©蘇國賢2004
One-way ANOVA table 社會統計(上) ©蘇國賢2004
例題 已知A, B, C, D四組人的平均值及樣本規模如下,假設總變異量為596.01,用ANOVA檢定四個母體的平均數相等 社會統計(上) ©蘇國賢2004
The statistical Model of One-Way ANOVA 第j個population的平均值 第j個population 第i個觀察值 Random Effect隨機誤差項 Assumption about 社會統計(上) ©蘇國賢2004
The statistical Model of One-Way ANOVA 母體j的平均值可以表為總母體(所有k個母體)的平均值加上處理效果或因素效果(treatment effect) 。 虛擬假設 等同於 如果虛擬假設為真,則處理效果不存在,每一個觀察值等於u加上隨機誤差eij 社會統計(上) ©蘇國賢2004
Derivation of the Sum-of-Squares Identity 因素效果 隨機誤差 社會統計(上) ©蘇國賢2004
Derivation of the Sum-of-Squares Identity 社會統計(上) ©蘇國賢2004
Derivation of the Sum-of-Squares Identity 兩邊平方 社會統計(上) ©蘇國賢2004
Equivalence of the t test and one-way ANOVA 檢證H0: u1= u2 vs. H1: u1 u2 根據十二章所學的t檢定: 社會統計(上) ©蘇國賢2004
Equivalence of the t test and one-way ANOVA K=2時,one-way ANOVA檢定等於t檢定,且F=t2。 證明 社會統計(上) ©蘇國賢2004
Equivalence of the t test and one-way ANOVA 社會統計(上) ©蘇國賢2004
Equivalence of the t test and one-way ANOVA 社會統計(上) ©蘇國賢2004
Equivalence of the t test and one-way ANOVA 將剛剛證明的等式代入 社會統計(上) ©蘇國賢2004
Equivalence of the t test and one-way ANOVA 社會統計(上) ©蘇國賢2004
例題 Test H0: u1 = u2 給定下列條件 分別用t-test及ANOVA來檢定 社會統計(上) ©蘇國賢2004
例題 社會統計(上) ©蘇國賢2004