Analysis of Variance 變異數分析

Slides:



Advertisements
Similar presentations
第6章 方差分析与试验设计 会计学2011级 主讲:王红娜.
Advertisements

張偉豪 三星統計服務有限公司 執行長 Amos 亞洲一哥
第 3 章 資料分類與蒐集 1.進行研究過程中最重要的步驟 2.資料收集與實驗設計具有關連性.
人群健康研究的统计方法 预防医学系 指导教师:方亚 电话:
數據挖掘 課程 王海 深圳國泰安教育技術股份有限公司.
Chapter 15 複迴歸.
生物統計與SAS軟體課程教學(三) 雙變項統計分析(一)
變異數分析 (Analysis-of-Variance簡稱ANOVA)
15 簡單迴歸分析與相關分析  學習目的.
STATISTICA統計軟體的應用 第二講:廻歸與ANOVA
Chapter 8 Liner Regression and Correlation 第八章 直线回归和相关
平均数检定 庄文忠 副教授 世新大学行政管理学系 SPSS之应用(庄文忠副教授) 2012/7/6.
第九章 方差分析 讲授内容 方差分析的基本思想及应用条件 完全随机设计资料的方差分析 随机区组设计资料的方差分析 重复测量资料的方差分析
單因子實驗 設計 (Single­factor experiments)
Chapter 2 簡單迴歸模型.
第 14 章 複迴歸與相關分析.
第13章變異數分析與多變數分析  本章的學習主題 
第十二章 相关与回归分析 第一节 相关关系及种类 第二节 定类变量的相关分析 第三节 定序变量的相关分析 第四节 定距变量的相关分析
平均数检定 庄文忠 副教授 世新大学行政管理学系 计量分析一(庄文忠副教授) 2011/7/12.
关于虚拟变量回归模型 教学目的:了解虚拟变量的含义及使用,能够应用软件进行实例模拟。 教学内容: 虚拟变量的基本含义及使用
第一章.
Stochastic Relationships and Scatter Diagrams
Sampling Theory and Some Important Sampling Distributions
第十一章. 簡單直線迴歸與簡單相關 Simple Linear Regression and Simple Correlation
十一、簡單相關與簡單直線回歸分析(Simple Correlations and Simple Linear Regression )
簡單迴歸模型的基本假設 用最小平方法(OLS-ordinary least square)找到一個迴歸式:
用于计算智能研究 和人类主观测试的 统计检验 Hideyuki TAKAGI 日本 九州大学
第 13 章 實驗設計與變異數分析.
Chapter 14 Simple Linear Regression
ANOVA簡介 許晉誠
第13章變異數分析與多變數分析  本章的學習主題  1. 變異數分析的應用時機 2. 變異數分析的假設前提
Test for difference among the means: t Test
統計學報告 冷飲糖度調查,香煙漲價調查 指導老師:蘇明俊老師 運管二乙 組員:李冠毅 林緯彬
Interval Estimation區間估計
統計方法的概念與應用 一、認識統計(statistics)、測驗(test)、 測量(measurement)與評價(evaluation)
4 統計分析程序的選擇.
十、變方分析 (Analysis of Variance) (Chapter 10)
自我介紹  黃郁哲 (Jeff) (阿哲)  高雄人  求學經歷 逢甲大學運管系畢業 交通大學運管系碩一 交通大學逕博生  興趣 吃遍美食、看歷史劇  許巧鶯老師研究室(許lab)  未來研究方向 海運業產業結構動態變化 各產業結構貨運量預測.
主講人 陳陸輝 特聘研究員兼主任 政治大學 選舉研究中心
Workshop on Statistical Analysis
論文計畫書 國軍人員對廢軍品管理現況之研究─以空軍 後勤單位為例 指導教授:胡子陵博士 研究生:劉俊德.
第9章 方差分析 介绍 1、方差分析的概念 2、方差分析的过程.
庄文忠 副教授 世新大学行政管理学系 相关分析与简单回归分析 庄文忠 副教授 世新大学行政管理学系 SPSS之应用(庄文忠副教授) 2019/4/7.
统 计 学 (第三版) 2008 作者 贾俊平 统计学.
指導老師:蘇明俊 組員: 陳柔安 潘依蓮 張壹凱
第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 4 主讲人 陶育纯 医学统计学方法 4 主讲人 陶育纯 流行病与卫生统计学教研室
Introduction to Basic Statistics
抽樣分配 Sampling Distributions
相關統計觀念復習 Review II.
Introduction to Basic Statistics
日光燈製造業 勞工汞蒸氣暴露評估技術探討 勞工安全衛生研究所 謝俊明 林雲卿 4/18/2019.
兒少保護通報處理流程介紹 臺中市家庭暴力及性侵害防治中心 陳秀婷/張美慧 社工督導員 2012/10/19.
八、假設檢定 I (Hypothesis Testing Ⅱ)
社会研究方法 第7讲:社会统计2.
課稅負擔的歸屬.
第二章 经典线性回归模型: 双变量线性回归模型
Review of Statistics.
實驗設計 出處:邱皓政,量化研究方法(一),2005 台師大管院,台灣統計方法學學會理事長
第八章 均值比较与检验 2019/5/10.
Chapter 10 集群分析. Chapter 10 集群分析 概念及應用 集群分析(cluster analysis)是一種用來將屬量的觀測點分群或分類的分析方法 經過集群分析分群之後,在同一群內的觀測點針對某些特性而言,會具有一致性;而分屬不同群的觀測點,針對同樣的特性則會有顯著的不同.
2003年中華職棒大聯盟現場球迷參與動機與滿意度之研究 A Study of Participation Motivation and Satisfaction of the Chinese Professional League Baseball’ Scene Fan in 2003 真理大學 運動管理學系.
第四章 多组资料均数的比较 七年制医疗口腔《医学统计学》
第八章 方差分析(analysis of variance)
生物统计学 Biostatistics 第一章 统计数据的收集与整理
Multiple Regression: Estimation and Hypothesis Testing
第三节 多重共线性的检验 本节基本内容: ● 简单相关系数检验法 ● 方差扩大(膨胀)因子法 ● 直观判断法 ● 逐步回归法.
Part 3 初等統計與理論.
簡單迴歸分析與相關分析 莊文忠 副教授 世新大學行政管理學系 計量分析一(莊文忠副教授) 2019/8/3.
实习二 方差分析 流行病与卫生统计学系
Presentation transcript:

Analysis of Variance 變異數分析 觀念 在前幾章中,我們學會了如何檢定兩母體平均數是否有差異。在本章中,我們將介紹對於兩個以上母體的平均值的比較。 檢定三個或以上的母體平均數是否相等的統計方法,或檢定名目變數或序列尺度的因子對於等距尺度或比率尺度的依變數是否有影響統計方法稱為變異數分析。 社會統計(上) ©蘇國賢2004

Analysis of Variance 變異數分析 觀念 例如: 比較各省籍(台灣、大陸、客家人)人士在平均收入及教育年數上的差異。 大學中各年級的同學智商是否有別? 三種不同的教學方法對於學生的成績是否有影響? 社會統計(上) ©蘇國賢2004

Analysis of Variance 變異數分析 觀念 在比較多組母體的平均值時,我們通常不採用兩兩比較的方式,主要的原因有二: 一、這種做法太浪費時間,因為比較幾個母體可能產生很多的比較組,例如比較五個母體的平均值差異,如果以兩兩比較的方式,我們必須進行C52=10次的t-test。 二、如果每組的顯著水準皆為α,則全體比較的顯著水準會高於α。 社會統計(上) ©蘇國賢2004

Analysis of Variance 變異數分析 觀念 假設我們在.05的顯著水準下要檢定下列虛擬假設: H0: u1=u2=u3 如果拆成下列三組虛擬假設: H0: u1=u2 , H0: u1=u3 , H0: u2=u3 每個假設被「接受」的機率為.95,三個假設全部被接受的機率為.953=.857,也就是說當假設為真但被推翻的機率為(1 - 0.857) = 0.143 > 0.05 遠高於顯著水準。 社會統計(上) ©蘇國賢2004

Analysis of Variance 變異數分析 觀念 因此我們需要在共同的顯著水準α下,同時考量多個平均值得差異,我們以F分配來進行檢定,稱之為變異數分析(ANOVA) 。 這個名稱容易令人產生誤解,我們是根據樣本資料的變量分析,來檢定母體平均數是否有差異。 社會統計(上) ©蘇國賢2004

Analysis of Variance 變異數分析 觀念 The One-Factor ANOVA Model單因子變異數分析 設我們從k個母體中得到樣本資料來檢定下列虛擬假設: H0: u1 = u2 = … = uk。 H1: 至少有兩個平均值不同。 社會統計(上) ©蘇國賢2004

Analysis of Variance 變異數分析 觀念 消費者很想知道哪種車最省油,比較A, B, C三種車款每加崙可以行駛的里數如下: 社會統計(上) ©蘇國賢2004

Analysis of Variance 變異數分析 觀念 三種汽車每單位汽油的里數皆相同 Q:我們所觀察到的樣本平均數差異是否大到足以推翻上面的虛擬假設? 社會統計(上) ©蘇國賢2004

Analysis of Variance 變異數分析 觀念 Q:各組平均值的差異是來自於抽樣誤差還是母體差異? 社會統計(上) ©蘇國賢2004

Analysis of Variance 變異數分析 觀念 例如A車與B車的平均值差異為1.4里,這個差異是否大到我們可以有信心的說u1與u2也有差異? 這個問題決定於x1, x2是否為母體平均值的精確估計值。 社會統計(上) ©蘇國賢2004

Analysis of Variance 變異數分析 觀念 如果標準差很小,則兩個樣本平均值一點點的差距都可能是母體平均值不同的訊號。 同理,如果標準差過大,則即使我們觀察到樣本平均值之間有很大的差距,我們也不太有信心能夠宣稱母體的平均數真的有別

Analysis of Variance 變異數分析 觀念 樣本標準差或變異數測量各個樣本內,各觀察值之間的變異程度。 如果樣本內的變異數很小,則各樣本之間平均數的差距若過大,為母體平均數不同的有力證據 反之,如果樣本內的變異數過大,則即使樣本平均值之間有差異,我們仍然很難下斷論說母體的平均值不同。

Analysis of Variance 變異數分析 觀念 因此檢定各樣本的平均值是否相同的問題涉及比較樣本內的變異(組內差異)及樣本間的變異(組間差異)。所以通常稱之為變異數分析。

樣本內的變異數很小 C B A 18 19 20 21 22 23

樣本平均數雖然相同 樣本內的變異數很大 C B A 15 17 19 21 23 25 27

變異數分析中的幾個專有名詞 我們經常設計研究來了解造成某種現象變化的原因,例如我們想要了解為什麼有時候種植西瓜會甜有時候不會甜(甜度變動),這種我們欲了解的變動稱為依變項(dependent variable)、被解釋變項、或反應變項(response variable)。 我們懷疑西瓜的甜度與栽種過程中是否施肥有關,將某些西瓜種籽加以施肥處理,其他西瓜保持自然生長,這種造成依變項產生變化的變數稱之為因子(factor)或獨立變項、 自變項(independent variable) 。 社會統計(上) ©蘇國賢2004

自變數與依變數 在上面的例子中,比較各種汽車的里程數,何者為依變項?何者為獨立變項? 依變項:每加崙里數 自變項:車種 ©蘇國賢2004 社會統計(上) ©蘇國賢2004

因子水準(Factor level)與處理(Treatment) 因子水準為某因子(自變數)之特殊形式或不同狀態,例如我們可以將「施肥」細分成三個水準:完全不施肥、施輕肥、施重肥。 如果解釋的因子為單一(施肥與否),稱為單因子分析,如果解釋因子在兩個以上(施肥與否+栽種溫度),稱為多因子分析。 社會統計(上) ©蘇國賢2004

因子水準(Factor level)與處理(Treatment) 社會統計(上) ©蘇國賢2004

變異數分析的邏輯 假設從K個母體中抽取大小分別為n1, n2, n3…nk的K個獨立隨機樣本。我們對母體有下列的假設: 各母體皆為常態分配,且有共同相同的變異數σ2。 以u1, u2, …uk 來表示母體的平均數,單因子分析檢證下虛擬假設 H0: u1=u2…=uk vs. H1: 至少有兩組平均數不同 社會統計(上) ©蘇國賢2004

Xi j 共有K個母體 μ1, σ1 μ2, σ2 μk, σk x21 xn2,2 i代表在樣本中的序號,i = 1,2, …nj x12 x1k x3k x11 x22 x32 x2k x31 Xi j j代表樣本組別,j = 1,2, …k

分別來自k母體的k個樣本 第k組樣本共有nk個觀察值 各組樣本數可以不同,分別為n1, n2,…nk, 總樣本數n= n1+n2+…+nk

變異數分析的邏輯 社會統計(上) ©蘇國賢2004

變異數的分解 總平均數 任何一部車與總平均的差異稱為總差異: 社會統計(上) ©蘇國賢2004

變異數的分解 總平均數 任何一廠牌與總平均的差異稱為由因子所引起的差異(difference due to factor) ©蘇國賢2004 社會統計(上) ©蘇國賢2004

變異數的分解 總平均數 同一廠牌中,任何一部車與該廠牌的平均數之間的差異稱為隨機差異(difference due to error 社會統計(上) ©蘇國賢2004

變異數的分解 總平均數 總差異 = 由因子所引起的差異 + 隨機差異 社會統計(上) ©蘇國賢2004

變異數的分解 總差異 = 由因子所引起的差異+ 隨機差異 因子的影響 隨機差異的影響 總平均 社會統計(上) ©蘇國賢2004

變異數的分解 兩邊取平方和 社會統計(上) ©蘇國賢2004

Sum of Squares in ANOVA變異數分析中的平方和 變異數分析是透過各組樣本內的變異與組間變異之比較來檢證各組平均值是否相等的一種方法。 全體樣本資料的總變異量為: 即個別觀察值與總平均數差距的平方和,稱為總變異量或總平方和。 社會統計(上) ©蘇國賢2004

Sum of Squares in ANOVA變異數分析中的平方和 變異數分析將總變異量分解成下列兩部分: 總變異 =組內變異(或未解釋變異) + 組間變異(或已解釋變異) = Within-group Sum of Squares or Sum of Squares Within (SSW) + Between-Group Sum of Squares or Sum of Squares Between (SSB) Total Sum of Squares (TSS) 社會統計(上) ©蘇國賢2004

Sum of Squares Within組內變異 組內各個觀察值之間的差異稱為隨機差異(difference due to random error),為不能被因子所解釋的差異。 在各組樣本內的變異,即每一個組內觀察值的誤差平方和: 在樣本組內,由於無法解釋的隨機變異,每一個觀察值xij與該組平均數會有所不同,因此組內的誤差稱為sum of squares due to error or error sum of squares (誤差平均和) 社會統計(上) ©蘇國賢2004

Sum of Squares Within組內變異 社會統計(上) ©蘇國賢2004

Between-Group Sum of Squares 組間變異 任何一組的平均數與總平均數之間的差異稱為因子引起的差異(difference due to factor) 組間變異是因為已知為處理(treatment)所造成的,因此稱為已解釋變異或處理平方和(treatment sum of squares): 社會統計(上) ©蘇國賢2004

Sum of Squares Between組間變異 社會統計(上) ©蘇國賢2004

Sum of Squares Identity 總變異 =組內變異(或未解釋變異) + 組間變異(或已解釋變異) SST = SSW + SSB 22.64 = 3.04 + 19.6 社會統計(上) ©蘇國賢2004

Mean Square Within 以變異數分析來檢定母體平均數是否相等必須基於下列假設: Xij are independent and Xij ~ N(uj, σ2) 變異數齊一性(homoegeneity): 每個小母體的變異數皆相等,σj2=σ2 如何估計母體變異數? ANOVA檢定奠基於用不同的方式來估計未知的共同母體變異數σ2 社會統計(上) ©蘇國賢2004

Mean Square Within 從第一組樣本的觀察值中我們可以得到一個母體變異數的不偏觀察值(unbiased estimator): 同理 社會統計(上) ©蘇國賢2004

Variance of Discrete Random Variable 複習 社會統計(上) ©蘇國賢2004

複習

Mean Square Within 雖然各組樣本的變異數皆為母體變異數的不偏估計式,但是一更佳,更有效率的估計式為充分運用所有的樣本觀察值,即將各組的觀察值集合起來一起得到一個混和估計式: 社會統計(上) ©蘇國賢2004

Mean Square Within 第j組的組內變異 這個混和估計式等於各組樣本變異數sj2的加權平均數,其加權權數為: ©蘇國賢2004 社會統計(上) ©蘇國賢2004

Mean Square Within 估計式的分子部分等於SSW,即各組組內變異的總和。 社會統計(上) ©蘇國賢2004

Mean Square Within 我們把上式稱為MSW (Mean Square Within)組內均和,有時稱為Mean Square Error (MSE) ,其中分母部分為MSW的自由度(degree of freedom) 社會統計(上) ©蘇國賢2004

Mean Square Within 為什麼MSW可以用來估計σ2?證明MSW為σ2的不偏估計式。 社會統計(上) ©蘇國賢2004

Mean Square Between 另一種估計母體變異數σ2為利用已知的 社會統計(上) ©蘇國賢2004

Mean Square Between 如果母體為常態分配,則樣本平均數的抽樣分配為: 為了方便討論,我們假設每一個樣本的樣本數相同,即n1= n2=n3=…=nk。 如果虛擬假設為真H0: u1=u2=…= uk,則 會有相同的機率分配。 社會統計(上) ©蘇國賢2004

Mean Square Between 因為每一個個別樣本皆為獨立樣本,所以我們可以將 視為從 中抽出K個觀察值的隨機樣本 社會統計(上) ©蘇國賢2004

Mean Square Between 從這個由樣本平均數所組成的樣本所計算出來的樣本變異數 稱為Mean Square Between (MSB) 社會統計(上) ©蘇國賢2004

Mean Square Between 數學上我們可以證明: 社會統計(上) ©蘇國賢2004

Mean Square Between 社會統計(上) ©蘇國賢2004

Mean Square Between 社會統計(上) ©蘇國賢2004

Mean Square Between 社會統計(上) ©蘇國賢2004

Mean Square Between 當虛擬假設所有的母體平均數皆相同為真,則SSB/(K-1)為母體變異數的不偏估計式 =0 社會統計(上) ©蘇國賢2004

Mean Square Between 當虛擬假設為不真,則SSB/(K-1)為母體變異數的偏差估計式,且偏差隨著 > 0 社會統計(上) ©蘇國賢2004

Mean Square Between Mean Square Between (MSB): 其中分母K-1為MSB的自由度,MSB又稱為Between-group mean square 或 Mean square due to treatments (MSTR) 社會統計(上) ©蘇國賢2004

ANOVA 這兩種方式皆可估計母體的變異數 當H0為真時, 當H0為不真時, 因此MSB及MSW的比率提供我們判斷虛擬假設是否無真的訊息。 社會統計(上) ©蘇國賢2004

Graphical Explanation of ANOVA 可以個別先計算每一個分配的變異數,然後取加權平均來估計σ2 也可以將所有資料彙整後再來估計σ2 pooled 社會統計(上) ©蘇國賢2004

Graphical Explanation of ANOVA 如果三個母體的平均值相等,則兩種方式估計的σ2應該將等 如果三個母體的平均值不等,則pooled資料所估計的母體變異數會大於σ2 pooled 社會統計(上) ©蘇國賢2004

ANOVA test statistic F In One-way ANOVA, the test statistics is 如果H0為不真,則MSB會高估母體變異數,F值會大於1。F愈大,H0愈不可能為真。 如果假設為真,則F統計量依循自由度為(K-1)及(n-K)的F 分配。 社會統計(上) ©蘇國賢2004

F Distribution 欲比較兩母體變異數是否相等時,我們可以計算樣本變異數的比值: 如果比率很接近1,則我們相信母體變異數很有可能一樣,如果此比值很大或很小,則母體變異數相等的機率不高。 究竟此比值要多大或多小才能推翻母體變異數相等的虛擬假設? 社會統計(上) ©蘇國賢2004

F Distribution 為了回答此問題,我們必須知道S21/S22此一隨機變數的抽樣分配。設有兩常態分配的母體: 且X1與X2互相獨立,自X1, X2中分別取獨立隨機樣本n1, n2,令: 社會統計(上) ©蘇國賢2004

F Distribution 若虛無假設為真,即σ21=σ22,則檢定量為: 若將變異數較大者視為來自母體1,則統計檢定量的值會大於1。此時單尾檢定都是右尾檢定 社會統計(上) ©蘇國賢2004

F Distribution 社會統計(上) ©蘇國賢2004

Performing one-way ANOVA test 假設我們要檢證下列的虛擬假設: 假設K母體皆為常態分配且有共同的變異數σ2 STEP1: 從母體中抽取樣本規模為n1, n2, …nK的K個樣本。 社會統計(上) ©蘇國賢2004

Performing one-way ANOVA test STEP2: 計算MSW 及MSB: STEP3: 計算F統計量: 社會統計(上) ©蘇國賢2004

Performing one-way ANOVA test 檢證 先計算SSB及SSW 社會統計(上) ©蘇國賢2004

Performing one-way ANOVA test 社會統計(上) ©蘇國賢2004

Performing one-way ANOVA test 社會統計(上) ©蘇國賢2004

One-way ANOVA table 社會統計(上) ©蘇國賢2004

例題 已知A, B, C, D四組人的平均值及樣本規模如下,假設總變異量為596.01,用ANOVA檢定四個母體的平均數相等 社會統計(上) ©蘇國賢2004

The statistical Model of One-Way ANOVA 第j個population的平均值 第j個population 第i個觀察值 Random Effect隨機誤差項 Assumption about 社會統計(上) ©蘇國賢2004

The statistical Model of One-Way ANOVA 母體j的平均值可以表為總母體(所有k個母體)的平均值加上處理效果或因素效果(treatment effect) 。 虛擬假設 等同於 如果虛擬假設為真,則處理效果不存在,每一個觀察值等於u加上隨機誤差eij 社會統計(上) ©蘇國賢2004

Derivation of the Sum-of-Squares Identity 因素效果 隨機誤差 社會統計(上) ©蘇國賢2004

Derivation of the Sum-of-Squares Identity 社會統計(上) ©蘇國賢2004

Derivation of the Sum-of-Squares Identity 兩邊平方 社會統計(上) ©蘇國賢2004

Equivalence of the t test and one-way ANOVA 檢證H0: u1= u2 vs. H1: u1  u2 根據十二章所學的t檢定: 社會統計(上) ©蘇國賢2004

Equivalence of the t test and one-way ANOVA K=2時,one-way ANOVA檢定等於t檢定,且F=t2。 證明 社會統計(上) ©蘇國賢2004

Equivalence of the t test and one-way ANOVA 社會統計(上) ©蘇國賢2004

Equivalence of the t test and one-way ANOVA 社會統計(上) ©蘇國賢2004

Equivalence of the t test and one-way ANOVA 將剛剛證明的等式代入 社會統計(上) ©蘇國賢2004

Equivalence of the t test and one-way ANOVA 社會統計(上) ©蘇國賢2004

例題 Test H0: u1 = u2 給定下列條件 分別用t-test及ANOVA來檢定 社會統計(上) ©蘇國賢2004

例題 社會統計(上) ©蘇國賢2004