第一章
第八章 假設檢定
本章綜覽 討論如何根據估計出的未知參數對未知參數作出適當的推論。 兩種常見的檢定方法:實際檢定與大樣本檢定 例如: 我們針對某問題訪問 100 名學生,結果發現有 57 位表示反對,這個結果是否足以顯示反對的比例的確高於贊成者的比例? 兩種常見的檢定方法:實際檢定與大樣本檢定 討論誤差機率與檢定力的概念以衡量檢定統計量犯錯以及作出正確推論的可能性。
基本概念 -- 虛無假設 統計上對參數的假設 (hypothesis) 為對一個或多個參數的論述 (statement) ,其中欲檢驗其正確性者稱為虛無假設 (null hypothesis) 。 例如: 我們想知道均數 o 是否為 70 分,則虛無假設可以設為 H0: o = 70。 若我們想驗證標準差 o 是否為 10,則虛無假設為 H0: o =10。 以上例子中只包含一個特定假設值的假設,稱之為簡單假 設 (simple hypothesis)。
基本概念 -- 對立假設 相對於虛無假設的其他有關參數之論述是對立假設(alternative hypothesis),它通常反應了執行檢定的研究者對參數可能數值的另一種 (對立的) 看法。 例如: 欲知道均數 o 是否為 70 分,則對立假設可以設為 H1: o 70; 欲驗證標準差 o 是否大於 10,則對立假設為 H1: o > 10. 上面兩例中之假設包含一個以上的假設值,稱為複合假設(composite hypothesis)。
基本概念 -- 檢定 檢定:以適當的檢定統計量 (test statistic),並根據特定的標準來判斷虛無假設的真偽。 一旦判定虛無假設為偽,則拒絕 (reject) 虛無假設;若判定虛無假設為真 (或者並無證據顯示虛無假設為偽),則接受 (accept) 虛無假設 (或者說,不拒絕虛無假設)。 例如: 樣本平均數為 80,若要檢定母體均數是否為 70,經過計算後可能會判定「80 和 70 差很多」而拒絕母體均數為 70 的虛無假設。
基本概念 -- 檢定統計量 確定檢定的虛無假設後,就要選擇適當的檢定統計量。 當此檢定統計量的值「太大」或「太小」時,就拒絕虛無假設。 例如:要檢定常態母體的平均數是否等於某一特定參數(常數),如 H0 : o = 70, H1 : o ≠70 。則可以選定下式作為檢定統計量: 當此檢定統計量的值「太大」或「太小」時,就拒絕虛無假設。 此處「大」或「小」的區分取決於 T 的分配。 「太大」或「太小」是從機率分配的角度上來看較不可能出現的數值。
基本概念 -- 虛無分配與臨界值 有了檢定統計量後,在虛無假設正確下,可以求出此統計量的虛無分配 (null distribution)。 承上例, T(X1,…,Xn;70) 為檢定統計量,可算出其虛無分配為 N (0,1) 。 接著選擇一個小的機率α作為顯著水準 (significance level) (通常為 0.01 、0.05 或 0.1)。顯著水準表示檢定者主觀認定統計量出現「極端數值」的機率。 決定虛無分配與顯著水準之後,就可以依照類似求信賴區間的做法決定拒絕虛無假設的臨界值。
基本概念 -- 檢定 根據上例,(-∞,-1.96) ∪(1.96, ∞) 稱作顯著水準 5% 下的拒絕域 (rejection region);[-1.96,1.96] 稱為顯著水準 5% 下的接受域 (acceptance region)。 當統計量之實現值 T(a1,…,an; 70) 位於拒絕域,則拒絕虛無假設;反之,接受虛無假設。 統計檢定之關鍵: 檢定統計量主要是由參數估計式與假設值的比較所構成。 檢定統計量的虛無分配必須為已知。 必須在選擇顯著水準後,才能依據虛無分配決定臨界值,從而做出統計推論。
基本概念 -- 雙邊檢定實例 例 8.2: {X1,X2…,Xn} 為 i.i.d. 的 N(μ0, σ02) 隨機變數,檢定 H0:σ0=10, H1: σ0≠10. 對立假設包含之參數值均位於虛無假設參數值之兩側,稱為雙邊檢定。 檢定統計量 (n – 1)Sn2/100 虛無分配:χ2(n – 1) 顯著水準:( = 0.05) 拒絕域:[0,8.906) ∪(32.852, ∞) 當樣本的變異數落在拒絕域時,拒絕虛無假設,判定母體的標準差不等於 10。
基本概念 -- 單邊檢定實例 例 8.3:{X1,X2…,Xn} 為 i.i.d. 的 N (μ0, σ02) 隨機變數,檢定 H0:μ0=70, H1: μ0>70. (α=0.05) 對立假設包含之參數值均位於虛無假設參數值之一側,稱為單邊檢定。 檢定統計量: 虛無分配:N (0,1) 拒絕域: (1.645, ∞) 當樣本的平均數落在拒絕域時,拒絕虛無假設,判定母體的均數不等於 70。
雙邊檢定與單邊檢定示意圖 以虛無假設為 N (0,1), α=0.05 為例 雙邊檢定 單邊檢定 -1.96 1.96 -1.645 接受域 拒絕域 接受域
實際檢定 根據檢定統計量的虛無分配,可將檢定方法分為兩種: 區分兩者的關鍵不在於統計量而在於虛無分配的性質。 實際檢定 (exact test):若統計量的虛無分配為實際分配 大樣本檢定 (large sample test):若統計量的虛無分配為極限分配。 區分兩者的關鍵不在於統計量而在於虛無分配的性質。
常見的實際檢定 {X1,…,Xn} 為一組 i.i.d N (μ0, σ02)的隨機變數。檢定常態母體的均數是否等於 b,依母體變異數為已知或未知,可分成以下兩種檢定方法: 當σ02 已知 當σ02 未知 若要檢定常態母體的標準差是否等於 b,可以用檢定統計量:
常見的實際檢定 假設有兩組彼此獨立的 i.i.d.隨機變數 {X1,…,Xn} 與 {Y1,…,Ym},,其各自的分配為 N (µx,σ02) 與 N (µY,σ02)。若欲檢定 H0: µx = µY ,則檢定統計量為 當 σ02 已知 當 σ02 未知
常見的實際檢定 假設有兩組彼此獨立的i.i.d.隨機變數{X1,…,Xn}與{Y1,…,Ym},其各自的分配為 N (µx,σX2) 與 N (µY,σY2)。若欲檢定 H0: σX2 = σY2 ,則檢定統計量為 若 之值大於 之值,則可以只考慮對立假設 σx2> σy2 ,其臨界值 c 1-α來自 F(n – 1,m – 1) 分配的右尾。若 之值小於 之值,則採 F(n – 1,m – 1) 分配的左尾的臨界值 c α 。
大樣本檢定 當隨機樣本有未知分配,或隨機樣本的分配已知但並非常態分配時,通常無法得知檢定統計量在虛無假設下的實際分配,所以只能去推導其極限分配,並以極限分配所得之臨界值作為實際分配臨界值的替代品。 大樣本檢定之優點:不必受限於樣本的常態分配性質。即使不知道隨機樣本的分配,大樣本檢定的虛無分配在極限上仍會非常接近實際分配。
大樣本檢定 以前一節討論的 Zn 和 Tn 為例,當隨機樣本不具常態分配時,就不知道其實際分配。但依據中央極限定理,在虛無假設之下, Zn 和 Tn 皆漸近於標準常態分配 (即 , )。 Zn 和 Tn是實際檢定或是大樣本檢定與樣本規模無關。究竟要採用什麼檢定方式取決於對虛無分配的了解。
大樣本檢定 -- 例 8.7 假設訪問 100 名學生中有 57 名表示反對,請檢定贊成與反對是否人數相等。 由於母體非常態分配,故要用大樣本檢定。 根據中央極限定理,Tn的極限分配為 N (0,1) 。在顯著水準為 5% 和 10% 下,臨界值分別為 ±1.96 和±1.645 ,故均無法拒絕虛無假設。
大樣本檢定 -- 例 8.7 假設訪問 1000 名學生中有 570 名表示反對,請檢定贊成與反對是否人數相等。 由於母體非常態分配,故要用大樣本檢定。 根據標準常態分配的機率表, 不論顯著水準為 1% , 5% 或 10% ,我們均可拒絕虛無假設。
大樣本檢定 -- 例 8.7 由例 8.7,兩種情況下均數估計值均為 0.57,但檢定結果卻正好相反。此一差別關鍵在於樣本大小。 不能僅憑參數估計值的大小就去判斷參數的真實值。
檢定的其他判定方法 – 信賴區間 也可以利用信賴區間來作檢定,其結果和用臨界值來判斷一樣。 檢定的其他判定方法 – 信賴區間 也可以利用信賴區間來作檢定,其結果和用臨界值來判斷一樣。 例 8.8:H0:μ0=70, H1: μ0≠70. 虛無分配為 t (65), 樣本平均數為 71.7,故樣本平均數的信賴 區間為: 虛無假設之值 70 落在信賴區間內,故不拒絕 H0,結論和例 8.5相同。
檢定的其他判定方法 -- 尾端機率 p 值 (p value):根據虛無分配算出的統計量之值 T (a1,…,an; b)的尾端機率,即較 T (a1,…,an; b) 更為極端之值出現的機率。 若 p 值小於顯著水準,則統計量之值 T 的絕對值會大於臨界值的絕對值,即位於拒絕域,因此拒絕虛無假設。而 p 值若大於顯著水準則接受虛無假設。 虛無分配
誤差機率與檢定力 型 1 誤差 (type I error):當檢定統計量在虛無假設為真時卻拒絕虛無假設。 型 2 誤差 (type II error):當檢定統計量在虛無假設為偽時卻接受虛無假設。 當虛無假設 θ0=b 為真, 型 1 誤差的機率為 Pb (拒絕虛無假設) ,即顯著水準 α 。 型 2 誤差的機率一般以 β 表示。在特定對立假設 θ0 = q 之下,型 2 誤差的機率為 β = Pq (接受虛無假設) ,為參數值 q 的函數。
誤差機率與檢定力 下圖中紅色部分為型 1 誤差,藍色部分為型 2 誤差。 對立假設 α/2 β α/2
誤差機率與檢定力 α 與 β 存在著彼此消長的關係。 一種建構檢定統計量的最適 (optimal) 原則就是根據固定的 α 而設法使 β 極小化。
誤差機率與檢定力 令π代表拒絕統計量虛無假設的機率:則π 常稱為檢定力函數 (power function)。 其中 π (q) 為檢定統計量能正確發現虛無假設是錯誤的機率, 又稱作 θ0=q 時的檢定力 (power); π 亦稱作檢定力函數 (power function)。
各種誤差示意表 檢定推論 接受虛無假設 拒絕虛無假設 虛無假設 θ0 = b 正確 決策正確 機率為 1–α 對立假設 θ0 = q 正確 型 2 誤差機率為 β(q) π(q)=1–β(q)
檢定力分析 理想的檢定方法應在各種對立假設之下都有很好的檢定力。 檢定力受到 n (樣本規模),δ (對立假設與虛無假設之差距),及σ0 (隨機變數的真實標準差)之影響。 當 n 或 δ 之值較大時,或 σ0 較小時,對立假設之下的分配離虛無分配越遠,檢定力越高。
檢定力分析 下圖顯示了檢定力與型 1、2 誤差的關係。
檢定力分析 -- 實例 例 8.10: {X1,X2…,Xn} 為 i.i.d. N (μ0, 1)的隨機變數,且 n = 36, H0: μ0=3, H1: μ0≠3。 若真實的均數為 3.25,則檢定力為 若 n 增加至 64,則檢定力會上升!
檢定力分析 當樣本規模 n 趨近於無窮大時,若一個檢定統計量對所有的對立假設其檢定力都趨近於 1 ,則此檢定為一致檢定 (consistent test)。 一致檢定的直觀意義是指對於任一對立假設,不論其與虛無假設的差距是大是小,只要樣本訊息夠多 (n 夠大) ,一致檢定一定可以檢查出虛無假設是錯的 (檢定力會趨近於 1)。