第 零 章 假 設 檢 定
假設檢定 假設檢定是對母體特性提出假設,然後根據我們從樣本中獲得的樣本統計量,在某些決策法則之下,決定接受或拒絕此一假設。 如果在進行抽樣之前就不存在統計假設,那就沒有所謂的假設檢定。 如果沒有理論,也沒有前人的研究發現,自己也無法形成可以自圓其說的主張,那就不存在假設,當然也就無法進行假設檢定。
假設檢定的步驟 假設檢定的步驟約可分為: (1)設立二個假設。 (2)選擇檢定統計量。 (3)決定行動法則或決策法則。 (4)計算及比較檢定統計量。 (5)下結論。
單尾檢定或雙尾檢定 假設檢定根據對立假設的不同,可分為三個不同的種類:(1)左尾檢定。(2)右尾檢定。(3)雙尾檢定。 「=」一定要列在虛無假設。 所謂左尾檢定或右尾檢定,是以對立假設中 「拒絕域」之所在位置,作為判斷之標準。 到底要用雙尾檢定還是單尾檢定?這要看當初的理論、前人的研究發現、或是自己所形成的主張而定。
虛無假設與對立假設 虛無假設是對母體參數的某一假設假定其為真實,以 H0 表示。 設立虛無假設和對立假設時,需互斥且周延,且等號應出現在虛無假設中。 對立假設是研究者最關心且想獲得的結果,它必須是透過反證法才能得到。
假設檢定的理論基礎 在斷言(虛無假設)正確時很少會發生的結果若發生了,就是斷言不正確的證據。 統計推論是利用樣本的數據,來對母體做結論,所以統計檢定處理的是有關母體的斷言。 檢定要判斷的是:樣本數據是否提供了不利於斷言的證據。 檢定說的是:「如果我們取許多樣本而斷言正確,我們很少會得到這樣的結果。」
假設檢定之目的 在假設檢定中,受檢驗的斷言叫做虛無假設。我們 希望或猜想可以取代虛無假設的正確敘述,叫做 對立假設。 在假設檢定中,受檢驗的斷言叫做虛無假設。我們 希望或猜想可以取代虛無假設的正確敘述,叫做 對立假設。 檢定是設計來評估:否定虛無假設的證據有多強。 顯著性檢定會找對虛無假設不利,但是對對立假設 有利的證據。 如果觀測到的結果,在虛無假設為真的情況下是出 人意料的,而在對立假設為真時卻較容易發生,這 個證據就很強。
虛無假設與對立假設設立原則 將想要利用樣本資料的訊息加以否定的假設設為虛無假設;想要驗證的假設設為對立假設。 錯誤的拒絕某一假設的後果較錯誤的接受該假設的後果為嚴重者,將該假設設為虛無假設。 將他人的主張設為虛無假設,亦即假定他人的主張是真實的。 以反面主張作為虛無假設。
假設檢定之決策法則 一般的決策法則是:若樣本統計量與假設的母體 參數值間的差異不大,而在某一所定或可接受的 範圍,則不拒絕此一假設;反之,如果二者之間 的差異超過所定的範圍,則拒絕此一假設。 如果從樣本中求得的樣本統計量( Z 值)超出 在 α (0.05) 顯著水準(機率)所查出的臨界值 (1.96),就拒絕虛無假設,接受對立假設。 如果從樣本中求得的樣本統計量並未超出 α 顯著 水準所查出的臨界值 ,就不拒絕虛無假設。
假設檢定之決策法則(續) 如果求得的樣本統計量超過臨界值,表示在虛無假設為真的情況下,會得到這樣的樣本統計量的可能性很低,因此虛無假設不可能為真 (拒絕 H0 )。 如果求得的樣本統計量沒有超過臨界值,表示在虛無假設為真的情況下,仍然有可能會得到這樣的樣本統計量,因此無法推翻虛無假設 (不拒絕 H0 )。
顯著性(significant)的意義 即使隨機化可以消除組與組之間的系統差異,機遇差異還是存在。我們應該要求反應變數間的差異要大,使得差異不會僅因機遇變異就發生。 我們觀察到的效果如果大到某種程度,光靠機遇產生這種結果的機率很小時,我們就稱此結果有統計顯著性—有顯著的證據認為 H0 不為真。 一組數據如果可以用來棄卻某個分布,這組數據就是具顯著性的。 在某項待檢驗的假設下,若計算結果發生的機率很小,我們就說該結果「具顯著性」。
顯著性檢定所回答的問題 顯著性檢定只回答一個問題:「虛無假設不正確的證據有多強?」 檢定是用 P 值來回答這個問題。 P 值告訴我們,如果虛無假設正確的話,我們的數據會有多麼不可能得到。 相當不可能得到的數據竟然得到了,就是虛無假設不對的合理證據。 我們永遠也不會知道,對我們的母體來說,虛無假設是否為真,我們能說的只是:「如果虛無假設為真,這樣的數據只有 5% (P 值= 0.05)的時候會發生。」
費雪的實驗--下午茶 在一個喝下午茶的場合,有位女士堅稱,把茶加進牛奶裡,和把牛奶加進茶裡,喝起來風味完全不同。 虛無假設:她其實分辨不出來。( H0 : p = 0.5) 對立假設:她真的分辨得出來。( H1 : p > 0.5) 假設檢定:將按不同順序調製的茶以隨機的方式一杯一杯端給她,將她「猜」的答案記錄下來。隨著她「猜對」的杯數的增加,我們「終於」承認她「真的」分辨得出來。(不是靠猜的)。
章魚哥的神準預測 虛無假設:牠是亂猜的 ( H0 : p = 0.5 ) 對立假設:牠真的神準 ( H1 : p > 0.5 )
章魚哥的神準預測 德國勝澳洲 1/2=0.5 德國輸塞爾維亞 1/4=0.25 德國勝迦納 1/8=0.125 德國勝澳洲 1/2=0.5 德國輸塞爾維亞 1/4=0.25 德國勝迦納 1/8=0.125 德國勝英格蘭 1/16=0.0625 德國勝阿根廷 1/32=0.03125 德國輸西班牙 1/64=0.015625 德國勝烏拉圭 1/128=0.0078125 西班牙勝荷蘭 1/256=0.00390625
假設檢定之實作 假說:喝咖啡的人裡,只有一半偏好現煮咖啡。 虛無假說: p = 0.5 ,對立假說:p > 0.5。 抽樣分布:p = 0.5,n = 50。 平均數 = p = 0.5, 標準差 = [ p(1-p)/ n ]1/2 = 0.0707 數據:36/50 = 72% 28/50 = 56% 機率: p 值 = 0.001 p 值 = 0.20 在所有樣本中,光因為機遇就有20%( p = 0.20 )會發生的結果,無法當成假說不正確的有力證據;但是在1,000次當中只會發生一次( p值 = 0.001 )的結果,就是假說不正確的很好的證據。
假設檢定之實作(續)
假設檢定可能結果之解釋 為什麼會得到「受試對象中有72%比較喜歡現煮咖啡」的這個結果?有二種可能的解釋: (1)懷疑者是對的(p = 0.5),但是因為運氣太差,應該極不可能發生的結果卻真的發生了。 (2)事實上,偏好現煮咖啡的母體比例大於0.5,所以樣本結果差不多就是預期應有的結果。 我們不能確定(1)一定不對,因為我們的測試結果有可能真的就只是機遇造成的。但是,這樣的一個結果完全是由機遇造成的機率非常小(只有0.001),所以我們有相當的信心認為(2)才是對的。
型Ⅰ錯誤 當 H0 為真卻拒絕 H0,此種錯誤稱為型Ⅰ錯誤。 發生型Ⅰ錯誤的機率,以 α 表示。 α 稱為顯著水準。 α = P(拒絕 H0 | H0 為真)
型 I 誤的機率 在尼曼-- 皮爾生的理論裡,科學家先設定一個值,如 0.05,之後,當顯著性檢定的值(即 P 值)小於或等於0.05時,就棄卻虛無假設。 長期來看,他們就有剛好 5% 的機會,棄卻一個正確的虛無假設(也就是犯型 I 誤的機率)。
型Ⅱ錯誤 當 H0 為假卻不拒絕 H0,此種錯誤稱為型Ⅱ錯誤。 發生型Ⅱ錯誤的機率,以 β 表示。 β = P(不拒絕 H0 | H0為假)
假設檢定之基本觀念 在顯著性檢定裡,若得到沒有顯著性的結果,代表什麼意義? 如果我們無法否定一個假設,我們能作結論說這個假設為真嗎?
假設檢定之基本觀念(續) 假設檢定是一種正式的統計程序,是在「待檢驗的假設為真」的假設下,去計算觀測到的結果(即樣本統計量)的機率。 當觀測結果(樣本統計量)發生的機率很小,我們就說原先的假設不成立。 假設檢定是一種否定(棄卻)某個假設的工具。 假設檢定的目的不是讓我們肯定(接受)某個假設,就算與該假設有關的機率非常大也不行。
費雪的說法 對費雪來說,「若找不到顯著性,就代表待檢驗的假設為真」的這種假定,是絕對不會存在的。
拒絕或不拒絕虛無假設 在假設檢定時,通常是不控制 β 而先行決定犯型Ⅰ錯誤所可容許的最大機率 α,然後再決定臨界值,並進行檢定。 假設檢定基本上是看樣本資料是否有足夠證據可以用來拒絕虛無假設。 如果拒絕 H0 ,表示有足夠的證據證明 H0 不為真(犯錯的機率是 α,現在通常是 P-value)。 而接受 H0,只是表示樣本資料與虛無假設並無顯著性的差異,但並不能因此證明 H0 為真。
P 值的意義 檢定統計量的 P 值,是在 H0 為真的假設下,所得到樣本結果會像實際觀測結果那麼極端或更極端的機率值。 P 值愈小,資料所提供否定 H0 的證據就愈強。 我們可以在事前決定,用於否定 H0 的證據必須強到何種程度。這等於說我們要求多小的 P 值,而這個關鍵的 P 值就叫做顯著水準,通常以 α 表示。 在「顯著」和「不顯著」之間,並沒有清楚的界限,只是在 P 值愈來愈小時,我們就有愈來愈強的證據而已。
P 值 法 P 值法:P 值為支持虛無假設 H0 的證據或訊息。 若 P 值很小,可判斷支持 H0 的證據不足,因 而拒絕 H0。
P 值 法 P-value:在 H0 為真的假設下,樣本統計量出現的機率。 P-value:當 P-value 小於 α 時,拒絕 H0。