Chapter 8 假設檢定
學習目標 了解假設檢定用到的各項定義。 陳述虛無假設以及對立假設。 求出 z 檢定的臨界值。 陳述假設檢定的五步驟。 當 σ 未知的時候使用 t 檢定來檢定平均數。 使用 z 檢定來檢定比例。 使用卡方檢定來檢定變異數或是標準差。 使用信賴區間進行假設檢定。 解釋型 I 錯誤和型 II 錯誤以及檢定力之間的關係。
8-1 傳統法的假設檢定步驟
統計假設 (statistical hypothesis) 是一種關於母體參數的主張。這一項主張可能對,也可能錯。 虛無假設 (null hypothesis),符號是 H0,是一種主張母體參數與某一個數字之間無差別,或是兩個參數之間無差別的統計假設。 對立假設 (alternative hypothesis),符號是 H1,是一種主張母體參數與某一個數字之間有差別,或是兩個參數之間有差別的統計假設。
例題8-1 例題8-1 (解答)
一項統計檢定 (statistical test) 使用從母體取得的一組隨機樣本,讓研究員可以決定是否拒絕虛無假設。 從一項統計檢定得到的數字叫做檢定數值 (test value)。 型 I 錯誤 (type I error) 是指拒絕正確的虛無假設。 型 II 錯誤 (type II error) 是指不拒絕錯誤的虛無假設。
圖8-1 假設檢定的情況
圖8-2 可能的假設檢定結局
圖8-3 假設檢定和審判
顯著水準 (level of significance) 是允許犯下型 I 錯誤的最大機率。這一項機率的符號是 α(希臘字母 alpha)。也就是說,P(型 I 錯誤)= α。 拒絕域 (critical region 或 rejection region) 是檢定數值的某一個範圍,這一個範圍內的數字表示有顯著的差距,也就是這時候虛無假設會被拒絕。 非拒絕域 (noncritical region 或 nonrejection region) 是檢定數值的某一個範圍, 這一個範圍內的數字表示沒有顯著的差距,也就是這時候虛無假設不會被拒絕。 臨界值 (critical value) 是區分拒絕域與非拒絕域的數字。臨界值的符號是 C.V.。
單尾檢定 (one-tailed test) 是檢定數值落入假定平均數的某一邊時才會拒絕虛無假設的檢定。單尾檢定不是右尾檢定 (right-tailed test) 就是左尾檢定 (left-tailed test),端賴對立假設不等號的方向而定。 雙尾檢定 (two-tailed test) 是當檢定數值落入左右兩邊其中一邊拒絕域時會拒絕虛無假設的檢定。
圖8-4 求出α = 0.01的臨界值(右尾檢定)
圖8-5 α = 0.01的拒絕域與非拒絕域(右尾檢定) 圖8-6 α = 0.01的拒絕域與非拒絕域(左尾檢定)
圖8-7 求出α = 0.01的臨界值(雙尾檢定) 圖8-8 α = 0.01的拒絕域與非拒絕域(雙尾檢定)
圖8-9 假設檢定與臨界值的摘要
利用表D求出特定 α 的臨界值 步驟 1 繪圖並指出適當的面積。 a. 如果檢定是左尾的,面積等於 α 的拒絕域會在假定平均數的左邊。 b. 如果檢定是右尾的,面積等於 α 的拒絕域會在假定平均數的右邊。 c. 如果檢定是雙尾的,α 必須先除以 2,會有一半的面積在假定平均數的左邊,另一半則在假定平均數的右邊。 步驟 2 a. 針對左尾檢定,在表 D 求出面積等於 α 的 z 值。 b. 針對右尾檢定,在表 D 求出面積等於 1−α 的 z 值。 c. 針對雙尾檢定,在表 D 求出面積等於 α/2左邊的 z 值,它會是負的數字; 面積等於 1−α/2 右邊的 z 值,它會是正的數字。
例題8-2
例題8-2 (解答a)
例題8-2 (解答b)
例題8-2 (解答c)
觀念應用8-1 蛋與健康 Incredible Edible Egg 公司最近發現,吃蛋並不會增加個人血液血清膽固醇水準。有 500 位民眾參加一項持續兩年的研究,參加者被隨機指定給無蛋組或是適量蛋組,記錄一開始和研究結束時的血液血清膽固醇水準。整體而言,兩組的水準並沒有顯著差異。該公司提醒我們,適量吃蛋是有益健康的。之前許多連結蛋和血液血清膽固醇的研究都留下不適當的結論。 使用上述的資訊,回答以下的問題。 1. 這一項研究的目的是什麼? 2. 研究所定義的母體是什麼? 3. 此處是否收集樣本? 4. 假設為何? 5. 此處是否收集數據? 6. 是否進行任何統計檢定? 7. 結論是什麼?
8-2 平均數的z檢定
z 檢定 (z test) 是一種母體平均數的檢定。如果 n ≥ 30 或母體是常態的,且 σ 已知的時候,我們會使用 z 檢定。z 檢定的公式如下: 其中 =樣本平均數 μ =假定的母體平均數 σ =母體標準差 n =樣本數
當 σ 已知,平均數 z 檢定的假設 樣本是隨機樣本。 n ≥ 30;或是當 n < 30 時,母體是常態的或是接近常態的。
例題8-3 智力測驗 例題8-3 智力測驗(解答)
例題8-3 智力測驗(解答)
例題8-4 SAT測驗
例題8-4 SAT測驗(解答)
例題8-4 SAT測驗(解答)
例題8-5 復原成本
例題8-5 復原成本(解答)
例題8-5 復原成本(解答)
假設檢定的 p 值法 p 值 (p-value)(或是機率值),就是當虛無假設為真的時候,看到觀察值或是往對立假設方向看到比觀察值更極端的機率。
圖8-16 比較 p 值和顯著水準 α
例題8-6 大學學費 例題8-6 大學學費(解答)
例題8-6 大學學費(解答) 注意:如果研究員選擇 a=0.01,虛無假設就不會被拒絕,因為 p 值 0.0113 超過 0.01。
例題8-7 風速 例題8-7 風速(解答)
例題8-7 風速(解答)
p 值法的決策規則 p 值的指導規則 如果 p 值 ≤ a,拒絕虛無假設。 如果 p 值 > a,不拒絕虛無假設。 如果 p 值 > 0.05 且 p 值 ≤ 0.10,在拒絕虛無假設之前,考慮型 I 錯誤的後果。 如果 p 值 > 0.10,不要拒絕虛無假設。差異是不顯著的。
觀念應用8-2 汽車失竊 你最近接受了一份製造汽車防盜器材公司的工作。為了拍產品的促銷廣告, 你需要一項關於每一年失竊汽車數量的主張。因為美國各個都市的人口會變動, 所以你決定用每 10,000 人的比例。(這樣的話,這一項比例就會根據各個都市的實際居住人口。)你的老闆說,去年每 10,000 人的失竊率是 44 部車。你想要知道這個數字是否改變。以下數據是在美國隨機挑選 36 個都市每 10,000 人的失竊率。假設 σ = 30.3。 資料來源:National Insurance Crime Bureau.
觀念應用8-2 汽車失竊 使用上述的資訊,回答以下的問題。 1. 你會使用什麼樣的假設? 2. 該組樣本是小樣本還是大樣本? 觀念應用8-2 汽車失竊 使用上述的資訊,回答以下的問題。 1. 你會使用什麼樣的假設? 2. 該組樣本是小樣本還是大樣本? 3. 在進行假設檢定之前,必須滿足哪一些假設? 4. 你會使用哪一種機率分配? 5. 你會挑選單尾檢定還是雙尾檢定?為什麼? 6. 你會使用什麼樣的臨界值(一個或是兩個)? 7. 進行一項假設檢定。 8. 你會下什麼樣的決定(拒絕還是不拒絕虛無假設)? 9. 你的結論是什麼? 10. 為你的結論寫一段簡短的論述。 11. 如果你住在一個大約有 50,000 人的都市,你預期每一年會失竊幾部車?
8-3 平均數的 t 檢定
t 檢定 (t test) 是一種母體平均數的統計檢定,而且用在 σ 未知且母體的變數不是常態分配就是接近常態分配的時候。檢定的公式如下所示: 自由度是 d.f. = n − 1。
例題8-8 例題8-8 (解答)
例題8-9 例題8-9 (解答)
例題8-10 例題8-10 (解答)
例題8-11 例題8-11 (解答)
當 σ 未知,平均數 t 檢定的假設 樣本是一種隨機樣本。 不是 n≥30;就是當 n<30,母體是常態的或是接近常態的。
例題8-12 醫院感染
例題8-12 醫院感染(解答)
例題8-13 護士從業人員的起薪
例題8-13 護士從業人員的起薪(解答)
例題8-13 護士從業人員的起薪(解答)
例題8-14 例題8-14 (解答)
例題8-14 (解答)
例題8-15 例題8-15 (解答)
例題8-16 慢跑者的氧攝取量
例題8-16 慢跑者的氧攝取量(解答)
觀念應用8-3 這些香菸有多少尼古丁 有一家香菸工廠主張它的最暢銷香菸尼古丁含量頂多 40 毫克。在 1% 的水準下,透過 15 支隨機挑選的香菸檢定這一項主張。平均尼古丁含量是 42.6 毫克,標準差是 3.7 毫克。由數據推測尼古丁含量是常態分配的。來自電腦報表的檢定資訊如下所示。 樣本平均 = 42.6 p 值= 0.008 樣本標準差 = 3.7 顯著水準= 0.01 樣本數 =15 檢定統計量 t = 2.72155 自由度 =14 臨界值 t = 2.62449 1. 自由度為何? 2. 這是 z 檢定還是 t 檢定? 3. 這是一種單樣本還是雙樣本的比較? 4. 這是右尾、左尾還是雙尾檢定? 5. 根據 p 值,你會作出什麼樣的決定? 6. 透過比較檢定數值和臨界值,你會作出什麼樣的決定? 7. 結果有衝突嗎?試解釋之。 8. 這一項研究證明了什麼?
8-4 比例的z檢定
比例z檢定的公式 其中 (樣本比例) p=母體比例 n=樣本數
檢定比例的假設 樣本是一種隨機樣本。 滿足二項實驗的所有條件。(詳見第五章。) np ≥ 5 且 nq ≥ 5。
例題8-17 肥畔的年輕人 例題8-17 肥畔的年輕人(解答)
例題8-17 肥畔的年輕人(解答)
例題8-18 女性擁槍者 例題8-18 女性擁槍者(解答)
例題8-18 女性擁槍者(解答)
例題8-19 律師廣告 例題8-19 律師廣告(解答)
例題8-19 律師廣告(解答)
觀念應用8-4 戒菸 假設你是某個研究團隊的一員,這個團隊比較各種輔助戒菸的產品。Condor Consumer Products Company 希望得到更多關於可以公開給科學界的研究細節。詳閱以下內容,並回答關於你如何進行研究的問題。 新的 StopSmoke 沒有其他方法被證明更有效。StopSmoke 提供超越其他產品的顯著成效。StopSmoke 簡單好用,而且不需戒斷。比起其他領導品牌,StopSmoke 更便宜。兩項獨立的研究已經證實了 StopSmoke 的優越性。
觀念應用8-4 戒菸 1. 統計假設為何? 2. 虛無假設是什麼? 3. 對立假設是什麼? 4. 進行過任何統計檢定嗎? 觀念應用8-4 戒菸 1. 統計假設為何? 2. 虛無假設是什麼? 3. 對立假設是什麼? 4. 進行過任何統計檢定嗎? 5. 單尾檢定或是雙尾檢定? 6. 顯著水準是多少? 7. 如果犯了型 I 錯誤,解釋會有什麼樣的結果。 8. 如果犯了型 II 錯誤,解釋會有什麼樣的結果。 9. 這一些研究要證明什麼? 10. 關於顯著性的論述有兩句話。一句是「StopSmoke 提供超越其他產品的顯著成效」,另一句是「比起其他領導品牌,StopSmoke 更便宜」。有哪一句談到統計顯著性?有其他形式的顯著性嗎?
8-5 變異數或標準差的卡方檢定
例題8-21 例題8-21 (解答)
例題8-21 (解答)
例題8-22 例題8-22 (解答)
例題8-22 (解答)
例題8-23 例題8-23 (解答)
單一變異數卡方檢定的公式 單一變異數卡方檢定的假設 自由度是 n − 1,而且其中 n =樣本數 s2 =樣本變異數 σ2 =母體變異數 單一變異數卡方檢定的假設 1. 樣本必須隨機來自母體。 2. 被研究的變數必須是常態分配的。 3. 觀察值彼此間必須是獨立的。
例題8-24 SAT數學成績 例題8-24 SAT數學成績(解答)
例題8-24 SAT數學成績(解答)
例題8-25 門診手術
例題8-25 門診手術(解答)
例題8-25 門診手術(解答)
例題8-26 香菸的尼古丁含量
例題8-26 香菸的尼古丁含量(解答)
例題8-26 香菸的尼古丁含量(解答)
例題8-27 例題8-27 (解答)
例題8-27 (解答)
例題8-28 例題8-28 (解答)
例題8-29 車檢時間 例題8-29 車檢時間(解答)
例題8-29 車檢時間(解答)
觀念應用8-5 檢定哩程數主張 假設你為消費者保護機構工作,而且最近接到民眾關於新的 Dodge Caravans 高速公路哩程數的投訴。克萊斯勒汽車公司同意你可以隨機挑選 40 部新的 Dodge Caravans 以進行高速公路哩程數測試。克萊斯勒主張 Caravans 在高速公路的哩程數是 28 mpg。你的結果顯示平均是 26.7 mpg,標準差是 4.2 mpg。你支持克萊斯勒的主張。 1. 透過報表的 p 值說明為什麼你支持克萊斯勒的主張。後來有更多投訴,你決定檢定高速公路哩程數的變化程度。經過進一步詢問克萊斯勒的品管工程師之後,你發現他們主張的標準差是 2.1 mpg。使用單尾檢定。 2. 檢定關於標準差的主張。 3. 為你的結果寫一段簡短的摘要,以及有必要採取什麼行動以彌補消費者的投訴。 4. 陳述你同時進行變異數檢定和平均數檢定的必要性。
8-6 假設檢定的其他主題
例題8-30 糖製品 例題8-30 糖製品(解答)
例題8-30 糖製品(解答)
例題8-30 糖製品(解答)
例題8-31 豬的重量 例題8-31 豬的重量(解答)
例題8-31 豬的重量(解答)
例題8-31 豬的重量(解答)
圖8-40 假設檢定的可能性
觀念應用8-6 投訴消費者保護機構 假設檢定和使用信賴區間檢定主張是兩種不一樣的方法,但是會得到一樣的結論。透過以下的活動,你可以比較這兩種方法。 假設你為消費者保護機構工作,而且最近接到民眾關於新的 Dodge Caravans 高速公路哩程數的投訴。克萊斯勒同意你可以隨機挑選 40 部新的 Dodge Caravans 以進行高速公路哩程數測試。克萊斯勒主張 Caravans 在高速公路的哩程數是 28 mpg。你的結果顯示平均是 26.7 mpg,標準差是 4.2 mpg。你不確定是不是應該取得某一種信賴區間,還是進行某一種假設檢定。你決定兩個都做。
觀念應用8-6 投訴消費者保護機構 1. 繪製一條常態曲線,標上臨界值、拒絕域、檢定統計量以及母體平均數。條列顯著水準以及虛無假設和對立假設。 2. 在常態分配下方繪製一種信賴區間,標上樣本平均數、標準誤以及區間界限。 3. 解釋兩種方法一樣的地方和不一樣的地方。 4. 繪製一條常態曲線和信賴區間,其中樣本平均數和假定平均數(期待值)在同一個位置。 5. 繪製一條常態曲線和信賴區間,其中區間的下界等於假定平均數。 6. 繪製一條常態曲線和信賴區間,其中樣本平均數落在拒絕域的左邊。
結語 這一章介紹假設檢定的基本觀念。統計假設是關於母體的假說。有兩種統計假設: 虛無假設和對立假設。虛無假設主張無差別,而對立假設則主張有差別。為了檢定虛無假設,研究員必須使用一種統計檢定。透過 來計算許多檢定數值。 為了決定是否拒絕虛無假設,研究員從樣本數據計算檢定數值。統計檢定可以是單尾的或是雙尾的,端賴假設決定。 當母體參數與樣本統計量之間的差距是顯著的時候,虛無假設被拒絕。當檢定數值落入分配的拒絕域,差距是顯著的。檢定的顯著水準 α 決定拒絕域。顯著水準是犯下型 I 錯誤的機率。當拒絕正確的虛無假設時,發生型 I 錯誤。一般而言,有三種被認定的顯著水準 0.10、0.05 和 0.01。第二種錯誤叫做型 II 錯誤,當不拒絕錯誤的虛無假設時會發生。(8-1)
結語 有兩種方法常用來檢定假設:傳統法和 p 值法。(8-2) 使用傳統法進行假設檢定必須包含以下的五步驟: 1. 陳述假設並確立主張。 2. 選定顯著水準 α ,並且求出臨界值。 3. 計算檢定數值。 4. 下拒絕或是不拒絕虛無假設的決定。 5. 摘要結論。 使用 p 值法進行假設檢定必須包含以下的五步驟: 2. 計算檢定數值。 3. 求出 p 值。 4. 下決定。
結語 當母體標準差已知,研究員用 z 檢定來檢定與平均數有關的主張。當樣本數低於30,母體的數值需要是常態分配的或是接近常態分配的。(8-2) 當母體標準差未知,研究員用 t 檢定來檢定與平均數有關的主張。當樣本數低於30,母體的數值需要是常態分配的或是接近常態分配的。(8-3) 當 np ≥ 5 且 nq ≥ 5 的時候,研究員用 z 檢定來檢定與比例有關的主張。(8-4) 卡方檢定用來檢定單一變異數的主張。(8-5) 信賴區間和假設檢定之間有一種關係。當虛無假設被拒絕,使用同樣水準建構的平均數信賴區間不會包含假定的母體平均數。當虛無假設不被拒絕,使用同樣水準建構的平均數信賴區間會包含假定的母體平均數。(8-6) 統計檢定的檢定力測量檢定察覺真實差距的靈敏度。1−β 叫做檢定的檢定力。(8-6)