Chapter 7 信賴區間
學習目標 當 σ 已知,求出平均數的信賴區間。 決定求出平均數信賴區間需要的最小樣本數。 當 σ 未知,求出平均數的信賴區間。 求出比例的信賴區間。 決定求出比例信賴區間需要的最小樣本數。 求出變異數以及標準差的信賴區間。
7-1 σ 已知的平均數信賴區間
點估計 (point estimate) 是估計參數的某一個特定數字。母體平均數 μ 的最佳點估計是樣本平均數 。
良好估計式的三項性質 1. 估計式應該是不偏的估計式 (unbiased estimator)。也就是說,從某一種樣本數的樣本算出來的估計式,它的期望值或是平均數會等於它希望估計的參數。 2. 估計式應該是一致的。對一種一致的估計式(consistent estimator) 而言,當樣本數遞增的時候,估計式會趨近它希望估計的參數。 3. 估計式應該是一種相對有效的估計式 (relatively efficient estimator)。也就是說,針對所有可以用來估計參數的統計量,相對有效的估計式有著最小的變異數。
信賴區間 參數的區間估計 (interval estimate) 是一種用來估計參數的區間或是數字的範圍。這一項估計或許會、或許不會包含它希望估計的參數。 參數區間估計的信心水準 (confidence level) 是區間估計會包含參數的機率,假設挑選大量的樣本,而且估計同一個參數的過程不斷重複。 信賴區間 (confidence interval) 是用樣本數據和某特定信心水準所決定的區間估計。
當σ 已知,針對某特定α之平均數的信賴區間的公式 如果是 90% 信賴區間,zα/2=1.65;如果是 95% 信賴區間,zα/2=1.96;最後,如果是 99% 信賴區間,zα/2=2.58。
誤差界限 (margin of error),也被叫做「估計的最大容忍誤差」,是參數點估計與參數之間的可容忍的最大誤差。
當 σ 已知,求出平均數信賴區間的假設 樣本是一種隨機樣本。 如果 n < 30,則母體必須是常態的或是接近常態的,要不然就是 n ≥ 30。
例題7-1 賣出一部Aveo所需的天數
例題7-1 賣出一部Aveo所需的天數 (解答)
例題7-2 顧客數 例題7-2 顧客數(解答)
圖7-2 樣本平均數的95%區間
圖7-3 針對每一個樣本平均數的95%信賴區間
圖7-4 針對每一個樣本平均數的95%信賴區間
例題7-3 聯合信用社的資產
例題7-3 聯合信用社的資產(解答)
例題7-3 聯合信用社的資產(解答)
樣本數 樣本數的決定和統計估計的關係非常密切。你經常會問:「為了得到一種準確的估計,應該準備多大的樣本(樣本數要多少)?」答案不簡單,因為它和三件事有關:誤差界限、母體標準差和信心水準。比如說,你希望有多靠近真正的平均數(2 個單位、5 個單位),以及你希望有多少信心(90%、95%、99% 等等)?針對這一章的目的,你必須假設變數的母體標準差已知,或者是它可以從以前的研究估計出來。 從誤差界限 推導樣本數公式,用上述公式解 n: 因此,
針對母體平均數之區間估計所需要的最小樣本數公式 其中 E 是誤差界限。如果有必要,把答案無條件進位到整數。也就是說,不要有任何小數,使用下一個整數。
例題7-4 河川深度 例題7-4 河川深度(解答)
觀念應用7-1 使用信賴區間作決策 假設你為 Kleenex 的製造者 Kimberly Clark Corporation 工作。你現在的工作是決定在汽車置物箱需要放多少張 leenex。完成以下的工作。 1. 你如何決定在汽車置物箱需要放多少張 Kleenex 的合理數量? 2. 通常人們什麼時候會需要 Kleenex? 3. 你使用哪一種數據收集技術? 4. 假設你發現,樣本內的 85 人在感冒期間平均大概在汽車置物箱放了 57 張Kleenex,母體標準差是 15 張。使用一種信賴區間協助你決定要在汽車置物箱放多少張 Kleenex。 5. 解釋你如何決定在汽車置物箱內需要放多少張 Kleenex。
7-2 σ未知的平均數信賴區間
t 分配的特徵 t 分配與常態分配共同分享某些性質,但是還是有一些部分是不一樣的。t 分配和標準常態分配類似之處如下: 1. 鐘形的。 2. 對平均數對稱的。 3. 平均數、中位數以及眾數都是 0,而且位在分配的中央位置。 4. 曲線永遠不會接觸到 x 軸。 t 分配和標準常態分配不同之處如下: 1. 變異數超過 1。 2. t 分配實際上是一群根據自由度(和樣本數有密切關係)區分彼此的曲線。 3. 當樣本數遞增,t 分配會逼近標準常態分配。見圖 7-6。
圖7-6 t 曲線家族
當σ未知的時候,平均數某特定信賴區間的公式 自由度是 n − 1。
例題7-5 例題7-5 (解答)
例題7-5 (解答)
當 σ 未知的時候,求出平均數信賴區間的假設 樣本是一種隨機樣本。 如果 n < 30,母體就必須是常態分配的,要不然就要 n ≥ 30。
例題7-6 新生兒的發育 例題7-6 新生兒的發育(解答)
例題7-6 新生兒的發育(解答)
例題7-7 蠟燭引起的火災 例題7-7 蠟燭引起的火災(解答)
例題7-7 蠟燭引起的火災(解答)
圖7-8 什麼時候用 z 分配,什麼時候用 t 分配
觀念應用7-2 決定運動飲料 假設你得到一份球隊教練的新工作。你的第一份工作是選擇球隊在練習和比賽時飲用的運動飲料。你手邊有一本 Sports Report 雜誌,所以你可以用統計背景幫助你做出最好的決策。以下表格列出最流行的運動飲料以及一些相關的重要資訊。回答以下關於表格的問題。
觀念應用7-2 決定運動飲料 1. 你認為這是小樣本嗎? 觀念應用7-2 決定運動飲料 1. 你認為這是小樣本嗎? 2. 計算每一瓶的平均價格,而且求出關於平均數的 90% 信賴區間。是不是每一種飲料的價格都落入這一個信賴區間內?如果不是,哪一種品牌沒有落入區間內? 3. 是否有哪一個價格可以被認為是離群值? 4. 自由度是多少? 5. 如果價格是你決策的主要因素,你會考慮每一瓶的價格還是每喝一次的成本? 6. 你會建議上述哪一種飲料?並說明理由。
7-3 比例的信賴區間與樣本數
比例概念的符號 p = 母體比例 pˆ = 樣本比例 針對樣本比例, 且 或 且 或 其中 X= 樣本內有多少個擁有我們感興趣的特徵,n = 樣本數。
例題7-8 開車上班 例題7-8 開車上班(解答)
信賴區間 比例信賴區間的公式 其中 npˆ 和 nqˆ 必須大於等於 5。
求出母體比例信賴區間的假設 樣本是一組隨機樣本 2. 必須滿足二項實驗的條件(詳見第五章)。
例題7-9 支付大學費用 例題7-9 支付大學費用(解答)
例題7-9 支付大學費用(解答)
例題7-10 花園雜草 例題7-10 花園雜草(解答)
例題7-10 花園雜草(解答)
比例的樣本數 母體比例區間估計所需最小樣本數的公式 如果必要,無條件進位到最近的整數。
例題7-11 家庭電腦 例題7-11 家庭電腦(解答)
例題7-12 家庭電腦 例題7-12 家庭電腦(解答)
觀念應用7-3 感染流感 為了回答問題,使用以下描述感染流感人數的報告表格(用性別和種族分類)。 觀念應用7-3 感染流感 為了回答問題,使用以下描述感染流感人數的報告表格(用性別和種族分類)。 49 州和華盛頓特區參與這一份研究。使用加權平均數。樣本數是 19,774。有 12,774 位女性和 7,000 位男性。
觀念應用7-3 感染流感 1. 解釋 95% CI 所代表的意義。 2. 男性感染流感的報告數字有多大的誤差? 3. 樣本數是多少? 觀念應用7-3 感染流感 1. 解釋 95% CI 所代表的意義。 2. 男性感染流感的報告數字有多大的誤差? 3. 樣本數是多少? 4. 樣本數如何影響信賴區間的寬度? 5. 如果使用同樣的數據,90% 的 CI 會比較長還是比較短? 6. 感染流感女性的比例數字 51.5% 和對應 95% CI 的關係如何?
7-4 變異數和標準差的信賴區間
圖7-9 卡方曲線家族
圖7-10 d.f. = n – 1的卡方分配
例題7-13 例題7-13 (解答)
例題7-13 (解答)
變異數的信賴區間公式 標準差的信賴區間公式
求出變異數或是標準差的信賴區間需要的假設 樣本是隨機樣本。 母體必須是常態分配的。
例題7-14 尼古丁含量 例題7-14 尼古丁含量(解答)
例題7-14 尼古丁含量(解答)
例題7-15 有名字的颶風 例題7-15 有名字的颶風(解答)
例題7-15 有名字的颶風(解答)
觀念應用7-4 標準差的信賴區間 以下數據顯示歷屆總統死亡時的歲數。 1. 數據代表母體還是樣本? 觀念應用7-4 標準差的信賴區間 以下數據顯示歷屆總統死亡時的歲數。 1. 數據代表母體還是樣本? 2. 隨機挑選 12 個數字,並且求出它們的變異數和標準差。 3. 求出標準差的 95% 信賴區間。 4. 求出所有數字的標準差。 5. 第 3 題得到的信賴區間包含上一題的標準差嗎? 6. 如果沒有,請說明理由。 7. 在第 3 題建構標準差 95% 信賴區間的時候,必須考慮哪一些假設?
結語 估計是統計推論重要的一環。透過從母體隨機抽樣,加上選擇與計算某一個統計量達成母體參數的最佳估計式。一個好的估計式必須是不偏、一致而且是相對有效的。 的最佳估計是 。(7-1) 參數的估計有兩種型態:點估計和區間估計。點估計是某一個特定的數值。比如說,如果某一位研究員想要估計某一種魚的平均身長,挑選一組樣本並且加以丈量。計算這一組樣本的平均數,比如說結果是 3.2 公分。從這一項樣本平均數出發,研究員就用 3.2 公分估計母體平均數。點估計的問題是無法決定估計的準確性。因為這個原因,統計學家比較喜歡區間估計。透過計算樣本數值的某一個區間,統計學家可以有 95% 或是 99% 的信心(或者是其他百分比)認為他們的估計包含真正的參數。研究員可以決定信心水準。信心水準愈高,估計的區間會愈寬。比如說,某一種魚真實平均身長的 95% 信賴區間可能是 而 99% 的信賴區間則可能是
結語 決定估計平均數所需的樣本數和計算信賴區間關係密切。決定最小樣本數需要這一項資訊。 1. 必須說明信心水準。 2. 必須知道母體標準差或是有能力估計母體標準差。 3. 必須說明誤差界限。(7-1) 如果母體標準差未知,會使用 t 值。當樣本數低於 30,母體一定要是常態的(或是接近常態的)。(7-2) 利用常態分配也可以計算母體比例的信賴區間和所需的樣本數。(7-3) 最後,變異數和標準差的信賴區間可以用卡方分配計算。(7-4)