Download presentation
Presentation is loading. Please wait.
1
Chapter 7 信賴區間
2
學習目標 當 σ 已知,求出平均數的信賴區間。 決定求出平均數信賴區間需要的最小樣本數。 當 σ 未知,求出平均數的信賴區間。
求出比例的信賴區間。 決定求出比例信賴區間需要的最小樣本數。 求出變異數以及標準差的信賴區間。
3
7-1 σ 已知的平均數信賴區間
4
點估計 (point estimate) 是估計參數的某一個特定數字。母體平均數 μ 的最佳點估計是樣本平均數 。
5
良好估計式的三項性質 1. 估計式應該是不偏的估計式 (unbiased estimator)。也就是說,從某一種樣本數的樣本算出來的估計式,它的期望值或是平均數會等於它希望估計的參數。 2. 估計式應該是一致的。對一種一致的估計式(consistent estimator) 而言,當樣本數遞增的時候,估計式會趨近它希望估計的參數。 3. 估計式應該是一種相對有效的估計式 (relatively efficient estimator)。也就是說,針對所有可以用來估計參數的統計量,相對有效的估計式有著最小的變異數。
6
信賴區間 參數的區間估計 (interval estimate) 是一種用來估計參數的區間或是數字的範圍。這一項估計或許會、或許不會包含它希望估計的參數。 參數區間估計的信心水準 (confidence level) 是區間估計會包含參數的機率,假設挑選大量的樣本,而且估計同一個參數的過程不斷重複。 信賴區間 (confidence interval) 是用樣本數據和某特定信心水準所決定的區間估計。
7
當σ 已知,針對某特定α之平均數的信賴區間的公式
如果是 90% 信賴區間,zα/2=1.65;如果是 95% 信賴區間,zα/2=1.96;最後,如果是 99% 信賴區間,zα/2=2.58。
8
誤差界限 (margin of error),也被叫做「估計的最大容忍誤差」,是參數點估計與參數之間的可容忍的最大誤差。
9
當 σ 已知,求出平均數信賴區間的假設 樣本是一種隨機樣本。
如果 n < 30,則母體必須是常態的或是接近常態的,要不然就是 n ≥ 30。
10
例題7-1 賣出一部Aveo所需的天數
11
例題7-1 賣出一部Aveo所需的天數 (解答)
12
例題7-2 顧客數 例題7-2 顧客數(解答)
13
圖7-2 樣本平均數的95%區間
14
圖7-3 針對每一個樣本平均數的95%信賴區間
15
圖7-4 針對每一個樣本平均數的95%信賴區間
17
例題7-3 聯合信用社的資產
18
例題7-3 聯合信用社的資產(解答)
19
例題7-3 聯合信用社的資產(解答)
20
樣本數 樣本數的決定和統計估計的關係非常密切。你經常會問:「為了得到一種準確的估計,應該準備多大的樣本(樣本數要多少)?」答案不簡單,因為它和三件事有關:誤差界限、母體標準差和信心水準。比如說,你希望有多靠近真正的平均數(2 個單位、5 個單位),以及你希望有多少信心(90%、95%、99% 等等)?針對這一章的目的,你必須假設變數的母體標準差已知,或者是它可以從以前的研究估計出來。 從誤差界限 推導樣本數公式,用上述公式解 n: 因此,
21
針對母體平均數之區間估計所需要的最小樣本數公式
其中 E 是誤差界限。如果有必要,把答案無條件進位到整數。也就是說,不要有任何小數,使用下一個整數。
22
例題7-4 河川深度 例題7-4 河川深度(解答)
23
觀念應用7-1 使用信賴區間作決策 假設你為 Kleenex 的製造者 Kimberly Clark Corporation 工作。你現在的工作是決定在汽車置物箱需要放多少張 leenex。完成以下的工作。 1. 你如何決定在汽車置物箱需要放多少張 Kleenex 的合理數量? 2. 通常人們什麼時候會需要 Kleenex? 3. 你使用哪一種數據收集技術? 4. 假設你發現,樣本內的 85 人在感冒期間平均大概在汽車置物箱放了 57 張Kleenex,母體標準差是 15 張。使用一種信賴區間協助你決定要在汽車置物箱放多少張 Kleenex。 5. 解釋你如何決定在汽車置物箱內需要放多少張 Kleenex。
24
7-2 σ未知的平均數信賴區間
25
t 分配的特徵 t 分配與常態分配共同分享某些性質,但是還是有一些部分是不一樣的。t 分配和標準常態分配類似之處如下: 1. 鐘形的。
2. 對平均數對稱的。 3. 平均數、中位數以及眾數都是 0,而且位在分配的中央位置。 4. 曲線永遠不會接觸到 x 軸。 t 分配和標準常態分配不同之處如下: 1. 變異數超過 1。 2. t 分配實際上是一群根據自由度(和樣本數有密切關係)區分彼此的曲線。 3. 當樣本數遞增,t 分配會逼近標準常態分配。見圖 7-6。
26
圖7-6 t 曲線家族
27
當σ未知的時候,平均數某特定信賴區間的公式
自由度是 n − 1。
28
例題7-5 例題7-5 (解答)
29
例題7-5 (解答)
30
當 σ 未知的時候,求出平均數信賴區間的假設
樣本是一種隨機樣本。 如果 n < 30,母體就必須是常態分配的,要不然就要 n ≥ 30。
31
例題7-6 新生兒的發育 例題7-6 新生兒的發育(解答)
32
例題7-6 新生兒的發育(解答)
33
例題7-7 蠟燭引起的火災 例題7-7 蠟燭引起的火災(解答)
34
例題7-7 蠟燭引起的火災(解答)
35
圖7-8 什麼時候用 z 分配,什麼時候用 t 分配
36
觀念應用7-2 決定運動飲料 假設你得到一份球隊教練的新工作。你的第一份工作是選擇球隊在練習和比賽時飲用的運動飲料。你手邊有一本 Sports Report 雜誌,所以你可以用統計背景幫助你做出最好的決策。以下表格列出最流行的運動飲料以及一些相關的重要資訊。回答以下關於表格的問題。
37
觀念應用7-2 決定運動飲料 1. 你認為這是小樣本嗎?
觀念應用7-2 決定運動飲料 1. 你認為這是小樣本嗎? 2. 計算每一瓶的平均價格,而且求出關於平均數的 90% 信賴區間。是不是每一種飲料的價格都落入這一個信賴區間內?如果不是,哪一種品牌沒有落入區間內? 3. 是否有哪一個價格可以被認為是離群值? 4. 自由度是多少? 5. 如果價格是你決策的主要因素,你會考慮每一瓶的價格還是每喝一次的成本? 6. 你會建議上述哪一種飲料?並說明理由。
38
7-3 比例的信賴區間與樣本數
39
比例概念的符號 p = 母體比例 pˆ = 樣本比例 針對樣本比例, 且 或
且 或 其中 X= 樣本內有多少個擁有我們感興趣的特徵,n = 樣本數。
40
例題7-8 開車上班 例題7-8 開車上班(解答)
41
信賴區間 比例信賴區間的公式 其中 npˆ 和 nqˆ 必須大於等於 5。
42
求出母體比例信賴區間的假設 樣本是一組隨機樣本 2. 必須滿足二項實驗的條件(詳見第五章)。
43
例題7-9 支付大學費用 例題7-9 支付大學費用(解答)
44
例題7-9 支付大學費用(解答)
45
例題7-10 花園雜草 例題7-10 花園雜草(解答)
46
例題7-10 花園雜草(解答)
47
比例的樣本數 母體比例區間估計所需最小樣本數的公式 如果必要,無條件進位到最近的整數。
48
例題7-11 家庭電腦 例題7-11 家庭電腦(解答)
49
例題7-12 家庭電腦 例題7-12 家庭電腦(解答)
50
觀念應用7-3 感染流感 為了回答問題,使用以下描述感染流感人數的報告表格(用性別和種族分類)。
觀念應用7-3 感染流感 為了回答問題,使用以下描述感染流感人數的報告表格(用性別和種族分類)。 49 州和華盛頓特區參與這一份研究。使用加權平均數。樣本數是 19,774。有 12,774 位女性和 7,000 位男性。
51
觀念應用7-3 感染流感 1. 解釋 95% CI 所代表的意義。 2. 男性感染流感的報告數字有多大的誤差? 3. 樣本數是多少?
觀念應用7-3 感染流感 1. 解釋 95% CI 所代表的意義。 2. 男性感染流感的報告數字有多大的誤差? 3. 樣本數是多少? 4. 樣本數如何影響信賴區間的寬度? 5. 如果使用同樣的數據,90% 的 CI 會比較長還是比較短? 6. 感染流感女性的比例數字 51.5% 和對應 95% CI 的關係如何?
52
7-4 變異數和標準差的信賴區間
53
圖7-9 卡方曲線家族
54
圖7-10 d.f. = n – 1的卡方分配
55
例題7-13 例題7-13 (解答)
56
例題7-13 (解答)
57
變異數的信賴區間公式 標準差的信賴區間公式
58
求出變異數或是標準差的信賴區間需要的假設
樣本是隨機樣本。 母體必須是常態分配的。
59
例題7-14 尼古丁含量 例題7-14 尼古丁含量(解答)
60
例題7-14 尼古丁含量(解答)
61
例題7-15 有名字的颶風 例題7-15 有名字的颶風(解答)
62
例題7-15 有名字的颶風(解答)
63
觀念應用7-4 標準差的信賴區間 以下數據顯示歷屆總統死亡時的歲數。 1. 數據代表母體還是樣本?
觀念應用7-4 標準差的信賴區間 以下數據顯示歷屆總統死亡時的歲數。 1. 數據代表母體還是樣本? 2. 隨機挑選 12 個數字,並且求出它們的變異數和標準差。 3. 求出標準差的 95% 信賴區間。 4. 求出所有數字的標準差。 5. 第 3 題得到的信賴區間包含上一題的標準差嗎? 6. 如果沒有,請說明理由。 7. 在第 3 題建構標準差 95% 信賴區間的時候,必須考慮哪一些假設?
64
結語 估計是統計推論重要的一環。透過從母體隨機抽樣,加上選擇與計算某一個統計量達成母體參數的最佳估計式。一個好的估計式必須是不偏、一致而且是相對有效的。 的最佳估計是 。(7-1) 參數的估計有兩種型態:點估計和區間估計。點估計是某一個特定的數值。比如說,如果某一位研究員想要估計某一種魚的平均身長,挑選一組樣本並且加以丈量。計算這一組樣本的平均數,比如說結果是 3.2 公分。從這一項樣本平均數出發,研究員就用 3.2 公分估計母體平均數。點估計的問題是無法決定估計的準確性。因為這個原因,統計學家比較喜歡區間估計。透過計算樣本數值的某一個區間,統計學家可以有 95% 或是 99% 的信心(或者是其他百分比)認為他們的估計包含真正的參數。研究員可以決定信心水準。信心水準愈高,估計的區間會愈寬。比如說,某一種魚真實平均身長的 95% 信賴區間可能是 而 99% 的信賴區間則可能是
65
結語 決定估計平均數所需的樣本數和計算信賴區間關係密切。決定最小樣本數需要這一項資訊。 1. 必須說明信心水準。
2. 必須知道母體標準差或是有能力估計母體標準差。 3. 必須說明誤差界限。(7-1) 如果母體標準差未知,會使用 t 值。當樣本數低於 30,母體一定要是常態的(或是接近常態的)。(7-2) 利用常態分配也可以計算母體比例的信賴區間和所需的樣本數。(7-3) 最後,變異數和標準差的信賴區間可以用卡方分配計算。(7-4)
Similar presentations