Presentation is loading. Please wait.

Presentation is loading. Please wait.

第三章 估計及檢定.

Similar presentations


Presentation on theme: "第三章 估計及檢定."— Presentation transcript:

1 第三章 估計及檢定

2 關鍵字(Key words) 型一錯誤 估計 信賴區間 型二錯誤 假設檢定 檢定力 估計量 敏感度 信心水準 特異度 虛無假設 P值
對立假設 型一錯誤 型二錯誤 檢定力 敏感度 特異度 P值

3 統計推論主要可分為三個方面:估計、信賴區間 和假設檢定
針對手上收集資料為主(即所謂樣本),然而我 們的目的並不在於推論這少數觀測值的樣本資料, 而是想推測這筆資料所代表母群體的一些重要性 質,如母體參數、母體分配及結構等。主要原因 還是在一般的研究上,成本和時間有限,我們無 法或不可能觀測到目標母群體內所有成員,取而 代之的是從我們的目標母群體抽取一部分樣本, 想從此樣本來推論母群體的一些特性。

4 研究者招募了 83 位不抽菸、不常吃魚的孕婦, 將她們隨機分為兩組,一組每天攝取 4 克魚油補 充品 (內含 2. 2 克 DHA 和 1
研究者招募了 83 位不抽菸、不常吃魚的孕婦, 將她們隨機分為兩組,一組每天攝取 4 克魚油補 充品 (內含 2.2 克 DHA 和 1.1 克 EPA),另一組每 天攝取 4 克的橄欖油;攝取期間是從懷孕 20 週 至嬰兒出生為止。然後在小孩 2.5 歲時,研究者 測驗他們發育和成熟的狀況,包括:語言、行為、 推理、和手眼協調等能力,並且進一步分析母親 攝取魚油補充品與否,和小孩發育程度之間的關 係。 研究目的:我們的目的並不是這83位婦女所生小 孩的發育情形,而是希望藉由此資料知道“所有” 懷孕婦女攝取魚油與否對小孩發育情形的影響。

5 點估計(Point Estimates) 母群體 未知 抽樣 樣本 推論(估計)

6 點估計(Point Estimates) 母群體特性中最重要的是母體平均值、標準差及母體 比例,例如上例中攝取魚油孕婦的小孩在兩歲半時的 平均身高及標準差,有語言障礙比例等;如何使用所 收集的樣本去估計這些母體參數?如何得知樣本是否 母群體的代表性? 統計估計的技巧在於如何利用樣本做出最佳推論,然 而資料來自母群體抽樣,不同次抽樣所獲得的估計值 也不盡相同,如何評估估計值與母群體參數的差異 (即所謂誤差)?一般而言,我們希望盡可能使估計 量的誤差最小化,利用誤差也可得知估計值的準確性 及可靠性。 因為樣本平均數或標準差這些估計值都是一個單值, 不是區間或範圍,所以又稱為點估計值(point estimates)。

7 良好點估計應有的特性 一致性(Consistency) 當樣本數大時,點估計值應很接近母群體之真值。 不偏性(Unbiased)
所有可能樣本之點估計值之平均等於母群體之真值。 高效性(Efficiency) 尋求具有最小可能標準誤的估計量。 註: 估計量的抽樣分佈中的標準差,即所謂標準誤 (standard error)

8 母體參數值之信賴區間估計 以樣本平均值 當作最佳點估計,但通常母體平均值 未知,那如何知道此樣品平均值是否可靠呢?
以樣本平均值 當作最佳點估計,但通常母體平均值 未知,那如何知道此樣品平均值是否可靠呢? 信賴區間(confidence interval;CI):使用樣本資料計算 出一個區間(a , b),以估計母體參數,並指出該區間 包含母體參數的機率達到吾人的最低要求。 信心水準(confidence level):是指信賴區間內包含母體 參數的機率,通常有90%、95%、99%,並以 表示。 此一區間稱為(1-α)×100%信賴區間(Confidence Interval)。 信賴區間是隨機,不同樣本計算的信賴區間不同,故 稱為區間估計(Interval Estimation)

9 母體平均值之信賴區間估計 母體平均值 之95%信賴區間: 因為樣本平均值的抽樣分佈為 所以 , 而標準化後
母體平均值 之95%信賴區間: 因為樣本平均值的抽樣分佈為 所以 , 而標準化後 𝑃 − 𝑍 𝛼/2 ≤ 𝑥 −𝜇 𝜎 𝑥 ≤ 𝑍 𝛼/2 =1−𝛼 𝑃 −1.96≤ 𝑥 −𝜇 𝜎 𝑥 ≤1.96 =0.95

10 母體平均值之信賴區間估計 信心水準0.95,所以 𝑃 𝑥 − 𝑍 𝛼/2 𝜎 𝑥 ≤𝜇≤ 𝑥 + 𝑍 𝛼/2 𝜎 𝑥 =1−𝛼
𝑃 𝑥 − 𝑍 𝛼/2 𝜎 𝑥 ≤𝜇≤ 𝑥 + 𝑍 𝛼/2 𝜎 𝑥 =1−𝛼 𝑃 𝑥 −1.96 𝜎 𝑥 ≤𝜇≤ 𝑥 𝜎 𝑥 =0.95

11 母體平均值之信賴區間估計 同理99%信賴區間: 90%信賴區間:

12 母體平均值之信賴區間估計 設今隨機抽樣40位攝取魚油婦女並觀察所生小孩的發育情形,在兩歲半時的平均身高為90.2公分,而根據過去資料顯示,其標準差σ=2.6 公分,試求母體平均均值 μ 之95%信賴區間。 下限 上限 故μ 之95% 信賴區間為

13 信賴區間的意義 信賴區間如同點估計量一樣皆是隨機變數,而非固定值, 因此我們才能討論區間包含母體參數的機率。
自母群體中重複抽取100次相同樣本數之樣本資料,計算 100個95%信賴區間,則大約會有95個95%信賴區間會包含 μ,而大約有5個95%信賴區間不包含μ。 信賴區間長度(b-a)可視為樣本估計值的精密度 (precision)指標,而信心水準則是準確性(accuracy)指標。 由母體平均值信賴區間的例子中可知信賴區間長度僅跟 點估計量的標準誤和信心水準有關,標準誤愈小或者信 心水準愈小則信賴區間愈短。

14 假設檢定(Hypothesis Testing)
以數據的經驗證據(Empirical evidence)做出資訊決策 (Informed Decision)。 決策的方式只有兩種:是或否(Yes or No?)。 數據的經驗證據來自樣本資料。 決策是推論至整個母體。 問題: 經過政府大力宣導與嚴格執法,今年酒駕車禍是否較 去年減少? (Yes or No?) 進口牛肉產品(農產品)內瘦肉精是否過高(超出政府所 訂的標準)? (Yes or No?) 孕婦補充魚油,是否能提高幼兒手眼協調能力? (Yes or No?)

15 統計假設檢定(Statistical Hypothesis Testing)
統計方法進行決策的過程(Decision-Making Process), 將探討的問題二分為兩種假說: 虛無假設(Null Hypothesis,Ho) 對立假設(Alternative Hypothesis,Ha) 對立假設:通常對立假設陳述是研究者想探究問題, 例如兩族群平均有差異或兩者相關(所感興趣) 虛無假設:通常虛無假設陳述是兩者無關、維持原狀 或具有一致性(不感興趣)

16 例:以懷孕婦女攝取魚油與否對小孩發育影響之研究 為例,研究目的想證明孕婦補充魚油,能提高幼兒手 眼協調能力,所以建立的假設分別為: H0:攝取魚油孕婦與未攝取魚油孕婦所生小孩手眼協 調能力相同; Ha:攝取魚油孕婦與未攝取魚油孕婦所生小孩手眼協 調能力不同; 若藥廠要證明所研發的新藥有療效 H0:無療效 Ha:有療效 vs. vs.

17 兩類型錯誤(two types of error)
根據假設檢定程序,以推論某樣品是否抽自母體平均值為 μ0 的族群,但此推論結果並非百分之百正確,而可能有四 種情形產生。 這四種情形中,包含了兩類型的錯誤,而且兩種錯誤並不 會同時發生。

18 型一與型二錯誤(TypeⅠ&TypeⅡError)
H0:攝取魚油孕婦與未攝取魚油孕婦所生小孩手眼協調能力相同; Ha:攝取魚油孕婦與未攝取魚油孕婦所生小孩手眼協調能力不同; 事實(Truth) 決策(Decision) H0:攝取魚油與否與小孩手眼協調能力無關 Ha:攝取魚油與否與小孩手眼協調能力有關 無法拒絕H0 Not reject H0 決策正確 1-α 型二錯誤 β 拒絕H0 Reject H0 型一錯誤 α 1-β

19 兩種型式錯誤 樣本確實抽自母體平均值為 μ0的族群,而檢定的結果為接 受H0的假說,故這樣的推論是正確的,而此推論正確的機 率為1-α。
樣本確實抽自母體平均值為 μ0的族群,而檢定的結果為拒 絕H0的假說,也就是接受Ha的假說,故這樣的推論是錯誤 的,這種錯誤在統計學上稱為型一錯誤(typeⅠerror),其 錯誤率為α。 樣品確實不是抽自母體平均值為 μ0的族群,而檢定的結果 為接受H0的假說,故這樣的推論是錯誤的,這種錯誤在統 計學上稱為型二錯誤(typeⅡerror),其錯誤率為β。 樣品確實不是抽自母體平均值為 μ0的族群,而檢定的結果 為拒絕H0的假說,也就是接受Ha的假說,故這樣的推論是 正確的,而此推論正確的機率為1-β,在統計學上稱為檢 定力(test of power)。

20 兩種型式錯誤的關係 臨床上對於糖尿病初期診斷最常使用的是空腹 血糖值測定,正常人空腹血糖值平均是100 mg/dl,標準差為8.5 mg/dl,而糖尿病患者空腹 血糖值平均為 126 mg/dl,標準差為15.0 mg/dl, 假設兩族群的空腹血糖值皆為常態分佈。假如 現在想利用空腹血糖值來建立一個簡單的診斷 是否有糖尿病的診斷工具,假如空腹血糖值大 於切點C則判定有糖尿病,反之,小於切點C 則無糖尿病,下圖是以C=115為切點下,型一 錯誤及型二錯誤的關係

21 由圖示中可看出當我們把切點提高時,型一錯誤機率降低,但同時卻升高了型二錯誤的機率。

22 P值(P-values)計算 P值是計算在虛無假設成立時,比觀測的檢定統計 值更極端(與虛無假設不一致)的機率。
P值可視為當虛無假設成立時,依據資料會拒絕虛 無假設的”風險”(risk),當風險很小時,我們當然傾 向拒絕虛無假設,所以當這風險小於我們設定的顯 著水準α時,我們就有充分證據來拒絕虛無假設。

23 例子:P值(P-values)計算 今收集30位糖尿病患的收縮壓資料,欲檢定糖尿病患的平均收 縮壓是否大於正常平均值的130mmHg,考慮以下的假設檢定: 𝐻 0 :𝜇=130 𝑣𝑒𝑟𝑠𝑢𝑠 𝐻 𝑎 :𝜇>130 關於母體平均數的檢定,其檢定統計量為樣本平均數( 𝑋 ),假 設30筆資料的樣本平均值為138.5。 根據中央極限定理可知當樣本數夠大時,則樣本平均值的抽樣 分佈為常態或近似常態分配,且此分配的期望值為母體平均值 μ=130且標準差為σ/ 𝑛 ,假設母體標準差σ=20為已知。

24 例子:P值(P-values)計算 P值可計算如下:
計算右尾機率可得P值,此例計算之P值小於我們設定的顯著水 準α=0.05,我們就有充分證據來拒絕虛無假設,可以推論資料 來自於對立假設的母體分布,即糖尿病患的平均收縮壓大於正 常平均值的130mmHg。 P 𝑋 >138.5 𝜇=130 =P 𝑋 − > 138.5− =𝑃 𝑍> =

25 檢定方法的建立步驟 依據研究目的設立虛無H0及對立假設Ha,並設定顯著水準α; 找出適當的檢定統計量T及其在虛無假設下的抽樣分佈;
利用設定的顯著水準及檢定統計量在虛無假設下的抽樣分佈, 計算出拒絕虛無假設的區域作為檢定結果的判斷準則; 將蒐集的資料帶入計算檢定統計值,計算P值或是否落於拒絕域 中,做出結論及解釋。P值若小於顯著水準α,則拒絕虛無假設; 反之,則無法拒絕虛無假設。

26 參考資料 康活健康知識網—醫學疾病類科(小兒科Apr. 2011- - 補充魚油DHA幫助神經發育,節錄部份)
Pagano M and Gauvereau K. (2000). Principles of Biostatististics. Duxbury. (2E) Beth Dawson, Robert G. Trapp. (2004). Basic & Clinical Biostatistics, 4/E, McGraw Hill Professional.

27 作業(1~2) 1. 當樣本數增加時,請解釋下列敘述何者為真或錯誤: (1) 樣本標準差變小; (2) 樣本平均值的標準誤變小;
(3) 樣本平均值變小; (4) 全距變大。 2. 關於母體平均值的95%信賴區間,請解釋下列敘述何者為 真或錯誤: (1) 此信賴區間會包含95%的觀測資料; (2) 95%信賴區間會比99%信賴區間寬; (3) 此區間包含樣本平均值的機率為1; (4) 重複抽樣計算此信賴區間,大概有95%的區間會 包含母體平均值; (5)信賴區間可當成評估估計值精密度的指標。

28 作業(3~6) 3. 請解釋何謂信心水準及信賴區間? 4. 某教學醫院一外科醫生正在調查65歲以上發生中 風的情形。作為一個初探性(pilot study)的研究, 他考察了醫院的病歷紀錄下,指出在過去10年在這 個年齡層所發現的120例患者中,經診斷證實後分別 為73名女性和47名男性。請以中央極限定理,計算 65歲以上發生中風女性比例之95%信賴區間。 5. 請敘述統計學上型一及型二錯誤之意義。 6. 請解釋何謂顯著水準α及P值?當P值小於顯著水準 α時,我們的決策應該是接受虛無假設或對立假設?

29 The End


Download ppt "第三章 估計及檢定."

Similar presentations


Ads by Google