七. 假說檢定Ⅰ (Hypothesis Testing Ⅰ) (Chapter 7) 劉仁沛教授 國立台灣大學農藝學研究所生物統計組 國立台灣大學流行病學與預防醫學研究所 國家衛生研究院生物統計與生物資訊組 jpliu@ntu.edu.tw 【本著作除另有註明,網站之內容皆採用 創用CC 姓名標示-非商業使用-相同方式分享 3.0 台灣 授權條款釋出】 2019/1/18 Jen-pei Liu, PhD
假說檢定(Hypothesis Testing) 型Ⅰ與型Ⅱ錯誤(TypeⅠ&TypeⅡError) 假說檢定之步驟(Procedures of Hypothesis Testing) 樣品數之決定(Sample Size Determination) 2019/1/18 Jen-pei Liu, PhD
問題範例 犯人有罪與否? (Yes or No?) 藥品是否有效? (Yes or No?) 台大農場生產960cc之鮮奶是否的確為960cc? (Yes or No?) 2019/1/18 Jen-pei Liu, PhD
問題範例 藥品有效期是否為標韱上所宣稱2010年7月到期? (Yes or No?) 教授論文或學生作業是否抄襲? (Yes or No?) 2019/1/18 Jen-pei Liu, PhD
實證科學 (Evidence-based Science) 以數據的經驗證據(Empirical evidence)做出資訊決策(Informed Decision)。 決策的方式只有兩種:是或否( Yes or No?)。 數據的經驗證據來自樣本。 決策是推論至整個母體。 2019/1/18 Jen-pei Liu, PhD
統計假說檢定(Statistical Hypothesis Testing) 統計方法進行決策的過程(Decision-Making Process),將探討的問題二分為兩種假說: 虛無假說(Null Hypothesis,Ho) 對立假說(Alternative Hypothesis,Ha) 對立假說:吾人欲證明的事件(所感興趣) 虛擬假說:對立假說之補事件(不感興趣) 2019/1/18 Jen-pei Liu, PhD
例:若法官對審判的目的為證明嫌犯有罪 Ho:無罪 Ha:有罪 若藥廠要證明所研發的新藥有療效 Ho:無療效 Ha:有療效 vs. vs. 2019/1/18 Jen-pei Liu, PhD
新品種每公頃平均產量增加1000kg/ha Ho:平均產量增加 1000kg/ha Ha:平均產量增加 1000kg/ha 奶粉重量不足500公克 Ho:平均奶粉重量至少500公克 Ha:平均奶粉重量不足500公克 2019/1/18 Jen-pei Liu, PhD
平均每公頃產量增加1000kg/ha Ho:μ 1000kg/ha Ha:μ 1000kg/ha 奶粉重量不足500公克 Ho:μ 500g Ha:μ 500g vs. vs. 2019/1/18 Jen-pei Liu, PhD
自今天生產的奶粉罐隨機取樣36罐奶粉,其樣品平均值為485g,若族群標準偏差σ=30g,是否有足夠證據證明奶粉罐平均重量不足500公克? 2019/1/18 Jen-pei Liu, PhD
型Ⅰ與型Ⅱ錯誤(TypeⅠ&TypeⅡError) 事實(Truth) 決策(Decision) Ho:μ 500g為真 Ha:μ 500g為真 不拒絕Ho Not reject Ho 決策正確 型Ⅱ錯誤 拒絕Ho Reject Ho 型Ⅰ錯誤 2019/1/18 Jen-pei Liu, PhD
Ho:新藥不具療效 Ha:新藥具有療效 事實(Truth) 決策(Decision) 無法拒絕Ho Not reject Ho 決策正確 vs. 事實(Truth) 決策(Decision) Ho:新藥不具療效為真 Ha:新藥具有療效為真 無法拒絕Ho Not reject Ho 決策正確 型Ⅱ錯誤 拒絕Ho Reject Ho 型Ⅰ錯誤 2019/1/18 Jen-pei Liu, PhD
型Ⅰ錯誤(TypeⅠError) 拒絕虛無假說∣當Ho為真時 決策判定新藥有療效∣事實上新藥無療效 reject Ho∣Ho is true 消費者的風險(Consumer's Risk) 2019/1/18 Jen-pei Liu, PhD
型Ⅱ錯誤(TypeⅡError) 無法拒絕虛無假說∣當Ha為真時 決策判定新藥無療效∣事實上新藥具有療效 無法拒絕Ho∣Ha is true 生產者的風險(Producer's Risk) 2019/1/18 Jen-pei Liu, PhD
診斷結果 決策(診斷) 事實(Truth) Ho:無病為真 Ha:有病為真 無法拒絕Ho 決策正確 型Ⅱ錯誤 拒絕Ho 型Ⅰ錯誤 型Ⅰ錯誤:診斷有病∣事實上無病 拒絕Ho∣ Ho為真 偽陽性(False Positive) 型Ⅱ錯誤:診斷無病∣事實上有病 無法拒絕Ho∣ Ha為真 偽陰性(False Negative) 2019/1/18 Jen-pei Liu, PhD
統計假說檢定之邏輯基礎:反證法 目的:證明Ha為真 方法:利用資料證明Ho不成立 =>間接地證明Ha為真 結論:二種可能性 2019/1/18 Jen-pei Liu, PhD
目的:反證法證明Ha為真 必須先控制型Ⅰ錯誤 (拒絕Ho∣Ho為真) 顯著水準α=P[型Ⅰ錯誤] =P[拒絕Ho∣Ho為真] =P[無法拒絕Ho∣ Ha為真] =P[偽陰性] 檢定力=1-β =P[拒絕Ho∣ Ha為真] 2019/1/18 Jen-pei Liu, PhD
統計假說檢定之步驟 1. 設立虛無假說(Ho)及對立假說(Ha) 應將欲證明之假說放於Ha 其補集合放於Ho 消費者基金會:奶粉重量不足500公克 Ho:μ 500g vs. Ha: μ 500g Ho:μ μo vs. Ha:μ μo μo=500g 2. 設定顯著水準 通常α=0.05或α=0.01 2019/1/18 Jen-pei Liu, PhD
選擇適當的檢定統計量(Test Statistic) 分子:樣品估算值-虛無假設所定族群母數 分母:樣品估算值的抽樣誤差: 2019/1/18 Jen-pei Liu, PhD
決定棄卻域(Rejection Region)或 決策規則(Decision Rule) Ho:μ 500g vs. Ha: μ 500g Ha只考慮奶粉平均重量小於500公克 =>單尾檢定 標準常態分佈之(1-α)%百分位 如果 =>拒絕Ho α=0.05, =1.645 2019/1/18 Jen-pei Liu, PhD
表示 的差異 無法以抽樣誤差解釋=> 的差異可能是其他原因 如自動化裝罐機問題,人工操作的原因 如果 =>無法拒絕Ho 表示 的差異 無法以抽樣誤差解釋=> 的差異可能是其他原因 如自動化裝罐機問題,人工操作的原因 如果 =>無法拒絕Ho => 的差異未超過抽樣誤差 2019/1/18 Jen-pei Liu, PhD
棄卻域 2019/1/18 Jen-pei Liu, PhD
=>重複進行20次假設檢定後的決策有一次是錯誤 進行實驗或取樣取得樣品計算 樣品統計量 及檢定統計量Z 根據步驟4判定拒絕Ho或無法拒絕Ho 本日隨機取樣36罐奶粉 =>本日奶粉罐重量小於500公克 =>此決定是有5%的型Ⅰ錯誤機率 =>重複進行20次假設檢定後的決策有一次是錯誤 若 若 =>拒絕Ho 2019/1/18 Jen-pei Liu, PhD
Ho:μ μo(500g) vs. Ha:μ μo(500g) 若 單尾檢定:對立假說是單一方向 Ho:μ μo(500g) vs. Ha:μ μo(500g) 若 Ho:μ μo(1000kg/ha) vs. Ha:μ μo(1000kg/ha) =>拒絕Ho =>拒絕Ho 2019/1/18 Jen-pei Liu, PhD
Ho:μ=500g (μo) vs. Ha:μ 500g (μo) 雙尾檢定:對立假說是兩個方向 Ho:μ=500g (μo) vs. Ha:μ 500g (μo) 若 或 =>拒絕Ho =>拒絕Ho 2019/1/18 Jen-pei Liu, PhD
Z Z Z 圖7.3 雙尾與單尾檢定圖 (a) 棄卻區 2.5% 棄卻區 2.5% 接受區 -1.96 1.96 (c) (b) 棄卻區 1.96 (c) (b) 棄卻區 5% 棄卻區 5% 接受區 接受區 Z Z -1.645 1.645 圖7.3 雙尾與單尾檢定圖 2019/1/18 Jen-pei Liu, PhD
例子:正常成人血中平均膽固醇為180mg/dL 標準偏差為50mg/dL 例子:正常成人血中平均膽固醇為180mg/dL 標準偏差為50mg/dL.今調查某地區16位 成人平均膽固醇為200mg/dL問此地區 平均膽固醇是否與180mg/dL有差異? Ho:μ=180mg/dL vs. Ha: μ 180mg/dL 2. α=0.05 3. 4. 5. =>拒絕Ho 若 因 =>無法拒絕Ho 2019/1/18 Jen-pei Liu, PhD
例子:雞飼料加入魚骨粉後每隻雞每月平 均蛋產量是否高過21個?取樣100隻雞 例子:雞飼料加入魚骨粉後每隻雞每月平 均蛋產量是否高過21個?取樣100隻雞 若 =>拒絕Ho 若 =>拒絕Ho 2019/1/18 Jen-pei Liu, PhD
P-value Ho:μ=μo(500g) vs. Ha:μ<μo(500g) 當Ho為真時 族群平均值為μo(500g) 2019/1/18 Jen-pei Liu, PhD
統計假說檢定或顯著性檢定(Statistical Hypothesis Testing or Significance Test) 檢定統計量: 樣本平均數與虛無假說所設定母體平均數的差異以抽樣誤差倍數表示。 樣品平均值為485 g與虛無假說所設定母體平均數500 g的差異為-15 g,是抽樣誤差-3倍。 在虛無假說下,抽樣誤差-3倍或比-3倍更大的抽樣誤差發生機率-p-value 30 2019/1/18 2019/1/18 Jen-pei Liu, PhD Jen-pei Liu, PhD
統計假說檢定或顯著性檢定(Statistical Hypothesis Testing or Significance Test) 問題: p-value要多小,才可下推翻虛無假說的決策? 答案:小於顯著水準。 顯著水準:吾人可容忍的型I錯誤發生的機率。 若顯著水準定為0.05表示20次推翻虛無假說的決策中可允准一次錯誤(即有一次虛無假說為真)。或1000次推翻虛無假說的決策中可允准50次錯誤(即有50次虛無假說為真) 31 2019/1/18 2019/1/18 Jen-pei Liu, PhD Jen-pei Liu, PhD
統計假說檢定或顯著性檢定(Statistical Hypothesis Testing or Significance Test) 問題: p-value要多小,才可下推翻虛無假說的決策? 答案:小於顯著水準。 若顯著水準定為0.05 樣本平均值為485時的p-value是0.0013 1000次推翻虛無假說的決策中可能犯1.3次錯誤,小於可容忍的50次。 32 2019/1/18 2019/1/18 Jen-pei Liu, PhD Jen-pei Liu, PhD
統計假說檢定或顯著性檢定(Statistical Hypothesis Testing or Significance Test) 決策判定: 因p-value = 0.0013小於0.05的顯著水準 推翻虛無假說。 樣本平均值為485g與虛無假說所假設500g的差異在5%顯著水準下為統計顯著(statistically significant)。 統計假說檢定又稱顯著性檢定。 33 2019/1/18 2019/1/18 Jen-pei Liu, PhD Jen-pei Liu, PhD
P-value=P[Z z∣ μ=μo(500g) ] 在Ho:μ=μo(500g) 時 得到 或比 更小的樣品平均值之機率 若 比μo小很多時 P-value小=>樣品所提供之證據 不支持Ho:μ=μo(500g) 當P-value小於吾人所定之顯著水準 (可容忍型Ⅰ錯誤機率)拒絕Ho P-value=P[Z z∣ μ=μo]<α =>拒絕Ho 2019/1/18 Jen-pei Liu, PhD
例:奶粉罐重量 Ho:μ 500g vs. Ha: μ 500g 若α=0.05,拒絕Ho 2019/1/18 Jen-pei Liu, PhD
0.05 0.0013 485 490.13 μo=500g 2019/1/18 Jen-pei Liu, PhD
485 490 495 μo=500g 2019/1/18 Jen-pei Liu, PhD
統計假說檢定或顯著性檢定(Statistical Hypothesis Testing or Significance Test) 5.決策判定: 顯著水準定為0.05(1/20) 樣本平均值 p-value 決策判定 495 0.1587 不顯著(無法推翻虛無假說) 490 0.0228 顯著(推翻虛無假說) 485 0.0013 顯著(推翻虛無假說) 2019/1/18 Jen-pei Liu, PhD
統計假說檢定或顯著性檢定(Statistical Hypothesis Testing or Significance Test) 5.決策判定: 顯著水準定為0.20(1/5) 樣本平均值 p-value 決策判定 495 0.1587 顯著(推翻虛無假說) 490 0.0228 顯著(推翻虛無假說) 485 0.0013 顯著(推翻虛無假說) 2019/1/18 Jen-pei Liu, PhD
統計假說檢定或顯著性檢定(Statistical Hypothesis Testing or Significance Test) 5.決策判定: 顯著水準定為0.01(1/100) 樣本平均值 p-value 決策判定 495 0.1587 不顯著(無法推翻虛無假說) 490 0.0228 不顯著(無法推翻虛無假說) 485 0.0013 顯著(推翻虛無假說) 2019/1/18 Jen-pei Liu, PhD
例:膽固醇 Ho:μ=180mg/dL vs. Ha: μ 180mg/dL 雙尾檢定 若α=0.05,無法拒絕Ho 2019/1/18 Jen-pei Liu, PhD
例:雞蛋每月平均產量 Ho:μ 21/月 vs. Ha: μ 21/月 月] 若α=0.05,拒絕Ho 2019/1/18 Jen-pei Liu, PhD
信賴區間與假說檢定 若(1-α)%信賴上限小於μo 則拒絕Ho 則拒絕Ho 則拒絕Ho 則拒絕Ho 雙尾檢定:Ho:μ=μo vs. Ha:μ μo 若(1-α)%信賴區間不包括μo 則拒絕Ho 單尾檢定: Ho:μ μo vs. Ha:μ μo 若(1-α)%信賴上限小於μo 則拒絕Ho 則拒絕Ho 則拒絕Ho 2019/1/18 Jen-pei Liu, PhD 則拒絕Ho
信賴區間與假說檢定 若(1-α)%信賴下限大於μo 則拒絕Ho 則拒絕Ho 單尾檢定: Ho:μ μo vs. Ha:μ > μo 2019/1/18 Jen-pei Liu, PhD
例:奶粉罐重量 Ho:μ 500g vs. Ha: μ 500g 在5%顯著水準下,拒絕Ho 2019/1/18 Jen-pei Liu, PhD
例:膽固醇 Ho:μ=180mg/dL vs. Ha: μ 180mg/dL =>在5%顯著水準下,無法拒絕Ho 2019/1/18 Jen-pei Liu, PhD
例:雞蛋每月平均產量 Ho:μ 21/月 vs. Ha: μ 21/月 =>在5%顯著水準下,拒絕Ho 2019/1/18 Jen-pei Liu, PhD
雙尾檢定 拒絕Ho 拒絕Ho 拒絕Ho 若σ未知但n 30以S代之 Ho:μ=μo vs. Ha:μ μo 決策 2019/1/18 Jen-pei Liu, PhD
單尾檢定 拒絕Ho 拒絕Ho 拒絕Ho 若σ未知但n 30以S代之 Ho:μ μo vs. Ha:μ<μo 決策 2019/1/18 Jen-pei Liu, PhD
單尾檢定 拒絕Ho 拒絕Ho 拒絕Ho 若σ未知但n 30以S代之 Ho:μ μo vs. Ha:μ>μo 決策 2019/1/18 Jen-pei Liu, PhD
統計顯著vs.應用顯著vs. 樣本數 樣本平均值=499g,母體平均值=500g 樣本平均值 -母體平均值 = -1g 母體標準偏差=30g 樣本數 /n z p-value 100 3 -0.33 0.3707 1600 0.75 -1.33 0.0918 3600 0.5 -2 0.0228 10000 0.33 -3.33 0.0012 0 - 0 2019/1/18 Jen-pei Liu, PhD
統計顯著vs.應用顯著vs. 樣本數 樣本數增加,抽樣誤差下降。 Z絕對值變大,p-value變小。 統計顯著。 推翻虛無假說。 只要不斷增樣本數,一定可推翻虛無假說,並達到統計顯著。 2019/1/18 Jen-pei Liu, PhD
統計顯著vs.應用顯著vs. 樣本數 1g差異的統計顯著,並無實用上意義。 必須先訂出實用上有意義的差異。 降血壓新藥降舒張壓的效果較安慰劑多5 mmHg。 在規劃的顯著水準(如5%)與檢定力(power如80%)下,計算所需樣本數後,收集資料進行顯著性檢定。 2019/1/18 Jen-pei Liu, PhD
檢定力(Power) 奶粉罐重量 Ho:μ 500g vs. Ha: μ 500g 以 表示棄卻域 若觀測到 拒絕Ho 2019/1/18 Jen-pei Liu, PhD
485 490.13 500 2019/1/18 Jen-pei Liu, PhD
若Ha下 =a=496.13 根據決策 其決策為正確之機率 拒絕Ho 1-β=P[拒絕Ho∣ Ha為真] 2019/1/18 Jen-pei Liu, PhD
α=0.05 μo=500 1-β=0.1587 2019/1/18 μa=496.13 Jen-pei Liu, PhD 490.13
設 若 2019/1/18 Jen-pei Liu, PhD
α=0.10 μo=500 1-β=0.263 μa=496.13 2019/1/18 492.32 Jen-pei Liu, PhD
若μa=484.13 1-β=P[拒絕Ho∣ Ha為真] 2019/1/18 Jen-pei Liu, PhD
α=0.05 μo=500 1-β=0.8413 μa=484.13 490.13 2019/1/18 Jen-pei Liu, PhD
1. μa與μo差愈大時,檢定力愈高 2. α↑β↓,或α↓β↑ α↑Power↑,或α↓Power↓ 3. 在固定樣品數下無法同時降低α及β 4. 增加樣品數可同時降低α及β 2019/1/18 Jen-pei Liu, PhD
單尾檢定: 檢定力: 檢定力: 雙尾檢定: 檢定力: 2019/1/18 Jen-pei Liu, PhD
樣品數計算公式 單尾檢定: 雙尾檢定: 2019/1/18 Jen-pei Liu, PhD
例:奶粉罐重量 單尾檢定: 雙尾檢定: 增加25% 2019/1/18 Jen-pei Liu, PhD
總結(Summary) 1. 設立虛無與對立假說(雙尾,單尾) 2. 決定顯著水準(型Ⅰ誤差機率)α=0.05或α=0.01 3. 決定棄卻域 4. 選擇檢定統計量 5. 收集資料,計算檢定統計量 6. 進行決策判定 2019/1/18 Jen-pei Liu, PhD
習題 P. 163: 1, 2, 6, 7 2019/1/18 Jen-pei Liu, PhD
臺灣大學 劉仁沛教授 頁碼 作品 授權條件 作者/來源 1-68 轉載自 Microsoft Office 2003多媒體藝廊, 22 臺灣大學 劉仁沛教授 26 36 37 2019/1/18 Jen-pei Liu, PhD
頁碼 作品 授權條件 作者/來源 55 臺灣大學 劉仁沛教授 57 59 61 2019/1/18 Jen-pei Liu, PhD