統計與生活 第十三 / 十四單元:顯著性檢定 & 統計推論的應用 授課教師:劉仁沛 教授 【本著作除另有註明外,採取創用CC「姓名標示-非商業性-相同方式分享」臺灣3.0版授權釋出】
範例一:淑女品茶 (Lady Testing Tea) 奶茶 辨一位淑女宣稱她可辨別 是奶倒入茶中 (milk into the tea) 或 是茶倒入奶中(tea into the milk)
範例一:淑女品茶 (Lady Testing Tea) 奶茶 辨一位淑女宣稱她可辨別 是奶倒入茶中 (milk into the tea) 或 是茶倒入奶中(tea into the milk) Yes or NO?
範例二:尿遁 老師小學四年級女兒小咪咪,最近叫她做功課時常常就要上廁所。 真的需要上廁所 或 藉口不做功課 Yes or No?
範例三:能量性治療(Therapeutic Touch) 能量性治療人員宣稱可感覺到並改變人類能量場(Human Energy Field)而可治療病人不同身體問題(JAMA,1998;279:1005-1010)。 真的可感覺到人類能量場 或 是猜的
範例三:能量性治療(Therapeutic Touch) 能量性治療人員宣稱可感覺到並改變人類能量場(Human Energy Field)而可治療病人不同身體問題(JAMA,1998;279:1005-1010)。 真的可感覺到人類能量場 或 是猜的 Yes or No ?
範例一:淑女品茶 (Lady Testing Tea) 估計其答對的比例(Proportion) – 點估計。
範例一:淑女品茶 (Lady Testing Tea) 估計其答對的比例(Proportion) – 點估計。 估計其答對比例的可能範圍-信賴區間。
範例一:淑女品茶 (Lady Testing Tea) 估計其答對的比例(Proportion) – 點估計。 估計其答對比例的可能範圍-信賴區間。 評估她是否是猜的或正確地辨別奶倒入茶中 或茶倒入奶中 - 顯著性檢定或假說檢定 (Hypothesis testing)。
其他範例 犯人有罪與否? (Yes or No?) 藥品是否有效? (Yes or No?) 台大農場生產960cc之鮮奶是否的確為960cc? (Yes or No?)
其他範例 藥品有效期是否為標韱上所宣稱2010年7月到期? (Yes or No?) 教授論文或學生作業是否抄襲? (Yes or No?)
其他範例 新流感快篩靈敏度60%,是否要進行篩檢? (Yes or No?)
其他範例 鑑識科學 (Forensic Science) National Research Council of the US National Academy of Sciences (美國國家科學院) Simple and unverified assumptions Unclear and incomplete finger print (指紋) and evidence 2007年調查,75%美國鑑識科學家相信無辜的人因為錯誤的指紋鑑識結果而入獄,或成為死因。
其他範例 鑑識科學 It’s not finger print is not reliable, Its reliability is unverified either by statistical models or by consistent data (Kennedy, Science, Dec. 4, 2003) Was the assassination bullet of Martin Luther King fired from the rifle of James Earl Ray? Decision-making in the presence of uncertainty of evidence Probability statement should be introduced into scientific testimony
實證科學 (Evidence-based Science) 以數據的經驗證據(Empirical evidence)做出資訊決策(Informed Decision)。 決策的方式只有兩種:是或否( Yes or No?)。 數據的經驗證據來自樣本。 決策是推論至整個母體。
統計推論(Statistical Inferences) 減肥藥的臨床試驗。 隨機、雙盲、平行設計,安慰劑對照組。 將具有肥胖相關危險因子(obesity-related risk factors)的受試者隨機分派(random assignment)成兩組。 一組服用減肥藥,一組服用安慰劑。 每天服用三顆(t.i.d.),服用兩年。 體重下降超過10%的比例(主要療效指標)。
統計推論(Statistical Inferences)
統計推論(Statistical Inferences)
統計推論(Statistical Inferences) 減肥藥的臨床試驗共收納336位受試者(樣本) 服用減肥藥的178位受試者中有百分之十八(約32位)服用減肥藥兩年後的體重下降超過10% 服用安慰劑的158位受試者中有百分之九點五(約15位)服用減肥藥兩年後的體重下降超過10% 所以減肥藥的減重效果較安慰劑為優? 若此減肥藥被衛生主管機關核淮上市後,將有成千上萬的人(母體)服用,是否仍然百分之十八服用兩年後的體重下降超過10%而其減重效果仍較安慰劑為優?
統計推論(Statistical Inferences) 統計推論-根據試驗樣本(sample)得到的証據(evidence)對減肥藥於母體(population)是否具有減重療效作下結論(conclusion)或決策。 樣本不是母體,所以根據樣本所的結論帶有不確定性(uncertainty)。 不確定性可以抽樣誤差(sampling error)及機率(probability)加以量化。
假說(Hypotheses) 只考慮兩種可能的決策或結論 犯人 無罪 或 有罪 減肥藥 無減重療效 有減重療效
假說(Hypotheses) 假說:二分法-兩種可能的決策 邏輯:反証法 虛無假說(null hypothesis: Ho) 欲推翻的決策 對立假說(alternative hypothesis: Ha) 欲證實的決策
假說(Hypotheses) 檢查官必須舉証推翻犯人無罪的虛無假說,以證明犯人有罪的對立假說是成立。 藥廠必須執行減肥藥的臨床試驗,提出減重療效的証據以推翻無減重療效的虛無假說,證明具有減重療效的對立假說是成立。
假說(Hypotheses) 當無充分証據推翻犯人無罪的虛無假說,並不表示虛無假說為真。 當無充分証據推翻犯人無罪的虛無假說時,並不表示犯人是無罪,而是檢查官無充分証據證明犯人有罪。 當無充分証據翻無減重療效的虛無假說,並不表示是減肥藥無效,只是藥廠未提出充分証據證明減肥藥是具有減重療效。
其他範例 消費者基金會懷疑某公司出產奶粉重量不足500公克 奶粉重量不足500公克 Ho:平均奶粉重量至少500公克 Ha:平均奶粉重量不足500公克
其他範例 該公司欲證明其出產奶粉重量至少500公克 奶粉重量至少500公克 Ho:平均奶粉重量不足500公克 Ha:平均奶粉重量至少500公克
統計假說(Statistical Hypotheses) 統計方法進行決策的過程(Decision-Making Process),將探討的問題二分為兩種假說: 虛無假說(Null Hypothesis,Ho) 對立假說(Alternative Hypothesis,Ha) 對立假說:吾人欲證明的事件(所感興趣) 虛無假說:對立假說之補事件(不感興趣)
統計假說(Statistical Hypotheses) 人非聖賢 孰能無過
統計假說之邏輯基礎:反證法 目的:證明對立假說Ha為真 方法:利用數據證明虛無假說Ho不成立 =>間接地證明對立假說Ha成立 結論:二種可能性 1. 推翻虛無假說Ho => 證明Ha 2. 無法推翻虛無假說Ho 不代表證明虛無假說Ho為真 僅說明資料無法提供足夠證據推翻Ho
Ho:減肥藥不具減重療效 Ha:減肥藥具有減重療效 vs. 事實(Truth:永遠不知) 決策(Decision) 無法推翻Ho 決策正確 型Ⅱ錯誤 推翻Ho 具有減重療效 型Ⅰ錯誤
型Ⅰ錯誤(Type I Error) 推翻虛無假說∣當虛無假說Ho為真時 決策判定具有減重療效∣事實上無減重療效 reject Ho∣Ho is true 消費者的風險(Consumer's Risk)
型II錯誤(Type II Error) 無法推翻虛無假說∣當對立假說Ha為真時 決策判定無減重療效∣事實上具有減重療效 無法拒絕Ho∣Ha is true 生產者的風險(Producer's Risk)
型I與型II錯誤(Type I &Type II Errors) 事實(Truth:永遠不知) 決策(Decision) Ho:μ 500g為真 Ha:μ 500g為真 無法推翻Ho μ 500g 決策正確 型II錯誤 推翻Ho μ< 500g 型I 錯誤
型Ⅱ錯誤:判決無罪∣事實上有罪放虎歸山? 無法拒絕Ho∣ Ha為真 判決結果 決策 事實(Truth:永遠不知) Ho:無罪 Ha:有罪 無法推翻Ho 犯人無罪 決策正確 型Ⅱ錯誤 推翻Ho:犯人有罪 型Ⅰ錯誤 型Ⅰ錯誤:判決有罪∣事實上無罪 拒絕Ho∣ Ho為真誤殺忠良? 型Ⅱ錯誤:判決無罪∣事實上有罪放虎歸山? 無法拒絕Ho∣ Ha為真 The truth is still out there (in X file ???)
統計假說(Statistical Hypotheses) 樣本不是母體,所以根據樣本所的結論帶有不確定性(uncertainty)。 不確定性可以抽樣誤差(sampling error)及機率(probability)加以量化。 根據樣本數據,可計算型 I 錯誤與型II錯誤發生的機率。 可將型 I 錯誤與型II錯誤發生的機率控制在可接受的範圍內。
統計假說(Statistical Hypotheses) 目的:反證法證明對立假說Ha成立 必須先控制型Ⅰ錯誤發生的機率 (推翻虛無假說Ho當虛無假說Ho為真) 無法控型Ⅰ錯誤不發生 但可控型Ⅰ錯誤發生的機率在某一範圍 內
統計假說(Statistical Hypotheses) 顯著水準 =准許型Ⅰ錯誤發生的機率 = P[型Ⅰ錯誤] = P[推翻Ho∣Ho為真] = P[偽陽性] 通常 = 5%或10% 二十次決策中准許一(二)次型Ⅰ錯誤的發生
統計假說(Statistical Hypotheses) β=准許型Ⅱ錯誤發生的機率 =P[型Ⅱ錯誤] =P[無法推翻Ho∣ Ha為真] =P[偽陰性] 檢定力(power) = 1-β =P[推翻Ho∣ Ha為真] =推翻虛無假說Ho∣當對立假說Ha為真
統計假說(Statistical Hypotheses) 檢定力=1-β =P[推翻Ho∣ Ha為真] =推翻虛無假說Ho∣當對立假說Ha為真的 機率 =決策判定減肥藥具有減重療效∣事實上減肥藥 有減重療效的機率 =決策判定犯人有罪∣事實上犯人有罪 的機率
統計假說(Statistical Hypotheses) 消費者基金會懷疑某公司出產奶粉重量不足500公克 奶粉重量不足500公克 Ho:平均奶粉重量至少500公克 Ha:平均奶粉重量不足500公克
統計假說(Statistical Hypotheses) 數據的經驗證據(Empirical evidence) 自今天生產的奶粉罐隨機取樣36罐奶粉,其樣品平均值為485g。 若族群標準偏差=30g,是否有足夠證據證明奶粉罐平均重量不足500公克?
統計假說檢定或顯著性檢定步驟(Statistical Hypothesis Testing or Significance Test) 1. 設立虛無假說(Ho)及對立假說(Ha) 應將欲證明之假說放於Ha 其補集合放於Ho 消費者基金會:奶粉重量不足500公克 Ho: 500g vs. Ha: < 500g 2. 設定顯著水準 通常=0.05或 =0.01
統計假說檢定或顯著性檢定(Statistical Hypothesis Testing or Significance Test) 選擇適當的檢定統計量(Test Statistic) 分子:樣本估算值與虛無假說所假定母體參數 間之差異 樣本估算值-虛無假說所假定母體參數 樣本平均數-虛無假說所假定母體平均數 分母:樣本估算值的抽樣誤差
統計假說檢定或顯著性檢定(Statistical Hypothesis Testing or Significance Test) 檢定統計量 分子:樣品平圴值= 485 g -虛無假說所定族群母數=500 g 485 g – 500 g = -15 g 問題: 36罐奶粉,其樣品平均值為485 g較其宣稱少15g,是否就可證明消費者基金會的懷疑某公司出產奶粉重量不足500公克?
統計假說檢定或顯著性檢定(Statistical Hypothesis Testing or Significance Test) 檢定統計量 必須決定少15g是否在正常抽樣誤差範圍內? 分母:抽樣誤差 抽樣誤差 =
統計假說檢定或顯著性檢定(Statistical Hypothesis Testing or Significance Test) 檢定統計量
統計假說檢定或顯著性檢定(Statistical Hypothesis Testing or Significance Test) 檢定統計量: 樣本平均數與虛無假說所設定母體平均數的差異以抽樣誤差倍數表示。 樣品平均值為485 g與虛無假說所設定母體平均數500 g的差異為-15 g,是抽樣誤差-3倍。 在虛無假說下,抽樣誤差-3倍或比-3倍更大的抽樣誤差發生機率-p-value
統計假說檢定或顯著性檢定(Statistical Hypothesis Testing or Significance Test) 4.計算p-value p-value:在虛無假說為真時(奶粉罐平均重量至少500公克)觀測到36罐奶粉的樣本平均值為485 g或比485 g更輕的機率。 p-value = Pr (z < -3) = 0.0013
統計假說檢定或顯著性檢定(Statistical Hypothesis Testing or Significance Test) 數據的經驗證據 虛無假說 (>= 500) 樣本平均值 為真的可能性 495 ? 490 ?? 485 ???
統計假說檢定或顯著性檢定(Statistical Hypothesis Testing or Significance Test) 4.計算p-value p-value:在虛無假說為真時(奶粉罐平均重量至少500公克)若觀測到36罐奶粉的樣本平均值為495公克或比495公克更輕的機率。 Z= -5/5=-1(-1倍抽樣誤差) p-value = Pr (z < -1) = 0.1587
統計假說檢定或顯著性檢定(Statistical Hypothesis Testing or Significance Test) 4.計算p-value p-value:在虛無假說為真時(奶粉罐平均重量至少500公克)若觀測到36罐奶粉的樣本平均值為490公克或比490公克更輕的機率。 Z= -10/5=-2 (-2倍抽樣誤差) p-value = Pr (z < -2) = 0.0228
統計假說檢定或顯著性檢定(Statistical Hypothesis Testing or Significance Test) 4.計算p-value 虛無假說 樣本平均值 p-value 為真的可能性 495 0.1587 很可能 490 0.0228 不可能 485 0.0013 極不可能
統計假說檢定或顯著性檢定(Statistical Hypothesis Testing or Significance Test) 樣本平均值距離虛無假說所假定的500g愈遠時p-value愈小。 P-value為在虛無假說為真時,樣本平均值發生的可能性。 樣本平均值與p-value均為數據的經驗證據。 p-value小代表數據的經驗證據並不支持虛無假說。
統計假說檢定或顯著性檢定(Statistical Hypothesis Testing or Significance Test) 問題: p-value要多小,才可下推翻虛無假說的決策? 答案:小於顯著水準。 顯著水準:吾人可容忍的型I錯誤。 若顯著水準定為0.05表示20次推翻虛無假說的決策中可允准一次錯誤(即有一次虛無假說為真)。或1000次推翻虛無假說的決策中可允准50次錯誤(即有50次虛無假說為真)
統計假說檢定或顯著性檢定(Statistical Hypothesis Testing or Significance Test) 問題: p-value要多小,才可下推翻虛無假說的決策? 答案:小於顯著水準。 若顯著水準定為0.05 樣本平均值為485時的p-value是0.0013 1000次推翻虛無假說的決策中可能犯1.3次錯誤,小於可容忍的50次。
統計假說檢定或顯著性檢定(Statistical Hypothesis Testing or Significance Test) 5.決策判定: 因p-value = 0.0013小於0.05的顯著水準 推翻虛無假說。 樣本平均值為485g與虛無假說所假設500g的差異在5%顯著水準下為統計顯著(statistically significant)。 統計假說檢定又稱顯著性檢定。
統計假說檢定或顯著性檢定(Statistical Hypothesis Testing or Significance Test) 5.決策判定: 顯著水準定為0.05(1/20) 樣本平均值 p-value 決策判定 495 0.1587 不顯著(無法推翻虛無假說) 490 0.0228 顯著(推翻虛無假說) 485 0.0013 顯著(推翻虛無假說)
統計假說檢定或顯著性檢定(Statistical Hypothesis Testing or Significance Test) 5.決策判定: 顯著水準定為0.20(1/5) 樣本平均值 p-value 決策判定 495 0.1587 顯著(推翻虛無假說) 490 0.0228 顯著(推翻虛無假說) 485 0.0013 顯著(推翻虛無假說)
統計假說檢定或顯著性檢定(Statistical Hypothesis Testing or Significance Test) 5.決策判定: 顯著水準定為0.01(1/100) 樣本平均值 p-value 決策判定 495 0.1587 不顯著(無法推翻虛無假說) 490 0.0228 不顯著(無法推翻虛無假說) 485 0.0013 顯著(推翻虛無假說)
統計歷史人物小傳 Sir Ronald Aylmer Fisher 2/17/1890 – 7/29/1962
Sir Ronald Aylmer Fisher 2/17/1890 – 7/29/1962 R.A. Fisher was the second of twins, but the older twin was stillborn Because the third child died at a very young age and a son was stillborn, Fisher’s mother, Katie, being superstitious, decided that all their children should have a “y” in their name A sickly and lonely child with mathematic talent at a very young age
Sir Ronald Aylmer Fisher 2/17/1890 – 7/29/1962 He entered Cambridge in 1909, became a wrangler in mathematics and graduated with distinction in mathematics of tripos of 1912 After graduation, he continued his study at Cambridge in the theory of error that led him to statistical problems R.A. Fisher secretly married his wife, Ruth Eileen Guinness on April 26 1917, Ruth’s 17th birthday without her mother’s approval
Sir Ronald Aylmer Fisher 2/17/1890 – 7/29/1962 R.A. Fisher was interested in farming and he worked on the Canadian farm before World War I He was rejected from military service in World War I because of his poor eye sight He taught at Rugby and other middle schools from 1915 to 1919 He was a terrible teacher and was too difficult for and ailed to appreciate the limitation of average students His class would rapidly fall away until only 2 or 3 students who could stand the pace remained as fascinated disciples
Sir Ronald Aylmer Fisher 2/17/1890 – 7/29/1962 Rothamsted Agricultural Experimental Station, established in 1837, was privately own and was the oldest agricultural research institute in U.K. Results of fertilizer experiments over 90-year period Daily records of rainfall and temperature Weekly records of fertilizer dressings and measures of soil Annual of harvests Preserved in leather-bound notebooks and stored in the station’s archives No consistent results
Sir Ronald Aylmer Fisher 2/17/1890 – 7/29/1962 Sir John Russell, head of the station, decided to hire a statistician to take a look these huge amount of data Salary: 1000 pounds a year Duration: 1 year Sir John Russell’s decision to hire and Fisher’s decision to accept were to revolutionize the world
Sir Ronald Aylmer Fisher 2/17/1890 – 7/29/1962 Between 1921 and 1929, a series of papers entitled with “Studies in Crop Variation” (I to VI) appeared in Journal of Agricultural Sciences or Philosophical Transactions of the Royal Society of London “Statistical Methods for Research Workers” was first published in 1925 The first book for statistical methods with examples with real data and without any theorem and mathematical proof 14 English editions and translation into French, German, Italian, Japanese, Spanish, and Russian
Sir Ronald Aylmer Fisher 2/17/1890 – 7/29/1962 Studies in Crop Variation II - 1923 First time to introduce the concept of randomization into experiment – randomized controlled experiments First time to invent the technique of experiment design such as blocks to control variation First time to develop the Analysis of Variance (ANOVA變異數分析) to separate the source of variation from the treatment effects
Sir Ronald Aylmer Fisher 2/17/1890 – 7/29/1962 Studies in Crop Variation VI – 1929 First time to develop the method of Analysis of Covariance (ANCOVA共變數分析) to control the factors (covariates) which are not part of experiment design but can be measured ANCOVA has great impact in biological, medical and epidemiological research
Sir Ronald Aylmer Fisher 2/17/1890 – 7/29/1962 New definition of statistics as estimators which are random Criteria to evaluate estimators Consistency一致性 Unbiasedness不偏性 Efficiency有效性 Concept of likelihood in 1921 and maximum likelihood estimator (MLE最大概似估計值) which is consistent, the most efficient but with known bias consistent, efficient, and unbiased estimators
Sir Ronald Aylmer Fisher 2/17/1890 – 7/29/1962 Fisher complained that his papers were rejected by statisticians who did not understand biology and biologists who did not understand statistics Fisher’s novel ideas took time to become accepted About half of Fisher’s publications were in genetics and he was the Arthur Balfour Professor of Cambridge University until his retirement in 1957
Sir Ronald Aylmer Fisher 2/17/1890 – 7/29/1962 We need to be impartial and critical of research by others or in other fields We also need to appreciate the ideas, work and efforts of others and in other fields We need to have an open view on everything We need to provide every opportunity to young researchers Young researchers should fear of no one and hold on your own ideas
單尾假說(One-sided Hypothesis) 消費者基金會懷疑某公司出產奶粉重量不足500公克 奶粉重量不足500公克 Ho:平均奶粉重量至少(>=)500公克 Ha:平均奶粉重量不足(<)500公克
單尾假說(One-sided Hypothesis) 該公司欲證明其出產奶粉重量超過500公克 奶粉重量超過500公克 Ho:平均奶粉重量最多(<=)500公克 Ha:平均奶粉重量超過(>)500公克
雙尾假說(Two-sided Hypothesis) 消保官評估出產奶粉重量是否為500公克 Ho:平均奶粉重量是(=)500公克 Ha:平均奶粉重量不是()500公克 不是大於或小於雙尾
統計顯著vs.應用顯著vs. 樣本數 樣本平均值=499g,母體平均值=500g 樣本平均值 -母體平均值 = -1g 母體標準偏差=30g 樣本數 /n z p-value 100 3 -0.33 0.3707 1600 0.75 -1.33 0.0918 3600 0.5 -2 0.0228 10000 0.33 -3.33 0.0012 0 - 0
統計顯著vs.應用顯著vs. 樣本數 樣本數增加,抽樣誤差下降。 Z絕對值變大,p-value變小。 統計顯著。 推翻虛無假說。 只要不斷增樣本數,一定可推翻虛無假說,並達到統計顯著。
統計顯著vs.應用顯著vs. 樣本數 1g差異的統計顯著,並無實用上意義。 必須先訂出實用上有意義的差異。 降血壓新藥降舒張壓的效果較安慰劑多5 mmHg。 在規劃的顯著水準(如5%)與檢定力(power如80%)下,計算所需樣本數後,收集資料進行顯著性檢定。
Case Study 97學年度下學期統計與生活通識課程問卷資料 每次選修這門課的所有同學中女性所佔的比例是不是多數? 在97學年度下學期共有114 位同學選修這堂課,其中女性同學為62位,佔54.4%。另外我們將這次檢定的顯著水準訂為一般常用的5%。
The Five Steps of Hypothesis Testing 步驟一:設定虛無假說與對立假說 步驟二:決定顯著水準(型I錯誤發生的機率) 步驟三:選擇檢定統計量 步驟四:收集資料,計算檢定統計量以及其 對應的P值 步驟五:進行決策判定
Case Study: 每次選修這門課的所有同學中女性所佔的比例是不是多數? 步驟一:設定虛無假說與對立假說 p:同學中女性所佔比例 Ho:欲推翻的假說→同學中女性所佔的比例不是多數→ p ≤ 0.5 Ha:欲證實的假說→同學中女性所佔的比例是多數→ p > 0.5 p > 0.5 來代表同學中女性所佔的比例是多數,而p ≤ 0.5 則代表 同學中女性所佔的比例不是多數,而我們所欲推翻的假說是p ≤ 0.5。 步驟二:決定顯著水準(型I錯誤發生的機率) 顯著水準 α 訂在一般常用的5%,之後會再用較嚴格的顯著水準1%作比較。
Case Study: 每次選修這門課的所有同學中女性所佔的比例是不是多數? 步驟三:選擇檢定統計量 由於我們在這裡進行的是一個比例值的檢定,想要證明母體比例值是否超過0.5,因此選擇Z 檢定統計量來進行檢定。Z 檢定統計量就是一個分子/分母的概念,分子一樣是樣本比例點估計值與母體比例值的差,分母代表樣本比例值的抽樣誤差。樣本數共有114位,統計上可以將樣本比例點估計,視為近似一個常態分布。
Case Study: Test Statistic 步驟四:收集資料,計算檢定統計量以及其對應的P值 Based on the sample: n=114 (large, so proportions follow normal distribution) no physical discipline: 51% =0.544 standard error of : (where 0.50 is p0 from the null hypothesis) standardized score (test statistic) 83
Case Study: P-value 樣本點估計比例值為0.544 與母體比例值0.5 間的距離為0.9 倍的抽樣誤差,接著根據我們所欲證實假說的方向,我們要計算P 值為: P 值( 樣本點估計比例大於0.544 | 母體真實比例為0.5) = P(Z > 0.9) = 0.1841
Case Study: Decision 由於P值=0.1841 高於我們的顯著水準α=0.05,所以我們沒有足夠的統計證據去推翻虛無假說。 在以上的結論中P值=0.1841代表,若我們做出推翻虛無假說的決定,會有18.41%的機率會讓型I錯誤發生,這不是一個低的犯錯機率,且高於我們可以接受的5%,所以我們無法說明有足夠證據去推翻虛無假說。 若顯著水準訂為較嚴格的1%,做出來的結論依然會是無法推翻虛無假說,因為有18.41%的機率會讓型I 錯誤發生遠高於我們可以接受的1%。當我們將顯著水準訂為嚴格的1%時,我們收集到樣本比例54.4%與虛無假說中假設母體比例50%做比較,這4.4%的差異在統計上會是更不顯著的。
統計歷史人物小傳 Sir Austin Bradford Hill 7/8/1897-4/18/1991
Sir Austin Bradford Hill 7/8/1897-4/18/1991 The third son of distinguished medical physiologist, Sir Leonard Erskine Hill During World War I, enlisted as a pilot in the Royal Naval Air Service Contracted TB and sent home (to die?) Two years in hospital to recover BSc from Univ. of London in 1922 and PhD from University College, London in 1926
Sir Austin Bradford Hill 7/8/1897-4/18/1991 Conducted the first randomized clinical trial on human to test the efficacy of streptomycin for the treatment of TB patients Supply of the new antibiotics was extremely limited and funding was scarce. “In that situation, I said it would be unethical not to make a randomized clinical trial – the first of its kind”
Sir Austin Bradford Hill 7/8/1897-4/18/1991 With Sir Richard Doll, they conducted a retrospective case-control study, for the first time, to show lung cancer to be closely related to smoking in 1950 The procedure and conclusion of their paper was severely criticized by Sir R.A. Fisher “Cigarettes, Cancer, and Statistics” in Centennial Review “Lung Cancer and Cigarettes?” and “Cancer and Smoking” in Nature
Sir Austin Bradford Hill 7/8/1897-4/18/1991 In response, A.B. Hill with R. Doll conducted a prospective cohort study (British Doctors Study) which involved collecting data on the smoking habit and Health over 50,000 male British doctors The results published in 1954 and 1956 silenced the earlier criticism This cohort of 50,000 doctors are still being followed and “Mortality in relation to smoking: 50 years’ observation on male British doctors” British Medical Journal, 2004.
Sir Austin Bradford Hill 7/8/1897-4/18/1991 A. B. Hill is not known for developing statistical theory or methods He is known to understand the concept and importance of randomized controlled experiments and was the first pioneer to apply the methods to clinical trials for advance of human life He also knew the limitation of randomized controlled clinical trials and was the first one to show the link between lung cancer and smoking by retrospective case-control design
總結(Summary) 1. 設立虛無與對立假設(雙尾,單尾) 2. 決定顯著水準(型Ⅰ誤差機率)=0.05或 =0.01 3. 選擇檢定統計量 4. 收集資料,計算檢定統計量,計算p-value 5. 進行決策判定
版權聲明 4 12 頁碼 作品 版權標示 作者 / 來源 5-6 13-14 2-3、7-9 範例一:淑女品茶 (Lady Testing Tea) 《The Lady Tasting Tea: How Statistics Revolutionized Science in the Twentieth Century》,Salsburg, D.(2001),p1-p8,Henry Holt Company, New York。 依據著作權法第 46、52、65 條合理使用。 4 範例二:尿遁 《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 246, 國立臺灣大學出版中心,2010 年三月初版。 由所有權人國立臺灣大學出版中心授權, 您如需利用本作品,請另行向權利人取得授權。 5-6 範例三:能量性治療(Therapeutic Touch) 《A close look at therapeutic touch.》, Rosa, L.; Rosa, E.; Sarner, L.(1998), The Journal of the American Medical Association, 12 《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 271, 13-14 鑑識科學……into scientific testimony。 《Weak forensic science has high cost》 ,Spiegelman, C.(2010) ,AMSTAT News,March 2010,頁 35-37。 依據著作權法第 46、52、65 條合理使用
17 18 30 頁碼 作品 版權標示 作者 / 來源 16、19 23-26 統計推論(Statistical Inferences) 《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 272-273, 國立臺灣大學出版中心,2010 年三月初版。 由所有權人國立臺灣大學出版中心授權, 您如需利用本作品,請另行向權利人取得授權。 17 《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 273, 18 23-26 檢查官必須舉証推翻……平均奶粉重量至少500公克。 《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 274-275, 30 《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 276,
33 34 49 50 頁碼 作品 版權標示 作者 / 來源 《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 278, 國立臺灣大學出版中心,2010 年三月初版。 由所有權人國立臺灣大學出版中心授權, 您如需利用本作品,請另行向權利人取得授權。 34 40-48、51-52、54-57 消費者基金會懷疑…… 又稱顯著性檢定。 《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 283-286, 49 《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 285, 50 《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 284,
53 58 59 60 61 頁碼 作品 版權標示 作者 / 來源 《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 285, 國立臺灣大學出版中心,2010 年三月初版。 由所有權人國立臺灣大學出版中心授權, 您如需利用本作品,請另行向權利人取得授權。 58 《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 286, 59 60 61 WIKIPEDIA (http://en.wikipedia.org/wiki/File:R._A._Fischer.jpg), 瀏覽日期 2012/06/12。
頁碼 作品 版權標示 作者 / 來源 62-72 R.A. Fisher was the second of twins……and hold on your own ideas. School of Mathematics and Statistics University of St Andrews, Scotland (http://www-history.mcs.st-andrews.ac.uk/Biographies/Fisher.html), 瀏覽日期 2012/06/01,依據著作權法第 46、52、65 條合理使用。 73-75、83、85 消費者基金會懷疑……統計上會是更不顯著的。 《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 296-297, 國立臺灣大學出版中心,2010 年三月初版。 由所有權人國立臺灣大學出版中心授權, 您如需利用本作品,請另行向權利人取得授權。 76 《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 301, 78 1g 差異的統計……顯著性檢定。 《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 302, 84 《統計與生活》,劉仁沛、洪永泰、蕭朱杏、陳 宏合著,頁 296,
86 90 92 頁碼 作品 版權標示 作者 / 來源 87-89、91、93 Cardiff University (http://www.cardiff.ac.uk/insrv/libraries/scolar/archives/bradfordhill/index.html), 瀏覽日期 20121/06/12。依據著作權法第 46、52、65 條合理使用。 87-89、91、93 The third son of distinguished……by retrospective case-control design. (http://www.cardiff.ac.uk/insrv/libraries/scolar/archives/bradfordhill/biography.html ),瀏覽日期 2012/06/01。依據著作權法第 46、52、65 條合理使用。 90 《Basic and Clinical Biostatistics》, Beth Dawson; Robert G. Trapp(2000),P.11, McGraw-Hill Professional Publishing。 依據著作權法第 46、52、65 條合理使用。 92 Beth Dawson; Robert G. Trapp(2000),P.14,