Download presentation
Presentation is loading. Please wait.
1
第十二章 檢定力及樣本數
2
Key words 樣本數 檢定力 雙樣本檢定 比例檢定 存活分析 Cox迴歸 Log-rank檢定 風險比
3
收集全部母體的資料有其困難性,通常會利用收集到的 部份母體資料推論母體的性質。由於資料樣本數 (sample size)關係到調查的所需要的時間與成本, 多少樣本數才能提供足夠的證據,足以推論母體特徵是 在研究調查執行前必需要先回答的問題。 在新藥的臨床試驗研究中,樣本數非常重要,會影響到 研究的時間,適當的樣本數可以減少收集資料的時間也 加速新藥上市時間,但是樣本數太少檢定方法的檢定力 可能不夠,無法提供足夠證據以證明該藥的效果或傷害, 因此樣本數的計算在研究執行前扮演一個很重要的角色。
4
在台灣,新藥臨床試驗申請的審查也會針對臨床試驗 的樣本數估算有所規範,以下為財團法人藥品查驗中 心對臨床試驗樣本數估算的審查重點說明:
“試驗針對不同的研究目標,將有不同的樣本數考量。一般而言, 第一期臨床試驗並不要求樣本數的估計,惟計畫書應說明最多會 收納多少受試者,且須符合國內法規需求(例如:藥動試驗須至 少12人)。第二期試驗如為早期探索性臨床試驗,除了治療具生 命威脅性(例如癌症)之適應症外,通常無需從事樣本數的估計。 惟第二期試驗如果主要目的在瞭解劑量反應關係及決定最低有效 劑量,則宜從事樣本數的估計。主要考量為是否提供足夠檢定力 檢測劑量與反應是否正相關(斜率>0)。……”
5
以上說明顯示樣本數估算較多發生在第三期療效確認 性臨床試驗。
“…第三期療效確認性臨床試驗,則須針對試驗樣本數的決 定有所辯明。法規統計審查的考量包括:是否根據主要療效 指標參數值來估算;所使用的參數值是否具有文獻根據;用 於估算的統計假說,是否根據試驗目的與臨床假說訂定;統 計假說所檢測的療效大小(effect size),是否為可達到的 且具臨床意義用於估計之統計方法是否適當;及是否有足夠 檢定力來偵測所宣稱的療效等。…” 以上說明顯示樣本數估算較多發生在第三期療效確認 性臨床試驗。
6
其中提到的“療效指標”可以是治療前後的血壓差 或變化的百分比、治療成功的與否、存活時間、問 卷量表的分數等等,但必須事先明確定義,因此會 有不同型態的資料在調查結束後須要分析,而在前 面幾章已經介紹到不同的資料型態會有不同的統計 分析方法,這也是為什麼審查重點會強調 “估計之 統計方法是否適當”,因樣本數計算會依統計方法 不同有所差異。
7
下面的案例說明經常在醫學研究的論文中看到:
“統計的方法是使用Small Stata 8.0 統計軟體,對於連續變項 是以「平均值± 標準差」來表示,並以學生氏 t 試驗 (Student’s t-test)作統計分析。對於不連續變項則以卡方 檢定(chi-square test)來分析。如果p值小於0.05則視為 統計上有明顯的差異。根據我們之前未發表的研究,我們預期 深度麻醉組術後噁心嘔吐的發生率為66%,而適度麻醉組預期 可以減少一半的術後噁心嘔吐。若設定型一錯誤為5%,統計 檢定力(power)為80%的條件下,每組樣本數只要28 就足 以符合統計學的要求。" (摘錄自輔仁醫學期刊第12卷第1 期曾祥建等人著作: “增加 Sevoflurane 麻醉的深度並未增加婦科手術患者術後噁心嘔吐的發生率")
8
其中療效指標為噁心嘔吐的發生率,雖然沒有文獻 參考值但是作者選擇過去研究經驗設定參數值為 66%,並且以"預期可以減少一半的術後噁心嘔吐 的發生率"為所宣稱的療效,另外設定檢定力為 80%且顯著水準為0.05,由這些設定計算出所需的 每組樣本數為28。 本章將介紹基本的樣本數計算概念以及常見的樣本 數計算方法。審查重點中的 “療效指標參數"、 “療 效大小(effect size)"、 “檢定力"及 “型一誤差” 均是影響樣本數計算的重要因素。
9
檢定力與樣本數 已知假設的檢定是在虛無假設和對立假設中做決策,而 會造成型一及型二錯誤的發生。
例如,已知一般人的收縮壓平均值為122毫米汞柱 (mm/Hg)(虛無假設)、標準差為20毫米汞柱,想研究 有心血管疾病的患者是否會有較高的收縮壓。假設過去 的經驗預期心血管疾病的患者的平均值會是142毫米汞 柱(對立假設)且標準差已知為20毫米汞柱。 檢定方法告訴我們,若是資料的樣本平均數過大 (>122+20×1.645/ 𝑛 (下頁說明),圖12-1:淺灰色 區塊面樍)時我們應該拒絕虛無假設。這種結果可以確 認檢定方法的型一誤差(顯著水準)為5%。
10
利用樣本平均數作檢定 1. 我們在檢定時,可利用p值及信賴區間法,作為是否拒 絕虛無假設方法。也可以利用樣本平均數來檢定。
2. 𝑃 𝑍>1.96 =0.05⇒ 𝑃 𝑋 − 𝜇 0 𝜎 𝑛 >1.645 =0.05 ⇒ 𝑃 𝑋 − 𝑛 >1.645 ⇒ 𝑃 𝑋 > × 20 𝑛 若觀察的樣本平均數大於 × 20 𝑛 (臨界點), 則拒絕虛無假設。
11
圖12-1. 樣本平均數的分佈 H0 H1 H0 H1 H0 H1
12
當隨機抽樣的樣本數(n)為1、5、10,在虛無假 設與對立假設分別為對時,樣本平均數的機率分配 如圖12-1,右尾檢定臨界值分別為154
圖12-1顯示當樣本數等於1時,如果要降低型二錯 誤時,必須將檢定臨界值往左移,但這會同時導致 型一錯誤增加無法維持原始的顯著水準,反之亦然, 因此可以發現在假設檢定中沒辦法同時控制型一與 型二錯誤。
13
圖12-1 在相同顯著水準0.05之下,隨著樣本數的增加使得 樣本平均數的機率分配更集中(變異數變小),雖 然會造成臨界值愈靠近虛無假設,但是型二錯誤率 也會變小。 型二錯誤也會受對立假設(平均數大小)的影響,如 果對立假設的離虛無假設愈遠,表示兩個假設愈容 易分辨,型二錯誤就會隨著下降,檢定力就增加。 圖12-2 顯示檢定力如何隨著會樣本數的增加及對立假設下 收縮壓平均值的增加而增加,但是隨著樣本數的增 加,檢定力的改善會愈來愈少。樣本數為10和20 的檢定力曲線就相當接近。
14
顯著水準、樣本數、對立假設 與虛無假設的相對關係會同時 影響檢定力的大小。
在決定樣本數的時候,不要無 限制的追求高檢定力,我們同 時要兼顧考量收集樣本的可行 性,通常的做法會以達到所設 定的檢定力水準時所必須的最 小樣本數為執行目標。 顯著水準、樣本數、對立假設 與虛無假設的相對關係會同時 影響檢定力的大小。 顯著水準變小時,經常造成型二錯 誤的上升,降低檢定力,因此如果 為了維持相同的檢定力,我們必須 增加樣本數的個數。 圖12-2. 檢定力曲線
15
樣本數可藉由適當的數學關係式估算出來,通常在 計算樣本數的過程中會先設定顯著水準、檢定力、 療效大小,顯著水準和檢定力最廣為接受的值分別 為0.05和0.8。
如果療效差異設的太小,會導致統計檢定分析時需 要太多的樣本數才能達到80%的檢定力。 虛無假設和對立假設內容的設定,一般會參考類似 的研究報告、先期小樣本研究的結果、或根據專業 經驗得知具有臨床意義的關係。
16
樣本平均值檢定的樣本數 首先利用已知變異數( σ 2 )的單樣本平均數檢定方 法介紹樣本數計算的發展步驟。延續前面收縮壓的 例子。
當虛無假設為真時,樣本數為𝑛的樣本平均數分配 (中央極限定理)為常態分配且平均值與標準差分別 是122及 20/ 𝑛 。 若顯著水準設定為0.05時可以得到單尾檢定的臨界 值為122+ z / 𝑛 = ×20/ 𝑛 。
17
若對立假設為平均值等於142( H a :𝜇=142),可以 知道檢定力為
P 𝑋 > × 20 𝑛 𝜇=142,σ=20 =P 𝑋 − 𝑛 > 122− 𝑛 =P Z> 122− 𝑛 =0.8, Z為標準常態分配,查表 z 0.8 =−0.84,可算出樣本數 n≥ =6.20 , 由於樣本數必須是整數,此時所需的樣本數最少為7。
18
在計算過程中,我們可以發現影響樣本數的因素除了顯 著水準、檢定力以外,還有兩平均的差值除上標準差, 即是“標準化差異(standardized difference) ,此數值 稱療效大小(effect size)又稱效應大小。 由於有時候會調整不同的顯著水準、檢定力、效應大小, 此時樣本數的計算公式為n≥ z α + z β (d/σ) 2 ,其中α為顯著 水準、1−β為檢定力、d為虛無假設和對立假設中平均 數的差異值。 如果是雙尾檢定時,因臨界值的改變所以計算公式必須 修正為n≥ z α/2 + z β (d/σ) 2 。
19
雙樣本檢定時,也可以利用相同的策略先求得臨界 點並計算檢定力,最後再求得可以達到設定的檢定 力的樣本數,但不一樣的地方在於雙樣本檢定中兩 組樣本數可能不一樣。
因此會先設定樣本數的比例如第一組樣本數 𝑛 1 為第 二組樣本數 𝑛 2 的k倍,即 𝑛 1 = 𝑘𝑛 2 ,當兩組標準差 已知且皆為𝜎時,可以得到一組的單尾檢定樣本數 為 𝑛 2 ≥ 𝑧 𝛼 + 𝑧 𝛽 𝑘 (𝑑/𝜎) 2 ,其中d為雙樣本中母體平均數 之間的差值。
20
例子: 如欲研究有無心血管疾病兩組人的收縮壓平均值(無: 𝜇 1 ;有: 𝜇 2 )是否有顯著的差異時,可以建立虛無假 設為 H 0 : 𝜇 1 = 𝜇 2 或 H 0 : 𝜇 2 − 𝜇 1 =0,若已知兩組人的 標準差皆為20 mm/Hg,顯著水準為0.05、檢定力設 定為0.8。 有心血管疾病者收縮壓平均值會大於沒有心血管疾病者 20 mm/Hg( 𝜇 2 − 𝜇 1 =20),如果k=1(兩組人數相 同) 時,兩組各需樣本數為 n 1 = n 2 ≥ = 12.30,各組最少需要13個樣本,兩組合計最少要有26 個樣本。比單樣本檢定需要更多樣本。
21
如果是雙尾檢定時,樣本數計算方式必須修正為 𝑛 2 ≥ 𝑧 𝛼/2 + 𝑧 𝛽 2 1+ 1 𝑘 (𝑑/𝜎) 2 ,此時每一組的樣本數須更改為16個 (n≥15.68)。
若兩組變異數已知但不相等時,則單尾檢定、雙尾檢定 樣本數計算式須分別修改為 𝑛 2 ≥ 𝑧 𝛼 + 𝑧 𝛽 𝑑 2 /( 𝜎 1 2 𝑘 + 𝜎 2 2 ) 、 𝑛 2 ≥ 𝑧 𝛼/2 + 𝑧 𝛽 𝑑 2 /( 𝜎 1 2 𝑘 + 𝜎 2 2 ) 。 以上介紹的平均數檢定的樣本數估計方式是針對已知變 異數的情形,但是有些情形是變異數未知的,在使用包 含單樣本t-檢定、成對樣本t檢定、雙樣本t檢定等檢定 方法時,我們則必須利用比較複雜的計算方式樣本數。
22
比例檢定樣本數 比例檢定也是一種平均數檢定,搭配中央集限定理的應 用,使得樣本數估計可以依據前面介紹的計算方式做修 改,我們計算單一樣本單尾比例檢定的樣本數為 𝑛≥ 𝑧 𝛼 𝑝 0 1− 𝑝 𝑧 𝛽 𝑝 1 1− 𝑝 𝑝 1 − 𝑝 , 其中 𝑝 0 、 𝑝 1 分別為虛無假設、對立假設為真時的成功機率; 如欲計算雙尾檢定的樣本數僅須將 z α 修正為 z α/2 即可。 在雙尾檢定時須做修正,將 z α 修正為 z α/2 。
23
例子: 例如要檢定男女是否為相同比例時,虛無假設即為 男生佔一半( H 0 :p=0.5),如果虛無假設不成立 時男生出現的機率設定為0.6( H a :p=0.6),當顯 著水準和檢定力分別設定為0.05和0.8時, 𝑛≥ − − − =151.66, 可以知道最少要抽樣152人。
24
𝑛 2 ≥ z α 1 𝑘 +1 𝑝 1 1− 𝑝 1 + z β 1 𝑘 𝑝 1 1− 𝑝 1 + 𝑝 2 1− 𝑝 2 𝑑 2 ,
雙樣本單尾比例檢定: 若第一組樣本數 𝑛 1 為第二組樣本數 𝑛 2 的k倍時,即 𝑛 1 =𝑘 𝑛 2 ,得到第二組的樣本數應滿足 𝑛 2 ≥ z α 𝑘 +1 𝑝 1 1− 𝑝 z β 1 𝑘 𝑝 1 1− 𝑝 1 + 𝑝 2 1− 𝑝 2 𝑑 2 , 其中 𝑝 1 、 𝑝 2 分別為第一組與第二組成功的機率且d (>0)為兩者的差。 在雙尾檢定時須做修正,將 z α 修正為 z α/2 。
25
例子: 兩組人得心血管疾病的機率分別為 𝑝 1 (無吸菸)、 𝑝 2 (有吸菸),又已知吸菸人口較少,資料收集時 設定收集資料數沒有吸菸的人是吸菸的人的兩倍 (k=2)。 檢定的虛無假設為 H 0 : 𝑝 1 = 𝑝 2 ,對立假設為 H a :兩組 有差異, 𝑝 1 =0.09 且 𝑝 2 =0.1,當顯著水準為0.05 且檢定力設定為0.8時,則樣本數要滿足 n 2 ≥ − − − = , 得知吸菸族群需收集7,723人、沒有吸菸族群需收集 15,446人,合計要收集23,619人。
26
樣本數計算在調查研究開始前扮演一個很重要的角 色,會影響到整個研究的可行性以及資源的投入, 必須僅慎小心。
我們一方面要針對未來資料收集完後要分析的檢定 方法選擇樣本數計算外,還要小心設定計算樣本數 時所需要的參數,特別是臨床上有意義的效應大小。
27
作業 一研究欲了解大台北地區20~40歲男性平均腰圍是否與台灣整體平均腰圍84.7公分一樣( H 0 :𝜇=84.7),若實際上大台北地區20~40歲男性平均腰圍為82分分( H a :𝜇=82)。若已知標準差為9公分,當顯著水準為0.05時,請問單尾檢定樣本數為5、10、20、50的檢定力為何?請問樣本數對於檢定力的影響為何? 承上題,如欲達到檢定力為0.8的雙尾檢定,最少需要多少樣本?
28
研究欲檢定男女之間的平均身高差異是否為12公分, 已知男生標準差為5公分,女生為3公分,當顯著水 準為0. 05的單尾檢定且檢定力須達到0
研究欲檢定男女之間的平均身高差異是否為12公分, 已知男生標準差為5公分,女生為3公分,當顯著水 準為0.05的單尾檢定且檢定力須達到0.7時,如果 男女收同樣的樣本數,此研究總共最少需要多少樣 本數才能達到預期的效果? 有一研究已發現A地區成年人,吃檳榔者得到口腔 癌的機率為0.2且不吃檳榔者為0.05,B地區欲利用 此結果建立該地區研究探討吃檳榔者是否較易得到 口腔癌,若收集樣本不吃檳榔者為吃檳榔者五倍, 請問當顯著水準為0.01時,單尾檢定最少需要多少 樣本才能達到檢定力為0.7?
29
The End
Similar presentations