生物統計與SAS軟體課程教學(三) 雙變項統計分析(一) 台大衛生政策與管理研究所 江宜珍 2005.1.29
課程宗旨 瞭解一組、兩組或多組母群體或樣本間,等距變項(或等比變項)的統計檢定方法 即「類別變項」vs.「等距變項(或等比變項)」的雙變項統計分析方法 此次課程所提及的雙變項統計方法,均假設此等距變項(或等比變項)呈“常態分佈”,且均為“母數分析”(而非“無母數分析”)
統計方法 一組樣本vs.母群體 兩組 獨立樣本 兩組 相依樣本 多組 獨立樣本 檢定方法 Z-test t-test Paired t-test ANOVA 事後檢定 無 有 例子(以雙尾為例) 糖尿病病人的血壓平均值是否與正常人相同 糖尿病病人的血壓平均值是否與肺結核病人相同 經藥物治療後,糖尿病病人的血壓平均值“後測值”是否與“前測值”相同 糖尿病、肺結核、胃潰瘍、的血壓平均值是否相同
Z-test vs. t-test 若已知母群體的標準差,則使用Z-test t分佈會受自由度(n-1)影響,若樣本數越大,則t分佈越接近Z分佈,在n>120時,t與Z幾乎一樣
單尾檢定 vs. 雙尾檢定 單尾檢定 雙尾檢定 (較常用) Ho (虛無假設) (希望能推翻虛無假設) μ 1<μ2 (第一組的平均值小於第二組) μ 1>μ2 (第一組的平均值大於第二組) μ 1=μ2 (兩組的平均值沒有“差異”) H1 (對立假設) (為我們心中真正的假設) μ 1>μ2 μ 1<μ2 μ 1≠μ2
p-value vs. α-value p : 意指“Ho成立的機率或可能性” α: 意指“能接受Ho成立的機率或可能性的最 低底線”,即為檢視標準 通常會設α = 0.05 (即5%) 若p<α ,即p<0.05,則拒絕Ho (即推翻虛無假設) 若太難達到顯著差異,或此研究可採較為不保守的檢視標準,則可設α =0.10,即10%) 若太容易達到顯著差異,或此研究需採較為保守的檢視標準,則可設α =0.01,即1%)
Z分佈 Z= -2 -1 0 1 2 Z= 1.96~-1.96時,陰影面積佔全部的95%
對於標準差的假設 若樣本來自同一母群體,則應假設其標準差相同 若樣本來自不同母群體,則應假設其標準差不同
兩組相依樣本 意指兩組樣本的個體是有關聯的 常用Paired t-test分析的情況 同一個人的兩個部位,可以一個做實驗組、一個做對照組(或稱控制組) 同一個人,先做A測試,過一段時間再做B測試,比較兩種方法有無差異 同卵雙胞胎,隨機分派一個做實驗組、一個做對照組 以“前測→實驗→後測”的方法,對同一人進行調查,比較前後測值有無改變
因果假設 此類方法通常有因果假設 即存在自變項和依變項的關係 類別變項(組別)為因、等距變項(或等比變項)為果 但有時也會有例外,若只是想要比較兩組人的某變項平均值,也可以是“等距變項(或等比變項) 為因、類別變項(組別)為果” Ex.欲比較有無罹患肺癌病人的血壓平均值是否有差異
點估計 vs. 區間估計 在呈現分析結果時,通常會給予“點估計”及“區間估計”兩種數值,供讀者參考 平均值、 μ 1、 μ 1-μ2 等數值均為點估計值 95%信賴區間 (95% Confidence Interval簡稱95% C.I.) 意指我們有95%的信心或可能性,所求得的點估計值會落在此範圍內 Ex. Ho: μ 1=μ2 ,若μ 1-μ2 的95% C.I. 值包含 “0”,則表示Ho: μ 1=μ2 的假設有可能成立
結果呈現方式 平均值 標準差 95%信賴區間 t值 (Z值) p值 性別 男 女 居住地區 台北市 台北縣
♂>♀
ANOVA1 變異數分析,即Analysis of Variance的縮寫 N-way ANOVA 與Z-test、t-test之異同 N:共有幾個類別變項(ex. 欲檢視性別、種族) 本堂課所指的雙變項分析,則指“One-way ANOVA”,即一個類別變項(且為多組別) vs. 等距變項(或等比變項) 與Z-test、t-test之異同 目的均為比較以一個類別變項分組之等距變項平均值的差異 前兩者以“平均數”進行分析;ANOVA則為透過“變異數”分析來檢定各組平均值是否有差異
ANOVA2 Ho: μ 1=μ2 =μ 3=μ4 H1: 至少有2組以上的母群體平均值不相等 Assumption:各組變異數相等,因此在進行ANOVA時,需先檢定各組的變異數是否相等(F-test)
ANOVA3 總變異量的分解 (TSS=WSS+BSS) WSS(組內差異、組內變異量,Within Sum of Square) 各組內每個個體值與該組平均值差別的平方和 自由度= n-k,k為組別個數 BSS(組間差異、組間變異量,Between Sum of Square) 各組平均值與總平均值差別的平方和 自由度= k-1 TSS(總變異量,Total Sum of Square) 各組內每個個體值與總平均值差別的平方和 自由度= n-1 =(n-k)+(k-1)
ANOVA4 F-test F=MBSS/MWSS 若組間差異>組內差異,且p<0.05,則表示各組的平均值有顯著差異 MBSS=BSS/(k-1) (組間平均變異數,Mean Between Sum of Square) MWSS=WSS/(n-k) (組內平均變異數,Mean Within Sum of Square) 若組間差異>組內差異,且p<0.05,則表示各組的平均值有顯著差異
事後檢定 因為ANOVA檢定只能知道各組的平均值是否有差異,即只要有任兩組的平均值有差異就會呈現顯著,所以要進行事後檢定,瞭解到底是哪些組(兩兩比較)的平均值有差異 最常用Scheffe’s(薛費事後檢定)、Bonferroni、LSD(最小顯著差異法,Least Significant Difference method)三種,前兩者較嚴格 Scheffe’s: t> Bonferroni: LSD: t<
結果呈現方式 平均值 標準差 95%信賴區間 F值 p值 事後檢定 血型 O A B AB 教育程度 不識字 國中、國小 高中、高職 大學、大專 碩士、博士
~謝謝大家的耐心聆聽嚕~