Download presentation
Presentation is loading. Please wait.
1
1
2
干擾變數 連結函數 粗糙的勝算比 調整後的勝算比 交互作用 分層分析 2
3
我們研究的主題 (依變數)資料有些是像第七章中 討論的連續型(或稱數值型)資料,有些是像第八 章中討論的二元類別型資料,有些則是像第九章中 討論的計數資料。不同的資料形態導致分析的迴歸 模型及方法都有相當大的差異。 若主題資料是二元類別型資料,用卜瓦松迴歸模型 去分析就會發生嚴重的錯誤。不同迴歸模型的迴歸 係數也各有不同的解釋和代表的意義,分析時要特 別注意。 3
4
我們在第七 - 九章中已經介紹了如何利用不同的迴 歸模型探討一個自變數和一個依變數之間的關係, 如何利用迴歸模型做預測。但在醫學資料的分析中 我們很少會遇到僅用一個自變數分析的情形。 重要的原因之一是經常有許多風險因子(自變數) 會同時影響要研究的依變數,單一自變數的分析結 論經常有干擾( confounding )的情形產生。 4
5
降低 賀爾蒙治療和冠狀動脈性心臟病相關性的研究裡,假設 資料分析的結論是 “ 賀爾蒙的治療會降低冠狀動脈性心 臟病的發生率,結論在統計上是顯著的 ” ,但發現所研 究的資料中接受賀爾蒙治療的婦女剛好多數是年齡較輕 的人,會不會冠狀動脈性心臟病發生率降低的原因是因 為使用者年齡較低的關係,而不是因為使用賀爾蒙的原 因 ? 統計上解決這種干擾的處理原則上有二種:從研究方法 上處理或從資料分析上下手。 5
6
要從研究方法的設計上解決的話,我們在收集資料時, 觀察到一位接受賀爾蒙治療的婦女(可稱為案例)就找 一位年齡(干擾變數)相仿沒接受賀爾蒙治療的婦女 (可稱為對照)同步追蹤觀察冠狀動脈性心臟病發生的 情形 (此設計是以年齡相配 (matching) 的設計),接 著用檢定方法 ( 例如 McNemar 檢定 ) 處理分析。 若要從分析方法下手的話,則通常要使用多變項迴歸分 析方法,將干擾變數放進迴歸模型中和主要的風險變數 同步分析,這種作法稱為控制干擾因子的作法 ( control of confounding ),是本章討論的重點。 6
7
7
8
8
9
9
10
10
11
11
12
12
13
13
14
以下我們針對第八章心血管研究的資料分析抽菸量對罹 患心血管疾病的影響。 首先我們使用 R-web ( www.r-web.com.tw )資料處 理中資料分組模組的功能將數值變數 “ 年齡"轉換成類 別變數( 50 歲以下為第 0 組,以上為第 1 組), 將抽菸 量也分成二組( 1 包菸以下為第 0 組,以上為第 1 組)。 www.r-web.com.tw 接著我們使用 R-web 中廣義線性模式中邏輯特連結函 數的模組(和邏輯斯迴歸分析模組功能相同但進階選項 功能更多)分析。 14
15
15 係數 coefficient 估計值 estimation 標準差 std. err. z 檢定統計量 z-statistic p- 值 II p-value 截距項 -2.28733150.0140894-162.3443< 2e-16 *** 抽菸量 0.23064690.07640613.01870.00254 ** 表 10-1. 抽菸對心血管疾病的影響
16
我們用年齡來調整勝算比的估計,並檢視年齡是否為干擾因子 : 以點選方式選用路徑 : “ 分析方法 廣義線性模式 邏輯 特連結函數 步驟一 (資料匯入) : 使用個人資料檔 步 驟二(參數設定) : 選擇依變數 : 心血管疾病; 自變數 : 抽菸 量,年齡 開始分析 “ 表 10-2. 調整年齡後抽菸量對心血管疾病的影響 表 10-2 中的結果顯示:年齡及抽菸量都是心血管疾病的風險 因子;他們的勝算比對數分別為 1.732 及 0.138 。 16 係數 coefficient 估計值 estimation 標準差 std. err. z 檢定統計量 z-statistic p- 值 II p-value 截距項 -3.20594140.026073-122.96<2e-16 *** 年齡 1.73163980.031102255.6758<2e-16 *** 抽菸量 0.13790970.06901981.99811790.0489
17
17
18
18
19
19
20
20
21
21 係數 coefficient 估計值 estimation 標準差 std. err. z 檢定統計量 z-statistic p- 值 II p-value 截距項 -3.21614790.0264831-121.4415< 2e-16 *** 年齡 1.74627760.03168655.112< 2e-16 *** 抽菸量 0.44251810.13567833.26150.00111 ** 年齡 * 抽菸量 -0.43292250.1658689-2.610.00905 **
22
22
23
23
24
以心血管疾病的研究為例,可將分析的資料分成男女二 層,然後使用表 10-3 的邏輯斯廻歸模型個別分析層內 資料並下結論。 這種作法的好處是分析模型中不必考慮複雜的交互作用, 但缺點是層內資料會變少檢定力會變低,風險因子有可 能得不到顯著的分析結果。因此,若是某一層的資料明 顯的不足時,分層分析可能就不適合。 以下我們用性別分層,將資料分成男女二層, 分別有 24051 及 40438 筆資料。 24
25
25 依變數 係數 coefficient 估計值 estimation 標準差 std. err. 華德檢定統計量 Wald-statistic p- 值 p-value 心血管疾病 截距項 -3.2260.03259869.5993< 1e-04 年齡 1.75240.03941981.6483< 1e-04 抽菸量 0.72460.46632.41450.1202 年齡 * 抽菸量 -0.55030.65580.7040.4014
26
26
27
表 10-5. 年齡和抽菸量交互作用對心血管疾病的影響 (男性) 針對男性而言,表 10-5 的結果顯示:年齡及抽菸量都是心 血管疾病的風險因子;他們的勝算比對數估計分別為 1.730 及 0.401 ,交互作用的勝算比對數為 -0.404 ;他們檢定統 計量的 p 值都小於 0.03 ,表示統計上顯著的不為零。 27 依變數 係數 coefficient 估計值 estimation 標準差 std. err. 華德檢定統計量 Wald-statistic p- 值 p-value 心血管疾病 截距項 -3.19620.04584877.7761< 1e-04 年齡 1.73230.05361044.5987< 1e-04 抽菸量 0.40120.14627.52560.0061 年齡 * 抽菸量 -0.40410.17715.21010.0225
28
28
29
29 CVD_All 資料中包含 66,489 人的臨床檢驗數據、家族、行為數 據、及是否罹患 CVD 的數據。 1) 請將"壓差 = 收縮壓減舒張壓"當成應變數,年齡當成自變 數,做線性迴歸分析,並檢定年齡是否為壓差的風險因子 ? 2) 接續第 1 題,將性別當成做線性迴歸分析的干擾因子,分析 年齡是否為風險因子?性別是否真的是干擾因子?針對壓差 這個應變數,年齡和性別是否存有交互作用? 3)CVD_All 資料中有追蹤時間的紀錄,請使用這個資料及卜瓦 松模型估計 CVD 的每年發生率為何? 4) 請檢定壓差是否為 CVD 發生的風險因子?年齡(或性別)是 否為干擾因子?年齡(或性別)和壓差是否存在交互作用? 5) 接續第 4 個問題,針對性別做分層分析,並比較 3 和 4 的結論?
30
The End 35
Similar presentations