Presentation is loading. Please wait.

Presentation is loading. Please wait.

第九章 卜瓦松迴歸模型(Poisson Regression Model)

Similar presentations


Presentation on theme: "第九章 卜瓦松迴歸模型(Poisson Regression Model)"— Presentation transcript:

1 第九章 卜瓦松迴歸模型(Poisson Regression Model)

2 Key Words 卜瓦松迴歸模型(Poisson regression model) 補償項(offset)
人-年(person-year) 發生率(incidence rate) 發生率比值(incidence rate ratio, IRR)

3 在醫學、公共衛生及流行病學研究領域中,除了常 用羅吉斯(logistic regression)及線性迴歸 (linear regression)模型外,卜瓦松迴歸模型也 常應用在各類計數型態資料(count data)的模型 建立上。 例如:估計疾病死亡率或發生率、細菌或病毒的菌 落數及了解與其他相關危險因子之間的關係等,然 而這些模型都是廣義線性模型(generalized linear models)的特例。 本文章介紹如何使用卜瓦松迴歸模型來建立危險因 子與疾病發生率的關係。

4 Whyte (1987)等人於1983年一月至1986年六月在澳大利亞收集每三個月死於愛滋病人數的資料,資料如下:
表9-1. 澳大利亞觀測於1983年一月至1986年六月每三個月死於愛滋病人數 死亡人數 1 2 3 4 9 18 23 31 20 25 37 45 週期 5 6 7 8 10 11 12 13 14

5 卜瓦松迴歸模型 研究目的想探討因愛滋病死亡人數是否逐年增加, 相較於母體為整個澳洲而言,死於愛滋病人數為罕 見事件,我們以卜瓦松迴歸模型來分析這樣的計數 資料。 因此第i週期愛滋病死亡人數 Y i (i=1,⋯,14)的機 率分配是卜瓦松分配,其發生機率為 P(Y i = y i )= μ i y i exp(− μ i ) y i ! , y i =0,1,2,… 其中時間周期內的平均發生次數為參數 μ i >0。

6 卜瓦松迴歸模型 現在我們加入風險因子 x i (例如周期) 探討其影響平 均發生次數之間的關係,由於死於愛滋病人數隨著周 期呈現 “指數” 遞增的現象,因此平均發生次數的參 數 μ i 在對數轉換後經常用線性函數來描述與風險因 子之間的關係: log μ i = β 0 + β 1 x i , 這就是卜瓦松迴歸模型。

7 卜瓦松迴歸模型 和簡單線性迴歸模型及羅吉斯迴歸模型相似,卜瓦 松迴歸模型中的風險因子 x i ,可以是連續型的變項, 也可以是類別型的變項。
假設x=1 表示曝露於風險,x=0 表示不曝露,卜瓦 松迴歸模型顯示曝露相對於基準(非曝露)的發生率比 值(incidence rate ratio, IRR) 為 μ(x=1 )/μ(x=0 )=exp( β 1 )。 檢定曝露是否有風險的虛無假設可以寫成 𝐻 0 : 𝛽 1 =0。

8 卜瓦松迴歸模型 愛滋病死亡人數的案例資料是每三個月因病死亡人 數的資料,觀察周期的時間長度是相同的,但很多 應用問題中觀察周期的時間長度不一定相同。 根據卜瓦松分佈的特性,平均發生次數與時間成正 比,如果觀察死亡人數的周期的時間長度 t i 不同, 則模型應該調整為:    log μ i t i = β 0 + β 1 x i , 卜瓦松迴歸模型如下: log μ i = log t i + β 0 + β 1 x i 。

9 卜瓦松迴歸模型 通常我們稱log(ti)為補償值(offset),當每筆 資料的觀測時間不同時,且我們想探討的是每筆資 料觀測時間內平均發生次數時,必須使用平移調整 項log(ti)來做調整。滋病死亡人數的案例因觀測 周期相同,可以不用使用平移調整項。 調整項(補償項)的使用與否,僅會造成截距項估計 的改變,不會影響斜率項參數的估計。

10 卜瓦松迴歸模型 由下圖可看出發生次數與周期皆取對數轉換後會呈 線性關係,所以我們考慮用以下的簡單卜瓦松迴歸 模型來探討愛滋病死亡人數與周期的關係: log μ i = β 0 + β 1 log( x 𝑖 ) 。 log (死亡人數) log(週期)

11 卜瓦松迴歸模型 以此例顯示時間與愛滋病死亡人數有顯著相關,每 增加一個log(周期),愛滋病平均死亡人數增加 8.80倍。
表9.2(下表)為愛滋病死亡人數與時間的簡單卜瓦 松迴歸模型結果,截距及斜率項檢定皆是顯著。 模型中斜率係數代表的意義為當自變數增加一單位 時,平均死亡人數的對數值為增加 β 1 個單位,或平 均死亡人數增加 e β 1 倍。 估計值 標準誤 p值 截距( β 0 ) 0.5116 時間( β 1 ) 2.1748 0.2150 <0.0001

12 R-web: 分析方法使用自然對數(ln)連結函數的廣義線 性模式資料匯入設定參數:點選使用卜瓦松分 配假設的對數線性模式分析,選擇資料型態及要進 行分析的變數 進階選項(設定設定補償值 (offset))開始分析分析結果

13 下個案例是1968-1971針對丹麥四個城市罹患肺癌的資料
研究目的是想探討不同的年齡層是否會影響肺癌的 發生率。 研究中調查四個城市在六個年齡層的新發肺癌案例, 資料包含每個城市中各年齡層的居民人數,通常我 們稱此為各年齡分群中涉險(risk exposure)人 數(有時候用觀察的人-年表示,人-年代表的意義 和時間長度的意義相同,人-年越大卜瓦松的平均 發生次數越大,要做調整)。

14 利用卜瓦松迴歸模型可建立年 齡與肺癌發生率的關係如下:
城市 年齡層 居民數 案例數 Fredericia 40-54 3059 11 Horsens 2879 13 Kolding 3142 4 Vejle 2520 5 55-59 800 1083 6 1050 8 878 7 60-64 710 923 15 895 839 10 65-69 581 834 702 631 14 70-74 509 634 12 535 9 539 ≧75 605 782 2 659 619 資料整理後共24筆如右表所列: 利用卜瓦松迴歸模型可建立年 齡與肺癌發生率的關係如下: log 𝜇 𝑖 𝐿 𝑖 = 𝛽 0 + β 1 x i 。 模型中Li為第i個資料中觀察的 人-年資料。

15 此卜瓦松迴歸模型係以40-54歲年齡層為基準(baseline)。
step-wise linear function示意圖 模型中,線性函數 β 1 x i 改以“階梯型式”的線性函數(step-wise linear function) 定義: 𝛽 1,1 𝐼 55−59 𝑖 + 𝛽 1,2 𝐼 60−64 𝑖 + 𝛽 1,3 𝐼 65−69 𝑖 + 𝛽 1,4 𝐼 70−74 𝑖 +𝛽 1,5 𝐼 75+ 𝑖 應用此種模型的優點在於使用者可以了解每個年齡層下疾病發生 的 IRR,模型較具彈性,這也是實務上常使用這種模型的原因。 若是一眛的使用不合適的線性函數模型,我們有時會發現分析及 結論有錯誤。 若第i筆的年齡層在55-59歲範圍內,則 𝐼 55−59 𝑖 值取為 1;若第i筆 的年齡層不在55-59歲範圍內,則 𝐼 55−59 𝑖 值取為0。 ( 𝐼 55−59 是指 標變數(Indicator variable)) 。 此卜瓦松迴歸模型係以40-54歲年齡層為基準(baseline)。

16 表9.4為丹麥肺癌資料肺癌發生率與年齡的簡單卜 瓦松迴歸模型結果,當顯著水準為0.05時,雙尾檢 定結果顯示肺癌發生率與年齡有顯著的相關。
參數 估計值 標準誤 z-值 95%信賴區間 p值 截距( β 0 ) 0.1741 ( , ) <0.0001 年齡55-59 ( β 11 ) 1.0823 0.2481 4.363 (0.5930, ) 年齡60-64 ( β 12 ) 1.5017 0.2314 6.489 (1.0507, ) 年齡65-69 ( β 13 ) 1.7503 0.2292 7.637 (1.3044, ) 年齡70-74 ( β 14 ) 1.8472 0.2352 7.855 (1.3877, ) 年齡75+ ( β 15 ) 1.4083 0.2501 5.630 (0.9143, ) 雖然發生風險隨年齡層遞增,除了75歲以上這個族群,再次顯示年齡視為指標變數的優點。

17 卜瓦松迴歸模型表示 基準40-54歲年齡層的每人-年(每人每年)肺癌發生率估 計為 exp(β 0 )= exp − =0.0007。 第i個年齡層每人-年肺癌發生率估計為 exp(β 0 + 𝛽 1,𝑖 ), 55-59、60-64、65-69、70-74和75歲以上各年齡層 的每人-年發生率估計分別為0.0021、0.0032、0.0041、 和0.0029。

18 其他年齡層相較於基準(40-54歲)年齡層的肺癌發 生率比值𝐼𝑅𝑅為
exp 𝛽 0 + 𝛽 1,𝑖 exp 𝛽 0 + 𝛽 1,𝑖 = exp β 1,𝑖 。 55-59、60-64、65-69、70-74和75歲以上各 年齡層相較於基準40-54歲年齡層的每人-年發生 率比值估計分別為2.9515、4.4893、5.7563、 和4.0890。 可知年齡層對於肺癌的發生率皆有顯著影響,而且 除了75歲以上年齡層外,相對發生率比值有隨著年 齡增加而遞增的傾向。

19 R-web 分析方法使用自然對數(ln)連結函數的廣義線 性模式資料匯入設定參數:點選使用卜瓦松迴 歸,選擇資料型態及要進行分析的變數 進階選項 (設定設定補償值(offset))開始分析分析 結果

20 作業 1.為評估退役軍人是否曾在作戰區域服役與得癌症之間是否 有關,澳洲國家衛生研究院於1992發表一份關於退伍軍人 長期追蹤的資料,資料如下: 年齡 作戰區 非作戰區 罹癌人數 人-年 -24 6 60,840 18 208,487 25-29 21 157,175 60 303,832 30-34 54 176,134 122 325,421 35-39 118 186,514 191 312,242 40-40 97 135,475 108 165,597 45-49 58 42,620 74 54,396 50-54 56 25,001 88 40,716 55-59 13,710 120 33,801 60-64 34 6,163 141 26,618 65-69 9 1,575 17,404 70- 2 273 99 14,146 合計 509 805,480 1129 1,502,660

21 以年齡層中位數為橫軸,即(24, 27, 32, 37, 42, 47, 52, 57, 62, 67, 70),每人-年癌症發生率為縱軸,將上表資料 點在座標上並以不同線分別表示作戰區與非作戰區退役軍人 的癌症發生率。 請以卜瓦松迴歸模型分別分析在作戰區與非作戰區退役軍人, 年齡與罹癌率是否有相關,在此以年齡為解釋變數並假設年 齡為連續變數,以年齡層中位數為值(如上題),試問在顯 著水準α=0.05之下,年齡與罹癌率關係為何?請陳述兩者關 係及解釋模型中係數的意義。 請解釋上題分析是否需要補償值(offset),其調整目的為何? 請討論在第(2)題中的模型是否適合?是否需要考慮針對年齡解 釋變數取對數轉換或二次曲線的迴歸模型? 試問在顯著水準 α=0.05之下,重新配適模型後,年齡與罹癌率關係為何?請 陳述兩者關係及解釋模型中係數的意義。 請討論在卜瓦松迴歸模型中,作戰區與非作戰區退役軍人其 年齡與罹癌率的關係分別為何?

22 The End


Download ppt "第九章 卜瓦松迴歸模型(Poisson Regression Model)"

Similar presentations


Ads by Google