類別資料分析(Categorical Data Analysis) 單元: 羅吉斯迴歸 中華大學餐旅管理系羅琪老師
為何要學羅吉斯迴歸? 當變數個數增加時 Y-壓力(無, 一些, 很多) X1-性別(男, 女) X2-吸菸狀態(非吸菸者, 年齡 壓力 當變數個數增加時 Y-壓力(無, 一些, 很多) X1-性別(男, 女) X2-吸菸狀態(非吸菸者, 戒菸者, 吸菸者) X3-年齡(青, 中, 老) https://www.google.com.tw/search?q=4+way+tables&biw=1920&bih=979&source=lnms&tbm=isch&sa=X&ved=0ahUKEwjL-Ma0kuTOAhVHv5QKHV-vC0gQ_AUIBigB#imgrc=127ObKIhBF--fM%3A
為何要學羅吉斯迴歸? 當解釋變數有定量變數時 Y-洗腎病人是否有腦血管疾病(1-是, 0-否) x1-病人的年齡 類別變數 混和 http://www.cameldoc.com/nephro/%E6%B4%97%E8%85%8E%E6%AF%94%E6%AD%BB%E9%82%84%E7%97%9B%E8%8B%A6%EF%BC%9F%E5%A4%A7%E9%8C%AF%E7%89%B9%E9%8C%AF%EF%BC%81/
為何要學羅吉斯迴歸? 可以用一個統計模式計算各種條件勝算比而不必建立許多的部分表格 當解釋變數間有交互影響時
羅吉斯迴歸 羅吉斯迴歸是一種預測某個事件發生的機率的複迴歸模型 反應變數(Y)為一個二元(binary)的類別資料 自變數(x1, x2,…, xk)可以是定量或是類別變數,就像一般的迴歸分析
簡單羅吉斯迴歸模式 若假設Y只有兩種可能,就是成功和失敗,令 Y= 𝟏 𝐢𝐟 成功 𝟎 𝐢𝐟 失敗 x-連續的定量變數 𝛑(x) 代表當x時, Y=1或成功的機率 簡單羅吉斯迴歸模式 logit(π(x))=log π x 1− π x =α+βx 所以 𝜋(x)= e α+βx 1+ e α+βx
簡單羅吉斯迴歸模式 log(成功的勝算) logit(π(x))=log π x 1− π x =α+βx 0<𝜋(x)<1, 取log轉換目的是-∞<log π x 1− π x <∞ 因此得到 𝜋(x)= e α+βx 1+ e α+βx x與𝜋(x)的關係是非線性的
x與𝜋(x)的關係是非線性的 𝜋(x) 𝜋(x)= e α+βx 1+ e α+βx x β>0, 曲線遞增 https://www.google.com.tw/search?q=%E7%BE%85%E5%90%89%E6%96%AF%E8%BF%B4%E6%AD%B8&biw=1920&bih=979&source=lnms&tbm=isch&sa=X&ved=0ahUKEwjb2drXkOTOAhUBzpQKHWINDBw4ChD8BQgGKAE&dpr=1#imgdii=nSIC5402HVAOoM%3A%3BnSIC5402HVAOoM%3A%3B77ubpAgPrVPQQM%3A&imgrc=nSIC5402HVAOoM%3A
羅吉斯迴歸模式 𝜷 𝒊 就是迴歸係數,代表當其他x固定後, 𝒙 𝒊 對log(成功的勝算)的影響 logit π x =log π x 1−π x =α+ β 1 x 1 + β 2 x 2 +⋯+ β k x k π x = e α+ β 1 x 1 + β 2 x 2 +⋯+ β k x k 1+ e α+ β 1 x 1 + β 2 x 2 +⋯+ β k x k π x 1−π x = e α+ β 1 x 1 + β 2 x 2 +⋯+ β k x k = e α+ β 2 x 2 +⋯+ β k x k e β 1 x 1 𝜷 𝒊 就是迴歸係數,代表當其他x固定後, 𝒙 𝒊 對log(成功的勝算)的影響 𝒆 𝜷 𝐢 就是條件勝算比,代表當其他x固定時, 𝒙 𝒊 每增加一單位,成功的勝算所乘上的效果(multiplicative effect on the odds of success)
估計的羅吉斯迴歸模式 log(成功的勝算) logit π x 的點估計為 logit π x =log π x 1− π x = 𝛼 + 𝛽 1 x 1 + 𝛽 2 x 2 +⋯+ 𝛽 k x k 成功的機率π x 的點估計為 π x = e 𝛼 + 𝛽 1 x 1 + 𝛽 2 x 2 +⋯+ 𝛽 k x k 1+ e 𝛼 + 𝛽 1 x 1 + 𝛽 2 x 2 +⋯+ 𝛽 k x k
馬掌螃蟹(horseshoe crab)範例 研究有哪些因素會影響母螃蟹是否有其他公螃蟹(satellites跟班)居住在她附近 Y-是否有跟班(1-是,0-否) C-顏色(1-淺米金,2-米金, 3-焦糖灰棕, 4-深焦糖色) S-脊柱狀況(1-兩個都好, 2-一個斷或破損, 3-兩個斷或破損) W-甲殼寬度 Wt-重量 樣本數n=173
馬掌螃蟹(horseshoe crab)範例 樣本數n=173
馬掌螃蟹(horseshoe crab)範例 β = α = α =−12.351, β =0.497 logit π 𝑥 = log π 𝑥 1− π 𝑥 =−12.351+0.497𝑥 π (x)= e −12.351+0.497x 1+ e −12.351+0.497x β =0.497>0 代表有跟班的機率會隨甲殼寬度的增加而增加
馬掌螃蟹(horseshoe crab)範例 π (x)= e −12.351+0.497x 1+ e −12.351+0.497x min(x)=21cm, π 21 = e −12.351+0.497 21 1+ e −12.351+0.497 21 =0.129,當母螃蟹寬度為21公分時,估計其身邊有跟班的機率為0.129 max(x)=33.5cm, π 33.5 = e −12.351+0.497 33.5 1+ e −12.351+0.497 33.5 =0.987,當母螃蟹寬度為33.5公分時,估計其身邊有跟班的機率為0.987 mean(x)= 26.3cm, π (26.3) = e −12.351+0.497 26.3 1+ e −12.351+0.497 26.3 =0.674,當母螃蟹寬度為26.3公分時,估計其身邊有跟班的機率為0.674
馬掌螃蟹(horseshoe crab)範例 𝒆 𝜷 = β = α = β =0.497 e β = e 0.497 =1.644 代表母螃蟹寬度每增加1cm,估計的有跟班的勝算增加64.4%
馬掌螃蟹(horseshoe crab)範例 Y-是否有跟班(1-是,0-否) x-甲殼寬度 顏色(1-淺米金,2-米金, 3-焦糖灰棕, 4-深焦糖色)有4個levels需要3個dummy variables 𝐶 1 = 1 淺米金 0 otherwise 𝐶 2 = 1 米金 0 otherwise 𝐶 3 = 1 焦糖灰棕 0 otherwise 羅吉斯迴歸模式 logit(π)=α+ β 1 C 1 + β 2 C 2 + β 3 C 3 + β 4 x
馬掌螃蟹(horseshoe crab)範例 β 𝟏 = β 𝟐 = β 𝟑 = β 𝟒 = α = 估計的羅吉斯迴歸模式 logit( 𝜋 )=-12.715+1.330 𝐶 1 +1.402 𝐶 2 +1.106 𝐶 3 +0.468x
馬掌螃蟹(horseshoe crab)範例 logit( 𝜋 )=-12.715+1.330 𝐶 1 +1.402 𝐶 2 +1.106 𝐶 3 +0.468x Color 1 淺米金( 𝐶 1 =1, 𝐶 2 =0, 𝐶 3 =0) logit( 𝜋 )=-12.715+1.330+0.468x, 𝜋 (x)= 𝑒 −11.385+0.468x 1+ 𝑒 −11.385+0.468x Color 2 米金( 𝐶 1 =0, 𝐶 2 =1, 𝐶 3 =0) logit( 𝜋 )=-12.715+1.402+0.468x, 𝜋 (x)= 𝑒 −11.313+0.468x 1+ 𝑒 −11.313+0.468x Color 3 焦糖灰棕( 𝐶 1 =0, 𝐶 2 =0, 𝐶 3 =1) logit( 𝜋 )=-12.715+1.106+0.468x, 𝜋 (x)= 𝑒 −11.609+0.468x 1+ 𝑒 −11.609+0.468x Color 4 深焦糖色( 𝐶 1 =0, 𝐶 2 =0, 𝐶 3 =0) logit( 𝜋 )=-12.715+0.468x, 𝜋 (x)= 𝑒 −12.715+0.468x 1+ 𝑒 −12.715+0.468x
馬掌螃蟹(horseshoe crab)範例 Color 1 淺米金 𝜋 (x)= 𝑒 −11.385+0.468x 1+ 𝑒 −11.385+0.468x Color 2 米金 𝜋 (x)= 𝑒 −11.313+0.468x 1+ 𝑒 −11.313+0.468x Color 3 焦糖灰棕 𝜋 (x)= 𝑒 −11.609+0.468x 1+ 𝑒 −11.609+0.468x Color 4 深焦糖色 𝜋 (x)= 𝑒 −12.715+0.468x 1+ 𝑒 −12.715+0.468x 寬度固定時, 米金色有跟班的機率>淺米色>焦糖灰棕?深焦糖色 顏色固定時, 寬度愈寬, 有跟班的機率愈高
馬掌螃蟹(horseshoe crab)範例 β 𝟏 = β 𝟐 = β 𝟑 = β 𝟒 = α = 若母螃蟹是淺米金色且其寬度為26.3cm時,估計其有跟班的機率為 logit( 𝜋 )=-12.715+1.330 𝐶 1 +1.402 𝐶 2 +1.106 𝐶 3 +0.468x 𝜋 (26.3)= 𝑒 −11.385+0.468(26.3) 1+ 𝑒 −11.385+0.468(26.3) =0.715
馬掌螃蟹(horseshoe crab)範例 條件勝算比 校正OR p值 β 𝟏 = β 𝟐 = β 𝟑 = β 𝟒 = α = 𝒆 𝟏.𝟑𝟑 =3.8 代表在任何已知的寬度,淺米金色母螃蟹估計有跟班的勝算是深焦糖色母螃蟹有跟班的勝算的3.8倍 𝒆 𝟏.𝟑𝟑−𝟏.𝟒𝟎𝟐 =0.93 代表在任何已知的寬度,淺米金色母螃蟹估計有跟班的勝算是米金色母螃蟹有跟班的勝算的0.93倍
信賴區間 有興趣求條件勝算比 𝒆 𝜷 𝐢 的100(1-α)%的信賴區間 先求迴歸係數 𝜷 𝒊 的100(1-α)%的信賴區間 有興趣求條件勝算比 𝒆 𝜷 𝐢 的100(1-α)%的信賴區間 先求迴歸係數 𝜷 𝒊 的100(1-α)%的信賴區間 𝜷 𝒊 ± 𝒛 𝜶 𝟐 ASE( 𝜷 𝒊 ) [左, 右] 條件勝算比 𝒆 𝜷 𝐢 的100(1-α)%的信賴區間 [ 𝒆 左 , 𝒆 右 ]
馬掌螃蟹(horseshoe crab)範例 條件勝算比 校正OR p值 β 𝟏 = β 𝟐 = β 𝟑 = β 𝟒 = α = 𝛽 4 =0.468, 𝒛 𝜶 𝟐 = 𝒛 𝟎.𝟎𝟐𝟓 =1.96, ASE( 𝛽 4 )=0.106 95%的 𝛽 4 的信賴區間為0.468 ± 1.96×0.106, [0.26024,0.67567] 95%的 𝒆 𝜷 𝟒 的信賴區間為[ 𝒆 𝟎.𝟐𝟔𝟎𝟐𝟒 , 𝒆 𝟎.𝟔𝟕𝟓𝟔𝟕 ]=[1.297, 1.965], 有95%的信心, 當顏色固定時, 母螃蟹甲殼寬度每增加一公分, 有跟班的勝算增加至少29%, 至多1.965倍
假設檢定 𝐻 0 : 𝛽 𝑖 =0 (控制其他變數後, 𝒙 𝒊 對log(成功的勝算)沒有顯著的影響) Wald test statistic檢定統計量 Z= β −0 ASE β 或 Z 2 決策法則: 拒絕H0若p-value<α
馬掌螃蟹(horseshoe crab)範例 條件勝算比 校正OR p值 β 𝟏 = β 𝟐 = β 𝟑 = β 𝟒 = α = 𝐻 0 : 𝛽 4 =0 (控制顏色後, 甲殼寬度對log(有跟班的勝算)沒有顯著的影響) Z= β −0 ASE β = 0.468−0 0.106 =4.415094 或 Z 2 =19.49306 因為p-value≈0<α=0.05, 所以拒絕H0, 結論: 控制顏色後, 甲殼寬度對log(有跟班的勝算)有顯著的影響
年輕婦女接受乳房攝影篩檢之現況及其影響因素— 以桃園某地區為例 護理暨健康照護研究, 7(3), 2011. 賴思妤;王美治;朱麗陵;謝泉發
付出最多的人,也是收穫最多的人 ~共勉之~