第 14 章 Logistic迴歸
14.1 二元應變數之迴歸模型 當應變數是二元資料時,其反應函數的含意 以簡單線性迴歸模型 (14.1) 其應變數Yi為二元資料,不是0就是1,則在此例中期望值E{Yi}有一個特別的含意,因為 = 0,所以 (14.2)
若Yi為伯努利的隨機變數,其機率分配如下: 因此,當Yi = 1時,其機率值為 ;而Yi = 0時,其機 率值為1- 。由隨機變數的定義(A.12),可得 (14.3) 由方程式(14.2)及(14.3),可得 (14.4)
當反應函數是二元資料的特例 1. 非常態誤差項:針對應變數為0與1,每個誤差項 只有兩種結果。 (14.5a) (14.5b) 2. 誤差項之變異數非定值:當應變數為指示變數,其所有誤差項 不具有相同的變異數。簡單說明如下,由(14.1)的簡單線性迴歸可得 ,並利用(A.15),得 或是 (14.6)
之變異數與 的變異數是相同的,因為 ,而且 為常數。 (14.7) 或 (14.7a) 3.反應函數的限制:由於反應函數可視為機率值,當應變數為0或1的指示變數,則平均反應應該限制為 (14.8)
14.2 二元應變數下的S模型反應函數
Probit的平均反應函數 考慮母親在懷孕期間Y c與酒精使用程度X之關係,此處的c代表連續型懷孕期間的反應變數。因此可以利用簡單線性迴歸表示成 (14.9) 由(14.3)與(14.9)可得 (14.10a) (14.10b) (14.10c) (14.10d) (14.10e)
假若令 ,從(14.10a-e),可得 (14.11) 由(14.3)式及(14.11)式,推導出一非線性迴歸函數, 稱為probit平均反應函數。 (14.12) 利用probit轉換來求(14.12)的,可得 (14.13)
Logistic平均反應函數 假設隨機變數 服從logistic分配平均值為0,標準差為 ,其分配 (14.14a) 其累積分配函數為: (14.14b) 假設由(14.9)式的具有logistic分配平均值為0,標準差為,然後由(14.10d)可得:
之後,將不等式的左右兩邊各乘上 ,其機率 值亦保持不變,因此: (14.15a) (14.15b) (14.15c) (14.15d)
總括而論,logistic平均反應函數為: (14.16) 而(14.16)亦等同 (14.17) 由(14.16)做累積分配FL的反函數則可得: (14.18) 的轉換函數稱為機率值 的logit轉換,表示 為: (14.18a)
互補Log-Log反應函數 可由(14.9)的 為Gumbel的誤差分配來導出平均反應函數: (14.19) 解線性預測 時,我們可得到互補log-log反應模型: (14.19a)
14.3 簡單Logistic迴歸 簡單Logistic迴歸模型 因為誤差項的分配與反應變數Yi的伯努利分配有關,所以用以下的方式表達簡單Logistic迴歸模型會比較好些: Yi為服從伯努利分配的獨立隨機變數且具有 期望值 ,其中 (14.20)
概似函數 因為每一個Yi都是服從伯努利分配的隨機變數,其中: 其機率分配如下: (14.21) 因為觀測值Yi是獨立的,他們的聯合機率函數為: (14.22) 再者,對其聯合機率函數取對數,這是方便來找最大概似估計值:
(14.23) 因為 且Yi為二元變數,由(14.16)得: (14.24) 進一步,由(14.18a),我們可得: (14.25)
因此,從(14.23)可簡化成: (14.26) 最大概似估計值 一旦得到最大概似估計值 與 之後,我們將這些估計值代入(14.20)便可得到配適的反應函數,我們定義 為第 i 個配適值: (14.27) 配適的logistic反應函數,如下所示: (14.28) 若我們在(14.18)利用logit轉換,便可解釋(14.28)的配適反應函數,如下: (14.29) 其中 (14.29a) 我們稱(14.29)為配適logit反應函數。
的解釋 考慮配適logit反應函數(14.29)在X = : 代表X的某層級與配適值的關係,我們亦可考慮配適logit反應函數在X = + 1: 此兩配適值的差為: 由(14.29a)式, 是取對數的估計發生比估計值;故我們可以用 ,相同地,對於 我們可以用 。因此,其之間的差別為: 之後將對數給還原,就可得到發生比(odds ratio)表示為 ,等於exp( ): (14.31)
互補Log-Log與Probit的反應函數之使用
重複樣本,以二項式樣本為例 在 層級,數字為1的和表示為 : (14.32a) 而且在 層級,數字為1的比例表示為 : (14.32b) 隨機變數 服從二項式分配,表示為: 其中 (14.33) 之後對數概似函數可表示如下: (14.34)