Download presentation
Presentation is loading. Please wait.
1
Logistic回归分析 汕大医学院预防医学教研室
2
Logistic regression: 是研究分类变量统计分析的一种重要方法。研究两水平或多水平反应变量与其影响因子间关系的回归分析(线性回归分析: 应变量为连续计量资料)。
3
如二项分类,如某种疾病的患病与否 某一治疗结果有效和无效 器官移植后生存或死亡 多项有序分类:某一治疗结果,治愈、显效、 有效、无效; 多项无序分类:肝炎分型 甲、乙、丙、丁、 戊 研究分类反应变量与多个影响因素之间的相互关系的一种多变量分析方法,进行疾病的病因分析。
4
Logistic回归的分类 Logistic回归 二分类 有序反应变量 多分类 无序反应变量 非条件 1:1配对资料
条件Logistic回归 1:m配对资料 m:n配对资料
5
Logistic回归模型是一种概率模型, 通常以疾病,死亡等结果发生的概率为因变量, 影响疾病发生的因素为自变量建立回归模型。
6
例:为了探讨糖尿病与血压、血脂等因素的关系,研究者对56例糖尿病病人和65例对照者进行病例对照研究,收集了性别、年龄、学历、体重指数、家族史、吸烟、血压、总胆固醇、甘油三脂、高密度脂蛋白、低密度脂蛋白11个因素的资料,各因素的观察结果见表
8
二分类反应变量Y= 1 出现阳性结果 0 出现阴性结果 对反应变量有影响的因素有n个,称为自变量X1,X2,….Xn 在n个自变量作用下出现阳性结果的条件概率为P=P(Y=1 (X1,X2,….Xn)
9
一、Logistic回归方程 Logistic回归的logit模型
10
(1)取值问题 (2)曲线关联 反应变量与自变量的关系通常不是直线关系,而是S型曲线。曲线回归时,往往采用变量变化,使得曲线直线化,再进行直线回归方程的拟合。能否考虑对所预测的因变量加以变换。1970年,COX引入了用于人口学领域的Logit变换。
11
Z -5 -4 -3 -2 -1 1 2 3 4 5 .2 .4 .6 .8 P
12
什么叫Logit变换?通常把出现某种结果的概率与不出现的概率之比称为比值
Odds=P/1-P,将其纳入对数=Ln(P/1-P) 概率P是以0.5为对称点,分布在0~1的范围内的,而相应的Logit(P)的大小为 P=0 Logit(P)=Ln(0/1)=-无穷大 P=0.5 Logit(P)=Ln(0.5/0.5)=0 P=1 Logit(P)=Ln(1/0)=+无穷大 Logit(P )取值范围扩展为(-,+ -)
13
Logit变换 也称对数单位转换 logit P=
14
其中,为常数项,为偏回归系数。
15
二、参数估计 建立Logistic回归方程就是求和i 意义 常数项是当各种暴露因素为0时,个体发病与不发病概率之比的自然对数值。
意义 常数项是当各种暴露因素为0时,个体发病与不发病概率之比的自然对数值。 i意义 偏回归系数表示在其它自变量固定的条件下, 第n个自变量每改变一个单位时logit的改变量。它与比数比(优势比)(odds ratio)有对应关系。
16
1、回归系数的估计:最大似然估计法 (Maximum likehood estimate)
17
最大似然法的基本思想是先建立似然函数与对数似然函数,再通过使对数似然函数最大求解相应的参数值(使得一次抽样中获得现有样本的概率为最大),所得到的估计值称为参数的最大似然估计值。
18
三、参数检验 似然比检验(likehood ratio test) G=-2(ln Lp-ln Lk)
通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为G (又称Deviance)。 G=-2(ln Lp-ln Lk) 样本量较大时, G近似服从自由度为待检验因素个数的2分布。
19
比分检验(score test) 以未包含某个或几个变量的模型为基础,保留模型中参数的估计值,并假设新增加的参数为零,计算似然函数的一价偏导数(又称有效比分)及信息距阵,两者相乘便得比分检验的统计量S 。样本量较大时, S近似服从自由度为待检验因素个数的2分布。
20
Wald检验( wald test) 即广义的t检验,统计量为u u服从正态分布,即为标准正态离差。 Logistic回归系数的区间估计
21
上述三种方法中,似然比检验最可靠,比分检验一般与它相一致,但两者均要求较大的计算量;而Wald检验未考虑各因素间的综合作用,在因素间有共线性时结果不如其它两者可靠。
22
四、回归系数的意义 单纯从数学上讲,与多元线性回归分析中回归系数的解释并无不同,亦即bi表示xi改变一个单位时, logit P的平均变化量。
24
流行病学中的一些基本概念: 相对危险度(relative risk): RR=P1/P2 比数 Odds=P/(1-P)
比数比 OR=[P1/(1-P1)]/[P2/(1-P2)] 在患病率较小情况下,OR≈RR
25
设P表示暴露因素X时个体发病的概率,则发病的概率P与未发病的概率1-P 之比为优势(odds), logit P就是odds的对数值。
优势比 常把出现某种结果的概率与不出现的概率之比称为比值(odds),即odds=p/1-p。两个比值之比称为比值比(Odds Ratio),简称OR。
26
Logistic回归中的常数项(b0)表示,在不接触任何潜在危险/保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。
Logistic回归中的回归系数( bi )表示,某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即OR的对数值。
28
分析因素xi为多分类变量时,为方便起见,常用1,2,…,k分别表示k个不同的类别。进行Logistic回归分析前需将该变量转换成k-1个指示变量或哑变量(design/dummy variable),这样指示变量都是一个二分变量,每一个指示变量均有一个估计系数,即回归系数,其解释同前。
29
分析因素xi为等级变量时,如果每个等级的作用相同,可按计量资料处理:如以最小或最大等级作参考组,并按等级顺序依次取为0,1,2,…。此时, e(bi) 表示xi增加一个等级时的优势比, e(k* bi)表示xi增加k个等级时的优势比。如果每个等级的作用不相同,则应按多分类资料处理。 分析因素xi为连续性变量时, e(bi)表示xi增加一个计量单位时的优势比。
30
多因素Logistic回归分析时,对回归系数的解释都是指在其它所有自变量固定的情况下的优势比。存在因素间交互作用时, Logistic回归系数的解释变得更为复杂,应特别小心。
31
根据Wald检验,可知Logistic回归系数bi服从u分布。因此其可信区间为
进而,优势比e(bi)的可信区间为
32
五、 Logistic回归分析方法 基本思想同线性回归分析。
从所用的方法看,有强迫法、前进法、后退法和逐步法。在这些方法中,筛选变量的过程与线性回归过程的完全一样。但其中所用的统计量不再是线性回归分析中的F统计量,而是以上介绍的参数检验方法中的三种统计量之一。
33
为计算方便,通常向前选取变量用似然比或比分检验,而向后剔除变量常用Wald检验。
34
六、 Logistic回归的应用 危险/保健因素的筛选,并确定其作用大小。 预测:预测某种情况下或者某个病例,某特定事件发生的概率。
35
影响因素为分类变量时,用列联表形式 卡方检验 存在分类的混杂因素时,用Mantel-Haensze 但存在局限性(1)控制混杂因素,但无法描 述作用大小及方向(2)样本量要求大,单元 格划分太细(3)无法对连续性自变量的影响 进行分析
36
二分类Logistic对资料的要求 (1)反应变量为二分类的分类变量。(发病率等存在重复计数的指标不适用 (2)误差项服从二项分布(不是正态分布),不再使用最小二乘法进行参数估计,而使用最大似然法来解决方程的估计和检验问题) (3)观察对象相互独立 (4)所需样本数为自变量个数的5-10倍。
37
分析实例 分析糖尿病患者继发肿瘤与否的影响因素,采用二分类Logistic 回归分析。 步骤是: 程序编辑窗主菜单 Analyze → 选 Regression (回归分析) → 选 Binary Logictic (两分类变量 Logictic 回归分析,出现 Logistic Regression 窗口 → 将 是否肿瘤选入右边的 Dependent (因变量)窗口中 → 将sex、age 、血脂、血压等均选入右边的 Covariats(协变量,这里是自变量) 窗口中,
38
Forward: LR ( 向前逐步法:似然比法 likelihood ratio,LR)→ 再击下方的 Save 钮,将 Predicted values、 Influence 与 Residuls 窗口中的预选项全勾选 → Continue → 再击下方的 Options 钮,将 Statistics and Plot 小窗口中的选项全勾选 → Continue → OK 。
39
哑变量 自变量为多分类变量,与应变量之间通常不存在线性关系,须用哑变量方式分析。若K为该变量的水平数,则系统将自动产生K-1个哑变量。Categorical子对话框用于此设置。 多分类无序自变量 多分类有序自变量,要求其等级分组与LogitP呈线性关系,如不满足条件,则将等级变量当作无序变量,用哑变量进行分析。
40
SPSS中 Categorical 按钮实现
Indicator:指标对比 ,参照水平 注意:有实际意义;参照水平有一定频数保证。
41
多分类Logistic分析 一、有序多分类Logistic回归模型
应变量水平数大于2,且水平之间不存在等级递减或递增的关系时,对这种多分类变量通过拟合一种广义Logit模型方法。 如某项治疗效果分为痊愈、有效、好转、无效,可通过累积Logit模型。设反应变量的取值为1,2,3,4,相应取值水平的概率为1、 2、 3、 4
42
对n个自变量拟合三个模型
43
实际是依次将反应变量按不同的取值水平分割呈两个等级,对这两个等级建立反应变量为二分类的Lgistic回归模型。
常数项改变了,偏回归系数不变。OR值是自变量没改变一个单位,反应变量提高一个及一个以上等级的比数比。
44
SPSS操作如下 Analyze → 选 Regression (回归分析) → 选 Ordinal → Dependent (因变量)窗口中 → Covariats(连续性变量自变量),Factor框(分类变量)-ok
45
二、无序多分类Logistic回归模型
46
Analyze → 选 Regression (回归分析) → 选 Multinomial → Dependent (因变量)窗口中 → Covariats(连续性变量自变量),Factor框(分类变量)-OK
47
假设自变量在各配比组中对结果变量的作用是相同的,即自变量的回归系数与配比组无关。
配比设计的Logistic回归模型 其中不含常数项。
48
可以看出此回归模型与非条件Logistic回归模型十分相似,只不过这里的参数估计是根据条件概率得到的,因此称为条件Logistic回归模型。
49
病例对照研究的类型 (一)病例与对照不匹配---非条件logistic回归
在设计所规定的病例和对照人群中,分别抽取一定量的研究对象,一般对照应等于或多于病例数,此外无其他任何限制。 (二)病例与对照匹配---条件logistic回归 匹配或称配比(matching),即要求对照在某些因素或特征上与病例保持一致,目的是对两组比较时排除混杂因素的干扰。匹配分为成组匹配和个体匹配。
50
条件logistic回归
51
病例与对照匹配---条件logistic回归
1、成组匹配(category matching):匹配的因素所占的比例,在对照组和在病例组一致。如病例组中男女各半,65岁以上者占1/3,则对照组也是如此。 2、个体匹配(individual matching):以病例和对照的个体为单位进行匹配叫个体匹配。1:1匹配又叫配对(pair matching), 1:2,┅ ,1:m匹配时称为匹配。 匹配的特征必须是已知的混杂因子,或者有充分的理由怀疑其为混杂因子,否则不应匹配。
52
在配比研究中,研究者通常不关心层因素的作用,不需要估计层因素的参数。条件logistic回归用条件似然函数替代一般似然函数。在构造条件似然函数时考虑了层因素的影响,使在最后得到的模型中消去了反映层因素的参数,从而减少了模型中要估计的参数,降低了对样本含量的要求。
55
1:3配对的例子
57
Analyze → 选 Regression (回归分析) → 选 Multinomial → Dependent (因变量)窗口中 → Covariats(连续性变量自变量),Factor框(分类变量)-Model:去除Include intercept in model –continue-OK
Similar presentations