Logistic回归分析 汕大医学院预防医学教研室.

Slides:



Advertisements
Similar presentations
一、 一阶线性微分方程及其解法 二、 一阶线性微分方程的简单应用 三、 小结及作业 §6.2 一阶线性微分方程.
Advertisements

第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
第三节 微分 3.1 、微分的概念 3.2 、微分的计算 3.3 、微分的应用. 一、问题的提出 实例 : 正方形金属薄片受热后面积的改变量.
数据统计分析思路 医学论文写作系列讲座 I 第二部分:回归分析基础 哈佛大学医学院: 陈常中 2012年11月
3.4 空间直线的方程.
非线性时间序列模型 一般非线性时间序列模型介绍 条件异方差模型 上海财经大学 统计与管理学院.
二元羅吉斯迴歸 9.1 前言 9.2 二元羅吉斯迴歸之原理 9.3 參數校估原理 9.4 SPSS之操作 9.5 多元自變數與虛擬變數
病例对照研究 Case-control Study.
第十章 相关与回归分析 PowerPoint 统计学.
第五章 二次型. 第五章 二次型 知识点1---二次型及其矩阵表示 二次型的基本概念 1. 线性变换与合同矩阵 2.
一、能线性化的多元非线性回归 二、多元多项式回归(线性化)
第三章 函数逼近 — 最佳平方逼近.
第九章 Logistic回归分析.
医学统计学 8 主讲人 陶育纯 医学统计学 8 主讲人 陶育纯
介绍: 1、回归分析的概念和模型 2、回归分析的过程
6.6 单侧置信限 1、问题的引入 2、基本概念 3、典型例题 4、小结.
完全随机设计多样本资料秩和检验.
《高等数学》(理学) 常数项级数的概念 袁安锋
预测与决策分析 Forecasting and Decision Analysis
参见郭志刚主编,《社会统计分析方法—SPSS软件应用》
量化视角下的豆粕投资机会分析 格林期货研发培训中心 郭坤龙.
第5章 定积分及其应用 基本要求 5.1 定积分的概念与性质 5.2 微积分基本公式 5.3 定积分的换元积分法与分部积分法
第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 实习2 主讲人 陶育纯 医学统计学方法 实习2 主讲人 陶育纯 流行病与卫生统计学教研室
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
2-7、函数的微分 教学要求 教学要点.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
第十六章 logistic回归分析 (Logistic Regression)
SPSS軟體與迴歸分析 南台科技大學企管系 呂金河.
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
介绍: 1、回归分析的概念和模型 2、回归分析的过程
Multiple linear regression
统计软件应用 7 主讲人 陶育纯 SPSS统计分析 统计软件应用 7 主讲人 陶育纯 教案.
全国高校数学微课程教学设计竞赛 知识点名称: 导数的定义.
第2章 一元线性回归 2 .1 一元线性回归模型 2 .2 参数 的估计 2 .3 最小二乘估计的性质 2 .4 回归方程的显著性检验
主講人 陳陸輝 特聘研究員兼主任 政治大學選舉研究中心 美國密西根州立大學博士
第一讲: 基本流程(1).
计算机数学基础 主讲老师: 邓辉文.
第十章 方差分析.
第七章 参数估计 7.3 参数的区间估计.
若2002年我国国民生产总值为 亿元,如果 ,那么经过多少年国民生产总值 每年平均增长 是2002年时的2倍? 解:设经过 年国民生产总值为2002年时的2倍, 根据题意有 , 即.
第4章 非线性规划 4.5 约束最优化方法 2019/4/6 山东大学 软件学院.
第一章 函数与极限.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
C++语言程序设计 C++语言程序设计 第七章 类与对象 第十一组 C++语言程序设计.
抽样和抽样分布 基本计算 Sampling & Sampling distribution
相似三角形 石家庄市第十中学 刘静会 电话:
模型分类问题 Presented by 刘婷婷 苏琬琳.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
第4章 Excel电子表格制作软件 4.4 函数(一).
3.1 变化率与导数   3.1.1 变化率问题 3.1.2 导数的概念.
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
一 测定气体分子速率分布的实验 实验装置 金属蒸汽 显示屏 狭缝 接抽气泵.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
学习任务三 偏导数 结合一元函数的导数学习二元函数的偏导数是非常有用的. 要求了解二元函数的偏导数的定义, 掌握二元函数偏导数的计算.
第一部分:概率 产生随机样本:对分布采样 均匀分布 其他分布 伪随机数 很多统计软件包中都有此工具 如在Matlab中:rand
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
概率论与数理统计B.
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
§2 方阵的特征值与特征向量.
第三节 随机区组设计的方差分析 随机区组设计资料的总平方和可以分解为三项: (10.10).
Logistic回归 Logistic regression 研究生《医学统计学》.
回归分析实验课程 (实验三) 多项式回归和定性变量的处理.
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
Volterra-Lotka方程 1925年, A. Lotka(美)和V. Volterra(意)给出了第一个两物种间的捕食模型。
数学模型实验课(二) 最小二乘法与直线拟合.
§2 自由代数 定义19.7:设X是集合,G是一个T-代数,为X到G的函数,若对每个T-代数A和X到A的函数,都存在唯一的G到A的同态映射,使得=,则称G(更严格的说是(G,))是生成集X上的自由T-代数。X中的元素称为生成元。 A变, 变 变, 也变 对给定的 和A,是唯一的.
Presentation transcript:

Logistic回归分析 汕大医学院预防医学教研室

Logistic regression: 是研究分类变量统计分析的一种重要方法。研究两水平或多水平反应变量与其影响因子间关系的回归分析(线性回归分析: 应变量为连续计量资料)。

如二项分类,如某种疾病的患病与否 某一治疗结果有效和无效 器官移植后生存或死亡 多项有序分类:某一治疗结果,治愈、显效、 有效、无效; 多项无序分类:肝炎分型 甲、乙、丙、丁、 戊 研究分类反应变量与多个影响因素之间的相互关系的一种多变量分析方法,进行疾病的病因分析。

Logistic回归的分类 Logistic回归 二分类 有序反应变量 多分类 无序反应变量 非条件 1:1配对资料 条件Logistic回归 1:m配对资料 m:n配对资料

Logistic回归模型是一种概率模型, 通常以疾病,死亡等结果发生的概率为因变量, 影响疾病发生的因素为自变量建立回归模型。

例:为了探讨糖尿病与血压、血脂等因素的关系,研究者对56例糖尿病病人和65例对照者进行病例对照研究,收集了性别、年龄、学历、体重指数、家族史、吸烟、血压、总胆固醇、甘油三脂、高密度脂蛋白、低密度脂蛋白11个因素的资料,各因素的观察结果见表

二分类反应变量Y= 1 出现阳性结果 0 出现阴性结果 对反应变量有影响的因素有n个,称为自变量X1,X2,….Xn 在n个自变量作用下出现阳性结果的条件概率为P=P(Y=1 (X1,X2,….Xn)

一、Logistic回归方程   Logistic回归的logit模型

(1)取值问题 (2)曲线关联 反应变量与自变量的关系通常不是直线关系,而是S型曲线。曲线回归时,往往采用变量变化,使得曲线直线化,再进行直线回归方程的拟合。能否考虑对所预测的因变量加以变换。1970年,COX引入了用于人口学领域的Logit变换。

Z -5 -4 -3 -2 -1 1 2 3 4 5 .2 .4 .6 .8 P

什么叫Logit变换?通常把出现某种结果的概率与不出现的概率之比称为比值 Odds=P/1-P,将其纳入对数=Ln(P/1-P) 概率P是以0.5为对称点,分布在0~1的范围内的,而相应的Logit(P)的大小为 P=0 Logit(P)=Ln(0/1)=-无穷大 P=0.5 Logit(P)=Ln(0.5/0.5)=0 P=1 Logit(P)=Ln(1/0)=+无穷大 Logit(P )取值范围扩展为(-,+ -)

Logit变换 也称对数单位转换 logit P=

其中,为常数项,为偏回归系数。

二、参数估计 建立Logistic回归方程就是求和i 意义 常数项是当各种暴露因素为0时,个体发病与不发病概率之比的自然对数值。 意义 常数项是当各种暴露因素为0时,个体发病与不发病概率之比的自然对数值。 i意义 偏回归系数表示在其它自变量固定的条件下, 第n个自变量每改变一个单位时logit的改变量。它与比数比(优势比)(odds ratio)有对应关系。

1、回归系数的估计:最大似然估计法 (Maximum likehood estimate)

 最大似然法的基本思想是先建立似然函数与对数似然函数,再通过使对数似然函数最大求解相应的参数值(使得一次抽样中获得现有样本的概率为最大),所得到的估计值称为参数的最大似然估计值。

三、参数检验 似然比检验(likehood ratio test) G=-2(ln Lp-ln Lk)   通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为G (又称Deviance)。 G=-2(ln Lp-ln Lk) 样本量较大时, G近似服从自由度为待检验因素个数的2分布。

比分检验(score test)   以未包含某个或几个变量的模型为基础,保留模型中参数的估计值,并假设新增加的参数为零,计算似然函数的一价偏导数(又称有效比分)及信息距阵,两者相乘便得比分检验的统计量S 。样本量较大时, S近似服从自由度为待检验因素个数的2分布。

Wald检验( wald test)   即广义的t检验,统计量为u u服从正态分布,即为标准正态离差。   Logistic回归系数的区间估计

上述三种方法中,似然比检验最可靠,比分检验一般与它相一致,但两者均要求较大的计算量;而Wald检验未考虑各因素间的综合作用,在因素间有共线性时结果不如其它两者可靠。

四、回归系数的意义 单纯从数学上讲,与多元线性回归分析中回归系数的解释并无不同,亦即bi表示xi改变一个单位时, logit P的平均变化量。

流行病学中的一些基本概念: 相对危险度(relative risk): RR=P1/P2 比数 Odds=P/(1-P) 比数比   OR=[P1/(1-P1)]/[P2/(1-P2)] 在患病率较小情况下,OR≈RR

设P表示暴露因素X时个体发病的概率,则发病的概率P与未发病的概率1-P 之比为优势(odds), logit P就是odds的对数值。 优势比 常把出现某种结果的概率与不出现的概率之比称为比值(odds),即odds=p/1-p。两个比值之比称为比值比(Odds Ratio),简称OR。

Logistic回归中的常数项(b0)表示,在不接触任何潜在危险/保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。 Logistic回归中的回归系数( bi )表示,某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即OR的对数值。

分析因素xi为多分类变量时,为方便起见,常用1,2,…,k分别表示k个不同的类别。进行Logistic回归分析前需将该变量转换成k-1个指示变量或哑变量(design/dummy variable),这样指示变量都是一个二分变量,每一个指示变量均有一个估计系数,即回归系数,其解释同前。

分析因素xi为等级变量时,如果每个等级的作用相同,可按计量资料处理:如以最小或最大等级作参考组,并按等级顺序依次取为0,1,2,…。此时, e(bi) 表示xi增加一个等级时的优势比, e(k* bi)表示xi增加k个等级时的优势比。如果每个等级的作用不相同,则应按多分类资料处理。 分析因素xi为连续性变量时, e(bi)表示xi增加一个计量单位时的优势比。

多因素Logistic回归分析时,对回归系数的解释都是指在其它所有自变量固定的情况下的优势比。存在因素间交互作用时, Logistic回归系数的解释变得更为复杂,应特别小心。

根据Wald检验,可知Logistic回归系数bi服从u分布。因此其可信区间为 进而,优势比e(bi)的可信区间为

五、 Logistic回归分析方法 基本思想同线性回归分析。 从所用的方法看,有强迫法、前进法、后退法和逐步法。在这些方法中,筛选变量的过程与线性回归过程的完全一样。但其中所用的统计量不再是线性回归分析中的F统计量,而是以上介绍的参数检验方法中的三种统计量之一。

为计算方便,通常向前选取变量用似然比或比分检验,而向后剔除变量常用Wald检验。

六、 Logistic回归的应用 危险/保健因素的筛选,并确定其作用大小。 预测:预测某种情况下或者某个病例,某特定事件发生的概率。

影响因素为分类变量时,用列联表形式 卡方检验 存在分类的混杂因素时,用Mantel-Haensze 但存在局限性(1)控制混杂因素,但无法描 述作用大小及方向(2)样本量要求大,单元 格划分太细(3)无法对连续性自变量的影响 进行分析

二分类Logistic对资料的要求 (1)反应变量为二分类的分类变量。(发病率等存在重复计数的指标不适用 (2)误差项服从二项分布(不是正态分布),不再使用最小二乘法进行参数估计,而使用最大似然法来解决方程的估计和检验问题) (3)观察对象相互独立 (4)所需样本数为自变量个数的5-10倍。

分析实例 分析糖尿病患者继发肿瘤与否的影响因素,采用二分类Logistic 回归分析。 步骤是: 程序编辑窗主菜单 Analyze → 选 Regression (回归分析) → 选 Binary Logictic (两分类变量 Logictic 回归分析,出现 Logistic Regression 窗口 → 将 是否肿瘤选入右边的  Dependent (因变量)窗口中 → 将sex、age 、血脂、血压等均选入右边的 Covariats(协变量,这里是自变量) 窗口中,

Forward: LR ( 向前逐步法:似然比法 likelihood  ratio,LR)→ 再击下方的 Save 钮,将 Predicted values、 Influence 与 Residuls 窗口中的预选项全勾选  → Continue → 再击下方的 Options 钮,将 Statistics and Plot 小窗口中的选项全勾选 → Continue →  OK 。

哑变量 自变量为多分类变量,与应变量之间通常不存在线性关系,须用哑变量方式分析。若K为该变量的水平数,则系统将自动产生K-1个哑变量。Categorical子对话框用于此设置。 多分类无序自变量 多分类有序自变量,要求其等级分组与LogitP呈线性关系,如不满足条件,则将等级变量当作无序变量,用哑变量进行分析。

SPSS中 Categorical 按钮实现 Indicator:指标对比 ,参照水平 注意:有实际意义;参照水平有一定频数保证。

多分类Logistic分析 一、有序多分类Logistic回归模型 应变量水平数大于2,且水平之间不存在等级递减或递增的关系时,对这种多分类变量通过拟合一种广义Logit模型方法。 如某项治疗效果分为痊愈、有效、好转、无效,可通过累积Logit模型。设反应变量的取值为1,2,3,4,相应取值水平的概率为1、 2、 3、 4

对n个自变量拟合三个模型

实际是依次将反应变量按不同的取值水平分割呈两个等级,对这两个等级建立反应变量为二分类的Lgistic回归模型。 常数项改变了,偏回归系数不变。OR值是自变量没改变一个单位,反应变量提高一个及一个以上等级的比数比。

SPSS操作如下 Analyze → 选 Regression (回归分析) → 选 Ordinal → Dependent (因变量)窗口中 → Covariats(连续性变量自变量),Factor框(分类变量)-ok

二、无序多分类Logistic回归模型

Analyze → 选 Regression (回归分析) → 选 Multinomial → Dependent (因变量)窗口中 → Covariats(连续性变量自变量),Factor框(分类变量)-OK

假设自变量在各配比组中对结果变量的作用是相同的,即自变量的回归系数与配比组无关。 配比设计的Logistic回归模型 其中不含常数项。

可以看出此回归模型与非条件Logistic回归模型十分相似,只不过这里的参数估计是根据条件概率得到的,因此称为条件Logistic回归模型。

病例对照研究的类型 (一)病例与对照不匹配---非条件logistic回归 在设计所规定的病例和对照人群中,分别抽取一定量的研究对象,一般对照应等于或多于病例数,此外无其他任何限制。 (二)病例与对照匹配---条件logistic回归 匹配或称配比(matching),即要求对照在某些因素或特征上与病例保持一致,目的是对两组比较时排除混杂因素的干扰。匹配分为成组匹配和个体匹配。

条件logistic回归

病例与对照匹配---条件logistic回归 1、成组匹配(category matching):匹配的因素所占的比例,在对照组和在病例组一致。如病例组中男女各半,65岁以上者占1/3,则对照组也是如此。 2、个体匹配(individual matching):以病例和对照的个体为单位进行匹配叫个体匹配。1:1匹配又叫配对(pair matching), 1:2,┅ ,1:m匹配时称为匹配。 匹配的特征必须是已知的混杂因子,或者有充分的理由怀疑其为混杂因子,否则不应匹配。

在配比研究中,研究者通常不关心层因素的作用,不需要估计层因素的参数。条件logistic回归用条件似然函数替代一般似然函数。在构造条件似然函数时考虑了层因素的影响,使在最后得到的模型中消去了反映层因素的参数,从而减少了模型中要估计的参数,降低了对样本含量的要求。

1:3配对的例子

Analyze → 选 Regression (回归分析) → 选 Multinomial → Dependent (因变量)窗口中 → Covariats(连续性变量自变量),Factor框(分类变量)-Model:去除Include intercept in model –continue-OK