医学统计学 8 主讲人 陶育纯 http://cc.jlu.edu.cn/ms.html http://cc.jlu.edu.cn/ss.html 医学统计学 8 主讲人 陶育纯 2013.6.13
第八讲 课程名称:医学统计学 主要教材: «卫生统计学» 第7版 方积乾 主编 人民卫生出版社 年级、专业:2010级白求恩医学班 方积乾 主编 人民卫生出版社 年级、专业:2010级白求恩医学班 授课时间:2013年6月14日 授课时数:4h 2013.6.13
目录 ※第十八章 logistic回归分析的SPSS操作 ※第十九章 生存分析的SPSS操作 2013.6.13
一、非条件logistic回归 第十八章 logistic回归分析的SPSS操作 ㈠ logistic回归的概念 logistic回归(logistic regression) 定义:是研究分类类型的因变量和多个自变量间依存关系的一种非线性的多重回归方法。 非线性 1个因变量(分类) k个自变量(k>1) 2013.6.13
若发生率P为应变量,仍用线性模型处理,则不能保证在自变量的各种组合下,P的取值仍限制在0~1内。 ㈡ logistic回归的基本原理 医学研究中常碰到应变量的可能取值仅有两个(即二分类变量),如发病与未发病、阳性与阴性、死亡与生存、治愈与未治愈、暴露与未暴露等,显然这类资料不满足多重回归的条件。 若发生率P为应变量,仍用线性模型处理,则不能保证在自变量的各种组合下,P的取值仍限制在0~1内。 logistic回归模型成功地解决了上述问题,已成为流行病学中研究疾病发生与危险因素间关系 2013.6.13
较常用的方法,此外在校正混杂因素、疾病预后的估计、疾病诊断等方面也可应用此方法。 logistic回归模型的基本原理如下: 2013.6.13
由上式推导可得: OR 2013.6.13
此式即为logistic回归模型。式中β0为常数项, 参数βi为logistic回归系数。 Logistic回归参数的估计通常采用最大似然法 (Maximum Likelihood,ML)。最大似然法的基本 思想是先建立似然函数与对数似然函数,再通过 使对数似然函数最大求解相应的参数值,所得到 的估计值称为参数的最大似然估计值。 2013.6.13
Logistic回归参数估计的基本原理如下: 2013.6.13
logistic回归模型建立后,需要作假设检验。 logistic回归模型的假设检验常用方法有: 1. 似然比检验(Likelihood Ratio Test) 通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为G(又称Deviance)。 G=-2(ln Lp-ln Lk) 样本量较大时,G近似服从自由度为待检验因素个数的2分布。 2013.6.13
检验假设为:H0: β=0, H1: β≠0 。通过Wald统计量2i检验,2i近似服从自由度为1的2分布。 2. 记分检验(Score Test) 以未包含某个或几个变量的模型为基础,保留模型中参数的估计值,并假设新增加的参数为零,计算似然函数的一价偏导数(又称有效比分)及信息距阵,两者相乘便得比分检验的统计量S。样本量较大时,S近似服从自由度为待检验因素个数的2分布。 3. Wald检验(Wald Test) 检验假设为:H0: β=0, H1: β≠0 。通过Wald统计量2i检验,2i近似服从自由度为1的2分布。 2013.6.13
上述三种方法中,似然比检验最可靠,记分检验一般与它相一致,但两者均要求较大的计算量;而Wald检验未考虑各因素间的综合作用,在因素间有共线性时结果不如其它两者可靠。 2013.6.13
2013.6.13
设π表示暴露因素X时个体发病的概率,则发病的概率π与未发病的概率1- π之比为优势(odds), logit π就是odds的对数。 流行病学概念: 设π表示暴露因素X时个体发病的概率,则发病的概率π与未发病的概率1- π之比为优势(odds), logit π就是odds的对数。 2013.6.13
相对危险度(relative risk): RR= π 1/ π 2 比数(odds) : Odds= π /(1- π) 比数比(odds ratio): OR=[π 1/(1- π 1)]/[π 2/(1- π 2)] 在患病率较小情况下,OR≈RR。 2013.6.13
Logistic回归中的常数项( β0 )表示,在不接触任何 潜在危险/保护因素条件下,效应指标发生与不发生 事件的概率之比的对数值。 Logistic回归中的回归系数( βi )表示,某一因素改 变一个单位时,效应指标发生与不发生事件的概率之 比的对数变化值,即OR或RR的对数值。 分析因素Xi为二分类变量时,存在(暴露)Xi =1,不存在(未暴露) Xi =0,则Logistic回归中Xi的系数βi就是暴露与非暴露优势比之对数值。 即OR=exp(βi )=eβi 。 2013.6.13
Logistic回归分析的一般步骤 变量的编码 哑变量的设置和引入 各个自变量的单因素分析 自变量的筛选 交互作用的引入 建立多个模型 选择较优的模型 模型应用条件的评价 输出结果的解释 2013.6.13
1. 变量的编码 变量的编码要易于识别 注意编码的等级关系 改变分类变量的编码,其分析的意义并不 改变。 牢记编码 1. 变量的编码 变量的编码要易于识别 注意编码的等级关系 改变分类变量的编码,其分析的意义并不 改变。 牢记编码 使用变量数值标识(value labels) 记录编码内容 2013.6.13
变量的编码举例 SEX 性别 1 男 variable labels value labels 变量名 变量标识 变量值 值标识 2 女 变量名 变量标识 变量值 值标识 SEX 性别 1 男 2 女 EDU 教育程度 0 文盲 1 小学 2 初中及以上 2013.6.13
SPSS数据库中的变量编码 variable labels sex '性别' edu ‘教育程度’ value labels 2013.6.13
2. 哑变量的设置和引入 哑变量,又称指示变量或设计矩阵。 有利于检验等级变量各个等级间的变化是否相同。 2. 哑变量的设置和引入 哑变量,又称指示变量或设计矩阵。 有利于检验等级变量各个等级间的变化是否相同。 一个k分类的分类变量,可以用k-1个哑变量来表示。 使用变量数值标识。 2013.6.13
哑变量设置举例 婚姻状况:结婚,离婚,丧偶,单身 婚姻状况 X1 X2 X3 结婚:0 离婚:1 1 丧偶:2 单身:3 2013.6.13
以单身作为参照 婚姻状况 X1 X2 X3 结婚:0 1 离婚:1 丧偶:2 单身:3 2013.6.13
SPSS中哑变量的设置(Categorical…按钮) Indicator: 默认。以第1 或最后1类作对照,其他每类与对照比较; Sample: 以第1 或最后1类作对照,其他每类与对照比较,但反映 平均效应。 Difference: 除第1类外各分类与其前各类平均效应比较; Helmert: 除最后1类外各分类与其前各类平均效应比较; Repeated: 除第1类外各分类与其前一类比较; Polynomial: 假设类间距相等,用于数值型变量。 Deviation: 以第1 或最后1类作对照,其余每类与总效应比较。 2013.6.13
3. 自变量的单因素分析 了解自变量与因变量的分布 检验是否符合建立模型的应用条件 各个自变量两组间的比较 双变量分析 3. 自变量的单因素分析 了解自变量与因变量的分布 检验是否符合建立模型的应用条件 偏离应用条件时,进行数据变换 各个自变量两组间的比较 计数资料 计量资料 双变量分析 2013.6.13
理论上看,前进法选择变量的经验公式缺乏总体概念,当用于因 4. 自变量的筛选 变量筛选的可用方法 逐步logistic回归:自动选择有显著性的自变量, 不仅用于自变量的剔选,也用于交互作用项是否显著 的判断。 前进法:逐个引入模型外的变量。 后退法:放入所有变量,再逐个筛选。 理论上看,前进法选择变量的经验公式缺乏总体概念,当用于因 素分析时,建议用后退法。当变量间有完全相关性时,后退法无法使 用,可用前进法。 2013.6.13
5. 交互作用的引入 交互作用的定义 交互作用项的引入 交互作用的检验 交互作用的解释 5. 交互作用的引入 交互作用的定义 当自变量和因变量的关系随第三个变量的变化而改变时,则存在交互作用 交互作用项的引入 基于临床实际认为对结果有重要影响 基于模型应用条件的分析 引入两个自变量的乘积项 交互作用的检验 交互作用的解释 2013.6.13
6. 建立多个模型 饱和模型 自定义的模型 从饱和模型中选择自变量 再建立模型 可以略去 不看! 2013.6.13
7. 选择较优的模型 模型拟合优度检验 AIC(Akaike information criterion): 7. 选择较优的模型 模型拟合优度检验 AIC(Akaike information criterion): 同一资料的多个模型的比较,此值越小,模型越合适。 SC(Schwartz criterion):同上 Score统计量:同上,但不包括截距项。 -2logL(似然比检验,Omnibus Test):检验全部自变量的作用是否显著。较为可靠。适用于含连续性变量的情况。模型拟合好, 2值大,P值小。 Hosmer-Lemeshow检验:评价估计概率和观察概率接近的程度。适用于含连续性变量的情况。模型好, 2值小,P值大。 2013.6.13
8. 模型应用条件的评价 残差分析 合理的logistic回归模型也可能得到不理想 的残差,这在自变量是二分类变量时更易 出现。 8. 模型应用条件的评价 残差分析 残差是观察值与估计值之差。 合理的logistic回归模型也可能得到不理想 的残差,这在自变量是二分类变量时更易 出现。 增加交互作用项可能增加模型的效能。 可以做眼保操! 2013.6.13
9. 输出结果的解释 模型中各个系数的显著性检验 Wald检验:类似于直线回归系数的t检验 Wald 2检验:同上 9. 输出结果的解释 模型中各个系数的显著性检验 Wald检验:类似于直线回归系数的t检验 Wald 2检验:同上 似然比检验:自变量不在模型中与在模型中的似然值比较。 Score检验 2013.6.13
回归系数的解释 系数的正负值:正(负)系数表示随自变量的增加 因变量logit值的增加(减少)。 二分类自变量 系数为比数比的对数值,由此可得比数比=eb。 多分类自变量 以第i类作参照,比较相邻或相隔的两个类别。 连续型自变量 当自变量改变一个单位时,比数比为eb。 2013.6.13
由模型回归系数计算得到的各个自 变量的比数比的临床意义 模型拟合的优劣 自变量与结果变量(因变量)有无关系 确认因变量与自变量的编码 模型包含的各个自变量的临床意义 由模型回归系数计算得到的各个自 变量的比数比的临床意义 不看理论,看实例! 2013.6.13
㈢ logistic回归的实例 例6. 成组病例-对照研究。在饮酒与食道癌的病例-对照研究中,考虑到年龄可能是混杂因素,按年龄分层后资料整理见下表6。 2013.6.13
此例若不考虑年龄的混杂作用,可以简单地估计本例饮酒与患食道癌的优势比: OR=(96×665)/(104×109)=5.63 此例若考虑年龄的混杂作用,则需要分层估计OR,但本例第1和第6年龄组都出现频数为0,使得这两组无法估计OR。 logistic回归模型能较好地利用所有的信息,校正混杂作用,估计排除年龄影响后饮酒与患食道癌的关系。 2013.6.13
SPSS分析步骤 1. 建立SPSS数据文件(见exp6.sav); 相当 重要! 2. 频数加权:Data → Weight Cases → Weight cases by freq → OK。 freq是频数变量。 3. 分析: Analyze → Regression → Binary Logistic … 打开Logistic Regression对话框,将Y变量(id)调入Dependent: 栏中,将X1、X2变量(drink、age)调入Covariates :栏中,点击 Catergorical …按钮打开哑变量定义窗口,将age调入右侧 窗口,选择First ,点击 Change → Continue→ OK即可完 成Logistic回归分析。(Method:默认选Enter) 2013.6.13
SPSS分析结果1 Logistic Regression 不算加权的例数 2013.6.13
SPSS分析结果2 年龄变量 的哑变量 编码表 Block 0: Beginning Block 2013.6.13
SPSS分析结果3 只含常数 项的方程 Block 1: Method = Enter 似然比检验的结果 2013.6.13
SPSS分析结果4 OR=Exp(B ) 2013.6.13
此例考虑年龄的混杂作用,用logistic回归模型估计本例饮酒与患食道癌的优势比OR=5. 297,比未校正年龄的5 此例的logistic回归模型有统计学意义(似然比2=200.573,P<0.001),而且饮酒和年龄都是影响食道癌的有统计学意义的因素(Wald检验2=77.291,P<0.001和Wald检验2= 57.193,P<0.001),二者的OR值为正,故都为危险因素。 2013.6.13
一、生存分析简介 第二十一章 生存分析的SPSS操作 To be or not to be, that is a question. ㈠ 生存资料的特点 To be or not to be, that is a question. 医学研究中常用死亡率或存活率来表达某事件在一定时间内终极结果的发生强度或概率。显然这是一种只考虑结果而不考虑过程的方法。 2013.6.13
医学研究中常有需要考虑过程(时间)的研究,如治疗爱滋病的疗效观察,研究其能否使病人存活时间延长是主要的目的。 对于像肿瘤、结核及其他慢性疾病而言,其预后不是短期内所能明确判断的,这时常采取对病人进行随访(Follow Up)调查,统计一定期限后的生存时间(Survival Time)的长短以判断疗效。 此外,随访资料的失访问题也使得前述只考虑结果的死亡率或存活率不准确。 2013.6.13
To be or not to be is only a part of the question. ㈡ 生存分析的概念 生存分析(Survival Analysis) 定义:是将事件的结果(终点事件)和出现这一结果所经历的时间结合起来分析的一种统计分析方法。 To be or not to be is only a part of the question. The question also includes how long to be. 2013.6.13
生存分析也可以称为用于处理以生存时间为反应变量、含有删失数据(Censored Data)一类资料的统计方法。 所谓生存时间,狭义地讲是从某个标准时点起至死亡止,即患者的存活时间。例如,患有某病的病人从发病到死亡或从确诊到死亡所经历的时间。广义地说,“死亡”可定义为某研究目的“结果”的发生,如宫内节育器的失落,疾病的痊愈,女孩月经初潮的到来等(生存分析中往往统指各“死亡”为失效)。 2013.6.13
生存分析在医学科研中具有广泛而重要的应用价值,它对人群寿命的研究,各种慢性疾病的现场追踪研究或预后观察,临床疗效的试验、动物模型实验等研究中针对随访资料的处理起着非常重要的作用。 2013.6.13
起始事件是反映研究对象生存过程的起始特征的事件。 ㈢ 生存分析的基本术语 生存时间(Survival Time) 又称失效时间(Failure Time)。 定义:终点事件与起始事件之间的时间间隔。 终点事件指研究者所关心的特定结局。 起始事件是反映研究对象生存过程的起始特征的事件。 起始事件 生存时间 终点事件 2013.6.13
服药 痊愈 起始事件 终点事件 生存时间举例 手术切除 死亡 染毒 死亡 化疗 缓解 缓解 复发 疾病确诊 死亡 治疗开始 死亡(痊愈) 起始事件 终点事件 服药 痊愈 手术切除 死亡 染毒 死亡 化疗 缓解 缓解 复发 疾病确诊 死亡 治疗开始 死亡(痊愈) 接触危险物 出现反应 治愈出院 复发 2013.6.13
广义的“生存时间”也可为医疗费用(元)、 医疗设备使用次数、车辆行驶总里程(公里) 等。 终点事件和起始事件是相对而言的,它们都 由研究目的决定,须在设计时明确规定,并 在研究期间严格遵守,不能随意改变。 广义的“生存时间”也可为医疗费用(元)、 医疗设备使用次数、车辆行驶总里程(公里) 等。 2013.6.13
۞ 生存时间数据常通过随访(Follow Up)获得。 随访资料的记录项目常有: (起始与终止)随访事件 生存时间(开始观察日期与终止观察日期) 生存时间单位(年、月、天、小时、分、秒等) 分组变量(处理方法) 和其它协变量(性别、年龄、职业、文化程度等) 2013.6.13
随访资料举例: 月 份(2002年) 图5 生存时间原始记录示意 (“+”删失) 天 数 图6 生存时间排序整理数据示意 2013.6.13
从起点至死亡(死于所研究疾病)所经历的时间。 2. 删失数据(截尾数据,Censored Data) 从起点至删失点所经历的时间。 生存时间的类型 1. 完全数据(Complete Data) 从起点至死亡(死于所研究疾病)所经历的时间。 2. 删失数据(截尾数据,Censored Data) 从起点至删失点所经历的时间。 删失原因:失访、死于其它疾病、观察结束 时病人尚存活等。 生存时间的度量单位可以是年、月、日、小时等。常用符号t表示,删失数据在其右上角标记“+”表示。 2013.6.13
2个效应变量: ①生存时间(天数),②结局(死亡与 删失数据:如表10中的1号和 3号病人未观察到底,不 生存时间资料的特点 2个效应变量: ①生存时间(天数),②结局(死亡与 否、是否阳性等) 删失数据:如表10中的1号和 3号病人未观察到底,不 知他们究竟能活多长时间。产生结尾原因:①迁移; ②死于其他原因;③因其他客观原因中途退出;④预 定终止结果迟迟不发生。 分布类型复杂:生存时间分布常呈正偏态分布。 2013.6.13
二、生存分析的描述统计 ㈠ 死亡概率和生存概率 (1) 死亡率 (mortality rate,death rate) 表示某单位时间内的死亡强度。 年平均人口数=(年初人口数+年末人 口数)/2 2013.6.13
⑵ 死亡概率 (mortality probability) 指死于某时段内的可能性大小。 年内有删失,分母则用校正人口数: 校正人口数= 年初人口数—删失例数 / 2 = n0-c/2 2013.6.13
⑶ 生存概率 (survival probability) 指某单位时段开始时存活的个体到该时段结束时仍存活的可能性的大小。 分子为年末尚存人数,若年内有删失,分母用 校正人口数(公式见前)。 2013.6.13
(1) 生存率 (survival rate, survival function) ㈡ 生存率及其标准误 (1) 生存率 (survival rate, survival function) 指观察对象经历t个单位时段后仍存活的 可能性。 2013.6.13
生存率的计算公式 1. 直接法 2. 概率乘法定理法 S ( t ) = P (T ≥ tk ) = p1 p2 … pk 上式适用于无删失数据的计算,若含有删失数据,分母必须分时段校正。 2. 概率乘法定理法 S ( t ) = P (T ≥ tk ) = p1 p2 … pk 上式可处理有删失数据资料的计算,对含有删失数据的pi ,可用校正人数估计。 2013.6.13
生存率的计算实例 例8. 手术治疗60例肺癌病人,术后1,2,3年的死亡数分别为5, 10,15例,无删失数据。试求各年的生存概率和逐年生存率。 各年生存概率: p1 = ( 60 – 5 ) / 60 = 0.9167, p2 = ( 55 – 10 ) / 55 = 0.8182, p3 = ( 45 – 15 ) / 45 = 0.6667, 逐年生存率:S(1) = P(t≥1) = (n0-d1)/N =(60 – 5)/60 = 0.9167, 或 S(1) = p1 = 0.9167; S(2) = P(t≥2) = (n0-d2)/N =(60 –15)/60 = 0.75, 或 S(2) = p1 p2 = 0.9167×0.8182≈0.75; S(3) = P(t≥2) = (n0-d3)/N =(60 –30)/60 = 0.5, 或 S(2) = p1 p2 p3 = 0.9167×0.8182×0.6667≈0.5; 2013.6.13
段的概率,后者是指从0~t多个时段的累积概 率。生存率实质是累积生存概率(cumulative 生存概率和生存率是不同的,前者是单个时 段的概率,后者是指从0~t多个时段的累积概 率。生存率实质是累积生存概率(cumulative probability of survival) 。 (2) 生存率的标准误 (SE of survival rate) 2013.6.13
(3) 生存率的置信区间 (CI of survival rate) ㈢ 生存曲线 生存曲线 (survival curve) 以观察(随访)时间为横轴,以生存率为纵轴,将各个时间点所对应的生存率连接在一起的曲线图。 2013.6.13
SPSS操作步骤 生存曲线的实例 1. 建立SPSS数据文件(见exp9.sav); 例9. 某医师收集20例脑瘤患者,分别用甲、乙两疗法治疗的生 存时间(周)如下,甲疗法组:1 3 3 7 10 15 15 23 30;乙疗法组: 5 7+ 13 13 23 30 30+ 38 42 42 45+。试绘制生存曲线。 SPSS操作步骤 1. 建立SPSS数据文件(见exp9.sav); 2. 绘制生存曲线: Analyze → Survival → Kaplan- Meier…打开Kaplan-Meier对话框,将“生存时间(周)”变量 (t)调入Time:栏中,将“结局”变量(s)调入Status:栏中,点击 Define Event…按钮打开该窗口,在 Single Value:栏中添 2013.6.13
SPSS输出结果 入1 → Continue,将“疗法”变量(grp)调入Factor:栏中,点 击Options…按钮打开该窗口,在Plot:栏中选择 Survival → Continue → OK即可完成生存曲线的绘制 。 SPSS输出结果 生存曲线见图5。 地方不够了, 图在下页。 2013.6.13
死亡 38 图5. 甲、乙两疗法治疗20例脑瘤患者的生存曲线 2013.6.13
(1)半数生存期也称中位生存期(Median survival time) ㈣ 半数生存期(中位数)及四分位数间距 (1)半数生存期也称中位生存期(Median survival time) 即生存时间中位数,表示50%的个体可存活的时间即生存率为50% 时对应的生存时间(集中趋势指标) 。 2013.6.13
(2) 生存期的四分位数间距 (Quartile of survival time) 生存期的四分位数间距=T25- T75 , 反映生存时间的离散程度大小。 2013.6.13
二、生存率的估计 ㈠ 乘积极限法(Kaplan-Meier法) Kaplan-Meier法由Kaplan和Meier于1958年提 出,直接用概率乘法定理估计生存率,故称乘积 极限法(product-limit method),是一种非参数法, 适用于小样本和大样本。 基本思想:将生存时间由小到大依次排列,在 每个死亡点上,计算其期初人数、死亡人数、死亡 概率、生存概率和生存率。 2013.6.13
SPSS操作步骤 Kaplan-Meier法的实例 1. 建立SPSS数据文件(见exp10.sav); 例10. 某医师收集了10例某癌症患者的生存时间(天),分别为: 110,36,30+,78,120+,16,20+,58,44,21 。试用Kaplan-Meier 法估计生存率并绘制生存曲线。 SPSS操作步骤 1. 建立SPSS数据文件(见exp10.sav); 2. 估计生存率并绘制生存曲线: Analyze → Survival → Kaplan-Meier…打开Kaplan-Meier对话框,将“生存时 间(天)”变量(t)调入Time:栏中,将“结局”变量(s)调入Status: 2013.6.13
SPSS输出结果 3例删失 栏中,点击 Define Event…按钮打开该窗口,在 Single Value:栏中添入1 → Continue,点击Options…按钮打开该 窗口,在Plot:栏中选择 Survival → Continue → OK即可完 成生存率的估计和生存曲线的绘制 。 SPSS输出结果 Kaplan-Meier 3例删失 2013.6.13
排序 生存率的标准误 生存率的估计值 中位生存期 Cumulative Proportion Surviving at the Time 时点生存率 排序 生存率的标准误 生存率的估计值 中位生存期 2013.6.13
0.5 中位生存期=58 生存曲线(阶梯) 2013.6.13
寿命表法(life-table method)的应用早于Kaplan -Meier法,它是Kaplan-Meier法的近似方法(频数 ㈡ 寿命表法 寿命表法(life-table method)的应用早于Kaplan -Meier法,它是Kaplan-Meier法的近似方法(频数 表法)。 基本思想:将整个观察时间划分成许多小的时 间段,对每个时间段计算所有活到某时间段起点的 病例在该时段内死亡(失效)的概率。 当生存资料是按固定时间间隔收集,随访结果 只有每个时间段的观察人数、死亡人数和删失人 数,而每个病例的确切生存时间不知道时,应该使 2013.6.13
寿命表法适合于大样本的频数表生存资料的分 析。注意寿命表法只估计时段右端点的生存率,省 略了时段内的生存率估计。 用此法分析。 寿命表法适合于大样本的频数表生存资料的分 析。注意寿命表法只估计时段右端点的生存率,省 略了时段内的生存率估计。 寿命表法的实例 例11. 某研究者收集了555例女性心绞痛病人的生存时间(年) 资料,见表11。试用寿命表法估计生存率并绘制生存曲线。 表11见下页。 2013.6.13
此资料为大样本的频数表生存资料,应用寿命表法 估计生存率。 2013.6.13
SPSS操作步骤 1. 建立SPSS数据文件(见exp11.sav); 2. 加权频数:Data → Weight cases…打开Weight cases对 话框,将“期内人数”变量(number)调入Weight cases by下 Frequency Variable栏中,→ OK ; 3. 估计生存率并绘制生存曲线:Analyze → Survival → Life Tables…打开Life Tables对话框,将“生存年数”变量 (time)调入Time:栏中,将“数据状态”变量(d)调入Status:栏 中并定义死亡状态的标志值,在Display Time Intervals下 0 through后添入最后时段的组中值11.5,by后添入1(即间 2013.6.13
SPSS输出结果 隔时间),点击Options…按钮打开该窗口,在Plot:栏中选 择 Survival → Continue → OK即可完成生存率的估计和生 存曲线的绘制 。 SPSS输出结果 Survival Analysis 别怕,不拔牙。 正常警告信息。 2013.6.13
Survival Variable: time 每组的生存概率 续 Survival Variable: time 每组的生存概率 中位生存期=8.779 至本组段上限的累积生存率 2013.6.13
续 生存率的标准误 风险率 一般基本不看,因为…噢!… … 概率密度 2013.6.13
0.5 中位生存期=8.779 生存曲线(折线) 2013.6.13
三、生存曲线比较的假设检验 ㈠ log-rank检验 log-rank检验又称对数秩检验、时序检验,是 寿命表法的生存曲线应该呈折线形,一般不宜绘成阶 梯形,因两点间的生存率的变化无法掌握,故用直线 连接为宜。SPSS默认是生成阶梯形,需要修改方可得 到折线形的生存曲线。 三、生存曲线比较的假设检验 ㈠ log-rank检验 log-rank检验又称对数秩检验、时序检验,是 一种非参数检验,用于比较两组或多组生存曲线或 生存时间是否相同。 2013.6.13
SPSS操作步骤 log-rank检验的实例 1. 建立SPSS数据文件(见exp12.sav); 例12. 某医师收集了符合手术治疗适应症的21例乳腺癌患者,随机分成两组,一组10例单纯接受手术治疗,另一组在手术后还接受化疗, 其生存时间(月)见表12。试比较两组的总体生存率有无差别。 SPSS操作步骤 1. 建立SPSS数据文件(见exp12.sav); 2. 生存率和生存曲线的比较: Analyze → Survival → Kaplan-Meier…打开Kaplan-Meier对话框,将“生存时 2013.6.13
SPSS输出结果 间(月)”变量(t)调入Time:栏中,将“结局”变量(s)调入Status: 栏中并定义死亡状态的标志值,将“疗法”变量(grp)调入 Factor:栏中,点击Compare Factor…按钮打开该窗口,选择 Test Statistics下的 Log rank ,→ Continue ,点击Options… 按钮选择 Survival → Continue → OK即可完成生存率比较 的log-rank检验和生存曲线的绘制 。 SPSS输出结果 Kaplan-Meier 2013.6.13
手术组的中位生存期=18.000 2013.6.13
Log rank检验结果为:χ2 = 2.794,P=0.095>0.05。故尚 不能认为两种疗法下的乳腺癌患者的总体生存率有差别。 中位生存期 Log rank检验结果为:χ2 = 2.794,P=0.095>0.05。故尚 不能认为两种疗法下的乳腺癌患者的总体生存率有差别。 2013.6.13
0.5 两组生存曲线的比较 2013.6.13
SPSS操作步骤 ㈡ Breslow检验 Breslow检验又称Generalized Wilcoxon检验, 是一种把各时间点的例数作为权重考虑的非参数检验方法,用于比较两组或多组生存曲线或生存时间 是否相同。 Breslow检验的实例 见例12.。 SPSS操作步骤 操作步骤与log-rank检验过程相同,只需在Compare 2013.6.13
SPSS输出结果(主要部分) Factor…窗口内选择Test Statistics下的 Breslow即可。 Breslow检验结果为:χ2 = 1.840,P=0.175>0.05。故尚 不能认为两种疗法下的乳腺癌患者的总体生存率有差别。 2013.6.13
1. 要求各组生存曲线不能交叉,如交叉提示存在混杂因素,应采用分层分析方法或多因素方法来校正混杂因素。 ㈢ 生存曲线假设检验的注意事项 1. 要求各组生存曲线不能交叉,如交叉提示存在混杂因素,应采用分层分析方法或多因素方法来校正混杂因素。 2. 当假设检验有统计意义时,可从以下几方面来评价各组效应大小:生存曲线图目测判断、中位生存期比较等。 2013.6.13
3. log-rank检验是用于整条生存曲线或整体生存率的比较,若比较两组某时间点处的生存率,则按下式计算: 4. 当如比较多个时间点处生存率,检验水准应取Bonferroni校正,即α´=α/k ,其中k为比较的次数,以保证总的I型错误概率不超过α。 2013.6.13
三、Cox回归分析 ㈠ Cox回归模型简介 1972年由英国统计学家D.R.Cox提出的比例风险回归模型(proportional hazards regression model )是对生存资料进行多因素分析的重要方法之一。 简称Cox回归模型。 Cox回归主要用于肿瘤和其它慢性病的预后分析,也可用于队列研究的病因探索,以及生存时间的影响因素的筛查。 2013.6.13
Cox回归的优点是不用考虑生存时间分布,可 以利用删失数据,可以估计各个影响因素对风险率 影响程度。 h(t,X)—t 时刻风险函数(hazard function)、风险率或瞬 时死亡率。 h0(t) —基准风险函数,即所有变量都取0时, t时刻风险 函数。 X1、X2、…、Xp —协变量、影响因素、预后因素。 β1、β2、…、βp —回归系数。 2013.6.13
上式中得到的暴露组与非暴露组的危险率之比 正是流行病学中的相对危险度RR,则Cox回归模型 中回归系数的流行病学含义是0-1变量的相对危险 组取值为1,可有下式: 上式中得到的暴露组与非暴露组的危险率之比 正是流行病学中的相对危险度RR,则Cox回归模型 中回归系数的流行病学含义是0-1变量的相对危险 度的自然对数。 OR 2013.6.13
β>0,RR>1,说明变量X增加时,危险率增加, 即X是危险因素。 (2) 参数估计与假设检验 ①参数估计 最大似然法(Maximum Likelihood method)。 2013.6.13
Wald检验(Wald test) ②假设检验 似然比检验(likelihood ratio test) 得分检验( score test) (3) 因素筛选与最优模型的建立 ①变量筛选方法 向前引入法(前进法)Forward 向后剔除法(后退法)Backward 逐步引入-剔除法(逐步法)Stepwise 2013.6.13
②检验水准 初步的、探索性的研究,或变量数较少时, 可取0.10。 设计严谨的、证实性的研究,或变量数较 多时,可取0.05或0.01。 检验水准包括引入的检验水准和剔除的检 验水准。一般地,剔除α≥引入α,即严 进宽出。 2013.6.13
寻找与生存相关的因素(即有统计学意义的)。 了解因素作用大小、方向及相对危险度的大小, 搞清是保护因素还是危险因素。 (4) Cox回归分析结果的判读 寻找与生存相关的因素(即有统计学意义的)。 了解因素作用大小、方向及相对危险度的大小, 搞清是保护因素还是危险因素。 因素作用大小的排序,比较用标准化回归系数的 绝对值。 个体的预后指数及预后分组: 预后指数 (prognostic index,PI) 2013.6.13
预后指数越小,预后越好;预后指数越大,预后越差。 ㈡ Cox回归分析实例 例13.某医师在研究急性白血病患者的生存率时,收集了33名患者的资料,按Ag阳、阴性分组(Ag阳性组17例,Ag阴性组16例),同时考察白细胞数的影响作用。具体数据见表13。试作Cox回归分析。 表13见下页。 2013.6.13
2013.6.13
SPSS操作步骤 1. 建立SPSS数据文件(见exp13.sav); 2. Cox回归分析:Analyze → Survival → Cox Regression…打开Cox Regression对话框,将“生存月数”变 量(t)调入Time:栏中,将“结局”变量(s)调入Status:栏中并定 义死亡状态的标志值1,将“Ag分组”变量(grp)和“白细胞数” 变量(wbc)调入Covariates栏中,由于变量少,故Method选 择Enter法,点击Categorical…按钮打开该窗口,把左侧 Covariates栏中的grp移入Categorical Covariates栏中(标明 分类变量),→ Continue ,点击Plots…按钮打开该窗口, 2013.6.13
SPSS输出结果 Cox Regression 选择Survival Hazard ,将Covariate Values Plotted at:栏 中的grp(Cat)变量调入Separate Lines for:栏中→ Continue, 点击Options…按钮,在Model Statistics:栏中选择 CI for exp(B): ,在Display Model Information:栏中选择 At last step → Continue → OK即可完成Cox回归分析。 SPSS输出结果 Cox Regression 下页。 2013.6.13
4例删失 grp变量的编码 Block 0: Beginning Block 2013.6.13
Cox回归方程拟合结果的χ2检验,χ2值为11.773,P = 0.0028, 表明grp与wbc两自变量对生存状态均有作用。 Block 1: Method = Enter Cox回归方程拟合结果的χ2检验,χ2值为11.773,P = 0.0028, 表明grp与wbc两自变量对生存状态均有作用。 得到风险量增加倍数为e(0.0089×wbc - 1.1219×grp),其中白细胞数 的变量系数为正值,exp(B)>1,意味着白细胞数愈高,死亡风险愈大; grp的变量系数为负,exp(B)<1 ,意味着Ag阳性者,死亡风险小。 2013.6.13
生存率 Happy Everyday ! 2013.6.13
从Cox模型生存率曲线可见,随时间的延长,患者生存率 逐渐下降,接近160个月时,生存率几乎为0。 从Cox模型生存率曲线可见,随时间的延长,患者生存率 逐渐下降,接近160个月时,生存率几乎为0。 2013.6.13
从Ag分组生存率曲线可见,Ag+组患者的生存率明显长于 Ag-组患者,表明Ag阳性可使患者的生存率延长。 2013.6.13
此图为Cox模型的风险量曲线图,其趋势也十分明显,即随时间的 延长,患者在生存上所经历的死亡风险愈来愈大,到140个月时, 大约是起初(0个月)的5倍。 2013.6.13
此图为按Ag分组的风险量曲线图,从中可以看出,Ag-组患者在 生存上所经历的死亡风险要比Ag+组患者大。 2013.6.13
2. 筛选变量时,考虑该指标是否容易收集、是否费用较高等临床因素。 ㈢ Cox回归分析的注意事项 1. 除生存资料的基本要求外,还要求因素对生存时间的作用不随时间变化(比例风险假定)。如观察年限超过10年时,癌症手术后放疗的治疗作用可能逐渐消失,从而不满足这一要求。 2. 筛选变量时,考虑该指标是否容易收集、是否费用较高等临床因素。 2013.6.13
3. 对连续变量,看其分布,如服从偏态分布,一般进行对数变换后参与计算。 4. 样本例数不要过少(一般多因素分析的样本量至少应为自变量个数的10倍以上);删失数据不要过多。 5. 对选入模型的变量是统计学上的有关变量不一定都与生存时间有因果关系。其中某些变量可能只是伴随关系而已,未选入模型的变量不一 2013.6.13
定全是无关变量,要考虑是否模型内的某些变量 代替了它的作用,或因例数不够,或试验中对该 变量进行了控制而引起。 6. 模型拟合优度考察:据预后指数PI分组,比 较各组基于Cox模型的生存曲线与基于Kaplan- Meier法估计的生存曲线,如两组曲线吻合较好, 表明Cox模型拟合较好。 2013.6.13
专业知识角度:选择疾病种类、终点事件、影响因素及结果的专业解释等。 7. 生存率分析:生存曲线不能随意延长,也 不能轻易用于预测预报,经过大量研究所得的生 存曲线才有可能推广应用。 8. 强调设计的重要性 专业知识角度:选择疾病种类、终点事件、影响因素及结果的专业解释等。 统计学角度:样本例数、因素的赋值、生存时间准确到天数、因素筛选方法、结果的统计学解释等。 2013.6.13
You should know Statistical Software is also very important for research and work in medicine ! 13944158756 tyc@jlu.edu.cn E 2013.6.13
exp6.sav Data View Variable View 2013.6.13
2013.6.13
exp10.sav 2013.6.13
exp11.sav 2013.6.13
exp12.sav 2013.6.13
exp13.sav 2013.6.13