生存分析 survival analysis
内容 生存资料 1 生存分析的基本概念 2 STATA实现 3
生存资料 一些医学事件所经历的时间:从开始观察到事件发生的时间,不是短期内可以明确判断的 针对这类生存资料的分析方法:生存分析 乳腺癌病人术后生存时间 幼儿乳牙萌出的时间 白血病病人化疗后缓解持续的时间 两种方法治疗某慢性病产生疗效的时间 针对这类生存资料的分析方法:生存分析
生存分析 生存分析 基本目的 描述生存过程 比较不同人群的生存过程 分析生存时间的相关因素 研究既有事件的发生时间又有事件结局资料的统计学方法 强调所研究问题的结果变量是某一事件发生的时间
生存资料的特点 生存资料的特点 随访资料 时间和结局(失效、删失) 有不完全数据 通常不服从正态分布
生存资料 患者编号 性别 年龄 从确诊到手术的时间(月) 手术时间 终止随访时间 结局 生存时间 1 男 32 10 1994.01.23 1994.12.24 死亡 11 2 女 48 12 1998.02.14 1999.01.01 失访 10+ 3 26 6 1992.03.04 1995.04.12 37 4 55 1999.08.20 2001.09.21 死于其他 25+ 5 58 8 2001.03.10 2001.12.31 存活 9+ 2 3 1 1992.03.04 5 2001.12.31 4
生存分析的基本概念---终点事件/起始事件 终点事件outcome event:失效事件 failure event, 指研究者所关心的特定事件,如死亡、复发、出牙; 起始事件:标志研究对象生存过程开始的特征事件 称为起始事件,与终点事件相对应,如确诊、手术、 开始采取措施,开始观察
生存分析的基本概念---生存时间 生存时间survival time(失效时间failure time):终点事件与被观察对象发生终点事件之间所经历的时间间隔,用t表示 要获得准确的生存时间 研究目的不同,时间单位不同,使用恰当的时间单位 从疾病确诊到死亡 从治疗开始到治愈 从出生到第一颗乳牙萌出
生存分析的基本概念---死亡概率/生存概率 死亡概率q:在某时间区间内的被观察对象在 该时间区间内(无失访)死亡的概率估计 生存概率p:在某时间区间内(无失访)的被观察 对象在该时间区间内生存的概率估计
生存分析的基本概念---终检 终检censoring:删失值,在终点事件发生前,由于某种原因被观察对象的观测过程终止了 右删失:终点事件发生在最后一次观察的右方 特点:不完全信息(不知道确切生存时间),但可知真实的生存时间不会短于现在观察到的时间。 发生的原因 失访 随访结束时仍存活 死于其他原因 治疗措施改变
生存分析的基本概念---生存率 生存函数 (累计生存概率):个体生存时间大于t的概率。任一时刻t对应的生存函数就是该时点的生存率。 S(0)=1; 2年生存率:个体生存时间超过2年的概率S(2) 生存曲线:所有时点的生存率构成生存曲线
生存分析的基本概念---生存率 生存率计算 无删失: 有删失:需分段计算各时间段的生存概率pi ,然后利用概率乘法将pi相乘得到t时刻的生存率 第i个时段开始的人数为 ,在第i个时段内死亡人数为 ,删失人数为 ,则 ,
乘积极限法(K-M法)估计生存率 3, 5+,5,8,9,9,9+,9+,11,15,15+, 适用于原始数据的资料 例:研究人员对20名某肿瘤术后病人进行跟踪随访三年,记录他们的生存时间。试估计生存率绘制生存曲线,资料如下 3, 5+,5,8,9,9,9+,9+,11,15,15+, 16,20,20+,25,28,28+,28+,28+,32
乘积极限法(K-M法)估计生存率
总体生存率的区间估计 K-M法计算的样本生存率是总体生存率的点估计 区间估计: SE是标准误
生存曲线及中位生存期 生存曲线 survival curve:以随访时间为横坐标,生存率为纵坐标绘制的曲线 中位生存期median survival time:半数生存时间/平均生存时间,恰好由50%个体存活s(t)=0.5的时间 生存时间一般为非正态,故用中位生存期 可采用内插法计算: t0.5=20.4(月) 如果生存期最长的死亡对象的生存率高于50%,则无法估计中位生存期。
生存寿命表法计算生存率 适用于大样本资料 数据按时间区间分组 利用删失资料信息,按删失资料对进行校正 区间中的删失个体折算半个人时
寿命表法计算生存率 例:10.2
生存率曲线的比较 Log-rank检验:时序检验,属于非参数方法,比较整个生存时间的分布 大样本卡方检验 2条或多条生存曲线比较 H0:总体生存率曲线相同 H1:总体生存率曲线不同
生存率曲线的比较 例10.3:现有两组白血病病人的随访研究资料,其缓解时间(周)记录如下,现欲比较治疗组与安慰剂组的病人生存曲线是否一样? 资料 治疗组(第1组): 6,6,6,7,10,13,16,22,23,6+,9+,10+,11+,17+,19+,20+,25+,32+,32+,34+,35+ 安慰剂组(第2组):1,1,2,2,3,4,4,5,5,8,8,8,8,11,11,12,12,15,17,22,23
两组生存曲线的统计描述 试验组 对照组
Log-rank test 方法
计算Log-rank检验统计量 H0为真时,Log-rank统计量2服从自由度为1的卡方分布
Log-rank 检验的实例计算 本例的检验统计量计算为 查卡方界值表,P<0.001,基于两组生存曲线的位置,可以认为试验组的生存率高于对照组,差异有统计学意义。
Stata软件实现 一、用Stata软件计算生存率及95%可信区间 1.定义生存分析的时间变量是time,结果变量是status stset time status 2.显示Kaplan-Meier方法的计算生存率结果 sts list
Stata软件实现 二、用Stata软件绘制生存曲线 1.定义生存分析的时间变量是time,结果变量是status stset time status 2. 绘制Kaplan-Meier法估计的生存曲线 sts graph
Stata软件实现 三、用Stata软件进行Log Rank检验 1.确定生存分析的时间变量是week,结局变量是outcome Stset week outcome 2.对两条曲线进行Log Rank检验 sts test group,logrank 即:Sts test 分组变量,logrank
Thank You !