Meta-分析(Meta analysis) 寇长贵(副教授) Tel: 0431-85619173 E-mail: koucg@jlu.edu.cn 吉林大学公共卫生学院
主要内容 概述 Meta分析的指征 Meta分析的应用 Meta分析的选题 Meta分析的步骤与方法
meta分析 Meta 希腊词,意为“after, more comprehensive, secondary” 我国曾翻译为后分析、荟萃分析、元分析、综合分析 是以综合研究结果为目的而对不同的研究结果进行收集、合并及统计分析的一种方法(Glass) 是对先前研究结果进行统计合并和评述的一种新方法(Sack) 是用以汇总众多研究结果的各种定量分析(Hedge) 是一类统计方法,用来比较和综合针对同一科学问题所取得的研究结果。比较和综合的结论是否有意义,取决于这些研究是否满足特定的条件(Fleiss & Gross)
系统综述(systematic reviews) 针对某个主题,依照一定的标准化方法,在复习、分析、整理和综合针对该主题的全部原始文献的基础上进行的二次研究 综合大量类似研究,是循证决策的良好依据
综述 系统综述 Meta-分析 From: Critical Appraisal Skills Programme (CASP), Oxford.
进行系统综述和meta分析的意义 海量信息需要整合 避免“只见树木不见森林” 克服传统文献综述的缺陷 连接新旧知识的桥梁
Meta分析的功能 定量综合; 对同一问题提供系统的、可重复的、客观的综合方法; 通过对同一主题多个小样本研究结果的综合,提高原结果的统计效能,解决研究结果的不一致性,改善效应估计值; 回答原各研究未提出的问题。
meta分析的指征 (1)主要用于RCT (2)观察性研究慎用 需要做紧急决定,又无时间进行一项新的试验 大规模试验不可能时 药物疗效及其副作用的评价 研究结果矛盾时 (2)观察性研究慎用 可能增加原有的偏倚 应重点探讨异质性来源
什么情况下不使用meta分析 缺乏相关的和可靠的资料 缺乏合理性(没有实际意义) 切记:进行分析的目的是对最佳证据的概括 误导的资料比缺乏资料更糟糕 缺乏合理性(没有实际意义) 切记:进行分析的目的是帮助人们对医疗保健做决策
Meta分析的应用 干预措施的评价 --估计预防、治疗、康复的效果和风险 诊断性试验 --提供更为可靠的诊断性试验精确性计算 流行病学 --提供更为可靠的病因,危险因素的估计
Meta分析的选题 重要性:只有具有比较重要的临床意义的问题; 争议性:一般而言,具有争议性的问题最适合做meta分析; 问题清楚,回答明确:提出的问题最好是选择题式; Meta分析的选题是一个很重要的问题。选题不当,容易导致研究缺乏价值、研究困难或无法完成。其注意事项如下: 1 重要性 只有具有比较重要的临床意义的问题才适合作meta分析。Meta分析并不是一件很简单的事情,写一篇高质量的至少也要两个月以上的时间。如果分析的问题无关紧要,则得不偿失,也难以发表。 2 争议性 一般而言,具有争议性的问题最适合做meta分析。通过汇总多个研究结果,得到总的更可靠的结论。怎样才知道哪些具有争议性呢?如果是某一领域的专家,自然会对本领域有哪些有争议性的问题比较清楚,如果是新手,则可以向该领域的专家请教,或者通过文献检索的方法知道哪些问题有争议性。如:欲研究肾移植领域哪些问题有争议性,则可以以“肾移植”,“争议”在CNKI上检索,或以renal transplantation, controversy; dispute等为关键词在PUBMED或其它医学数据库上进行检索,查到相关论文,详细阅读后即可知道哪些问题是有争议性的。 3 创新性 创新性指的是国内外还没有人做过这方面的meta分析。同样可以通过文献检索的方法来得知是否已经有人作过类似的meta分析。如打算作进食牛奶是否会增加前列腺癌发病风险的meta分析,则可以以“前列腺癌乳制品 meta分析”或者“prostate cancer dairy product meta-analysis”为关键词在相关数据库进行检索。结果发现国外已经有人做过了,那么这个课题就不太适合再做meta分析。最好的情况是别人没有进行过这方面的研究,如果已经有人做过了,但是,如果前面的研究质量不高,或者是前面的meta分析已经是很久以前做过的了,或者前面的研究指出有进一步研究的必要,那么也还是可以再做meta分析的。 由于现在许多适合做meta分析的课题国外已经有人做过了,所以在中文医学杂志上看到的多是“国人×××的meta分析”。但是,由于中文论文的质量及可靠性往往不高,因此影响了meta分析的质量。 4 问题清楚,回答明确。 提出的问题应该是选择题式的,如:A和B两种疗法治疗C病哪种更好?而不应是开放式的,例如,乳腺癌应该采取什么样的治疗方法?正确的提法应该是:二期乳腺癌患者采用保乳手术和根治术,哪种方法更好? 5 有明确的效应指标 对于危险因素,可以以OR/RR值为效应指标,对于肿瘤的治疗,可以以×年生存率为效应指标等等。 6 有合适的原始论文。 巧妇难为无米之炊,meta分析的“米”就是原始论文。原始论文要适合做meta分析,例如研究危险因素的就应当是病例对照研究和队列研究;要提供必要的信息,例如研究危险因素的就要能够提取出四格表资料;数目也不能太少,否则达不到汇总的效果,如果数目太多,当然没有什么不好,而且结果会更可靠,只是研究所需时间要增加而已。还有质量要高,设计要科学。 7 大小合适 选题太大,纳入研究的文献太多,而且问题也不明确,研究难以完成。选题太少,缺乏推广应用的代表性,而且纳入研究的文献也太少,达不到汇总的效果。一般而言,纳入研究的文献以10-30篇比较适合做meta分析。
Meta分析的选题 有明确的效应指标:如有关危险因素,可以以OR/RR值;肿瘤治疗选项疗效可以用×年生存率;药物有效性可以用有效率、治愈率等; 有合适(理想)的原始论文:巧妇难为无米之炊,meta分析的“米”就是原始论文; 大小合适: 选题太大,纳入研究的文献太多,而且问题也不明确,研究难以完成;选题太少,缺乏推广应用的代表性,而且纳入研究的文献也太少,达不到汇总的效果。一般而言,纳入研究的文献以10-30篇比较适合做meta分析。 Meta分析的选题是一个很重要的问题。选题不当,容易导致研究缺乏价值、研究困难或无法完成。其注意事项如下: 1 重要性:只有具有比较重要的临床意义的问题才适合作meta分析。Meta分析并不是一件很简单的事情,写一篇高质量的至少也要两个月以上的时间。如果分析的问题无关紧要,则得不偿失,也难以发表。 2 争议性 一般而言,具有争议性的问题最适合做meta分析。通过汇总多个研究结果,得到总的更可靠的结论。怎样才知道哪些具有争议性呢?如果是某一领域的专家,自然会对本领域有哪些有争议性的问题比较清楚,如果是新手,则可以向该领域的专家请教,或者通过文献检索的方法知道哪些问题有争议性。如:欲研究肾移植领域哪些问题有争议性,则可以以“肾移植”,“争议”在CNKI上检索,或以renal transplantation, controversy; dispute等为关键词在PUBMED或其它医学数据库上进行检索,查到相关论文,详细阅读后即可知道哪些问题是有争议性的。 3 创新性 创新性指的是国内外还没有人做过这方面的meta分析。同样可以通过文献检索的方法来得知是否已经有人作过类似的meta分析。如打算作进食牛奶是否会增加前列腺癌发病风险的meta分析,则可以以“前列腺癌乳制品 meta分析”或者“prostate cancer dairy product meta-analysis”为关键词在相关数据库进行检索。结果发现国外已经有人做过了,那么这个课题就不太适合再做meta分析。最好的情况是别人没有进行过这方面的研究,如果已经有人做过了,但是,如果前面的研究质量不高,或者是前面的meta分析已经是很久以前做过的了,或者前面的研究指出有进一步研究的必要,那么也还是可以再做meta分析的。 由于现在许多适合做meta分析的课题国外已经有人做过了,所以在中文医学杂志上看到的多是“国人×××的meta分析”。但是,由于中文论文的质量及可靠性往往不高,因此影响了meta分析的质量。 4 问题清楚,回答明确。 提出的问题应该是选择题式的,如:A和B两种疗法治疗C病哪种更好?而不应是开放式的,例如,乳腺癌应该采取什么样的治疗方法?正确的提法应该是:二期乳腺癌患者采用保乳手术和根治术,哪种方法更好? 5 有明确的效应指标 对于危险因素,可以以OR/RR值为效应指标,对于肿瘤的治疗,可以以×年生存率为效应指标等等。 6 有合适的原始论文。 巧妇难为无米之炊,meta分析的“米”就是原始论文。原始论文要适合做meta分析,例如研究危险因素的就应当是病例对照研究和队列研究;要提供必要的信息,例如研究危险因素的就要能够提取出四格表资料;数目也不能太少,否则达不到汇总的效果,如果数目太多,当然没有什么不好,而且结果会更可靠,只是研究所需时间要增加而已。还有质量要高,设计要科学。 7 大小合适 选题太大,纳入研究的文献太多,而且问题也不明确,研究难以完成。选题太少,缺乏推广应用的代表性,而且纳入研究的文献也太少,达不到汇总的效果。一般而言,纳入研究的文献以10-30篇比较适合做meta分析。
Meta分析的步骤和方法 提出问题,制定研究计划 检索资料 选择符合纳入标准的研究 纳入研究的质量评价 提取纳入文献的数据信息 资料的统计学处理 敏感性分析 形成结果报告
一.提出问题、拟定研究计划 明确研究目的 提出问题 根据提出的研究问题,制定入选标准 提取和分析资料的方法和标准 ≯干预、诊断措施评价,危险因素研究,卫生决策 提出问题 提出的问题应该有清晰明确的定义(PICO_S) ≯受试者是什么人?Participants ≯干预措施是什么?Interventions ≯比较的是什么?Comparison ≯临床结局是什么?Outcomes ≯研究设计是什么?Study 根据提出的研究问题,制定入选标准 提取和分析资料的方法和标准
纳入与排除标准
例如:高血压药物治疗是否能降低原发性高血压患者的心血管疾病发病和死亡危险? 问题应包括以下内容: ≯受试者是什么人?原发性高血压患者 ≯干预措施?抗高血压药物治疗 ≯比较是什么?安慰剂或者无治疗对照 ≯临床结局是什么?心血管事件和死亡 ≯研究设计是什么?随机对照试验
二.收集资料 原则:多途径、多渠道、最大限度收集相关文献 1检索电子数据库(系统综述&原始研究) 2查阅相关实践指南 3咨询相关领域的专家 4查阅近期相关会议的文摘 5问讯医药公司开展的相关研究 6手检主要的、相关的专业期刊 7检索进行中的临床试验注册库 8查阅相关系统综述与原始研究的参考文献
电子数据库 语种 数据库名称 中文 中国生物医学文献数据库(CBMDisc) 中国期刊全文数据库(CNKI) 中文科技期刊全文数据库(VIP) 万方数据库 英文 MEDLINE@OVID,《MEDLINE网络数据库》 PubMed EMBASE OVID电子期刊全文数据库 Cochrane Library(CENTRAL) ClinicalTrials.gov(http://www.ClinicalTrials.gov)
三、根据入选标准选择合格的研究 根据PICO_S严格纳入 还要考虑 发表的时间 发表的语言 重复发表
不同的研究设计类型,具有不同的质量评估标准,对应使用! 四、复习每个研究并进行质量评估 至少应从以下三方面来评估一个研究的质量: (1)方法学质量:研究设计和实施过程中避免或减小偏倚的程度; (2)精确度:即随机误差的程度,一般用可信限的宽度来表示; (3)外部真实性:研究结果外推的程度。 不同的研究设计类型,具有不同的质量评估标准,对应使用!
Jadad量表 (1)受试者分组是否真正随机; (2)随机方案是否隐藏; (3)是否详细说明入选标准; (4)组间基线是否可比; (5)研究过程中是否使用了盲法; (6)对失访、退出及不良反应病例是否进行了详细记录,是否报告失访原因; (7)是否采用ITT(意向分析法)分析结果; (8)患者的依从性(compliance)如何。
Jadad量表 记分为1~5分,1或2分:低质量,3~5分:高质量: 随机化方法: 盲法: 失访与退出: 恰当-如计算机产生的随机数字或类似的方法 (2 分); 不清楚-试验描述为随机试验,但没有告知随机分配产生的方法 (1 分); 不恰当-如采用交替分配或类似方法的半随机化 (0 分). 盲法: 恰当-使用完全一致的安慰剂或类似的方法 (2 分); 不祥-试验称为双盲法,但未交代具体的方法 (1 分); 非盲法-未采用双盲法或盲的方法不恰当 (0 分). 失访与退出: 具体描述了撤除与退出的数量和理由 (1 分); 未报告撤除或退出的数目或理由 (0 分).
五、提取变量,填写过录表 每一个研究都应按事先制定的资料摘录表内容提取相应变量并填表,进一步使用专用的meta分析软件如MetaView或其它统计软件如SPSS、SAS、EXCEL等建立数据库。 需要注意的是对计量资料必须注明单位,比较的两组除了有均数还要有标准差;计数资料也要使用相同的比率来表示。 提取资料和计算机录入时最好由双人独立进行,以保证资料摘录和输入的质量。
数据提取的框架
数据提取中的问题 图中取值 多比较组 双人提取结果不一致 标准差SD与标准误SE之间的关系 SE=SD/ 点值,95%可信区司Cl与标准误SE之间的关系
资料的统计学处理 资料综合的目的 不同的研究结果是否相似? 根据结果的相似程度,最佳的综合效应是多少? 效应值的精确性和可靠性有多高? 如果结果不相似,能否解释其差异?
六、统计分析 计算每个研究的效应量及方差 计算每个研究效应量的权重 计算合并效应量 异质性检验 合并效应量的可信区间 合并效应量的检验
1.单个研究的统计量 根据资料类型选择单个研究的统计量dj: (1)分类变量可选择的统计量 比值比,OR (odds ratio) 相对危险度,RR (relative Risk) 率差(绝对危险度),RD(rate difference) (2)数值变量可选择均数差(WD)或标准化均数差(SMD)为统计量。 用于描述单个研究的实验结果,其结果解释与常规统计描述指标相同。
2.单个研究的方差 根据资料类型选择单个研究的统计量di 的方差Var(di) 方差可用于可信区间和假设检验的计算。
3.异质性检验与异质性分析 按统计原理,只有同质的资料才能进行合并或比较等统计分析,反之,则不能。 因此,Meta分析过程需要对多个研究的结果进行异质性分析,尽可能地消除导致异质的原因,使之达到同质。
异质性检验 异质性检验 (tests for heterogeneity)又称同质性检验 (tests for homogeneity) 用假设检验的方法检验多个独立研究是否具有异质性(同质性)。 若异质性检验检验结果为P>0.10时,多个研究具有同质性,可选择固定效应模型( fixed effect model) ; 若多个研究结果为P≤0.10时,多个研究不具有同质性,首先应进行异质性分析和处理,若仍无法消除异质性的资料,可选择随机效应模型(random effect model ) 。 I2 <70% (争议:何寒青—自由度校正后56%)可以接受
异质性的类型 临床异质性(概念上的异质性): 方法学异质性: 统计学上的异质性: 如对象特征、诊断、干预、对照、研究地点、评价结局等不同 研究设计与质量不同 统计学上的异质性: 不同试验中观察得到的效应,其变异性超过了机遇(随机误差)本身所致的变异性
异质性分析与处理的方法 当异质性检验出现P≤0.10时,首先应找出产生异质性的原因,如疗程长短、用药剂量、病情轻重、对照选择等是否相同。 由上述原因引起的异质性,可使用亚组分析(subgroup analysis)、Breslow-Day法和回归近似法。
4.多个实验效应的合并 将多个独立研究的结果合并(或汇总)成某个单一的效应量(effect size)或效应尺度(effect magnitude),即用某个指标的合并统计量,以反映多个独立研究的综合效应。
合并统计量的两种统计模型 固定效应模型( fixed effect model): 若多个研究具有同质性(无异质性)时,可使用,可使用固定效应模型。 随机效应模型(random effect model ): 若多个研究不具有同质性时,先对异质原因进行处理,若异质性分析与处理后仍无法解决异质性时,可考虑使用随机效应模型。
(1)分类变量(category , dichotomous) 固定效应模型,指标RR 、OR、RD (1) Mantel-Haenzel法 (2) Peto 法(仅用于OR) 随机效应模型,指标RR 、OR、RD 如: DerSimonian&Laird(D-L)法
(2)数值变量 (continuous) 固定效应模型 (指标MD,SMD) IV 随机效应模型 D-L法
常用Meta分析方法一览表
5、合并效应量的检验 用假设检验(hypothesis test )的方法检验多个独立研究的总效应量(效应尺度)是否具有统计学意义,其原理与常规的假设检验完全相同。 两种方法: ①u检验(Z test)②卡方检验(Chi square test) 根据z或(u)值或卡方值得到该统计量下概率(P)值。 若P≤0.05,多个研究的合并效应量有统计学意义; 若P>0.05,多个研究的合并效应量没有统计学意义。
6、合并效应量的可信区间 可信区间(confidence interval,CI) 可信区间主要用于估计总体参数和假设检验。 在Meta分析中,常用可信区间进行假设检验,95%的可信区间与为0.05的假设检验等价,99%的可信区间与为0.01的假设检验等价。 此外,森林图即是根据各个独立研究的95%可信区间及合并效应量的的95%可信区间绘制的。
OR和RR的森林图 OR和RR的森林图(forest plots),无效线竖线的横轴尺度为1,每条横线为该研究的95%可信区间上下限的连线,其线条长短直观地表示了可信区间范围的大小,线条中央的小方块为OR值的位置,其方块大小为该研究权重大小。若某个研究95%可信区间的线条横跨为无效竖线,即该研究无统计学意义,反之,若该横线落在无效竖线的左侧或右侧,该研究有统计学意义。
Revman5.1森林图(M-H法)
人基质金属蛋白酶7(MMP-7)
比较冠状动脉与静脉注射糖蛋白IIb / IIIa抑制剂与急性冠状动脉综合征患者经皮冠状动脉介入治疗:随机对照试验的荟萃分析。
漏斗图及用途 漏斗图(funnel plots)最初是用每个研究的处理效应估计值为X轴,样本含量的大小为Y轴的简单散点图(scatter plots)。 对处理效应的估计,其准确性是随样本含量的增加而增加,小样本研究的效应估计值分布于图的底部,其分布范围较宽;大样本研究的效应估计值分布范围较窄,当没有发表偏倚时,其图形呈对称的倒漏斗状,故称之为“漏斗图”。
RevMan中的漏斗图 在RevMan软件中,漏斗图是采用OR或RR对数值(logOR或logRR)为横坐标,OR或RR对数值标准误的倒数1/SE(logRR)为纵坐标绘制的,然后,以真数标明横坐标的标尺,而以SE(logRR) 标明纵坐标的标尺。
漏斗图的用途 漏斗图主要用于观察某个系统评价或Meta分析结果是否存在偏倚,如发表偏倚或其他偏倚。如果资料存在偏倚,会出现不对称的漏斗图,不对称越明显,偏倚程度也就越大。漏斗图的不对称性主要与发表偏倚有关,但也可能存在其他原因。
针灸治疗中风的49个试验的漏斗图分析(Tang TL, Zhan SY, BMJ. 1999, 319: 160-161)
漏斗图不对称的主要原因 导致漏斗图不对称的主要原因有: 选择性偏倚(Selection bias) 发表偏倚(Publication bias) 语言偏倚(Language bias) 引用偏倚(Citation bias) 重复发表偏倚(Multiple publication bias) 等等
漏斗图 (Funnel Plot)
MD和SMD的森林图 MD和SMD的森林图,无效线竖线的横轴尺度为0,每条横线为该研究的95%可信区间上下限的连线,其线条长短直观地表示了可信区间范围的大小,线条中央的小方块为MD或SMD值的位置,其方块大小为该研究权重大小。若某个研究95%可信区间的线条横跨为无效竖线,即该研究无统计学意义,反之,若该横线落在无效竖线的左侧或右侧,该研究有统计学意义。
Revman5.1森林图(MD法)
Revman5.1漏斗图 (Funnel Plot)
Meta分析的软件 1.Review Manager(Revman):该软件是国际Cochrane协作网系统评价的标准化专用软件,其中包含了Cochrane系统评价的各项功能,也包括该组织推荐的各种Meta分析功能,具有操作简单、结果直观的特点。 该软件是一个免费软件,用户可在如下网址免费下载: http://ims.cochrane.org/revman/download
Meta分析的软件 2.STATA该软件是美国Computer Resource Center研制的统计软件,从1985年起,连续推出了多个版本。 该软件可完成二分类变量和连续性变量的Meta分析,也可以进行Meta回归分析,还可以绘制Meta分析的相关图型,如森林图(Forest)、漏斗图(Funnel)和L’Abbe图。 3. R语言是从S语言演变而来的。S语言是二十世纪70年代诞生于贝尔实验室,1995年由新西兰Auckland大学统计系的Robert Gentleman和Ross Ihaka,编写了一种能执行S语言的软件,并将该软件的源代码全部公开,这就是R软件,其命令统称为R语言。
Meta分析的软件 4.SAS for windows:国际权威的统计软件,可完成各种Meta分析(包括数值、分类资料及固定效应、随机效应模型)的统计工作。 5.SPSS for Windows :该软件是一个统计专用软件,在其“Crosstable”菜单中,可完成四格表资料Fleiss法的计算工作。
七、敏感性分析 敏感性分析是检查一定假设条件下所获结果稳定性的方法 其目的是发现影响meta分析研究结果的主要因素,解决不同研究结果的矛盾性,发现产生不同结论的原因。 最常用的方法是分层分析,即按不同研究特征,如不同的统计方法、研究的方法学质量高低、样本量大小、是否包括未发表的研究等,将各独立研究分为不同组后,按Mental-Haenszel法进行合并分析,再比较各组及其与合并效应间有无显著性差异。
七、敏感性分析 分析结果在多大程度上受到改变分析方式而发生改变(即敏感程度)? 作出何种决策可能会改变或影响结果? 纳入低质量的研究 采用不同的统计学方法分析资料(固定或随机效应模型) 纳入未发表的研究
八、总结报告 按论文写作的格式要求写出meta分析的总结报告。 (一)材料与方法 此部分要写明文献入选和排除标准、资料来源、统计分析方法等。 (二)结果 先对入选文献的基本情况加以描述,再进行各研究结果的合并和彻底的敏感性分析。可以使用直观的图示方法表示meta分析的结果。 (三)讨论 对可能存在的偏倚进行详细的讨论。 结果的解说要小心谨慎,不能脱离专业背景。 应当详细阐述结果的真实性 应详细分析研究的异质性。
1999年加拿大渥太华大学成立了由David Moher领导的专家小组,召开Meta分析质量(the quality of reporting of Meta—analyses of randomized controlled trials,QUOROM)会议,对RCT的Meta分析报告质量进行了方法学的评价,并提出了一套Meta分析的统一报告格式,也称评价指南,即QUOROM规范。