Nikolaos P. Polyzos 医学博士 如何批判性地 评价一项研究 Nikolaos P. Polyzos 医学博士
学习目标 本演示结束后你应领悟到:不应毫无质疑地接 受任何论文的结论。 本演示就如何对论文结论提出质疑提供指导。
论文: 为什么大多数已发表的研究结果都是错误的 - John P.A.Ioannidis 研究结果在下述情况下基本不大可能为真: 对某一领域进行的研究比较小 效应量比较小 设计、定义、结果和分析模式具有较大的灵活性 较大的经济利益以及其他利益和损害 Ioannidis JP, Plos Med 2005
为什么应该对所有论文的结果提出质疑 应该如何对论文结果提出质疑
为什么应该对所有论文的结果提出质疑 引用率最高的论文,其结论并 非都是真理
引用率最高的论文,其结论并非都是真理 最初的调查结果—也许在今后经证明是错误的 具有功效的高引用率研究(引用次数大于 1000 次)主张 具有功效的高引用率研究(引用次数大于 1000 次)主张 16% 的研究与后续研究有矛盾 16% 的研究经发现最初具有更强的效果 与原高引用率的研究相比,在后续研究中还带有更大样 本量的44%研究为重复研究 24% 的研究保持多半未受质疑 Ioannidis JP, JAMA 2005
即使是那些评价很高的期刊也会出现数据造假 为什么应该对所有论文中的研究结果 提出质疑 即使是那些评价很高的期刊也会出现数据造假
即使是那些评价很高的期刊也会出现 数据造假 即使是那些评价很高的期刊也会出现 数据造假 Sudbø 案例(柳叶刀,Lancet) 908 名患者参与了研究,其中 250 人的出生日期相同。
为什么应该对所有论文结果提出质疑 低质量的随机试验可能会夸大治疗效果
低质量随机试验可能会虚假地夸大治疗效果 Cochrane 妊娠与分娩数据库 低质量研究出现了更显著的治疗效果 33 次元分析中的 250 组对照试验 低质量研究出现了更显著的治疗效果 随机性问题 优势比被夸大高达 41% 盲法不当 优势比被夸大了 17% Schulz.JAMA 1995; 273 (5):408–412
早产儿出生数据元分析绘图 < 37 周怀孕期 低质量试验显示出其治疗效果未能在高质量研究被证实 早产儿出生数据元分析绘图 < 37 周怀孕期 研究或分组 治疗 不治疗 体重 优势比 项目/总计 (%) (M-H 固定效应模型) (95% CI) 低质量试验 小计 (95% CI) 114/996 147/725 35.2 0.52 (0.38 到 0.72) 异质性检验: χ2 = 4.95,df = 5,P = 0.42,I2 = 0% 整体效果检验: z = 4.01,P<0.001 高质量试验 250/2303 219/2290 64.8 1.15 (0.95 到 1.40) 异质性检验: χ2 = 4.02,df = 4,P = 0.40,I2 = 1% 整体效果检验: z = 1.45,P = 0.15 总计 (95% CI) 364/3299 366/3015 100 0.93 (0.79 到 1.10) 异质性检验: χ2 = 25.94,df = 10,P = 0.004,I2 = 61% 整体效果检验: z = 0.86, P = 0.39 M-H = Mantel-Haenszel 固定效应模型 优势比 (M-H 固定效应模型) (95% CI) 0.1 0.2 0.5 1 2 5 10 有助于治疗 对治疗无用 Polyzos NP et al., BMJ 2010
为什么应该对所有论文的结论 提出质疑 不发表或之后才发表出现阴性结果的试验
Polyzos NP et al., Hum Reprod 2011 不发表或之后才发表出现阴性结果的试验 结果支持 实验组 1.0 非阳性 阳性 非阳性审查 阳性审查 0.8 0.6 全文发表摘要的比例 0.4 生殖医学的发表偏倚:从欧洲人类生殖及胚胎学会年度会议举办的时间到发表时间 0.2 0.0 0 20 40 60 80 100 发表时间(月份) 重大科学会议提出的研究中,相比阴性结果的试验,阳性结果的试验更有可能被发表 Polyzos NP et al., Hum Reprod 2011
为什么应该对论文中所有的结果提出质疑 元分析往往凭借少数或前后矛盾的依据
Humaidan & Polyzos Nat Med 2012 元分析和系统评论往往凭借少数或前后矛盾的依据 2012 年 7 月期间,61 篇系统评论在 《循证医学》(Cochrane)发表 15% 的系统评论包括 1 次或 0 次试验 半数系统评论涉及的随机患者不足 1000 人 31 篇最新评论 这 31 篇最新评论中,11 篇包含与早先他们试图更新的评论相同数量的试验和患者 (元分析) 分析:系统评论可能失去可信性 Humaidan & Polyzos Nat Med 2012
行业支持的研究可能会展示更明显的治疗效果 为什么应该对所有论文中的结果提出质疑 行业支持的研究可能会展示更明显的治疗效果
行业支持的研究可能会展示更明显的治疗效果 相比其他来源所资助的研究,医药公司资助的研究所得出的结论更有4倍可能有利于赞助商的产品。 研究(第一作者) 优势比 Azimi12 Cho14 Clifford15 Davidson16 Dieppe18 Djulbegovic19 Djulbegovic20 Friedberg23* Friedberg23┼ Kamal-Bahl26╪ Kamal-Bahl26§ Koep30 Mandelkern32 Sacristan36¶ Sacristan36** Thomas38 Vandenbroucke39 Yaphe41 0.1 0.2 0.5 1 2 5 10 100 1000 10000 OR 4.05;95% CI 2.98-5.51 Lexchin J et al., BMJ.2003
Valachis et al., J Clin Oncol 2012 行业支持的研究可能会展示更明显的治疗效果 临床肿瘤学期刊 原始报告 肿瘤靶向治疗经济分 析的财务关系 82% 的行业赞助的成本效益分析中表明药物具有成本效益 Valachis et al., J Clin Oncol 2012
作者单位或资金提供或与制造商之间的利益冲突 行业支持的研究可能会展示更明显的治疗效果 “假想对手”比较器 作者单位或资金提供或与制造商之间的利益冲突 100 90 80 70 60 50 40 30 20 10 0 10 20 30 40 50 60 70 80 90 100 敏感性 1 –独特性 对无相关作者、无资金供给或无与制造商的利益冲突的成本效益分析 (CEA‘s) 的估值 对至少有一名与制造商有关的作者或得到资金赞助或与制造商存在利益冲突的成本效益分析 (CEA's) 的估值 行业参与的成本效益分析与巴氏试验(帕帕尼科拉乌试验 Pap test) 的敏感性较低基准假设有关 Polyzos NP et al., CMAJ 2011
在过去,那些由行业赞助的试验,甚至是政府赞助的试验到后来才发表 为什么应该对所有论文的结果提出质疑 在过去,那些由行业赞助的试验,甚至是政府赞助的试验到后来才发表
行业赞助的试验可能会比无赞助的试验发表 得更迟 发表时间 2 年内的发表率 研究结束之后,行业赞助试验的发表时间(24 个月)对非行业赞助试验的发表时间(20 个月), P < 0.001 Ross JS et al., JAMA 2013 2 年内的发表率 行业赞助试验的发表率 (40%) 对非政府/非行业赞助试验的发表率 (56%) RR = 0.73,95% CI 0.61–0.87;p<0.001 行业赞助试验的发表率 (40%) 对政府赞助试验的发表率 (47%); p = 0.22 Ross JS et al., Plos Med 2009
即使是政府赞助的试验也未必能很快发表 51 个月——三分之一的试验获得发表 完成后未能发表的美国国家卫生研究院 (NIH) 的试验 30 个月——半数的试验获得发表 51 个月——三分之一的试验获得发表 80 60 40 20 0 20 40 60 80 100 自研究结束后(月数) 研究发表的百分比 有风险的研究数量 635 635 635 635 493 330 220 153 95 54 44 80 60 40 20 0 5 10 15 20 25 30 自研究结束后(月数) 研究发表的百分比 P<.001 2007 年之前完成的试验 2007 年至 2008 年完成的试验 未发表的研究数量 2007 年之前完成的试验 269 264 259 235 221 197 175 2007 年至2008 年完成的试验 366 356 324 282 244 215 176 Ross JS et al., BMJ 2011
为什么要对所有论文的结果提出质疑 如何对论文结果提出质疑
临床试验管理与报告会随着时间的推移有所改善, 如何对论文结果提出质疑 临床试验管理与报告会随着时间的推移有所改善, 因此不要根据研究的状态事先否定一项研究
研究发表与行业的关联会降低该发表内容对医生的价值 不要根据研究状态 事先否定一项研究 研究发表与行业的关联会降低该发表内容对医生的价值 医生愿意开处方药 1.25 1.00 0.75 0.50 行业赞助的研究对 非行业赞助的研究 美国国家卫生研究院 (NIH) 的研究 资金 优势比 0.68(95% CI, 0.49-0.94) P = .02 0.52(95% CI,0.37-0.71) P <.001 不大可能甚至是没有兴趣阅读全文! 行业赞助: 对内科医生就方法学质量的看法产生负面影响 无论试验的质量如何,却降低他们相信并按临床试验结果行事的意愿 Kesselheim NEJM 2012
为什么不应依据该研究目前的进行情况事先否定一项研究呢 《药品临床试验管理规范》(2005 年 4 月 8 日, 欧洲议会和理事会颁布《2005/28/欧盟法令》) EudraCT vs. 9(欧洲临床试验注册中心) 必须提供 2004 年 5 月 1 日之前在欧盟开展的所有介入性临床试验的试验结果 报告和公开披露的内容包括: 早期中止的临床试验 既有阳性试验结果又有阴性试验结果的临床试验 已获或者未获在社区内销售许可的产品试验 https://eudract.ema.europa.eu/index.html
不要根据其状态 事先否定某项研究 该状况随时间推移是否得到改善? 制药公司在推出一种新药前,必须先后进行 II 期临床试验确立安全的 剂量和安全性和 III 期临床试验确认疗效,并进一步证明受外部监控 的安全性并且必须进行高水平的方法学研究 新开发项目在第二阶段的成功率已经从28% (2006-2007 年)下降到18% (2008-2009 年)。 III 期临床试验和相应的注册申请的合并成功率从2007 至 2010 年间 已经下降到 ~50% Arrowsmith.Nature Reviews Drug Discovery 2011 Arrowsmith.Nature Reviews Drug Discovery 2011
评价科学论文时,可以使用标准的批判性评价方法 应如何对试验结果进行提问 评价科学论文时,可以使用标准的批判性评价方法
评价科学论文时,可以使用标准的批判性方法 批判性评价该项研究的目的 进行该项研究的理论基础何在 研究的问题是否已明确定义了,如果没有的话,是否应该予以确定? 如何阅读和评判一篇研究性学习的纲要 美国护士协会 http://www.nursingworld.org
评价科学论文时,可以使用标准的批判性评价方法 评判性评价该研究的设计 其设计是否适合该项研究本身? 样本是否和研究项目的设计相匹配,其样本量能否满足研究的需要? 试验的数据是如何收集的? 所采用的分析方法是否与研究问题和研究设计一致? 如何阅读和评判一篇研究性学习的纲要 美国护士协会 http://www.nursingworld.org
评价科学论文时,可以使用标准的批判性方法 检查该项研究是否已在公开的资料库中注册 临床试验在开始之前是否已经注册? 研究的主要评价项目是否和已注册的临床试验版本相同?
评价科学论文时,可以使用标准的批判性评价方法 始终做到查阅现有的文献 文献综述是否和研究相关,是否全面,且是否包含最近的研究结果呢? 文献综述是否对进行该项研究起到支持作用呢? 试验的结果是否和现有文献中的内容一致呢? 如何阅读和评判一篇研究性学习的纲要 美国护士学会 http://www.nursingworld.org
评价科学论文时,可以使用标准的批判性评价方法 批判性地评价试验的结果和结论 试验的结果是否清晰地呈现在文章、表格和配图中? 是否对统计数据做了清楚说明? 所解释的研究结果与理论框架和研究问题是否存在关联性? 是否陈述了研究的局限性,并就其含意进行了相关的讨论? 是否提到对临床实践的建议 如何阅读和评判一篇研究性学习的纲要 美国护士协会 http://www.nursingworld.org
结论 试验都是存在局限性的,所得出的结果具有一定的偶然 性 不仅如此,有风险的结果有时甚至还具有误导性 研究越有说服力,研究结果的真实性就越高 始终做到查看全部的文献,并找出其所报告内容的一致 性和不一致性 不要仅基于发表的期刊、研究组或者参与的行业,而事 先接受或否定研究结果
谢谢!