《循证医学临床实践》第六章 诊断试验 循证分析与评价 临床流行病学与循证医学教研室
§1 诊断试验在临床医学中的重要性 临床诊断论证的过程复杂 在各项诊断试验中,有些具有很高的诊断 试验,循证医学最关注的是具有真实性、 §1 诊断试验在临床医学中的重要性 临床诊断论证的过程复杂 在各项诊断试验中,有些具有很高的诊断 价值——血培养分离出特殊的病原菌、外科的 手术发现、病理组织切片诊断等,临床流行病 学称为“金标准”。 临床医学中,金标准是重要的诊断 试验,循证医学最关注的是具有真实性、 实用性的证据,以确定诊断。
疾病谱发生了变化,不少新的疾病 还没有诊断的金标准。 诊断试验进行创新与深入的研究,提出新的 金标准要求合理安排不同检查项目的先后次序, 诊断疾病要求提供最佳证据,因而必须对 诊断试验进行创新与深入的研究,提出新的 金标准要求合理安排不同检查项目的先后次序, 一定要避免遗漏关键性检查项目,尽可能简化 诊断步骤,缩短确诊时间,尽量减少有创检查 可能带来的并发症,降低医疗费用,从而达到 提高诊断水平,降低漏诊率和/或误诊率。
一、在循证医学实践中的临床意义 1. 循证医学遵循最佳证据 临床实践循证医学,必然要遵循 最佳证据,以求将最好的诊断、治疗方法提供临床应用。 1. 循证医学遵循最佳证据 临床实践循证医学,必然要遵循 最佳证据,以求将最好的诊断、治疗方法提供临床应用。 循证医学是在临床流行病学的基础上 发展起来的,凭借临床流行病学的方法和 现代信息工具的合理应用,更快、更好将 确证为最好的诊断试验提供临床应用。
2. 对诊断试验的评估的重要性 随着时间推移,疾病诊断方法有新发展, 但新的诊断试验能否能超过原来的诊断 方法——依靠对诊断试验的评估。 2. 对诊断试验的评估的重要性 随着时间推移,疾病诊断方法有新发展, 但新的诊断试验能否能超过原来的诊断 方法——依靠对诊断试验的评估。 如:诊断肺栓塞,除病史资料收集和D-二聚体 (D-dimer)检测外,还有许多新开展的影像检查: 除CT、MRI外,还有螺旋CT、CT肺动脉造影 (CTPA)和MRI肺动脉造影(MRPA)都是无创性 检查,较为安全,但由于特异度较低,需要 几种检查结果相互验证。
目前,确诊肺栓塞的“金标准”仍以有创的 肺动脉造影(PAA)为依据,说明近年来发展的 螺旋CT、CT肺动脉造影、MRI肺动脉造影等 并不优于过去的肺动脉造影。 通过文献的检索,可知D-二聚体在诊断肺 栓塞的敏感度高达92%~100%,但其假阳性率 很高(特异度很低),在临床应用中如该试验 结果为阴性,则对排除肺栓塞有较大的价值。
据文献报道,螺旋CT诊断肺栓塞的敏感度 差别较大(53%~100%),但特异度较高(81% ~ 100%),因而有较好的诊断价值。 肺动脉造影的敏感度为98%,特异度95%~ 98%,的确是很理想的诊断试验,但发生严重 并发症的可能性有0.1%~1.5%,这是一项难以 逾越的缺点,以上情况说明某种疾病的诊断方法, 虽有不断进展但仍需要逐步完善。
二、研究现状与发展方向 1. 诊断试验研究现况 循证医学要求对疾病的诊断一定要有 最佳的诊断试验为依据。 1. 诊断试验研究现况 循证医学要求对疾病的诊断一定要有 最佳的诊断试验为依据。 有些疾病诊断的“金标准“缺乏特异性, 阳性率不高而导致漏诊或出现假阳性容易 误诊。 专家建议采用——“组合性诊断标准” (constructing diagnostic criteria)。
如:系统性红斑狼疮(SLE)诊断标准是 1982年美国风湿学会建议的诊断标准,共11项, 病人若有 4项符合即可诊断为SLE。 目前,国际公认该项“组合性诊断标准”是 “金标准”。
1982年美国风湿学会建议的诊断标准 1. 晨僵。 2. 至少一个关节活动时疼痛或有压痛(为医生所看到)。 1. 晨僵。 2. 至少一个关节活动时疼痛或有压痛(为医生所看到)。 3. 至少一个关节肿胀(软组织肥厚或积液而非骨质增生(为医生所看到)。 4. 至少另一个关节肿胀(为医生所看到,两个关节受累所间隔的时间 应不超过3个月)。 5. 对称性关节肿胀(为医生所看到),同时侵犯机体两侧的同一个关节 (如果侵犯近侧指间关节、掌指关节或FDA3趾关节时不需要完全对称)。 远侧指间关节的累及不能满足此项标准。 6. 骨隆起部或关节附近伸侧的皮下结节(为医生所看到)。 7. 标准的X线片所见(除骨质增生外,必须有受累关节附近的骨质疏松存在)。 8. 类风湿因子阳性。 9. 滑膜液中粘蛋白凝固不佳。 10. 具有下述滑膜病理学改变中三个或更多:明显的绒毛增生;表层滑膜 细胞增生及呈栅栏状;明显的慢性炎细胞(主要为淋巴细胞和浆细胞) 浸润及形成淋巴结的趋势;表层或间质内致密的纤维素沉积;灶性坏死。 11. 皮下结节中的组织学改变应显示中心区细胞坏死灶,围绕着栅状增生的 巨噬细胞及最外层的慢性炎细胞浸润。
(1)我国诊断试验研究现况 1985~1995年,中华系列杂志中,共发表诊断 试验的论著50篇,其中: 纳入病例的诊断标准采用了“金标准”的共32篇 (占64%),仍然有36%的论著没有金标准——这对 诊断试验的正确性影响极大缺乏实用价值。 应用诊断试验评价指标的10篇(20%)报道了 敏感度、特异度,没有1篇论著提到过阳性似然比, 也没有盲法的报道,更没有试验重复性的报道。
不少文献不可能给临床医生提供有益的证据。 1996~2000年,中华检验医学杂志发表的诊断试验 论著111篇,其中,有金标准的共65篇(58.5%),没有 金标准的46篇(41.5%);应用金标准的论著中,有33篇 (33/65,占50.8%)无法列出四格表,也无法计算敏感度 和特异度。 论著的样本量,有22篇(19.8%)病例组不足30例, 有30篇(27.0%)对照组不足30例。样本量不足或严重 不足,使诊断试验的论据单薄,缺乏说服力。 可见,已在杂志上刊出的诊断试验,有 不少文献不可能给临床医生提供有益的证据。
2001~2007年中华医学会 6种核心杂志中共检出 诊断试验的论著51篇,其中,有金标准的论著50篇 (占98.0%),采用病理诊断为金标准的有25篇(50%); 报道了敏感度的48篇(94.1%)、特异度的46篇(90.2%), 计算了准确度(或符合率)的18篇(35.3%);采用盲法 与金标准进行对照的3篇(5.9%)。报道了阳性似然比 的2篇(3.9%);有2篇分别报道了ROC曲线及ROC 曲线下面积(AUC)。仍有10篇论著(19.6%)试验组的 病例数在30例以下。
(2)我国诊断试验研究10年的变化 诊断试验文献质量与10年前比较, 各项指标均有明显提高。 采用金标准的研究,从64.0%上升至 98.0%;应用敏感度和特异度的从20.0% 升至94.1%;采用盲法对比的由0增加到 5.9%;对阳性似然比的应用仍不够普及。
热带病研究中发展迅速,如:AIDS、黑热病、 近10年来,快速诊断试验(RDTs)在 热带病研究中发展迅速,如:AIDS、黑热病、 疟疾、梅毒、结核、登革热等疾病的快速诊断试验, 均得到WHO西太地区基金的支持。各种快速诊断 方法较多,但对其可信性和准确性的评价较少。 1990年仅有3种疟疾RDTs,经10年发展,现有 60个品牌,200多种疟疾的RDTs,但经美国CDC与 WHO在2009年采用循证检验方法进行评估结果, 仅20%(41个品种)合格。对结核RDTs的19个品种 评估结果,没有一种试验能正确诊断结核病。
2. 今后对诊断试验开发的要求 要按临床流行病学的方法创最佳证据; 要重视研究的质量; 要事前做好设计方案; 要确定金标准和观测指标; 2. 今后对诊断试验开发的要求 要按临床流行病学的方法创最佳证据; 要重视研究的质量; 要事前做好设计方案; 要确定金标准和观测指标; 要认真进行病例选择、样本含量要足够; 要进行盲法试验、重复性试验等; 要有所发现和创新,以期能够应用于临床造福病人。
§2 评估诊断试验研究 的基本要求及指标 一、基本要求 1. 确定金标准 2. 选择研究对象 3. 采用盲法判断结果
(Coincidence rate or Accuracy) 敏感度又称真阳性率 (Sensitivity) 二、诊断试验常用的指标 符合率又称准确度 (Coincidence rate or Accuracy) 敏感度又称真阳性率 (Sensitivity) 特异度又称真阴性率 (Specificity) 阳性预测值 (Positive Predictive Value, PV+) 阳性预测值与符合率在同一诊断试验中 并不是稳定指标,因此,该指标不宜用于评价 诊断试验的真实性和实用性。
5. 诊断比值比 (diagnostic odds ratio, DOR) 该指标较符合率稳定。通过四格表中交叉 乘积的比值可计算诊断试验的比值比: DOR=ad/bc 6. 阳性似然比 (Positive Likelihood Ratio, LR+) LR+表明诊断试验阳性时患病与不患病 机会的比值,比值愈大患病概率愈大。 7. Roc曲线
循证医学为寻求最佳的临床证据,在诊断 试验中最重要的部分就是ROC曲线和似然比的 应用以及提高敏感度或特异度的方法。 如果同一种疾病有两种或两种以上诊断试验 方法需要进行优选时,可用ROC曲线进行比较。 曲线顶点与纵坐标顶点最接近者,如:CT scan,就是两者之间最好的诊断试验。 还可以比较两条曲线下的面积(AUC),其 面积大者为佳。面积的计算和显著性检验,均可 使用软件包(STATA)进行运算。
CT scan 100 80 60 RN scan 40 Se.sitivity(%) 20 0 20 40 60 80 100 0 20 40 60 80 100 1-Sp.cificity RN scan Se.sitivity(%) Figure 6-1 Computerized Tomography Compared to Radionuclide Scanning in Diagnosing Brain Tumors. Griner PF et al, Ann Intern Med, 1981; 94:553-600.
三、似然比的临床应用 似然比是诊断试验综合评价的理想指标。 阳性似然比(+LR)是诊断试验的真阳性率 其综合了敏感度与特异度的临床意义,可依据 试验结果的阳性或阴性计算某病例患病概率,以便 在诊断试验检测后。更确切地对病人进行诊断。 阳性似然比(+LR)是诊断试验的真阳性率 [a/(a+c)]与假阳性率(误诊率) [b/(b+d)]的比值; 真阳性率愈高,阳性似然比愈大。
如:研究者对贫血病人进行血清铁蛋白(SF) 检查,选定65 µg/L (ng/ml)为临界值。 缺铁性贫血 合 计 是 否 +(<65) 731(a) 270(b) 1001 SF -(≥65) 78(c) 1500(d) 1578 合计 809 1770 2579 Se.= 731/ 809=90.4% Sp.=1500/1770=84.7% +LR=Se./(1-Sp.)=5.9
若将铁蛋白测定的计量资料进行分层处理, 则可计算不同检测水平的阳性似然比。 表6-2 缺铁性贫血病人SF分层测定结果 0.08 0.5 1.8 2.5 8.8 51.8 阳性似然比(+LR) ≥100 45~99 35~44 25~34 15~24 <15 铁蛋白(µg/L)
阳性似然比的应用 似然比含义:试验结果使验前概率提升或降低多少。 确定某项检验或某项体征的阳性似然比后, 可根据验前概率,应用阳性似然比,便可计算 该病例患病的验后概率。 验前概率=人群患病率 验前比值=验前概率/(1-验前概率) 验后比值=验前比值×似然比 验后概率=验后比值/(1+验后比值)
例: 36岁农村妇女,面色不好,心慌乏力 半年多,平时务农,每次月经量偏多, 如何考虑其诊断? 根据病史:务农、月经偏多、面色不好、 乏力半年、可能有贫血及钩虫感染。 初步诊断:依据病史诊断缺铁性贫血 (IDA)的可能性至少60%(验前概率)。
化验检查结果: Hb 65g/L,RBC 3.40×1012/L, SF 20µg/L (+LR=8.8)。 验前概率=60% 验前比值=0.60/(1-0.60)=1.5 验后比值=1.5×8.8=13.2 验后概率=13.2/(1+13.2)=0.93 答:该女性病人IDA的验后概率为93%。
注意事项: 诊断试验计算中,若验前概率与该试验的 患病率相同,则验后概率与阳性预测值相等。 否则,不能认为验后概率就等于阳性预测值。 如:在表6-1各项数据中,可以计算 患病率=809/2579=31.4%, 阳性预测值=731/1001=73.0%。 假定某病人的验前概率为50%(60%),+LR仍是 8.8,按上述方法计算验后概率为89.8%(93%),该数值与诊断试验的阳性预测值(73.0%)迥然不同。
表6-3 +LR和验前概率与验后概率的关系 阳性似然比 验前概率 5% 10% 20% 30% 50% 70% 10 24* 53 71 81 91 96 5 21 36 56 68 83 92 3 14 25 43 56 75 88 1 5 10 20 30 50 70 0.3 1.5 3.2 7 11 23 41 0.1 0.5 1 2.5 4 9 19 *表中数据均为验后概率(%)
表6-4 似然比对验后概率变化的影响 似然比 对验后概率的影响 >10 或 <0.1 决定性变化 5~10 或 0.1~0.2 中等度变化 2~ 5 或 0.2~0.5 较小程度变化 l~ 2 或 0.5~1 无变化 (没必要做该项试验)
表6-5 部分常见病诊断性试验结果的阳性似然比 表6-5 部分常见病诊断性试验结果的阳性似然比 病名 金标准 诊断性试验 阳性似然比 冠心病 冠状动脉造影,狭窄≥75% 典型心绞痛发作 115 冠心病 冠状动脉狭窄(血管造影) 不典型心绞痛发作,有阳性病史 14 心肌梗塞 心电图或尸检 肌酸激酶≥80u 7.75 深静脉血栓形成 静脉造影 深静脉血栓形成 症状(疼痛、皮肤 2.6 颜色改变、局部发热、压痛、周径 增大3cm),全部体征伴周径增大 深静脉血栓形成 静脉造影 以上体征<4 项,且无周径改变 0.15 深静脉血栓形成 静脉彩色多普勒 血浆D-dimer>1292ng/ml 2.0~3.1 冠心病 冠状动脉狭窄(血管造影) 心电图运动试验: ST下降≥2.5mm 39 2~2.49mm 11 1.5~1.9mm 4.2 1.0~1.4mm 2.1 0.1~0.9mm 0.92 冠心病 冠状动脉狭窄(血管造影) 放射性核素冠状动脉造影 3.6 β-溶血链球菌咽炎 咽拭子培养 快速溶血链球菌抗原试验 15.2 腹腔积液 腹部超声波 移动性浊音 2.3 腹腔积液 腹部超声波 波动感 5.0 腹主动脉瘤 彩色超声多普勒 腹部扪诊包块>3cm 2.7 胰腺癌 手术或尸检 B超改变:肯定阳性 5.6 可疑阳性 2.1 CT检查: 肯定阳性 2.6 可疑阳性 4.8 结、直肠癌 活检或手术 结肠镜检 5.0 结、直肠癌 活检或手术 CEA≥20μg/L 3.5 10~19μg/L 2.3 5~9.9μg/L 1.4 贫血 Hb<110g/Lh或HCT<35% 面色苍白 3.8 肺结核 结核菌培养 痰菌:阳性 31 阴性 0.79
为了提高病人的验后概率,若病人有 2项或 2项以上的诊断试验为阳性,将阳性似然比合并, 就可以得到较高的验后概率。 前一个诊断试验的验后概率就是下一个诊断 试验的验前概率。 联合试验总验后比=验前比×LR1×LR2 LR1为第一个试验的似然比, LR2为第二个试验的似然比。
例:40岁,男性,因胸前闷胀步行来诊,病史 2年前 有不典型心绞痛 (+LR=14) 。 ECG:ST段下移2mm(+LR=11) 问该病人患有CHD的可能性有多大? 解:40岁男性,胸前不适,估计患CHD的可能性20%。 不典型心绞痛的+LR=14 ECG:ST段下移2mm的+LR=11, 验前概率:临床估计为0.20 验前比值=0.20/(1-0.20)=0.25 验后比值=0.25×14×11=38.5 验后概率=38.5/(1+38.5)=97.5% 答:该病人患有CHD的概率为97%。
1. 平行试验(parallel test)又称并联试验 四、提高敏感度或特异度的方法 1. 平行试验(parallel test)又称并联试验 为提高诊断的敏感度,对受检者同时进行几项目 诊断试验,有一项结果阳性,即判断为患病。 平行试验的应用可提高敏感度,但特异度却下降。 在循证医学中,应用平行试验的意义在于:凡是 诊断试验结果阳性者均可诊断为目标疾病病人,因而 提高了敏感度,减少漏诊病例,而假阳性病例增高, 应注意鉴别诊断。但,凡诊断结果为试验阴性者,则 可排除目标疾病。
表6-6 平行试验结果的判断方法 方式 结果 判断结果 试验A 试验B 平行 + + + 试验 + - + (并联) - + + - - - 平行试验计算敏感度及特异度的公式: 平行试验Se.=Se. A+(l-Se. A)×Se. B 平行试验Sp.=Sp. A×Sp. B
例:试验A:Se.=65%,Sp.=80% 试验B:Se.=75%, Sp.=90% 计算两项平行试验合并后的敏感度与特异度。 解:按照平行试验公式进行以下运算: 平行试验Se.=0.65+(1-0.65)×0.75=0.91 平行试验Sp.=0.80×0.90=0.72 答:使用两种诊断试验进行平行试验后敏感度为 91%,较前有显著提高,可尽量减少漏诊, 适用于大样本筛查工作;但特异度下降明显, 应注意误诊问题。
2. 序列试验(serial test)或串联试验 需作出确切诊断又缺乏特异度很高的诊断试验时 采用。 临床上可先用安全且价格低廉的试验,当结果为 阳性时,再采用价格昂贵或有创性的试验进行诊断。 但用不同诊断试验,一项一项检查,必然费时过多, 因而可采取一次做多项试验,如前述SLE的组合诊断 标准,一次进行多项检查也就相当于系列试验。 系列试验与平行试验不同之处,在于其必须每项 试验均为阳性时才能够加以合并。
表6-7 系列试验结果的判断方法 方式 联合试验的判断方法 判断结果 试验1 试验2 系列 + + + 试验 + - - (串联) - • • • - 系列试验计算敏感度及特异度的公式: 系列试验Se.=Se. A×Se. B 系列试验Sp.=Sp. A+[(1-Sp. A)×Sp. B]
例:急性心肌梗塞病人,不同的酶学测定结果Se.、 Sp.各有高低,单项应用易发生假阳性造成误诊。 表6-8 单项酶学测定的Se.与Sp. 酶学检查 Se.(%) Sp. (%) CK 96 57 SGOT 91 74 LDH 87 91
系列试验计算多项试验的特异度时,可 先用第1、2项试验的特异度计算Sp.(A+B)。 再以Sp.(A+B)与第3项试验的特异度合并, 计算3项试验同时为阳性的Sp.(A+B+C); 3项试验均为阳性时,依据表6-8计算 Se.及Sp.的方法如下: Se.(A+B+C)=0.96×0.91×0.87=0.76 Sp.(A+B)=0.57+[(1-0.57)×0.74]=0.89 Sp.(A+B+C)=0.89+[(1-0.89)×0.91]=0.99
-PV,提高特异度的目的在于确诊病例,使 系列试验可提高Sp.与+PV,而降低Se.与 -PV,提高特异度的目的在于确诊病例,使 误诊率降到最低水平,利于对病人及时、 正确的诊断和治疗。 本例应用系列试验,当 3 项诊断试验结果 均为阳性时,误诊率仅为1%,达到了循证医学 诊断的预期目标。
§3 诊断试验证据的评价 1994年Jaeschke等应“循证医学工作组”的要求, 对诊断试验论著的评价,提出了 3项 9条评价原则。 §3 诊断试验证据的评价 1994年Jaeschke等应“循证医学工作组”的要求, 对诊断试验论著的评价,提出了 3项 9条评价原则。 2000年Sackett 在著《循证医学》第 2版中, 仍然采用该评价原则。 但在被评价的文献中。对以上各项要求,未必 全部具备;在分条评定的基础上,最后对被评价的 诊断试验论著进行一个较全面的小结和正确的评价, 以提供最佳证据,指导临床诊断与决策,
表6-9 诊断性试验的评价标准 评价内容 8. 在临床上是否能够合理估算病人的验前概率? 一、诊断性试验的真实性 表6-9 诊断性试验的评价标准 评价内容 一、诊断性试验的真实性 1. 是否用盲法将诊断性试验与金标准做过独立的对比研究? 2. 该诊断性试验是否包括了适当的疾病谱(spectrum)? 3. 诊断性试验的检测结果是否会影响到参考标准的应用? 4. 若将该试验应用于另一组病例是否也具有同样的真实性? 二、诊断性试验的重要性 5. 是否通过该项诊断性试验能正确诊断或鉴别该患者有无特定的目标疾病? 6. 是否进行了分层似然比的计算? 三、诊断性试验的实用性 7. 该试验是否能在本单位开展并能进行正确的检测? 8. 在临床上是否能够合理估算病人的验前概率? 9. 检测后得到的验后概率是否有助于对病人的处理?
一、诊断试验的真实性 1. 是否用盲法将诊断试验与金标准 进行独立的对比研究? 结果与金标准诊断结果比较,才能判断该试验是否 1. 是否用盲法将诊断试验与金标准 进行独立的对比研究? 对每个病人需进行两项试验,将新的诊断试验 结果与金标准诊断结果比较,才能判断该试验是否 可靠、是否具有真实性。 新试验操作者事先不应知晓金标准的检测结果 (盲法检测),可避免人为偏倚。如果操作得当, 其结果应也具有真实性。 再通过分析该论著列出四格表计算各项指标, 根据Se.、Sp.及+LR确定该项试验有无临床应用价值。
2. 该诊断试验是否包括了适当的病谱? 重、治疗、未治疗)以及个别易于混淆的病例? 如:测定血中T3、T4诊断甲亢,测定血糖诊断 2. 该诊断试验是否包括了适当的病谱? 诊断试验的受试病人是否包括各型病例(轻、 重、治疗、未治疗)以及个别易于混淆的病例? 如:测定血中T3、T4诊断甲亢,测定血糖诊断 糖尿病,测定肝功能、肾功能判断肝脏和肾脏受损 情况等。 当各型病例都包括在内时,这些指标既可诊断 疾病,又可判断病情,还可以进行鉴别诊断。
3. 试验的检测结果是否会影响参考标准的应用? 如果参考标准是确切可靠的金标准,就不会顾及 新开展的诊断试验结果如何。 3. 试验的检测结果是否会影响参考标准的应用? 如果参考标准是确切可靠的金标准,就不会顾及 新开展的诊断试验结果如何。 如果参考标准不可靠,一旦发现新的诊断试验结果 与原来的诊断有所不同,就难以取舍,必须继续观察以 明确病人的诊断,然后进一步判断原来的标准诊断是否 存有缺陷以及新的诊断试验是否真正可靠,特别是原有 标准诊断基础薄弱,多以临床症状体征为主,缺乏可信 的试验指标,这时,有了新的诊断试验,对改进原有的 诊断标准,提高临床诊断水平是有益的。 因此,评价时,一方面要考虑原有金标准是否恰当, 另一方面要考虑新的诊断试验,是否真有新的发现。
判断一项可靠的诊断试验的真实性时,应考虑该 试验的重复性,若多次测定同一标本的结果接近,说明 测定数值稳定、结果可靠。 4. 将该试验用于另一组病例是否也具有真实性? 判断一项可靠的诊断试验的真实性时,应考虑该 试验的重复性,若多次测定同一标本的结果接近,说明 测定数值稳定、结果可靠。 因此只要疾病相同,不论在何处采用该项试验其 结果都应是一致的,即使用于另一组病例,对特定的 目标疾病诊断应具有同样的真实性。 在新开展的病例组检测中,应该注意该组的患病率 是否与以往的病例组不同,因为患病率不同的病例组, 就不能使用阳性预测值和准确度作为评价的指标。
二、诊断试验的重要性 1. 是否通过该项诊断试验,能正确诊断 或鉴别该病人有无特定的目标疾病? 诊断试验对临床医生的诊断性思维能起多大 1. 是否通过该项诊断试验,能正确诊断 或鉴别该病人有无特定的目标疾病? 诊断试验对临床医生的诊断性思维能起多大 的作用,就是该试验正确诊断疾病的能力;验后 概率越高,说明该试验正确诊断目标疾病的能力 就越强。
因此,应依据论著中有关诊断试验的各项 数据进行敏感度、特异度及阳性似然比的核算; 若没有提供可运算的数据,那么该文献就没有 实用的价值。 例:表6-3所示,当某试验的+LR=10时, 即使验前概率只有30%,但通过试验检测结果 为阳性,其验后概率可高达81%,使初步诊断 有了更大的把握,可以说明该诊断试验重要性。
2. 是否进行了分层似然比的计算? 有分层数据的原始资料,计算分层阳性似然比, 以便更确切地计算验后概率,使该诊断试验的临床 重要性提高,但一般文献报道很少涉及此项内容。 例:表6-2为分层似然比的表格,假设某女性 病人因贫血就诊,初步考虑为缺铁性贫血的可能性 (验前概率)50%,另50%是其他原因贫血。经检查 血清铁蛋白,结果为15µg/L,查表6-2可知: +LR=8.8,按公式计算其验后概率达90%,肯定了 最初诊断,说明分层阳性似然比更具有临床诊断的 重要性。
三、诊断试验的实用性 进行正确的检测? 1. 该试验是否能在本单位开展并能 报道资料中是否明确地叙述了试验的原理、 1. 该试验是否能在本单位开展并能 进行正确的检测? 报道资料中是否明确地叙述了试验的原理、 试剂、操作步骤与方法、检测对象与注意事项, 以便结合本单位情况,考虑可否开展该项试验, 有无经济效益等。
如:设有专科门诊的医院,开展冠状动脉 造影检查冠心病病人或血液专科门诊开展血红 蛋白电泳,检查长期患有小细胞贫血的病人, 则阳性率较高,价值较大。如果这些检查用于 基层医院,对一般冠心病及贫血病人进行检测, 不但前者会有风险存在,且阳性率也很低, 开展这样的试验实用价值不大,经济效益也会 明显受到影响。
2. 临床上能否合理估算病人的验前概率? 合理的验前概率估计与下列因素有关: (1)医师本人的临床经验; 2. 临床上能否合理估算病人的验前概率? 合理的验前概率估计与下列因素有关: (1)医师本人的临床经验; (2)该病在当地的发生情况(群体的患病率); (3)诊断试验的应用范围是否符合我们的病例。 临床医师掌握以上基本情况后,若新的诊断试验 确实可靠,能及时对目标疾病进行检测,这时对病人 的验前概率进行恰当估计,通过检测可达到早期正确 诊断的目的,体现诊断试验的临床实用价值。
我们对病人的处理? 3. 检测后得到的验后概率是否有助于 该值是否已跨越诊断-治疗阈值(见图6-3,阈值B), 3. 检测后得到的验后概率是否有助于 我们对病人的处理? 利用阳性似然比,计算验后概率后,要了解 该值是否已跨越诊断-治疗阈值(见图6-3,阈值B), 若已跨越,说明病人的诊断已基本明确,应该开始 治疗,以使病人能及早获得最佳疗效。若验后概率 没有跨越诊断-治疗阈值,仍在阈值A~B之间,则应 进一步检查并给予适当治疗,以免延误病情。因此, 验后概率的计算,有利于病人及早得到合理的治疗, 有实用价值。
图6-2 阈值分析示意图 不需要作 诊断试验 不需治疗 进行诊断试验 并根据试验结 果和行动阈值 决定是否治疗 不需再作 诊断试验 只需恰当 合理治疗 0 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% A阈值 =诊断阈值 B阈值 =治疗阈值 图6-2 阈值分析示意图
Disease疾病 Treat治疗 活 死亡 PreSe.t存在 Yes 80% 20% PreSe.t存在 No 50% 50% 治疗原则:治疗结果 利>弊 治疗。 疾病确诊与否的治疗利弊 Disease疾病 Treat治疗 活 死亡 PreSe.t存在 Yes 80% 20% PreSe.t存在 No 50% 50% AbSe.t无 No 100% 0% AbSe.t无 Yes 90% 10% 收益benefit for D+= 80%-50%=30% 危害harm for D- =100%-90%=10%
?1 收益Benefit for D+= 80%-50%=30% 危害harm for D- =100%-90%=10% 若病人患病可能性为90%,你治疗吗? (假设无诊断试验可用) Yes! Benefit=90%×30%=27% Harm =10%×10%=1%
?2 收益Benefit for D+= 80%-50%=30% 危害harm for D- =100%-90%=10% 若病人患病可能性为10%,你治疗吗? (假设无诊断试验可用) No! Benefit=10%×30%=3% Harm =90%×10%=9%
?3 收益Benefit for D+= 80%-50%=30% 危害harm for D- =100%-90%=10% 病人患病可能性多大时给予治疗, 其治疗结果利>弊(假设无诊断试验可用)? 需要先计算行动阈值!
行动阈值(action threshold ) Benefit×prop ≥ Harm×(1-prop) Harm/benefit ≤ prop /(1-prop ) Harm/benefit =10%/30%=1/3(根据不同情况判断) 1/3 ≤ prop /(1-prop ) ATodds =prop /(1-prop ) = 1/3 转换为行动阈值(概率)=[(1/3)/(1+1/3)]=25% 也可以由等式prop /(1-prop )=1/3得到行动阈值(即prop) 行动阈值为25%,即患病可能性>25%时治疗才有意义。
250 75 有病 1000 750 无病 ?3 下例计算也证实了当AT为25%时, 病人的收益和害处相等: 30% 10% 的答案:仅在患病率>25%时,进行 治疗有意义。 ?3
?4 若疾病尚未诊断,有试验可诊断, 该诊断试验敏感度为90%,特异度为70%。 若病人患病可能性为1%,你是否要做试验? No!(No test,No treat) 试验阳性似然比+LR =90%/(1-70%)=3 验前比(Pre-odds)=1/99 验后比(Post-odds)=(1/99)×3=3/99 验后概率(Post-prob.)=3/(3+99)%=3% 应用诊断试验原则: 有潜在可能会改变决策时应用试验。
?5 若疾病尚未诊断,有试验可诊断, 该诊断试验敏感度为90%,特异度为70%。 病人患病可能性为90%,你是否要做试验? No!(No test, But treat) 试验阴性似然比 -LR=(1-90%)/70%=1/7 验前比(Pre-odds)=90/10 验后比(Post-odds)=(90/10)×(1/7)=9/7 验后概率(Post-prob.)=9/(7+9)%=56%
(1)诊断阈值(diagnostic threshold) 诊断试验结果使验后概率低于某一数值时,不需要再做任何试验而否定该病诊断,该数值为诊断阈值。 验前比 * +LR ≤ ATodds ‖ 诊断域值odds = ATodds/ +LR 诊断阈值
(2)治疗阈值(treatable threshold) 若诊断试验结果使验后概率非常高,此时,不需要进一步做其他检查就可以肯定诊断,给予治疗,该值为治疗阈值 验前比 * -LR ≥ ATodds ‖ 治疗域值odds =ATodds/ -LR 治疗阈值
图6-2 阈值分析示意图 不需要作 诊断试验 不需治疗 进行诊断试验 并根据试验结 果和行动阈值 决定是否治疗 不需再作 诊断试验 只需恰当 合理治疗 0 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% A阈值 =诊断阈值 B阈值 =治疗阈值 图6-2 阈值分析示意图
若验后概率落在诊断阈值和治疗阈值 之间,则需要作联合试验。此时,前一个 诊断试验的验后概率就是下一个诊断试验 的验前概率。 的验前概率。 联合试验总验后比=验前比×LR1×LR2 LR1为第一个试验的似然比, LR2为第二个试验的似然比。 若总的验后概率在行动阈值以下者 不治疗,大于行动阈值者治疗。
例 男性, 30岁,干咳,发热缺氧, HIV阳性, 胸片提示肺部浸润性表现,CD4计数:200, 怀疑肺孢子虫引起肺炎。 一位医师认为该病人患此病可能性为90%, 故不需要做支气管镜检,马上予以治 疗。 另一位认为其发生可能性为50%, 故应先做支气管镜检进行确诊, 再考虑是否治疗。
你如何解决这个分歧? 何种情况进行支气管镜检查是合适? 你是否会建议进行支气管镜检查或 进行经验性治疗方案? 哪种意见正确? 患病概率在什么范围内适合支气管 镜检?
临床资料显示: HIV阳性合并肺孢子虫型肺炎 及时抗肺孢子虫治疗其病死率为10%, 若治疗不及时,其病死率40%。 治疗的不良反应为30%,其中 3%死亡 (估计总的不良反应病死率为 1%)。 纤维支气管镜检查 敏感度95%, 特异度95%。
行动阈值odds= H/B = 1/30,转换为率= 1/(30+1)= 3.2% 分析: 怀疑非孢子虫病,有诊断试验可用, 纤支镜:Se.=95%,Sp.=95%。 是 否 阳性 95 5 阴性 5(5%) 95(95%) 100 100 治疗利益(B)=40%-10%=30%, 无病害处(H)=1% -LR=(1-0.95)/ 0.95 =1/19 , +LR=0.95/(1-0.95)=19 行动阈值odds= H/B = 1/30,转换为率= 1/(30+1)= 3.2% 诊断阈值odds=ATodds /+LR= 1/30*19 =0.00175 治疗阈值odds=ATodds/-LR=(1/30)/(1/19)=0.63333, 治疗阈值odds转换为率=0.63333/1.63333 =38.8% 结论:不论90%及50%均>38.8%,故该病人应立即治疗。
综合前述,循证医学对诊断试验的 3项 9条评价标准,与临床流行病学应用的评价 标准相比,的确要求更为严格,评估的难度 也有所增加。 要从真实性、重要性和实用性三方面 进行评估,然后提供循证医学在诊断方面的 最佳证据。 在应用中要体会各条标准的内涵,逐渐 熟悉、逐步提高并在每篇文献评价后,进行 一个恰当的小结。 The end