《临床实验室管理学》课件 第十七章 诊断试验的临床效能评价
第一节 诊断试验评价的意义、内容和原则 一、诊断试验临床效能评价的意义 诊断(diagnosis)是指在临床上医务人员通过详尽的检查及调查等方法收集信息、资料,经过整理加工后对患者病情的基本认识和判断。 用于诊断的各种检查及调查的方法称为诊断试验(diagnostic test)。 广义的诊断试验不仅包括影像诊断、仪器诊断、实验诊断,也包括病史和临床检查。
通过了解诊断试验的临床应用效能,从而对其临床应用价值进行评估。 评价诊断试验临床效能的意义在于指导临床使用高效能项目,淘汰低效能项目;正确理解和应用诊断试验的测量结果;便于数据挖掘和知识发现;有利于检验医学咨询工作的开展。
二、诊断试验临床效能评价内容 1、真实性 2、可靠性 3、实用性
第二节 真实性评价的研究设计 要求一项诊断试验具备能正确地鉴别患者患某病和未患某病的能力,称之为真实性。 第二节 真实性评价的研究设计 要求一项诊断试验具备能正确地鉴别患者患某病和未患某病的能力,称之为真实性。 诊断试验的真实性主要包括灵敏度和特异度。前者指诊断试验能将实际患病的患者正确地判断为患某病的能力,后者指将实际未患某病的患者正确地判断为未患某病的能力。 其他指标如尤登指数、预测值、似然比、受检者工作特征(ROC)曲线等 。 灵敏度和特异度是一对矛盾的统一体,要追求高的灵敏度必然降低特异度,反之亦然。
诊断试验灵敏度和特异度的关系
诊断试验的灵敏度与检测方法的分析灵敏度的区别在于对象不同。诊断试验的对象是疾病或疾病状态,而检测方法的对象是被测量。 对一个检测项目来说,检测方法的分析灵敏度高并不能说明诊断某病的灵敏度就高,反之亦然,特异度也是如此。 血清总前列腺特异抗原(TPSA)发光免疫法检测灵敏度为0.72ng/ml, 血清TPSA用于诊断前列腺恶性肿瘤的灵敏度为73.0%,从健康人群中筛查前列腺恶性肿瘤的灵敏度可能为56.9%。
诊断试验的评价方法和步骤 1、确定研究目标 2、选择金标准诊断方法 3、估算样本量 4、数据的提取和数字化 5、确定诊断分界点
一、确定研究目标 进行临床效能评价应首先明确研究目标,如进行血清TPSA浓度测定诊断前列腺恶性肿瘤的真实性评价。 评价临床效能只能在特定人群范围内进行,因此,应制定受检者(试验对象)纳入标准和排除标准。试验对象包括病例组和对照组,被金标准证实的患者作为病例组,未患该病的受检者作为对照组。
如血清TPSA浓度测定诊断前列腺恶性肿瘤真实性评价 病例组纳入标准:未经过任何治疗或治疗后复发的前列腺恶性肿瘤患者。 对照组纳入标准:健康受检者和经临床证实未发现前列腺恶性肿瘤的其他疾病患者。 排除标准:受检者诊断不明、前列腺恶性肿瘤治疗过程中的患者。
二、选择金标准 如可将病理诊断作为前列腺恶性肿瘤的金标准。 三、估算样本量 诊断试验的灵敏度和特异度是比较稳定的指标,因此,可用估计总体率的样本含量统计学原则来估算,分别计算“病例组”样本量和“对照组”样本量。
四、数据的提取和数字化 临床效能评价最好利用临床工作中的既往测量结果。为了更便利地使用各种统计软件,各种资料必须数字化。
五、确定诊断分界点 当健康分布与患者分布没有重叠时,可以取中间一点(D点)为分界点,这时假阳性和假阴性率均为0,这是一种罕见的理想情况. 实际上许多诊断试验健康人与患者呈交叉分布,当D点向右移动时,假阳性减少,假阴性增加,灵敏度降低,特异度增加;反之,当D点向左移动时,假阳性增加,假阴性减少,灵敏度增大,特异度降低。 分界点的确定直接影响诊断试验评价指标。
理想的诊断试验健康群体 与患者群体分布曲线 实际的诊断试验正常群体 与患者群体分布曲线
按照纳入标准分组,将测量结果整理成四格表(表17-2), 可计算灵敏度、特异度、漏诊率、误诊率、尤登指数、 第三节 真实性评价方法 一、四格表 按照纳入标准分组,将测量结果整理成四格表(表17-2), 可计算灵敏度、特异度、漏诊率、误诊率、尤登指数、 准确度、似然比、预测值等指标。 诊断试验 金标准 有病 无病 合计 阳性 a(真阳性) b(假阳性) a+c 阴性 c(假阴性) d(真阴性) c+d b+d N
血清TPSA (诊断试验) 病理诊断(金标准) 前列腺癌 非前列腺癌 合计 阳性(≥4ng/ml) a(66) b(12) 78(a+b) 阴性(<4ng/ml) c(6) d(58) 64(c+d) 72(a+c) 70(b+d) 142(N)
灵敏度(sensitivity, Sen) 又称真阳性率(true positive rate, TPR),是诊断试验能将实际有病的人正确地判为患者的能力,即患者被判为阳性的概率。反映检出患者的能力,该值愈大,漏诊病例(漏诊率)愈少,其计算公式为: Sen=TP/(TP+FN) 注意:阳性率=(TP+FP)/(TP+FN),不等于灵敏度 二、灵敏度 三、特异度 特异度(specificity,Spe) 又称真阴性率(true negative rate, TNR),在金标准诊断为“无病”的例数中,某诊断性试验结果为阴性的比例,真阴性例数愈多,则特异度愈高,误诊病例(误诊率)愈少,其计算公式为: Spe = TN/(TN+FP)
六、尤登指数(Youden’s index) 又称正确指数,是指灵敏度和特异度之和减去1,是综合评价真实性的指标。理想的试验应为1。其计算公式为:尤登指数 = ( Sen + Spe ) – 1 七、准确度 试验的准确度(accuracy,ACC) ,也称效率(efficiency),可用真阳性与真阴性人数之和占受试人数的百分率表示。理想的试验应为100%。其计算公式为: ACC = (TP+TN)/N × 100 %
八、似然比 似然比(likelihood ratio,LR)是指患病人群中试验结果的概率与无病人群中试验结果概率之比 阳性似然比 在诊断性试验中,真阳性率 (TPR)与假阳性率(FPR)的比值即为阳性似然比(positive likelihood ratio, +LR),可用以描述诊断性试验阳性时,患病与不患病的机会比。若该比值大于1,则随比值的增大,患病的概率也增大;若其比值小于1,则患病的概率较小。 +LR=TPR/FPR
阴性似然比 在诊断性试验中,假阴性率(FNR)与真阴性率(TNR)的比值即为阴性似然比(negative likelihood ratio, -LR) 。可用以描述诊断性试验阴性时,患病与不患病的机会比。其比值愈大,则患病的概率愈小,其比值愈小,则患病的概率愈大。 -LR=FNR/TNR
九、预测值 预测值(predictive value,PV)亦称预告值,它是表示试验能做出正确判断的概率。 阳性预测值是指真阳性人数占试验结果阳性人数的百分比,表示试验结果阳性者属于真病例的概率。 阳性预测值计算公式: PPV = TP / (TP+FP)×100% 阴性预测值是指真阴性人数占试验结果阴性人数的百分比,表示试验结果阴性者属于非病例的概率。 阴性预测值计算公式: NPV = TN / (TN+FN)×100 %
十、验前概率与验后概率 1. 验前概率 验前概率指在诊断试验前被检者可能患病的概率。该指标用于对所有人群普查时,患病率即验前概率;当对某医院或某专科就诊人群做该诊断试验时,就诊率即验前概率;当医师根据患者的病史、体征、症状和流行病学资料作出判断时,拟诊率即验前概率;前一个诊断试验的验后概率即是后一个诊断试验的验前概率。
2. 验后概率 验后概率是拟得到的某一事件发生的概率。在用于诊断时,验后概率主要为诊断概率,即当某一试验为阳性时,诊断为某病的概率是多少。验后概率可以通过验前概率修正的阳性预测值求得: 验前概率×灵敏度 PPV= ---------------------------------------------------------------- 验前概率×灵敏度+(1-验前概率)(1 - 特异度)
十一、ROC曲线 ROC 是受试者工作特征(Receiver Operating Characteristic) 或相对工作特性曲线(Relative Operating Characteristic) 的缩写。 是以灵敏度为纵坐标,(1-特异度)为横坐标作图所得出的曲线,是表示灵敏度与特异度之间互相关系的一种方法。 ROC曲线下面积(Area Under the Curve, AUC)可用来比较两种或两种以上诊断试验的临床实用价值,以帮助医师作出最佳选择。
ROC曲线图
ROC曲线及其数据集的构建 以总前列腺特异抗原(TPSA)诊断前列腺癌为例,采用SPSS13.0统计软件构建ROC曲线: 1、整理后的检测数据见下表。 样本号 TPSA(ng/ml) 分组(1=前列腺癌,0=其他) 1 75.98 31 10.33 61 19.70 91 7.76 2 83.50 32 11.70 62 22.08 92 9.48 3 100.00 33 5.32 63 12.50 93 6.40 12 42 93.02 72 11.95 102 7.84 13 43 73 14.53 103 6.59 14 44 74 9.58 104 7.31 15 54.00 45 75 7.58 105 5.33 21 40.36 51 27.05 81 8.87 111 8.32 22 75.17 52 82 16.37 112 4.31 27 43.51 57 19.24 87 7.03 117 0.91 28 25.97 58 19.58 88 8.91 118 4.47 29 26.09 59 19.75 89 8.60 119 2.46 30 16.25 60 16.94 90 6.36 120 3.96
2、 运行SPSS13.0 for WINDOWS统计软件 3、打开Excel数据表,文件类型选Excel *.XLS
3、选择graphs菜单下 ROC CURVE…
4、输出统计结果:ROC曲线
4、输出统计结果:ROC数据集
例如: 现有11个独立的同一指标的诊断性试验结果,如下表: 荟萃分析与系统评价 1.收集多个独立的诊断性试验结果: 例如: 现有11个独立的同一指标的诊断性试验结果,如下表: K个 研究 TP a FP B FN c TN D N 1 17 2 12 31 5 4 6 27 3 16 7 43 11 22 40 13 34 18 9 35 8 26 21 39 10 14 37 15 33
2.计算诊断性试验的常用指标 评价项目和统计结果如表: 2.计算诊断性试验的常用指标 评价项目和统计结果如表: 敏感度 1-特异度 特异度 研究 真阳性率 假阳性率 假阴性率 真阴性率 编号 TP RP FN TN TPR FPR FNR TNR a b C d N a/(a+c) b/(b+d) c/(a+c) d/(b+d) 1 14.5 16.5 0.5 7.5 39.0 0.9667 0.6875 0.0333 0.3125 2 15.5 12.5 2.5 4.5 35.0 0.8611 0.7353 0.1389 0.2647 3 17.5 33.0 0.9722 0.1667 0.0278 0.8333 4 5.5 6.5 29.0 0.4583 0.5417 5 45.0 0.7857 0.2143 6 11.5 1.5 22.5 42.0 0.8846 0.2241 0.1154 0.7759 7 13.5 36.0 0.6429 0.1000 0.3571 0.9000 8 0.7222 0.0625 0.2778 0.9375 9 18.5 9.5 37.0 0.9250 0.4412 0.0750 0.5588 10 28.0 0.3667 0.6333 11 21.5 8.5 41.0 0.8269 0.4333 0.1731 0.5667
3.计算DOR值 诊断性试验的OR值为DOR(diagnostic odds ratio),每个试验的DOR值可按下式计算: TPR/(1-TPR) DOR= ----------------- TNR/(1-TNR) 研究编号 DOR D S 3 175.0000 5.1648 1.9459 4 3.2828 1.1887 0.8546 5 8.0667 2.0877 0.5108 6 26.5385 3.2786 0.7952 7 16.2000 2.7850 -1.6094 8 39.0000 3.6636 -1.7525 9 15.6222 2.7487 2.2759 10 13.2424 2.5834 1.4903 11 6.2479 1.8322 1.2957 4.计算D、S值: D= ln(DOR) S=ln(TPR/(1-TPR)/(FPR/(1-FPR))
5.计算回归系数和截矩 多个同类诊断性试验研究结果,经过前述计算后,将其S做自变量(X),D做应变量(Y),再做直线回归分析。可得到截矩A和回归系数B。如上表中的9个研究数据经回归分析后,得截矩A=2.82;回归系数B= – 0.002,其回归方程为: D = 2.82 – 0.002 S
6.绘制sROC曲线 将上述截矩A和回归系数B的值代入下述方程, 得到Q值:P为假阳性率(FPR,1-spe),Q为敏感度(TPR)。 1+exp[-A/(1-B)]((1-p)/P)[(1+B)/(1-B)] 计算次数 P Q 1 0.01 0.1465 2 0.02 0.2569 3 0.05 0.4705 4 0.1 0.6516 5 0.2 0.8075 6 0.3 0.8777 7 0.4 0.9176 8 0.5 0.9434 9 0.6 0.9615 10 0.7 0.9749 11 0.8 0.9852 12 0.9 0.9933
第六节参考区间与医学决定水平 一、参考区间(reference interval) 1. 参考区间的意义 参考区间又称生物参考区间。有个体参考区间和群体参考区间两种,个体参考区间代表生物个体内变异,群体参考区间反映生物个体间变异。 群体参考区间可来源于厂家试剂盒说明书或文献报告,采用时应进行验证。
参考区间的验证与建立 CLSI C28-A3c《临床实验室如何定义、建立和验证参考区间》为临床实验室和仪器试剂制造商提供了确定参考区间的基本方法。
一般情况下,选择95%分布范围作为参考值区间。如从2.5%位数到97.5%位数所在的区间,或从0~95%位数,或选择99%上限值。
2. 建立参考区间的步骤 CLSI C28-A3c《临床实验室如何定义、建立和验证参考区间》为临床实验室和仪器试剂制造商提供了确定参考区间的基本方法。 参考值的个数 最小的可靠观测量是120,此时每个参考限均可在90%可信限范围内进行非参数估算。如评估95%可信限的参考限,需要153个参考值;评估99%可信限的参考限,需要198个参考值;对于严重偏态分布的结果,研究数量最好能达700。
二、医学决定水平 医学决定水平指对疾病诊断或治疗起关键作用的某一分析物的浓度。 医学决定水平不同于参考区间,通常情况下同一个诊断项目不止一个医学决定水平。通过观察测量结果高于或低于这些限值,可在疾病诊断中起排除或确认作用,或对某些疾病进行分级和分类。
AFP测定的参考区间<25μg/L,>25μg/L时为肝炎、肝硬化等疾病,而>400μg/L时为原发性肝癌。 “危急值”是一种特殊的医学决定水平,是累积临床经验而得,如成年人血糖的危急值>22.2mmol/L或<2.7mmol/L。
小 结 2. 对一项诊断试验的效能评价主要从三个方面予以考虑,即真实性、可靠性和实用性。 小 结 1. 掌握了诊断试验的临床效能,就能够按照循证医学的科学方法进行医疗活动。从选择合理的、可靠的、有效的诊断试验着手,判断检验结果对于某种诊断的贡献有多大,从而确定和执行合理的医疗决策。 2. 对一项诊断试验的效能评价主要从三个方面予以考虑,即真实性、可靠性和实用性。 3. 诊断界点的确定由临床或检验医师对试验灵敏度或特异性的要求而定。
4. 预测值因考虑了不同研究群体的患病率(验前概率),因此能够更好地反映试验的诊断价值。 5. ROC曲线是以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标作图所得出的曲线,表示不同的诊断分界点时灵敏度与特异度之间的互相关系,根据AUC可以判断不同试验对某种疾病诊断价值的大小。
6. 数据挖掘是可以将海量的检验数据提炼为有效的诊断信息,达到知识发现的目的。 7. 联合试验的数据挖掘可以采用多元回归、决策树、人工神经网络等方法,是提高试验诊断效能的有效工具。
展 望 1. 方向:检验医学与医学检验并不只是文字顺序的简单变化,而是学科的发展方向、工作重心、教学模式、学习方法的变革! 展 望 1. 方向:检验医学与医学检验并不只是文字顺序的简单变化,而是学科的发展方向、工作重心、教学模式、学习方法的变革! 2. 机遇:近年来,医疗体制改革、质量控制体系的建立、实验室认可等活动,从管理层面上促进了检验医学的发展。信息技术和生物技术为检验医学学科建设创造了有利条件,检验医学信息处理从技术层面上找到一条引领和促进医学检验向检验医学学科快速发展的途径是业界面临的良好机遇。
3. 途径:以计算机信息网络为研究平台,医学检验信息为枢纽,规范积累检验数据、评估检验效能、建立跨地域临床检验数据仓库和合作咨询研究平台(例如http://tcase.clinet.cn)、建立实用的预测、诊断、评估、预后等数学模型并应用于临床实践,循序渐进地解决检验医师工作难于开展的难题,达到检验医学临床实践和知识发现的目的。
谢谢!