如何完整准确的进行检验结果解读 贵州省临床检验中心 黄 山
检验结果的解读,是分析 后质量控制的重要内容 检验结果的解读,关系到病人 的安危;关系到检验科、 检验人员的声誉
目录 一、检验项目选择的目的 二、临床资料的掌握 三、检验方法学评价 四、临床诊断效能评价 五、检验项目组合分析 六、正常参考范围应用 七、医学决定水平 八、检验结果解读发展趋势
一、检验项目选择的目的 项目选择很大程度上依赖于试验的临床目的 筛查、诊断、病例发现、病程监测、疗效随访、决定药物水平、药物效应观察、预后评估、健康体检等。 梅毒抗体检测:健康体检、输血前检测、孕检、临床症状的验证……… 梅毒抗体阳性?(TPPA+,TRUST+)(天价结果解读)
二、临床资料的掌握 病人的病史、病程、疾病特点对检验结果解释具有非常重要的作用
三、检验方法学评价
三、检验方法学评价 诊断试验的双向表 检测结果 疾病存在 疾病不存在 阳性 A(真阳性) B(假阳性) 阴性 C(假阴性) D(真阴性) 敏感度=A/(A+C),特异度=D/(B+D) 阳性预测值(PPV)=A/(A+B),阴性预测值(NPV)=D/(C+D) 漏诊率=1-灵敏度,误诊率=1-特异度 诊断一致性(诊断准确度、约登指数、Kappa指数) 诊断准确度=(真阳性+真阴性)/N,约登指数=(敏感度+特异度)-1 Kappa指数=2(ad-bc)/(a+b)(b+d)(a+c)(c+d) 检测结果 疾病存在 疾病不存在 阳性 A(真阳性) B(假阳性) 阴性 C(假阴性) D(真阴性)
三、检验方法学评价 案例:HIV初筛与确证 敏感性高的试验可用于排除可疑疾病,假阴性检测的数目最少;阴性检测趋向于排除疾病,阳性结果不一定说明问题。 特异性好的实验可用于确诊或排除可疑疾病,将假阳性结果降到最小,阳性结果意义较大。 敏感度与漏诊率,特异度与误诊率相关 临界值直接影响敏感度和特异度,一般情况下以95%位数为临界值来确定阴性和阳性 使用灵敏度高的实验,漏诊率较低,特异性较差,误诊率也较高。使用特异度较高的实验,误诊率较低,灵敏度相对较差,漏诊率较高。 案例:HIV初筛与确证
三、检验方法学评价 避免分析方法上的随机误差,包括温度变化、试剂和标本量等。 分析前的变量(例如标本采集、传输和实验室的接收) 测量不确定度 分析后变量(例如录入、电话报告、缺少参考范围等。)。分析前误差占全部实验室误差的31%~75%,分析后误差占全部实验室误差的9%~30%,分析误差(例如主观判读、污染、干扰、交叉反应、方法学)占全部实验室误差的13%~31% 测量不确定度 ⑴检验就是基于抽样对总体的估计:一是少量标本对整体的估计,二是一次测量对真值的估计 ⑵ 检验结果不是一个与真值一致的值,而是一个区间内的某一个值 ⑶结合测量不确定度解释检验结果:同一个患者两次检验的结果常会有一定的差异,抽样误差?检验不确定性?还是患者体内真的发生了变化?可以评估方法的不确定度大小来估计检验结果真值可能分布区间,作出结果解读
四、临床诊断效能评价 临床诊断试验结果与患病情况的关系 “正常人”与“患者”诊断试验结果分布有重叠,因此诊断试验的结果和疾病之间可能出现四进行种关系:真阳性、假阳性、真阴性、假阴性。真阳性是实际有第病的人正确地判为患者的数目。假阳性是实际无病,诊断标准被定为患病的非患者数目。真阴性指将实际无病的人正确地判为非患者获得的数目。假阴性指实际有病而被诊断试验错误地数据判为无病的患者数目。
四、临床诊断效能评价 流行率= (真阳性+真阴性)/N,阳性预测值,阴性预测值 如果流行率很高,阳性结果倾向于确认疾病存在,但是意外的阴性结果在排除疾病时不是很有用。反之,以前的流行率很低,正常结果倾向于排除疾病,但意外的阳性结果在确定疾病时不是非常有用。如果疾病的流行率很高,只有非常敏感的检验的阴性结果能降低概率足以排除疾病 假定低的流行率率(10%)(1000个测试中,有病的占100,没病的有900),流行率=(90+10)/(90+180+10+720)或(100/1000)=10% 用一个高敏感性(如90%)的检测,阳性预测值(阳性结果中有病的概率)只有33%[90/(90+180)]。相反,阴性预测值(阴性结果中没病的百分比)[720/(10+720)]=99%。因此,阴性结果表明99%没病的概率。特异性=720/(180+720)=80%。 检测结果 疾病存在 疾病不存在 阳性 90(真阳性) 180(假阳性) 阴性 10(假阴性) 720(真阴性) 合计 100 900
四、临床诊断效能评价 假定一个高的流行率(90%)(1000个测试中,有病的占900,没病的有100) 流行率=(810+90)/(810+20+90+80)或(90/1000)=90% 用一个高敏感性(如90%)的检测,阳性预测值(阳性结果中有病的概率)是98%[810/(810+20)],几乎肯定疾病存在。相反,阴性预测值(阴性结果中没病的百分比)是47%[80/(90+80)]。因此,一个阴性测试(没病的概率)表明病人仍然有相当高的可能性(47%)有病。特异性=80/(20+80)=80%。 检测结果 疾病存在 疾病不存在 阳性 810(真阳性)(A) 20(假阳性)(B) 阴性 90(假阴性)(C) 80(真阴性)(D) 合计 900 100
四、临床诊断效能评价 似然比(阳性似然比、阴性似然比):一个试验结果在患者和非患者中出现的概率之比 1.阳性似然比(PLR)指诊断试验的真阳性率与假阳性率之比,其数值越大,确定患者患有该病的可能性率越大。 2.阴性似然比(NLR)是指诊断试验的假阴性率与真阴性率之比,其数值越小,确定患者患有该病的可能性越小。 似然比可以评价一个诊断试验的好坏。当PLR>1.0且试验结果为阳性时,提示患病可能性上升 LR=1表明疾病存在或不存在有相等的可能性;高值意味着疾病存在比不存在的可能性高出很多倍,低值相反。 当PLR>10.0时,该试验诊断性能较好 当NLR<1.0且试验结果为阴性时,提示患病可能性下降 当NLR<1.0时,该试验诊断性能较好。
四、临床诊断效能评价 临床诊断试验评价指标的应用 以血清铁蛋白检测在缺铁性贫血(IDA)诊断中的作用为例说明上述指标的计算方法。经金标准(骨髓穿刺涂片和铁染色)确诊,同时进行血清铁蛋白检测(临界值为12µg/L) 表 血清铁蛋白水平诊断缺铁性贫血检测结果 1.诊断试验评价指标计算 灵敏度=a/(a+c)=731/809=90%,特异度=d(b+d)=1500/1770=85%,阳性预测值=a/(a+b)=731/1001=73%,阴性预测测值=d/(c+d)=1500/1578=95%,阳性似然比=灵敏度/(1-特异度)=6,阴性似然比=(1-灵敏度)/特异度=0.12 2.判断(以12µg/L为临界值进行判断) (1)血清铁蛋白检查结果显示,在患者中,阳性结果百分比为90%;在非患者中,阴性结果百分比为85%。 (2)试验结果阳性者属于患者的概率为73%,试验结果阴性者属于非患者的概率为95% (3)PLR为6,试验结果阳性时,患病与不患病的机会比为6。NLR为0.12,试验阴性时,患病 与不患病的机会比为0.12 缺铁性贫血 有病 无病 合计 血清铁蛋白 阳性 a(731) b(270) a+b(1001) 阴性 c(78) d(1500) c+d(1578) 合计 a+c(809) b+d(1770) N(2579)
四、临床诊断效能评价 临床诊断试验的可靠性评价指标 可靠性( reliability)又称为重复性,指诊断试验在完全相同的条件下重复,获得相同结果的稳定程度 (一)常见可靠性评价指标 计量资料可靠性的评价指标通常用变异系数表示,计数资料可靠性的评价指标通常用总符合率、Kapa指数表示。 1.变异系数( (coefficient of variation,Cv)是评价资料中各观测值变异程度的统计指标之一,变异系数越小,可重复性越好。 2.总符合率又称诊断准确度。总符合率越高,可靠性越好 (二)可靠性的影响因素 生物学变异 包括研究对象的个体内变异和个体间变异。比如同一个测定者用一个方法测量一个受试者的血糖,会因为测量的时间、地点、环境以及受试者的生理和心理变化、情绪变化,从而导致测量结果的差异。 测量变异 主要表现为不同试剂甚至同一试剂不同批次、仪器以及试验条件等引起的变异;以及观察者对检测结果进行判断时,受主观因素影响而产生的差异,包括同一观察者自身(如不同时间、地点、生理和心理状态)和不同观察者之间的变异。
四、临床诊断效能评价 短期的生理变化加上分析错误足以造成一次判定困难。 案例 个体的皮质醇7天内的变异系数(CV)是21%,CRP1-6个月的CV是57%,而钠是0.6%,钙是1.8%。不管实验室质量有多高,由于多种原因,任何特殊的试验结果都可能是不正确的。所有意外或可疑的结果都应谨慎解读,必要时进行复查
四、临床诊断效能评价 ROC曲线 ROC曲线是一种将试验灵敏度( sensitivity)和特异度( specificity)联系起来,用构图法揭示两预者相互关系的统计方法。其制作原理是将连续变量设定出多个不同的临界值,获得多对灵敏度和特异度,以真阳性率(灵敏度)为纵坐标,假阳性率(1ー特异度)为横坐标,连接各点绘制曲线计算并比较ROC曲线下面积( AUC),反映试验的诊断价值。 1.评价任意界值对疾病的识别能力 2.确定最佳诊断界值 3.比较两种或两种以上诊断试验的诊断效能 ROC来源:实验室、MEET 分析 对急性心肌梗死的诊断(ROC):缺血修饰白蛋白>超敏肌钙蛋白>脂肪酸结合蛋白>脂蛋白相关磷脂酶A2>肌钙蛋白>肌酸激酶及同工酶>乳酸脱氢酶 案例:肝癌特异蛋白检测。
五、检验项目组合分析 现在许多项目组合缺乏技术效益评估、临床效益评估、经济效益评估 项目组合必须合理、可靠、有效 存在打包收费、强制收费 许多组合是僵尸项目,以收费为目的
六、检验项目组合分析 多项检测异常比单项检测异常可能更有意义。当同一疾病的两个或多个检测阳性时,结果更增强诊断;然而,当只有一个检测阳性其他非阳性时,解释就不够充分了(项目组合) 任何检测是异常的概率是大约2%~5%,如果筛查试验异常,疾病的概率一般更低(0%~15%)。单一试验异常的频率是1.5%(白蛋白)~5.9%(葡萄糖),直到钠的16.6%。基于统计学的期望,当在多项健康项目中进行一个8项检测的组合时,25%的病人有一个或更多个异常结果;当组合有20项时,55%的人有一个或多个检测异常。 在组合中,一个阳性的概率可能非常大,但是其诊断价值不大。多个项目均为阳性的概率不大,但是其诊断价值可能非常大。
六、正常参考值的应用 正常参考值是在上、下参考限之间的参考值分布范围。依据参考值的分布特性和临床使用要求,选择合适的统计学方法进行归纳分析,确定参考分布中的一部分为参考区间。通常确定的百分范围在2.5%~97.5%之间。临床检测结果如果是在确定的参考区间内,临床上视为“正常”,超出参考区间则视为“异常” 基于统计学上将“正常”定义为95%的值的范围,5%的独立检测在疾病不存在时也将处于正常范围之外。如果进行12个检测,至少一个异常结果将出现在46%的正常人中;如果有20个检测,64%的正常人将由至少一个异常结果。 异常的程度(信号强度)是有用的。因此一个高于参考范围上限10倍的值比只是轻微增加的值更能有临床意义 案例:公务员体检
六、正常参考值的应用 分析一个案例 《全国临床检验操作规程》(第四版),教科书等 ELISA 法:总PSA ≤4ng/ml,游离PSA: ≤0.93µg/L CLIA法 : ≤4.0ng/ml ,游离PSA: ≤0.93µg/L ECLIA法 : ≤4.40ng/ml(<70岁),游离PSA: ≤0.93µg/L 某专家2016年年底体检结果:总PSA (化学发光法):5.0ng/ml。游离PSA (ECLIA法) : 0.98µg/L(注:2015年曾经做过前列腺增生手术) 2017年年底体检结果:总PSA (化学发光法):6.0ng/ml。游离PSA (ECLIA法) : 1.2µg/L 这个医院检验报告单正常参考值:总PSA (化学发光法):<5.5ng/ml。游离PSA (化学发光法) :< 1.0µg/L 2018年春节,前列腺癌手术
六、正常参考值的应用 参考区间的转移 近年来,随着新检验项目和方法不断出现。对同一检验项目,不同的临床实验室、仪器设备、测定方法、厂家试剂甚至同一试剂的不同批次等都会对测定结果产生影响,因而其参考区间也不相同。引进一种新方法或新项目时,实验室应首先进行小规模样本量的测定计算参考区间(验证),若结果与厂家或其他实验室提供的数据一致,则可以直接使用;否则应做进一步的调查,制定适合本实验室的参考区间 临床使用参考区间的注意事项 (1)参考区间并非适用于所有人群,受检者应具备一定的条件,符合参考个体的要求。如果参考区间的测定来源于某一特定人群,那么只能作为该特定人群的参考标准。 (2)一般情况下,参考区间的涵盖范围仅为95%的研究人群,并非全部。因此,不能盲目地将参考区间作为判断受试者正常或患病的依据。 (3)使用参考区间时应对受检者的所有临床资料进行综合评价,注意受检者年龄、性别、既往病史、用药史、生理阶段、个人生活方式和居住地区等诸多因素,不可仅依据参考区间得出诊断结论。
六、正常参考值的应用 另一个案例 2016年底体检结果 谷丙转氨酶:75. 谷草转氨酶:62 同时,结石性胆囊炎 2018年年底体检结果 谷丙转氨酶:75. 谷草转氨酶:62 同时,结石性胆囊炎 2018年年底体检结果 谷丙转氨酶:173. 谷草转氨酶:105 结石性胆囊炎依然存在
六、正常参考值的应用 个体的检测值,可在数年的时间内保持相当恒定;结果与以前病人未患病时检测的值(如果可能)相比较通常较“正常”范围是更好的参照。 动态观察值:连续监测指标随病程和治疗过程变化,根据这种变化推测疾病进展、评估疗效或据此对疾病初步诊断给出质疑或支持。这种方式最常用,由于是患者自身与自身比较,常可提供更加丰富的诊断信息,但时效性差,不适用于疾病的早期发现,且多次重复测定也给带来较高的医疗成本
七、医学决定水平 医学决定水平的概念 为使诊断项目的临床应用更加合理,仅了解健康人的参考区间是不够的,必须同时掌握该项目在疾病不同发展阶段的变化范围,即不仅要有区分健康人与疾病的界值,还应有需要治疗与判断预后的界值通过比较测定值与阈值,来确定或排除某种疾病、对疾病进行分级或分类、对预后进行评估,从而提示临床医师采取相应措施 医学决定水平,不同于正常参考值,并且一个检测项目可有多个医学决定水平,分为三种情况:①提示需要进一步检査的阈值,即待诊值;②提示需要采取相应治疗措施的限值,即确诊值:③提示预后或需要紧急处理的临界值,即危急值。 三个医学决定水平: 电解质组、代谢产物组、酶组
七、医学决定水平 案例: 血钠离子参考区间为138~146 mmol/L 医学决定水平:115 mmol/L、135 mmol/L和150 mmol/L 低于115 mmol/L时,査找原因,采取应急治疗措施 低于135mmol/L时,联合其他检查,査找原因,确定诊断 高于150 mmol/L时,应及时采取治疗措施降低血钠 AST参考区间为8 ~ 30UL。 医学决定水平:300UL、60UL和20UL。 高于300U/L时,急性肝细胞损伤,如病毒性肝炎等 当高于60UL时,肝细胞损伤、肝后胆道阻塞、肌肉与骨骼疾患、心肌梗死等,联合测定ALT、ALP、BL、CK等(项目组合),可利于肝病和心肌疾患的鉴别诊断 低于20UL时,可排除许多与AST升高有关的疾病,如肝细胞损伤、心肌与骨骼疾患、肝后胆道阻塞等。
七、医学决定水平 医学决定水平的制定 1进行大量的临床观察和研究,包括健康人群参考区间、无关疾病患者的参考区间以及有关疾病患者分型、分期的测定值 2.查阅相关文献资料 3.听取对实验诊断有丰富经验的医师的意见 4.比较不同地区的人群在遗传学、生活环境和饮食习惯等方面都存在差异 5.完善中国人群的医学决定水平。
七、医学决定水平
七、医学决定水平 参考区间与医学决定水平的比较 1.研究对象不同 参考区间:特定正常人群。医学决定水平:临床患者 2.表现形式不同 参考区间多包含参考上限和参考下限,有可能只包含参考上限或者下限,医学决定水平可以包含多个不同层次的上限或下限,这些上限或下限是不同疾病的诊断标准,提示不同的治疗措施。 3.目的不同 参考区间是判断个体是否患病的参考指标。医学决定水平多用于确定疾病的发生发展以及变化情况,并据此对患者进行针对性的实验室检査及采取相应的治疗措施
八、检验结果解读发展趋势 专家系统 人工智能 神经网络算法、决策网络、生物大数据分析、深度学习,已广泛应用于形态学识別、质谱结果、芯片检验结果、多重肿瘤标志物测定、基因测序数据解析、检验报告审核。随人工智能发展,相信在不久将来,人工智能必将成为检验结果解释,甚至患者综合诊断和评估的有力工具。
谢谢!