第八章 临床科研中偏倚的控制 Control of Bias in Clinical Research 卫 生 系 黄民主 教授 黄民主 教授
第一节 概述 在流行病学研究中由于: 使用方法不同 测量结果 存在差异 使 与 (即出现误差) 第一节 概述 在流行病学研究中由于: 使用方法不同 测量结果 存在差异 使 与 (即出现误差) 各种因素的影响 事物的真实情况 →导致错误结论 必须认识、估计和排除各种误差。 常见的误差有两种: 一、随机误差——是由多种无法控制的因素引起的一类表 现不恒定、随机变化的误差。
随机误差是不可避免的,但可通过: 减少研究对象间的个体差异 选用合适的样本量 使其减小到 规定恰当的α和β错误的允许范围 可接受的范 科学的设计 围内 统计学的方法计算和 量化 二、系统误差(偏倚 ) 对群体的某一特征做一次测量 所得的均值与 或 总体间的真实 对某一个体的某一特征做多次测量 性产生误差
偏倚——指在流行病学研究中样本人群所侧得的某变量值系统地偏离了目标人群中该变量的真实值,使研究结果(推论结果)与真实情况之间出现偏差,造成错误的结果和结论。﹡ 不同类型的流行病学研究方法,可能产生的偏倚各有其特殊的来源和种类,一般分三大类: 选择偏倚——主要发生在设计阶段 信息偏倚——主要发生在实施阶段 混杂偏倚——主要发生在研究设计或资料分析阶段 ﹡
第二节 选择偏倚 选择偏倚指选入的研究对象与未选入者之间,出现了某些特征上的差异,从而导致研究结果偏离真实情况。 研究的设计阶段(主要的) 第二节 选择偏倚 选择偏倚指选入的研究对象与未选入者之间,出现了某些特征上的差异,从而导致研究结果偏离真实情况。 研究的设计阶段(主要的) 产生于 资料收集过程中的失访或者是无应答 病因研究 常见于 临床防治试验 一、选择偏倚种类 选择偏倚种类很多,常见的有:
1、入院率偏倚(admission rate bias)又称伯克森偏倚(berkson`s bias) 指在利用医院就诊或者住院病人作为研究对象时,由于入院率不同而导致的系统误差。 ﹡ 行业性医院、专科医院——只收本行业、本专科病人 如 疾病严重程度不同,就医条件不同 造成在人群根本不存在的联系而在医院选择研究对象时,可能会出现两个变量间的虚假联系。
例如,某研究者要研究皮肤癌与高血压的关系。 表1 社区人群中皮肤癌、外伤和高血压患病的分布情况 皮肤癌 外伤 合计 有高血压 750 750 1500 无高血压 4250 4250 8500 合计 5000 5000 10000 从表1中可知皮肤癌与高血压之间并无联系(OR=1)。
但如果以社区某所医院为基础收集病例,假设皮肤癌、外伤入院率分别为60%和25%,同时伴有高血压者的入院率为40%时,从该社区某医院随机抽取皮肤癌患者和外伤患者进行同一研究时,根据不同的住院率计算住院的人数:具体见表2。 皮肤癌住院并且伴有高血压的人数: (750×60%)+【(750-750×60%)×40%】=570 外伤住院伴有高血压人数: (750×25%)+【(750-750×25%)×40%】=413 皮肤癌住院但不伴有高血压人数: (5000-750)×60%=2550 外伤住院但不伴有高血压的人数: (5000-750)×25%=1063 ﹡
表2 某医院皮肤癌、外伤及高血压患者的分布情况 皮肤癌 外伤 合计 有高血压 570 413 983 无高血压 2550 1063 3613 合计 3120 1476 4596 计算皮肤癌与高血压关联强度的OR值=0.575,高血压是皮肤癌的保护因素(OR<1),为虚假联系. 因此,在医院选择研究对象时应防止这种偏倚的产生。
2、现患病例-新病例偏倚(prevalence-incidence bias)又称奈曼偏倚(Neyman bias) 在研究中选择现患病例为研究对象时,由于他们与新病例在某些特征或者行为上的差异,而造成研究结果的偏倚。 在病例对照研究中的病例,往往选用现患病例为研究对象,而不包括死亡病例和病程短、轻型、不典型病例,造成现患病例与新病例之间存在差异(即报道的患病率低于实际发病率的差异)。 3、无应答偏倚(non-respondent bias) 研究对象对研究内容产生不同的反应而造成的偏倚。 ﹡
失访是无应答的另一种表现形式。失访在队列研究中很容易发生。 判断无应答是否造成偏倚,可根据无应答者在疾病暴露方面的特征与应答者是否有区别来判断,如果两者有差别,则产生了无应答偏倚。 无应答偏倚可在各种研究中产生,尤其是对敏感问题的调查中(如询问性病史)。 在研究报告中必须说明应答率,并评价其对结果可能造成的影响。一项研究中应答率应达到90%以上,如果应答率很低,需作专项调查,查明原因。
4、检出征候偏倚(detection signal bias) 征候是指在疾病和暴露因素之外存在着一个因素,即一种临床症状或体征。该征候不是疾病的危险因素。 某因素如能引起或促进某征候的出现,使患者因此而去就医,提高了该病的检出机会,使人误以为某因素与该病有因果联系,这种虚假联系造成的偏倚称检出征候偏倚。 如:有人研究子宫内膜癌与服用雌激素有关—是虚假联系。 ﹡
在研究设计中为避免检出征候偏倚,应对观察对象进入研究的条件加以限制,使病例组和对照组间主要的非研究因素特征保持一致。 子宫内膜癌与雌激素的病例对照研究 服用雌激素 病例 对照 有 54 29 无 40 159 合计 94 188 OR=7.40 在研究设计中为避免检出征候偏倚,应对观察对象进入研究的条件加以限制,使病例组和对照组间主要的非研究因素特征保持一致。
5、志愿者偏倚(volunteer bias) 这类偏倚常常出现在实验性研究中。一般志愿者与非志愿者在关心实验的程度、配合实验、关心健康程度以及生活习惯等方面均有差别。若将志愿者选作观察对象,而非志愿者落选,这样的研究结果大多存在选择偏倚,这种偏倚称为志愿者偏倚。 6、排除偏倚(exclusive bias) 在确定研究对象时,没有按对等的原则或标准自观察组或对照组中排除某些研究对象,导致因素与疾病之间联系的错误估计。 乳腺癌组(有高血压)—服利血平 错误估计利血平 与乳腺癌有关 对照组(无高血压)——未服利血平
7、时间效应偏倚(time effect bias) 许多疾病,如慢性疾病,从接触暴露因素到发病需要很长的时间﹡ ,在这段时间内实际上这些人有暴露史但没有出现临床症状、体征或未能用现有的检查手段发现疾病的病人,而常被错误的划入健康组或对照组,所产生的系统误差成为时间效应偏倚。 例如:某些遗传性疾病未达到外显年龄时,临床表现是正常的,这样的研究对象被纳入健康对照组,常会导致研究结果估计过低。 ﹡
8、易感性偏倚(健康工人效应) 暴露于同一种危险因素的不同人的易感性可能不同: 高易感的人可能主动避免继续暴露 低易感的人可能不在意暴露 ﹡ 9、非同期对照偏倚(non contemporary bias): 若研究中使用了不同期的病例作为对照,它们之间的不可比性就会产生系统误差。例如,当前用口服红霉素治疗猩红热,其治愈率优于40年前青霉素等的综合治疗,并发症也很少。
二、选择偏倚的控制 1、设计阶段 ⑴采用严格科学的研究设计 设计方案及研究方法的选择。 ﹡ 从设计之初就要考虑到各个环节可能出现的偏倚,防止、减少其发生。 ﹡ ⑵严格限定纳入与排除的标准 有严格、明确的原则与标准。 ﹡ 病例入选原则﹡
不患所研究的疾病且有暴露研究因素可能 对照入选原则 不患与研究因素有关的其他病 可比:某些特征与病例组可比等 2、实施阶段 严格按照设计计划要求进行,纳入和排除研究对象的标准在实验组和对照组保持一致,尽量提高应答率。
3、分析阶段 如无应答率或失访率大于10%,应对无应答者进行随机抽样调查,与应答者进行比较,估计无应答偏倚对结果的影响程度。如果影响程度大,对结论应持慎重态度。 在分析过程中,还可采用适当的统计分析方法,对偏倚进行控制。对危险因素的估计还可用多因素进行分析。
第三节 信息偏倚 信息偏倚(information bias)又称观察偏倚(observation bias)。 在收集资料阶段对各比较组所采用的观察或测量方法不一致,使各组所获得的信息存在系统误差。 ﹡ 研究对象 来自 研究者 仪器、设备、方法 表现是:使研究对象的某种特征被错误分类 暴露者错误地认为非暴露者 如 患者错误地认为非患者
一、信息偏倚种类 1、回忆偏倚(recall bias) 研究对象在回忆过去的情况时,由于在准确性和完整性上的差异所致的系统误差。 ﹡ 产生的原因: 对以往事件或因素被遗忘 记忆不清 研究对象 对事件(因素)关心程度不同 准确性有 由其配偶、子女等回答 所不同 询问技巧、调查技术、调查 问卷的提问方式不当
2、报告偏倚(reporting bias) 研究对象因某种原因有意夸大或缩小某些信息而导致的偏倚。 ﹡ 3、测量偏倚(measurement bias) 指对研究所需的指标、数据进行测定、测量时所产生的偏倚。 不准确 如仪器、设备、方法、试剂 不统一 使测量结果偏离真值 不一致 调查表设计不科学、记录不完整、调查工作者不认真,导致不准确信息。
4、调查者偏倚(interviewer bias) 由于研究者倾向于发现一些阳性结果,建立或验证某些病因关系。因此,在研究中研究者常常尽可能的去发现或诱导研究对象提供所需要的信息,使得调查结果偏离真实情况而产生的误差。 病例组诱导 例如对 产生虚假的结论 对照组不诱导 又如:研究者已知研究对象对研究因素的暴露情况,怀疑已经患了某病,主观上倾向于应出现某种阳性结果,在作诊断分析时,倾向于自己的判断。 实验组、暴露组—细致检查 如对 使研究结果出现偏差 对照组、非暴露组—则不然 这样就高估了暴露因素对疾病的作用。
5、错分偏倚(misclassification bias) 在暴露测量或疾病的判断测量中,由于测量标准和诊断标准不统一,使得暴露或疾病状态的判断出现了不同程度的错分而导致的偏倚称为错分偏倚。 如诊断试验或测定仪器、方法都有一定的灵敏度和特异度,两者不可能都是100%,必然会产生一些假阳性(误诊)、假阴性(漏诊)的错误。这样就会将本来是病人诊断为非病人而分入健康对照组;把本来不是病人误诊为病人而分入病例组。这就出现了错分现象。 错分偏倚在病例对照研究或队列研究中都可能发生。既可发生在对疾病的判断中,又可发生在对暴露状态的判断中。
﹡ 二、信息偏倚的控制 1、正确的应用资料收集手段、加强质量控制 调查表、询问、体检、记录等 包括 统一标准、统一方法等 2、尽可能采用盲法:使信息偏倚减少到最低限度的重要方法。 如双盲:研究者与研究对象对分组情况及有关内容均不知道,可避免报告偏倚和调查者偏倚。
3、尽量采用客观指标的信息 实验室检查结果 应用 诊疗记录 作为信息来源 健康体检 4、避免回忆偏倚 5、资料校正方法 根据调查所得的资料获得某种信息的灵敏度和特异度——可将含有信息偏倚的资料予以校正(具体见有关书籍)。
第四节 混杂偏倚 一、基本概念 混杂偏倚(confounding bias)——在流行病学研究中,在评价研究因素和疾病之间关联时,由于一个(多个)潜在的混杂因素的影响,从而歪曲(低估或高估)了研究因素与疾病之间的真正联系,称为混杂偏倚。 ﹡ 混杂因素(confounding factor)(混杂因子、外来因素)——指与研究因素和研究疾病均有关,如在比较的人群组中分布不均,可掩盖或夸大因素与疾病之间真正联系的因素。
混杂因素必须具备三个特征: ⑴必须是所研究疾病的独立危险因素; ⑵必须与所研究的暴露因素存在统计学联系; ⑶不应是研究因素与研究疾病因果链上的中间变量; 如吸烟与肺癌关系的病例对照研究,如年龄在两组分布不均,可导致对吸烟与肺癌关系的错误估计。 吸烟E D疾病(肺癌) 年龄F
二、混杂偏倚的判断 是否存在混杂因素及混杂偏倚的方向与程度可通过研究因素与研究疾病的效应估计值(cRR或cOR)及排除掉该因素的可能混杂作用后的效应估计值[aRR(f)或aOR(f)]予以测量。 cRR-aRR(f) 混杂偏倚= 值的大小反映的是 aRR(f) 混杂偏倚的大小 若值=0,为无混杂 >0,为正值,为正混杂偏倚:表示混杂因子夸大了暴露因 素与疾病的关联。 <0,为负值,为负混杂偏倚:表示混杂因子的存在使暴露 因素与疾病的关联强度被低 估了。
判断混杂因子可以结合专业知识从以下两个方面入手; (1)常见的人口统计学指标﹡ (2)除暴露因素以外的其它病因因素或危险因素。在研究中结合基础研究、临床研究等有关知识,来考虑某些因素的作用。 ﹡
三、混杂偏倚的控制 1、限制(restriction) 是对纳入的研究对象限制在特定的客观标准范围内,减少彼此间的差异,有利于对观察因素作出正确的结论。 ﹡ 2、匹配(matching) 指在为指示研究对象选择对照时,使其针对一个或多个潜在的混杂因素与指示研究对象相同或接近,从而消除混杂因素对研究结果的影响。 使暴露队列与非暴露队列混杂因素频率相同 匹配 使病例组与对照组可比
个体匹配——是为每一个研究对象根据要控制 的混杂因素配上一个或多个对照 匹配分 成组匹配——是为一组研究对象配上一个潜在 (频数匹配) 混杂因素频率相似的对照组 匹配目的:消除混杂作用,提高研究效率 缺点:同时掉失了对这一因素进行分析的机会,造成信息丢失,低估暴露对疾病的作用。 研究因素不能作为匹配条件,否则就不能得到研究因素在比较组的差异,出现这种情况又称为匹配过度(over-matching)。
﹡ 3、随机化(randomization):常用于实验性研究 指用随机化原则使研究对象以等同的机率被分配到各处处理组中,使潜在的混杂因素在各组间分布均衡。 简单随机分配 随机分配方法分 分层随机分配等 4、统计处理 ﹡ 分层分析(stratified analysis)——将资料按照某个或某些需要控制的因素的不同分类进行分层,然后估计某暴露因素(研究因素)与某疾病之间的关系的一种资料分析方法。
多因素分析(multifactorial analysis)——要控制的混杂因素多、样本量的限制或者希望研究多种因素(包括研究因素和混杂因素)对疾病的综合作用影响时,分层分析就受到了限制,这时可以考虑应用多因素分析。 在多因素分析时,研究因素和混杂因素都同等程度作分析。常用的多元分析方法有: 多元协方差 Logistic回归模型 Cox比例风险模型等