Biases and Their Control 第八章 偏倚及其控制 Biases and Their Control
引言 流行病学研究结果的偏差 随机误差和系统误差 精确性与真实性 偏倚及其种类
第一节 选择偏倚 第二节 信息偏倚 第三节 混杂偏倚 目录 第一节 选择偏倚 第二节 信息偏倚 第三节 混杂偏倚
第一节 选择偏倚 选择偏倚是指被选入到研究中的研究对象,与没有被选入者特征上的差异所导致的系统误差。 此种偏倚在确定研究样本、选择比较组时容易产生,也可产生于资料收集过程中的失访或无应答等。
第一节 选择偏倚 选择偏倚的种类 选择偏倚的测量 选择偏倚的控制
选择偏倚的种类 入院率偏倚(admission rate bias) 亦称伯克森偏倚(Berkson’s bias)。 当以医院病人作为研究对象进行研究时,由于不同患者入院率的不同所导致的系统误差。
Example: 人群: 医院: A=1000 因A入院率=60% B=1000 因B入院率=10% X均=10% 因X入院率=50% A病为对照 X与疾病B无关
表8-1 住院的A、B病患者及其与X暴露的关系 疾病 X暴露 X非暴露 合计 X暴露率(%) A 80 540 620 12.9 B 55 90 145 37.9 合计 135 630 765 17.6 (OR=4.13 χ2=50.65 P<0.01)
现患病例-新发病例偏倚(prevalence-incidence bias) 也称奈曼偏倚(Neyman bias)。 以现患病例为对象进行研究,与以新病例为对象进行研究时相比,因研究对象的特征差异所致的系统误差。
检出症候偏倚(detection signal bias) 某因素与研究疾病在病因学上无关,但由于该因素的存在导致了所研究疾病相关症状或体征的出现,使其及早就医,以致该人群比一般人群该病的检出率高,从而得出该因素与该疾病相关联的错误结论。由此所致的系统误差称为检出症候偏倚。
无应答偏倚(non-response bias) 在流行病学研究中,无应答者是指由于种种原因那些没有对调查信息予以应答的研究对象。 在特定研究样本中,无应答者的患病状况以及对某些研究因素的暴露情况与应答者可能会不尽相同,从而导致系统误差。
易感性偏倚(susceptibility bias) 研究对象暴露于某可疑致病因素与否,与许多主、客观原因有关,其有可能直接或间接地影响研究对象对所研究疾病的易感程度,从而导致某因素与某疾病间的虚假联系。 健康工人效应(healthy worker effect )
选择偏倚的测量 测量方法
总人群比值比 样本比值比 以α、β、γ、δ分别代表A、B、C、D的样本选择概率,(α=a/A,β=b/B,γ=c/C,δ=d/D)
选择偏倚= 或 若得值=0,即 =1,则不存在选择偏倚; 若得值>0,即 >1,则存在选择偏倚,为正偏倚; 若得值<0,即 <1,则存在选择偏倚,为负偏倚。
测量举例 前面资料。在总人群中,A病、B病患者各1000人,暴露于因素X者各100人,非暴露者各900人;由于住院率的不同,实际住院人数如表8-1。若以住院病人作为研究对象,则: 患B病且暴露于因素X的选择概率 α=55/100=0.55 患B病但未暴露于因素X的选择概率 β=90/900=0.10 患A病且暴露于因素X的选择概率 γ=80/100=0.80 患A病但未暴露于因素X的选择概率 δ=540/900=0.60
人群中OR(ORT) =1, 住院病人OR(ORO)=4.13 选择偏倚= (4.13-1)/1 = -1 =3.13 得值>0,由医院住院病人为对象进行研究所得OR 值被错误地高估,比人群OR值高3.13倍。
选择偏倚的控制 掌握发生环节 严格选择标准 研究对象的合作 采用多种对照
第二节 信息偏倚 观察偏倚(observational bias),指在研究实施过程中,获取研究所需信息时产生的系统误差。 错误分类(misclassification) 无差异错误分类(non-differential misclassification) 有差异错误分类(differential misclassification)
信息偏倚的种类 回忆偏倚(recall bias) 指研究对象在回忆以往研究因素的暴露情况等信息时,由于准确性或完整性上的差异而导致的系统误差。
表8-2 类风湿关节炎家族史调查、分析结果 关节炎 病例(%) 对照(%) OR A 表8-2 类风湿关节炎家族史调查、分析结果 关节炎 病例(%) 对照(%) OR A 双亲均无 3(15.8 ) 111 (55.2 ) 1.0 双亲之一有 10( 52.6 ) 74 (36.8 ) 5.0 双亲均有 6(31.6 ) 16 (8.0 ) 13.9 合计 19 201 B 双亲均无 11(27.5) 20 (50.0) 1.0 双亲之一有 23(57.5) 17 (42.5) 2.5 双亲均有 6(15.0) 3 (7.5) 3.6 合计 40 40 (Schull and Cobb,1969)
报告偏倚(reporting bias) 在研究信息收集时,由于某些原因,研究对象有意夸大或缩小某些信息而导致的系统误差。 暴露怀疑偏倚(exposure suspicion bias) 研究者若事先了解研究对象的患病情况或某结局,可能会对其采取与对照组不可比的方法探寻认为与某病或某结局有关的因素,由此而导致的系统误差称为暴露怀疑偏倚。
诊断怀疑偏倚(diagnostic suspicion bias) 研究者若事先了解研究对象研究因素的暴露情况,在主观上倾向于应该或不应该出现某种结局,在作诊断或分析时,有意无意地倾向于自己的判断,由此而导致的系统误差称为诊断怀疑偏倚。
测量偏倚(detection bias) 研究者对研究所需数据进行测量时所产生的系统误差。
信息偏倚的测量 重测一致性 测量与评价信息偏倚的常用方法是对调查 获得的信息予以重复调查(测量),根据调查与重复调查数据计算Kappa (κ)值,来评价重测的一致性(consistency),以作为研究结果内部真实性评价的依据。
表8-3 是否曾患雀斑信息的两次调查结果 第二次调查 是 否 合计 例数 (%) 例数(%) 例数 (%) 表8-3 是否曾患雀斑信息的两次调查结果 第二次调查 是 否 合计 例数 (%) 例数(%) 例数 (%) 第一次调查 是 255 25 280 (0.43) 否 28 338 366 (0.57) 合计 283 (0.44) 363 (0.56) 646 (1.00) (Westerdahl et al, 1996)
κ值计算如下: 观察一致率 机遇一致率 κ κ值判断一致性强度的标准, 一般认为:>0.8,很好;0.6~0.8,较好;0.4~0.6,中度;<0.4,较差。
偏倚程度与方向 信息偏倚 若得值=0,则不存在信息偏倚; 若得值>0,则存在信息偏倚,此时ORO>ORT,为正偏倚; 若得值<0,则存在信息偏倚,此时ORO<ORT,为负偏倚。
表8-4 病例组与对照组两种暴露测量方式所得暴露信息比较 表8-4 病例组与对照组两种暴露测量方式所得暴露信息比较 用药登记 病例组 对照组 + - 合计 + - 合计 自我陈述 + 18 2 20 12 2 14 - 6 164 170 2 149 151 合计 24 166 190 14 151 165 (Boudreau et al, 2004)
病例组:灵敏度=18/24=0.75; 特异度=164/166=0.99 对照组:灵敏度=12/14=0.86; 特异度=149/151=0.99 OR0=20×151/(170×14)=1.27 ORT=24×151/(166×14)=1.56
信息偏倚=(1.27-1.56)/1.56=-0.19 得值≠0,存在有差异错误分类信息偏倚。根据自我陈述调查资料计算的OR值低估了他汀类药物暴露与乳腺癌之间的关系,程度为19%。
信息偏倚的控制 严格信息标准 盲法收集信息 采用客观指标 调查技术的应用 统计学处理
统计学处理 根据信息重测κ值校正 校正公式如下:ORT= (κ+ORO-1)/ κ 根据前面资料已经获得κ值为0.833,计算 所得OR(ORo)为1.51(Elwood,2007); 则,ORT= (0.833+1.51-1)/0.833=1.61
根据信息获取灵敏度、特异度校正 病例组 对照组 OR A.调查数据 暴露 200 100 2.67 非暴露 300 400 暴露 200 100 2.67 非暴露 300 400 合计 500 500 B.校正数据(有差异错误分类) 暴露 209 132 2.00 非暴露 291 368 灵敏度 0.86 0.70 特异度 0.93 0.98 (Elwood JM,2007)
校正方法如下: 研究对象实际暴露例数= [暴露观测值-(1-特异度) ×合计数 ]/(灵敏度+特异度-1) 研究对象实际非暴露例数=合计数–实际暴露例数
病例组: 实际暴露例数=[200-(1-0.93)×500] /(0.86+0.93-1)= 209 实际非暴露例数=500-209=291 对照组: 实际暴露例数=[100-(1-0.98) ×500] /(0.70+0.98-1)=132 实际非暴露例数=500-132=368 则校正后的OR=209×368/(132×291)=2.00
第三节 混杂偏倚 混杂偏倚或称混杂(confounding) 第三节 混杂偏倚 混杂偏倚或称混杂(confounding) 指在流行病学研究中, 由于一个或多个潜在的混杂因素(confounding factor)的影响,掩盖或夸大了研究因素与研究疾病(事件)之间的联系,从而使两者之间的真正联系被错误地估计的系统误差。
混杂因素及其特点 亦称外来因素(extraneous factor)、混杂因子或混杂变量。 定义:与研究因素和研究疾病均有关, 若在比较的人群组中分布不均衡,可以歪曲(缩小或夸大)研究因素与疾病之间真实联系的因素。
特点: 是所研究疾病的危险因素; 与所研究的因素有关; 不是研究因素与研究疾病因果链上的中间变量。
混杂偏倚的测量 以效应估计值RR为例: 若cRR=aRR(f);f无混杂作用, cRR不存在f的混杂偏倚。 若cRR≠aRR(f);f有混杂作用, cRR存在f的混杂偏倚。 若cRR>aRR(f);为正混杂(positive confounding) 若cRR<aRR(f);为负混杂(negative confounding)
混杂偏倚的程度与方向可用下式测量: 混杂偏倚 = (cRR-aRR(f))/ aRR(f) 若得值=0,为无混杂。 当得值≠0时,若为正值,为正混杂; 若为负值,为负混杂。值的大小为混杂的程度。
表8-6 男性体力劳动强度与冠心病死亡关系的队列研究 测量举例 表8-6 男性体力劳动强度与冠心病死亡关系的队列研究 年龄组(岁) 体力劳动强度 观察人年数 死亡人数 死亡率(/10000人年) Ni ai ai / Ni 35~44 轻、中度 5900 3 5.1 重度 8300 4 4.8 45~54 轻、中度 17600 62 35.2 重度 11000 20 18.2 55~64 轻、中度 23700 183 77.2 重度 7400 34 45.9 65~74 轻、中度 17800 284 159.6 重度 1000 8 80.0 合计 轻、中度 65000 532 81.8 重度 27700 66 23.8 (Paffenbarger and Hale,1975)
与重度体力劳动相比,轻、中度体力劳动与冠心病死亡的 cRR为: (81.8/10000人年)/(23.8/10000人年)=3.44 各层间的同质性检验,χ2 =0.77(P>0.05),以Mantel-Haenszel分层分析方法计算所得调整年龄后的RR,即aRR为 :
混杂偏倚=(3.44-1.78)/1.78=0.933 得值≠0,且为正值。 说明年龄对轻、中度体力劳动强度与冠心病死亡关系的估计,起正混杂作用,使RR值高估了93.3%。
混杂偏倚的控制 限制(restriction) 随机化(randomization) 匹配(matching) 统计学处理