病例对照研究 Case-control Study
它主要用于广泛探索疾病的危险因素,为进一步深入进行队列研究提供明确的病因线索。 按是否患有所研究的疾病而将研究对象分为病例组和对照组,比较两组人群既往的暴露情况及程度,根据比值比来推测暴露与疾病之间的联系。
暴露(Exposure): 指研究对象曾经接触过某些因素,或具备某些特征,或处于某种状态。这些因素、特征或状态即为暴露因素。
研究的类型 病例与对照不匹配 在设计所规定的病例和对照人群中,分别抽取一定量的研究对象。一般对照数目应等于或多于病例人数,除此之外无其他限制或规定。
病例与对照匹配 匹配或称配比(Matching),既要求对照在某些因素或特征上与病例保持一致,目的是对两组进行比较时排除匹配因素的干扰。 1、频数匹配(Frequency Matching) 成组匹配(Category Matching) 匹配的因素所占的比例,在对照组与在病例组一致。 (男女各半; 40岁以上者各3/1) 2、个体匹配(Individual Matching) 以病例和对照个体为单位进行匹配。 1:1匹配称配对; 1:2、 1:3、------ 1:R称为匹配。
哪些情况需要匹配? 一般只对已知对疾病有影响的、作用强的混杂因素进行匹配。匹配一些最重要的、明显可致混杂的变量,即可使统计效率提高、消除偏倚。 ① 暴露因素与疾病之间有明显的联系,如不匹配可致混杂,如年龄、性别等。 ② 用调整方法难以处理的外源性变量,如住址、出生地,因这些变量的划分较困难匹配后还可控制研究对象的社会经济状况。
哪些情况需要匹配? ③ 罕见疾病因病例数目较少,如对照来源较多,可适当多匹配1~2个因素。 ④ 所匹配的因素不应是暴露与疾病联系因果链的中间步骤。 ⑤ 如果具有自然匹配的条件则更佳,如同卵双生。 ⑥ 对常见病,一个病例一般只配一个对照,检验效率即可达到0.90,如再增加对照,也不会使检验效率提高多少。
配比过度(Over-matching) 把不必要的项目列入匹配,企图使病例与对照尽量一致,就可能丢失信息,增加工作难度,结果反而降低了研究效率。
研究步骤 (一)提出假说 (二)选择研究对象 1. 病例组 2.对照组 (三)结果分析
选择研究对象(1) 在研究设计时,要明确规定所研究疾病的确定标准,以便确定病例和对照。 已有明确诊断标准的疾病 应用国际或国内通用的标准 目前尚无普遍被认可的病例确定标准的疾病 自拟标准或工作定义
选择研究对象(2) 病例组 选择在病因学意义上同质的病例 所选病例应能代表人群中所有患该病的病例 宫体腺癌 子宫癌 宫颈扁平上皮癌
选择研究对象(3) 选择研究对象(3) 病例组 死亡病例 现患病例 新发病例
选择研究对象(4) 对照组 选择研究对象(4) 对照组 代表总体 或全部非患病人群 或产生病例的人群 代表性好 选择研究对象(4) 对照组 选择研究对象(4) 对照组 代表总体 或全部非患病人群 或产生病例的人群 代表性好 是指所选的对照在暴露机会和混杂因素的 分布上与产生病例的人群相似
选择研究对象(5) 对照组 人群样本作对照 收集的病例是该人群产生的全部病时, 该人群的随机样本是很好的对照 医院病人作对照 选择研究对象(5) 对照组 人群样本作对照 收集的病例是该人群产生的全部病时, 该人群的随机样本是很好的对照 医院病人作对照 对照所患疾病的病因与研究疾病的病因不能相同或相似
选择研究对象(6) 样本含量 病例组和对照组人数相等但不匹配 以及成组匹配时的样本量计算 选择研究对象(6) 样本含量 病例组和对照组人数相等但不匹配 以及成组匹配时的样本量计算 Z和Z分别是和值对应的标准正态分布分位数(查表) p0和p1分别是所研究因素在对照组和病例组的估计暴露率 q0 = 1 p0,q1=1p1; P = (p0+ p1)/2 , q = 1p’; p1 = (OR p0)/(1 p0+OR p0);
选择研究对象(7) 样本含量 例1. Schlesselman在小儿先天性心脏病与母亲孕期口服避孕药(OC)关系的病例对照研究中,假定育龄妇女中应用OC者占30%,孕期服用OC与小儿先天性心脏病的RR=3,=0.05(双侧检验),=0.10;查表Z=1.96,Z=1.28。 q0 = 1 0.3 = 0.7 p1 = (3 0.3)/(1 0.3+3 0.3) = 0.5625 q1=10.5625 = 0.4375 P = (0.3+ 0.5625)/2 = 0.4313; q = 10.4313 = 0.5687 n=73 在此条件下研究,暴露组和对照组至少各需73人
选择研究对象(8) 样本含量 1:R匹配时样本量的估计: 一个病例配R个对照时,Schlesseman提供的计算公式为 选择研究对象(8) 样本含量 1:R匹配时样本量的估计: 一个病例配R个对照时,Schlesseman提供的计算公式为 P= (P1+RP0) / (1+R) ; q= 1 p n为病例组的样本量,RN为对照组的样本量。
选择研究对象(9) 样本含量 M = m / pe pe p0q1+p1q0 1:1 配对病例对照研究的样本量计算 选择研究对象(9) 样本含量 1:1 配对病例对照研究的样本量计算 m为需要结果不一致的对子数。 M = m / pe pe p0q1+p1q0 M为研究需要的总对子数,pe 为病例组和对照组暴露情况不一致的对子数出现的频率。 p0和p1分别是人群中估计的暴露率和病例组估计的暴露率。
选择研究对象(9) 样本含量 1:1配对的病例对照资料 表内的a,b,c,d分别代表病例和对照配对的对子数 选择研究对象(9) 样本含量 1:1配对的病例对照资料 —————————————————————————— 病例 对照 —————————————————————— 有暴露史 无暴露史 对子数 有暴露史 a b a+b 无暴露史 c d c+d 对子数 a+c b+d t=a+b+c+d 表内的a,b,c,d分别代表病例和对照配对的对子数
结果分析 (1) 不匹配不分层资料的分析 病例对照研究资料 ———————————————————————— 结果分析 (1) 不匹配不分层资料的分析 病例对照研究资料 ———————————————————————— 暴露或特征 病例组 对照组 合 计 有 a b n1 无 c d n2 合 计 m1 m2 N
结果分析 (2) 例2. 在探讨母亲围产期暴露放射线与儿童白血病关系的病例对照研究中,从肿瘤登记处查到100例白血病儿童,再从病例的邻居中选取200名非白血病儿童作为对照组,然后通过这些儿童的父母了解母亲在怀孕期间是否有放射线暴露史。
结果分析 (3) 母亲围产期暴露放射线与儿童白血病的关系 ——————————————————————— 儿童白血病 结果分析 (3) 母亲围产期暴露放射线与儿童白血病的关系 ——————————————————————— 儿童白血病 放射线暴露史 病例组 对照组 合计 有 30 45 75 无 70 155 225 合计 100 200 300
结果分析 (4) 应用卡方检验分析病例组和对照组儿童的母亲在怀孕期放射线暴露率是否存在显著性差异 卡方检验的公式: 结果分析 (4) 应用卡方检验分析病例组和对照组儿童的母亲在怀孕期放射线暴露率是否存在显著性差异 卡方检验的公式: 本研究资料的计算结果: X2 =2 , 0.20>P>0.10。 说明病例组和对照组儿童的母亲在怀孕期间放射线暴露率无显著性差异,所以尚不能认为母亲怀孕期间接触放射线与儿童白血病有关。
结果分析 (5) 计算暴露与疾病关联的强度 暴露与疾病的关联强度用相对危险度(relative risk, RR)表示,即暴露组发病率(或死亡率)与非暴露组发病率(或死亡率)之比。 在病例对照研究中,由于a / n1 和c / n0不能代表暴露组和非暴露组的发病率或死亡率,所以不能直接计算相对危险度。在病例对照研究中,如果所研究疾病的发病率较低 (< 5%), 可用比值比 (odd ratio, OR) 来估计相对危险度。
结果分析 (6) 比值比 OR 病例组有暴露史的概率 / 病例组无暴露史的概率 对照组有暴露史的概率 / 对照组无暴露史的概率
比值(odds)与概率(probability) 对同一问题来说,两者的分子相同,分母不同. 概率的分母中包括未发生事件数, 比值的分母中不包括未发生事件数。 病例的暴露概率p1= a /(a+c) 对照的暴露概率p0= b /(b+d) 比值在0至∞之间,而概率在0~1之间。
结果分析 (7) 相对危险度表示暴露于某因素者患某病的危险性是非暴露者的多少倍。 RR = 1,说明暴露因素与疾病无关联。 结果分析 (7) 相对危险度表示暴露于某因素者患某病的危险性是非暴露者的多少倍。 RR = 1,说明暴露因素与疾病无关联。 RR > 1,说明暴露因素与疾病存在“正”关联, 暴露因素是疾病的危险因素。 RR < 1,说明暴露因素与疾病存在“负”关联, 暴露因素是疾病的保护因素。
结果分析 (8) OR的可信区间 95%可信区间,应用方法是Woolf法。计算步骤如下: OR自然对数的方差为: InOR 95%可信区间为 结果分析 (8) OR的可信区间 95%可信区间,应用方法是Woolf法。计算步骤如下: OR自然对数的方差为: InOR 95%可信区间为 InOR(95%)的反自然对数值即为OR的 95%可信区间
结果分析 (9) 匹配资料的分析 匹配资料与非匹配资料的处理和计算方法是一致的。 1:1匹配资料即配对资料,配对资料的整理和计算有其特 结果分析 (9) 匹配资料的分析 匹配资料与非匹配资料的处理和计算方法是一致的。 1:1匹配资料即配对资料,配对资料的整理和计算有其特 点,并有特定的计算公式。 1:M (M=2,3,4---)匹配资料的分析方法与之不同。
结果分析 (10) 1:1配对的病例对照资料 表内的a,b,c,d分别代表病例和对照配对的对子数 结果分析 (10) 1:1配对的病例对照资料 —————————————————————————— 病例 对照 —————————————————————— 有暴露史 无暴露史 对子数 有暴露史 a b a+b 无暴露史 c d c+d 对子数 a+c b+d t=a+b+c+d 表内的a,b,c,d分别代表病例和对照配对的对子数
结果分析 (11) 应用McNemar公式计算卡方值: OR=c / b OR的 95%可信区间计算用Miettinen法。
偏倚及其防止 一、选择偏倚(Selection Bias) 由于入选的研究对象与未入选的研究对象在某些特征上 存在差异而引起的误差。
一、选择偏倚(Selection Bias) 1、入院率偏倚 (Admission Rate Bias) 2、现患病例-新发病例偏倚 (Prevalence-incidence Bias) 男女直结肠癌 3、检出症候偏倚 (Detection Signal Bias) 复方雌激素 阴道出血后就医 子宫内膜癌 4、时间效应偏倚 (Time Effect Bias)
二、信息偏倚 (Information Bias) 1、回忆偏倚 (Recall Bias) 2、调查偏倚 (Investigation Bias)
三、混杂偏倚 (Confounding Bias) 当研究某个因素与某疾病的关联时,由于某个既与疾病有制约关系,又与所研究的暴露因素有联系的外来因素的影响,掩盖或夸大了所研究的暴露因素与疾病的联系。这种现象叫混杂,其所带来的偏倚称为混杂偏倚,此外来因素称混杂因素。
混杂因素具备的条件 1、是所研究疾病的危险因素 2、与所研究的因素有联系 3、不是所研究的因素与疾病之间发病机制 的中间环节
如何判断可疑的混杂因素是否需要调整 cOR(粗的、未调整的OR) ORi (第i层的OR) 1、视cOR/ ORi的比值而定。 2、混杂因素分布的差异有无显著性。
口服避孕药(OC)与心机梗死的病例对照研究结果 服OC 未服OC 合计 MI 39 114 153 对照 24 154 178 合计 63 268 331 cOR=2.19
口服避孕药(OC)与心机梗死的病例对照研究结果 表例. 按年龄分层后的结果 < 40岁 >=40岁 OC(+) OC(-) 合计 OC(+) OC(-) 合计 MI 21 26 47 18 88 106 对照 17 59 76 7 95 102 合计 38 85 123 25 183 208 OR1=2.80 OR2=2.78 cOR/ OR1=0.78 cOR/ OR2 =0.78
年龄与心机梗死的联系 (在非暴露组中) <40岁 >=40岁 心机梗死 26 88 对照 59 95 OR=0.48 X2=7.27
年龄与OC的联系 (在对照组中) <40岁 >=40岁 OC(+) 17 7 OC(-) 59 95 OR=3.91 X2=8.89
调整混杂因素的方法(前提) 必须能够识别和预测 在研究实施中收集有关混杂因素的足够信息
比较分层前与分层后的差异(按cOR/ ORi的大小) 调整混杂因素的方法(分层分析) 按可疑因素的特征分成不同的层次 在每一层内分别分析疾病与暴露的联系 比较分层前与分层后的差异(按cOR/ ORi的大小) 判断被分层的可疑因素是否存在混杂 存在混杂 调整
ORMH=∑(aidi/ti)/∑(bici/ti) 调整混杂因素的方法(分层分析) Mantel-Haenszel氏法 ORMH=∑(aidi/ti)/∑(bici/ti) 参表例,ORMH=2.79 cOR=2.19 计算总的卡方值和OR值的95%可信区间
谢 谢!