作者:熊林平
χ2检验(Chi-square test)是现代统计学的创始人之一,英国人K χ2检验(Chi-square test)是现代统计学的创始人之一,英国人K . Pearson(1857-1936)于1900年提出的一种具有广泛用途的统计方法,此方法以χ2分布为理论依据,可用于两个或多个率(构成比)间的比较,计数资料的关联度分析,拟合优度检验等等。
χ2分布(chi-square distribution) 图7-1 不同自由度的χ2分布曲线图
2分布是一种连续型分布,按分布的密度函数可给出不同自由度的一簇分布曲线。2分布的形状依赖于自由度的大小: (1)当自由度小于等于2时,曲线呈L形; (2)随着自由度的增大,曲线逐渐趋于对称; (3)当自由度趋向于无穷大时, 2分布趋向正态分布。 2分布具有可加性。
2分布具有可加性:如果两个独立的随机变量X1和X2分别服从自由度1和2的χ2分布,那么它们的和X1+X2服从自由度1+ 2的χ2分布。 χ2分布分位数:当自由度确定后,χ2分布曲线下右侧尾部的面积为α时,横轴上相应的χ2值记作χα, 2, 即χ2分布的分位数。
x2分布规律 自由度一定时,P值越小, x2值越大。 当P 值一定时,自由度越大, x2越大。 =1时, P=0.05, x2 =3.84
总体率(或构成比)的假设检验 当两个样本率不同时,有两种可能: 1. P1 , P2所代表的总体率相同,由于抽样误差的存在,造成的不同,这种差别在统计上叫差别无统计学意义。 2. P1 , P2所代表的总体率不同,即两个样本来不同的总体,其差别有统计学意义。 现在就是要用统计学的方法进行判断到底属于那种情况。
两组或多组卡方检验数据的整理格式 行(Row)×列(Column)表 乙组 A21 A22 n2 比较组 分类指标 (X) 合计数 阳性数 阴性数 甲组 A11 A12 n1 乙组 A21 A22 n2 合计 A11 + A21 A12+ A22 n A:表示某组某分类的例数(频数)
表 100例高血压患者治疗后临床记录 编号 年龄 性别 治疗组 舒张压 体温 疗效 1 37 男 A 11.27 37.5 有效 表 100例高血压患者治疗后临床记录 编号 年龄 性别 治疗组 舒张压 体温 疗效 X1 X2 X3 X4 X5 X6 1 37 男 A 11.27 37.5 有效 2 45 女 B 12.53 37.0 无效 3 43 男 A 10.93 36.5 有效 4 59 女 B 14.67 37.8 无效 。 100 54 男 B 16.80 37.6 无效
两组药物对高血压患者治疗的疗效 将原始数据整理计数资料的频数表 疗效(X) 比较组 有效人数 无效人数 合计 有效率% 比较组 有效人数 无效人数 合计 有效率% A组 20 20 40 50 B组 25 35 60 42 问:两药对高血压的疗效是否不同?
2 第一节 四格表资料的 检验 例7-1 某院欲比较异梨醇口服液(试验组)和氢氯噻嗪+地塞米松(对照组)降低颅内压的疗效。将200例颅内压增高症患者随机分为两组,结果见表7-1。问两组降低颅内压的总体有效率有无差别?
表7-1 两组降低颅内压有效率的比较 组 别 有效 无效 合计 有效率(%) 试验组 99 5 104 95.20 对照组 75 21 96 表7-1 两组降低颅内压有效率的比较 组 别 有效 无效 合计 有效率(%) 试验组 99 5 104 95.20 对照组 75 21 96 78.13 合 计 174 26 200 87.00
2.卡方检验的基本思想: 表9-2 四格表资料的基本形式 处理组 阳性事件发生数 阳性事件未发生数 合计 甲 a b a+b 乙 c d 表9-2 四格表资料的基本形式 处理组 阳性事件发生数 阳性事件未发生数 合计 甲 a b a+b 乙 c d c+d a+c b+d n
根据检验假设H0: ,即两样本来自同一总体,或两总体率相同,则从理论上讲,各处理组的发生率和总发生率应相等,有: 各处理组的未发生率和总的未发生率应相等,有:
实际频数A (actual frequency) ( a、b、c、d)的 理论频数T( theoretical frequency)(H0:π1=π2=π): a的理论频数= (a+b)×pc= (a+b)×[(a+c.)/ n]=nRnC/n =21.3 b的理论频数= (a+b)×(1-pc)= (a+b)×[(b+d.)/ n] =nRnC/n =182.7 c的理论频数= (c+d)×pc= (c+d)×[(a+c)/ n] =nRnC/n =6.7 d的理论频数= (c+d)×(1-pc)= (c+d)×[(b+d.)/ n] =nRnC/n =57.3
χ2检验的基本公式 各种情形下,理论与实际偏离的总和即为卡方值(chi-square value)。若H0成立,则四个格子的实际频数A与理论频数T相差不应该很大,即χ2统计量不应该很大。若χ2值很大,即相对应的P值很小,比如P≤α ,则反过来推断A与T相差太大,超出了抽样误差允许的范围,从而怀疑的H0正确性,继而拒绝H0,接受其对立假设H1,即 。
基本公式: 表7-1 两组降低颅内压有效率的比较 组 别 有效 无效 合计 有效率(%) 试验组 99(90.48) 5(13.52) 表7-1 两组降低颅内压有效率的比较 组 别 有效 无效 合计 有效率(%) 试验组 99(90.48) 5(13.52) 104 95.20 对照组 75(83.52) 21(12.48) 96 78.13 合 计 174 26 200 87.00 基本公式:
2 检验的步骤: 检验假设 H0: ,即试验组与对照组降低颅内 压的总体有效率相等 H1: ,即试验组与对照组降低颅内 压的总体有效率不等
计算检验统计量
查表作结论 查附表8 的界值表得 。按 拒绝H0,接受H1,可以认为两组降低颅内压总体有效率不等,即可认为异梨醇口服液降低颅内压的有效率高于氢氯噻嗪+地塞米松的有效率。
3. 四格表专用公式(1) 为了不计算理论频数T, 可由基本公式推导出,直接由各格子的实际频数(a、b、c、d)计算卡方值的公式:
四格表专用公式: 四格表资料数据格式 组 别 阳性 阴性 合计 A组 a b (a+b) B组 c d (c+d) 合 计 (a+c) 组 别 阳性 阴性 合计 A组 a b (a+b) B组 c d (c+d) 合 计 (a+c) (b+d) (n) 四格表专用公式:
计算检验统计量 查表作结论 结果与用基本公式相同 !
四格表资料连续性校正 实际频数为分类资料,是不连续的,因此计算所得的χ2值是离散型分布。而χ2界值表的依据是χ2分布, χ2分布是连续型分布。因此由公式计算的χ2值查χ2界值表所得的P偏小,特别是当自由度为1时。
对于四格表资料,通常规定: (1)当n≥40且所有的T≥5时,用检验的基本公式;当P≈α时,改用四格表资料的Fisher确切概率法。 (2)当n≥40 但有1≤T<5时,用四格表资料的校正公式;或改用四格表资料的Fisher确切概率法。 (3)当n<40,或T<1时,用四格表资料的Fisher确切概率法。 (4)连续性校正仅用于ν=1的四格表资料。
四格表资料连续性校正公式
例7-2 某医师欲比较胞磷胆碱与神经节苷酯治疗脑血管疾病的疗效,将78例脑血管疾病患者随机分为两组,结果见表7-2。问两种药物治疗脑血管疾病的有效率是否相等? 表7-2 两种药物治疗脑血管疾病有效率的比较 组 别 有效 无效 合计 有效率(%) 胞磷胆碱组 46 6 52 88.46 神经节苷酯组 18 8(4.67) 26 69.23 合 计 64 14 78 82.05
: ,即两种药物治疗脑血管疾病的有效率相等 : ,即两种药物治疗脑血管疾病的有效率不等 校正: 未校正: ν=1,按校正χ2值3.14查χ2界值表,得P>0.05,按 α=0.05检验水准不拒绝H0,尚不能认为两种药物治疗脑血管疾病的有效率不等。 若按不校正时的χ2值查χ2界值表,得P<0.05,结论与之相反。
2 第二节 配对四格表资料的 检验 计数资料的配对设计常用于两种检验方法、培养方法、诊断方法的比较。其特点是对样本中各观察单位分别用两种方法处理,然后观察两种处理方法的某两分类变量的计数结果。
其中,a,d,为两法观察结果一致的两种情况,b,c为两法观察结果不一致的两种情况。当两种处理方法无差别时,对总体有B=C。由于在抽样研究中,抽样误差是不可避免的,样本中的b和c往往不相等。为此,需进行假设检验 。 该法一般用于样本含量不太大的资料。
例7-3 某实验室分别用乳胶凝集法和免疫荧光法对58名可疑系统红斑狼疮患者血清中抗核抗体进行测定,结果见表7-3。问两种方法的检测结果有无差别? 表7-3 两种方法的检测结果 免疫荧光法 乳胶凝集法 合计 + - 11(a) 12(b) 23 2(c) 33(d) 35 合 计 13 45 58
H0:B=C,即两种方法的总体检测 结果相同 H1:B≠C,即两种方法的总体检测 结果不相同
(b+c)≥40时 (b+c)<40时 本例 ,P <0.05。
第四节 行×列表资料的 检验 2 专用公式 1、多个样本率的比较 2、样本构成比的比较 3、双向无序分类资料的关联性检验 第四节 行×列表资料的 检验 1、多个样本率的比较 2、样本构成比的比较 3、双向无序分类资料的关联性检验 专用公式 自由度ν = (行数-1)(列数-1)
1.R×C 表的χ2检验通用公式
2.几种R×C表的检验假设H0
多个样本率或两个构成比 比较的2检验 表7-8 三种疗法有效率的比较 疗 法 有效 无效 合计 有效率(%) 物理疗法 199 7 206 表7-8 三种疗法有效率的比较 疗 法 有效 无效 合计 有效率(%) 物理疗法 199 7 206 96.60 药物治疗 164 18 182 90.11 外用膏药 118 26 144 81.94 合 计 481 51 532 90.41
H0:π1 = π2 = π3 ,即三种疗法治疗周围性 面神经麻痹的有效率相等 H1:三种疗法治疗周围性面神经麻痹的有效率 不全相等
查2界值表,得p<0.005,按α=0.05水准,拒绝H0 ,接受H1 ,三种疗法治疗周围性面神经麻痹的有效率有差别。
双向无序分类资料的关联性检验 表7-10 某地5801人的血型 问题:(1)两分类变量有无关联? (2)关联程度如何? ABO血型 MN血型 合计 M N MN O 431 490 902 1823 A 388 410 800 1598 B 495 587 950 2032 AB 137 179 32 348 合 计 1451 1666 2684 5801 问题:(1)两分类变量有无关联? (2)关联程度如何?
分析步骤: H0:两种血型系统间无关联 H1:两种血型系统间有关联
查界值表得P<0.005。按α=0.05检验水准拒绝H0 ,接受H1 ,认为两种血型系统间有关联。 进一步计算列联系数: 结论:两种血型系统间虽然有关联性,但列联系数数值较小,虽然有统计学意义,仍可认为关系不太密切。
例7-5 某医院肝胆外科在手术中,观察了胆结石的部位与类型的资料如下,试分析两者间有无关系? 表7-11 胆结石的类型和部位
行×列表资料的χ2检验的注意事项 1.行×列表资料各格的理论频数不应小于1,并且1≦T<5的格子数不宜超过格子总数的1/5。若出现上述情况,可通过以下方法解决:①最好是增加样本含量,使理论频数增大;②根据专业知识,考虑能否删去理论频数太小的行或列,能否将理论频数太小的行或列与性质相近的邻行或邻列合并;③改用双向无序表的Fisher确切概率法
2.多个样本率比较,若所得统计推断为拒绝H0,接受H1时,只能认为各总体率之间总的来说有差别,但不能说明任两个总体率之间皆有差别。要进一步推断哪两两总体率之间有差别,需进一步做多个样本率的多重比较 。 3. 对于有序的R×C表资料不宜用χ2检验。因为行列表资料的χ2检验与分类变量的顺序无关。
2 第五节 多个样本率比较的 分割法 服从χ2分布的多个变量之和亦服从χ2分布,因此一个较大的χ2值,依据分析目的,可以分割成n个分量。多个样本率比较的资料可整理成2 ×k表资料,经行×列表资料检验的结论为拒绝H0,接受H1时,若不经任何处理,而直接用分割法把2×k表χ2分成多个独立的四格表χ2进行两两比较,必须重新规定检验水准,其目的是为保证检验假设中I型错误的概率α不变。
多个实验组间的两两比较 检验假设: H0: ,任两对比组的总体有效率相等 H1: ,任两对比组的总体有效率不等
检验水准调整: 三种疗法治疗周围性面神经麻痹的实例中,检验水准调整为: 对应的临界值:
三种疗法有效率的两两比较 对比组 有效 无效 合计 值 物理疗法组 199 7 206 6.76 <0.0125 药物治疗组 164 物理疗法组 199 7 206 6.76 <0.0125 药物治疗组 164 18 182 363 25 388 21.32 <0.00227 外用膏药组 118 26 144 317 33 350 4.59 >0.0125 282 44 326
第六节 有序分组资料的线性趋势检验 一、 R×C表的分类及其检验方法的选择 1.双向无序R×C表 表中两个分类变量皆为无序分类变量,如表7-8、表7-9和表7-10。对于该类资料,①若研究目的为多个样本率(或构成比)的比较,可用行列表资料的χ2检验;②若研究目的为分析两个分类变量之间有无关联性以及关系的密切程度时,可用行列表资料的χ2检验以及Pearson列联系数进行分析。
2.单向有序R×C表 有两种形式。一种是表中的分组变量(如年龄)是有序的,而指标变量(如传染病的类型)是无序的。其研究目的通常是分析不同年龄组各种传染病的构成情况,可用行列表资料的χ2检验进行分析。另一种情况是表中的分组变量(如疗法)为无序的,而指标变量(如疗效按等级分组)是有序的。其研究目的为比较不同疗法的疗效,宜用秩和检验进行分析。
3.双向有序属性相同的R×C表 表中的两分类变量皆为有序且属性相同。实际上是2×2配对设计的扩展,即水平数≥3的诊断试验配伍设计,如用两种检测方法同时对同一批样品的测定结果。其研究目的通常是分析两种检测方法的一致性,此时宜用一致性检验(或称Kappa检验);也可用特殊模型分析方法 。
4.双向有序属性不同的R×C表 R×C表中两分类变量皆为有序的,但属性不同,如表7-13。对于该类资料,①若研究目的为分析不同年龄组患者疗效之间有无差别时,可把它视为单向有序R×C表资料,选用秩和检验;②若研究目的为分析两有序分类变量间是否存在相关关系,宜用等级相关分析或Pearson积矩相关分析,详见第九章;③若研究目的为分析两有序分类变量间是否存在线性变化趋势,宜用本节所介绍的有序分组资料的线性趋势检验。
年龄与冠状动脉硬化的关系 年龄(岁) (X) 冠状动脉硬化等级(Y) 合计 — + ++ +++ 20~ 70 22 4 2 98 30~ 27 24 9 3 63 40~ 16 23 13 7 59 ≥50 20 15 14 58 122 89 41 26 278