作者:熊林平.

Slides:



Advertisements
Similar presentations
1051 检验 Chi-Square Test 第七章 Content test of fourfold data test of paired fourfold data Fisher probabilities in fourfold data test of R×C table Multiple.
Advertisements

卡方检验. 内容 卡方检验入门 1 配对设计两样本率比较的 χ2 检验 2 行列表资料的分析 3 确切概率法 4.
2014 年浙江省数量资料 华图网校 刘有珍 数字推理 年份题量数字规律 三级等差 2. 和递推 3. 幂次修正 4. 倍数递推 5. 倍数递推 6. 特殊差级 7. 倍数递推 8. 倍数递推 9. 积递推 10. 分数数列
第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
全微分 教学目的:全微分的有关概念和意义 教学重点:全微分的计算和应用 教学难点:全微分应用于近似计算.
第八章 X2 检验 卫生(医学)统计学 普通高等教育 “ 十一五 ” 国家级规划教材. X 2 检验用途 1 、推断两个或两个以上的总体率或总体构 成比 之间有无差别; 2 、推断两种属性或两个变量之间有无关联 性; 3 、频数分布的拟合优度检验。
司 法 考 试 题 2002年——2009年.
第十七章 分类资料的统计推断.
2013届高考复习方案(第一轮) 专题课件.
服务热线: 菏泽教师招聘考试统考Q群: 菏泽教师统考教育基础模拟题解析.
第五章 二次型. 第五章 二次型 知识点1---二次型及其矩阵表示 二次型的基本概念 1. 线性变换与合同矩阵 2.
2011年广西高考政治质量分析 广西师范大学附属外国语学校 蒋 楠.
第一单元 生活与消费 目 录 课时1 神奇的货币  课时2 多变的价格 课时3 多彩的消费.
用问题激发学生的思维 \.
知识回顾 1、通过仔细观察酒精灯的火焰,你可以发现火焰可以分为 、 、 。 外焰 内焰 焰心 外焰 2、温度最高的是 。
2016届高三期初调研 分析 徐国民
6.6 单侧置信限 1、问题的引入 2、基本概念 3、典型例题 4、小结.
卡方检验.
完全随机设计多样本资料秩和检验.
财经法规与会计职业道德 (3) 四川财经职业学院.
医学统计学 主讲人:信息部 林雪君.
第 八 章 t 检 验.
发展心理学 王 荣 山.
第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 实习2 主讲人 陶育纯 医学统计学方法 实习2 主讲人 陶育纯 流行病与卫生统计学教研室
不确定度的传递与合成 间接测量结果不确定度的评估
2-7、函数的微分 教学要求 教学要点.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
线性相关分析.
初中数学八年级下册 (苏科版) 10.4 探索三角形 相似的条件(2).
t 检验——问题提出 假设检验是通过两组或多组的样本统计量的差别或样本统计量与总体参数的差异来推断他们相应的总体参数是否相同;
第七章 财务报告 主讲老师:王琼 上周知识回顾.
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
统计软件应用 6 主讲人 陶育纯 SPSS统计分析 统计软件应用 6 主讲人 陶育纯 教案.
第十章 方差分析.
第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 实习3 主讲人 陶育纯 医学统计学方法 实习3 主讲人 陶育纯 流行病与卫生统计学教研室
2.1.2 空间中直线与直线 之间的位置关系.
医学统计学方法 实习3 主讲人 陶育纯 医学统计学方法 实习3 主讲人 陶育纯
《2015考试说明》新增考点:“江苏省地级市名称”简析
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
抽样和抽样分布 基本计算 Sampling & Sampling distribution
实数与向量的积.
两组两分类资料检验.
乘法公式 (1) 乘法分配律 (2) 和的平方公式 (3) 差的平方公式 (4) 平方差公式.
变 阻 器 常州市北郊初级中学 陆 俊.
3.8.1 代数法计算终点误差 终点误差公式和终点误差图及其应用 3.8 酸碱滴定的终点误差
模型分类问题 Presented by 刘婷婷 苏琬琳.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
线 性 代 数 厦门大学线性代数教学组 2019年4月24日6时8分 / 45.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
第五章 相交线与平行线 三线八角.
完全随机设计多组资料的比较 赵耐青 卫生统计教研室.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
一 测定气体分子速率分布的实验 实验装置 金属蒸汽 显示屏 狭缝 接抽气泵.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
第4课时 绝对值.
第四节 多个样本均数的两两比较 多个样本均数的两两比较又称多重比较(multiple comparison),其目的是推断究竟哪些总体均数之间存在差别。
分数再认识三 真假带分数的练习课.
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
第三节 随机区组设计的方差分析 随机区组设计资料的总平方和可以分解为三项: (10.10).
难点:连续变量函数分布与二维连续变量分布
Statistical Methods in Medicine
坚持,努力,机会留给有准备的人 第一章 四大金融资产总结 主讲老师:陈嫣.
基于列存储的RDF数据管理 朱敏
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
二、配对样本t检验 配对设计(paired design)定义:将受试对象按某些重要特征相近的原则配成对子,每对中的两个个体随机地给予两种处理,称为随机配对设计。
9.3多项式乘多项式.
Presentation transcript:

作者:熊林平

χ2检验(Chi-square test)是现代统计学的创始人之一,英国人K χ2检验(Chi-square test)是现代统计学的创始人之一,英国人K . Pearson(1857-1936)于1900年提出的一种具有广泛用途的统计方法,此方法以χ2分布为理论依据,可用于两个或多个率(构成比)间的比较,计数资料的关联度分析,拟合优度检验等等。

χ2分布(chi-square distribution) 图7-1 不同自由度的χ2分布曲线图

2分布是一种连续型分布,按分布的密度函数可给出不同自由度的一簇分布曲线。2分布的形状依赖于自由度的大小: (1)当自由度小于等于2时,曲线呈L形; (2)随着自由度的增大,曲线逐渐趋于对称; (3)当自由度趋向于无穷大时, 2分布趋向正态分布。 2分布具有可加性。

2分布具有可加性:如果两个独立的随机变量X1和X2分别服从自由度1和2的χ2分布,那么它们的和X1+X2服从自由度1+ 2的χ2分布。 χ2分布分位数:当自由度确定后,χ2分布曲线下右侧尾部的面积为α时,横轴上相应的χ2值记作χα, 2, 即χ2分布的分位数。

x2分布规律 自由度一定时,P值越小, x2值越大。 当P 值一定时,自由度越大, x2越大。 =1时, P=0.05, x2 =3.84

总体率(或构成比)的假设检验 当两个样本率不同时,有两种可能: 1. P1 , P2所代表的总体率相同,由于抽样误差的存在,造成的不同,这种差别在统计上叫差别无统计学意义。 2. P1 , P2所代表的总体率不同,即两个样本来不同的总体,其差别有统计学意义。 现在就是要用统计学的方法进行判断到底属于那种情况。

两组或多组卡方检验数据的整理格式 行(Row)×列(Column)表 乙组 A21 A22 n2 比较组 分类指标 (X) 合计数 阳性数 阴性数 甲组 A11 A12 n1 乙组 A21 A22 n2 合计 A11 + A21 A12+ A22 n A:表示某组某分类的例数(频数)

表 100例高血压患者治疗后临床记录 编号 年龄 性别 治疗组 舒张压 体温 疗效 1 37 男 A 11.27 37.5 有效 表 100例高血压患者治疗后临床记录 编号 年龄 性别 治疗组 舒张压 体温 疗效 X1 X2 X3 X4 X5 X6 1 37 男 A 11.27 37.5 有效 2 45 女 B 12.53 37.0 无效 3 43 男 A 10.93 36.5 有效 4 59 女 B 14.67 37.8 无效 。 100 54 男 B 16.80 37.6 无效

两组药物对高血压患者治疗的疗效 将原始数据整理计数资料的频数表 疗效(X) 比较组 有效人数 无效人数 合计 有效率% 比较组 有效人数 无效人数 合计 有效率% A组 20 20 40 50 B组 25 35 60 42 问:两药对高血压的疗效是否不同?

2 第一节 四格表资料的 检验 例7-1 某院欲比较异梨醇口服液(试验组)和氢氯噻嗪+地塞米松(对照组)降低颅内压的疗效。将200例颅内压增高症患者随机分为两组,结果见表7-1。问两组降低颅内压的总体有效率有无差别?

表7-1 两组降低颅内压有效率的比较 组 别 有效 无效 合计 有效率(%) 试验组 99 5 104 95.20 对照组 75 21 96 表7-1 两组降低颅内压有效率的比较 组 别 有效 无效 合计 有效率(%) 试验组 99 5 104 95.20 对照组 75 21 96 78.13 合 计 174 26 200 87.00

2.卡方检验的基本思想: 表9-2 四格表资料的基本形式 处理组 阳性事件发生数 阳性事件未发生数 合计 甲 a b a+b 乙 c d 表9-2 四格表资料的基本形式 处理组 阳性事件发生数 阳性事件未发生数 合计 甲 a b a+b 乙 c d c+d a+c b+d n

根据检验假设H0: ,即两样本来自同一总体,或两总体率相同,则从理论上讲,各处理组的发生率和总发生率应相等,有: 各处理组的未发生率和总的未发生率应相等,有:

实际频数A (actual frequency) ( a、b、c、d)的 理论频数T( theoretical frequency)(H0:π1=π2=π): a的理论频数= (a+b)×pc= (a+b)×[(a+c.)/ n]=nRnC/n =21.3 b的理论频数= (a+b)×(1-pc)= (a+b)×[(b+d.)/ n] =nRnC/n =182.7 c的理论频数= (c+d)×pc= (c+d)×[(a+c)/ n] =nRnC/n =6.7 d的理论频数= (c+d)×(1-pc)= (c+d)×[(b+d.)/ n] =nRnC/n =57.3

χ2检验的基本公式 各种情形下,理论与实际偏离的总和即为卡方值(chi-square value)。若H0成立,则四个格子的实际频数A与理论频数T相差不应该很大,即χ2统计量不应该很大。若χ2值很大,即相对应的P值很小,比如P≤α ,则反过来推断A与T相差太大,超出了抽样误差允许的范围,从而怀疑的H0正确性,继而拒绝H0,接受其对立假设H1,即 。

基本公式: 表7-1 两组降低颅内压有效率的比较 组 别 有效 无效 合计 有效率(%) 试验组 99(90.48) 5(13.52) 表7-1 两组降低颅内压有效率的比较 组 别 有效 无效 合计 有效率(%) 试验组 99(90.48) 5(13.52) 104 95.20 对照组 75(83.52) 21(12.48) 96 78.13 合 计 174 26 200 87.00 基本公式:

2 检验的步骤: 检验假设 H0: ,即试验组与对照组降低颅内 压的总体有效率相等 H1: ,即试验组与对照组降低颅内 压的总体有效率不等

计算检验统计量

查表作结论 查附表8 的界值表得 。按 拒绝H0,接受H1,可以认为两组降低颅内压总体有效率不等,即可认为异梨醇口服液降低颅内压的有效率高于氢氯噻嗪+地塞米松的有效率。

3. 四格表专用公式(1) 为了不计算理论频数T, 可由基本公式推导出,直接由各格子的实际频数(a、b、c、d)计算卡方值的公式:

四格表专用公式: 四格表资料数据格式 组 别 阳性 阴性 合计 A组 a b (a+b) B组 c d (c+d) 合 计 (a+c) 组 别 阳性 阴性 合计 A组 a b (a+b) B组 c d (c+d) 合 计 (a+c) (b+d) (n) 四格表专用公式:

计算检验统计量 查表作结论 结果与用基本公式相同 !

四格表资料连续性校正 实际频数为分类资料,是不连续的,因此计算所得的χ2值是离散型分布。而χ2界值表的依据是χ2分布, χ2分布是连续型分布。因此由公式计算的χ2值查χ2界值表所得的P偏小,特别是当自由度为1时。

对于四格表资料,通常规定: (1)当n≥40且所有的T≥5时,用检验的基本公式;当P≈α时,改用四格表资料的Fisher确切概率法。 (2)当n≥40 但有1≤T<5时,用四格表资料的校正公式;或改用四格表资料的Fisher确切概率法。 (3)当n<40,或T<1时,用四格表资料的Fisher确切概率法。 (4)连续性校正仅用于ν=1的四格表资料。

四格表资料连续性校正公式

例7-2 某医师欲比较胞磷胆碱与神经节苷酯治疗脑血管疾病的疗效,将78例脑血管疾病患者随机分为两组,结果见表7-2。问两种药物治疗脑血管疾病的有效率是否相等? 表7-2 两种药物治疗脑血管疾病有效率的比较 组 别 有效 无效 合计 有效率(%) 胞磷胆碱组 46 6 52 88.46 神经节苷酯组 18 8(4.67) 26 69.23 合 计 64 14 78 82.05

: ,即两种药物治疗脑血管疾病的有效率相等 : ,即两种药物治疗脑血管疾病的有效率不等 校正: 未校正: ν=1,按校正χ2值3.14查χ2界值表,得P>0.05,按 α=0.05检验水准不拒绝H0,尚不能认为两种药物治疗脑血管疾病的有效率不等。 若按不校正时的χ2值查χ2界值表,得P<0.05,结论与之相反。

2 第二节 配对四格表资料的 检验 计数资料的配对设计常用于两种检验方法、培养方法、诊断方法的比较。其特点是对样本中各观察单位分别用两种方法处理,然后观察两种处理方法的某两分类变量的计数结果。

其中,a,d,为两法观察结果一致的两种情况,b,c为两法观察结果不一致的两种情况。当两种处理方法无差别时,对总体有B=C。由于在抽样研究中,抽样误差是不可避免的,样本中的b和c往往不相等。为此,需进行假设检验 。 该法一般用于样本含量不太大的资料。

例7-3 某实验室分别用乳胶凝集法和免疫荧光法对58名可疑系统红斑狼疮患者血清中抗核抗体进行测定,结果见表7-3。问两种方法的检测结果有无差别? 表7-3 两种方法的检测结果 免疫荧光法 乳胶凝集法 合计 + - 11(a) 12(b) 23 2(c) 33(d) 35 合 计 13 45 58

H0:B=C,即两种方法的总体检测 结果相同 H1:B≠C,即两种方法的总体检测 结果不相同

(b+c)≥40时 (b+c)<40时 本例 ,P <0.05。

第四节 行×列表资料的 检验 2 专用公式 1、多个样本率的比较 2、样本构成比的比较 3、双向无序分类资料的关联性检验 第四节 行×列表资料的 检验 1、多个样本率的比较 2、样本构成比的比较 3、双向无序分类资料的关联性检验 专用公式 自由度ν = (行数-1)(列数-1)

1.R×C 表的χ2检验通用公式

2.几种R×C表的检验假设H0

多个样本率或两个构成比 比较的2检验 表7-8 三种疗法有效率的比较 疗 法 有效 无效 合计 有效率(%) 物理疗法 199 7 206 表7-8 三种疗法有效率的比较 疗 法 有效 无效 合计 有效率(%) 物理疗法 199 7 206 96.60 药物治疗 164 18 182 90.11 外用膏药 118 26 144 81.94 合 计 481 51 532 90.41

H0:π1 = π2 = π3 ,即三种疗法治疗周围性 面神经麻痹的有效率相等 H1:三种疗法治疗周围性面神经麻痹的有效率 不全相等

查2界值表,得p<0.005,按α=0.05水准,拒绝H0 ,接受H1 ,三种疗法治疗周围性面神经麻痹的有效率有差别。

双向无序分类资料的关联性检验 表7-10 某地5801人的血型 问题:(1)两分类变量有无关联? (2)关联程度如何? ABO血型 MN血型 合计 M N MN O 431 490 902 1823 A 388 410 800 1598 B 495 587 950 2032 AB 137 179 32 348 合 计 1451 1666 2684 5801 问题:(1)两分类变量有无关联? (2)关联程度如何?

分析步骤: H0:两种血型系统间无关联 H1:两种血型系统间有关联

查界值表得P<0.005。按α=0.05检验水准拒绝H0 ,接受H1 ,认为两种血型系统间有关联。 进一步计算列联系数: 结论:两种血型系统间虽然有关联性,但列联系数数值较小,虽然有统计学意义,仍可认为关系不太密切。

例7-5 某医院肝胆外科在手术中,观察了胆结石的部位与类型的资料如下,试分析两者间有无关系? 表7-11 胆结石的类型和部位

行×列表资料的χ2检验的注意事项 1.行×列表资料各格的理论频数不应小于1,并且1≦T<5的格子数不宜超过格子总数的1/5。若出现上述情况,可通过以下方法解决:①最好是增加样本含量,使理论频数增大;②根据专业知识,考虑能否删去理论频数太小的行或列,能否将理论频数太小的行或列与性质相近的邻行或邻列合并;③改用双向无序表的Fisher确切概率法

2.多个样本率比较,若所得统计推断为拒绝H0,接受H1时,只能认为各总体率之间总的来说有差别,但不能说明任两个总体率之间皆有差别。要进一步推断哪两两总体率之间有差别,需进一步做多个样本率的多重比较 。 3. 对于有序的R×C表资料不宜用χ2检验。因为行列表资料的χ2检验与分类变量的顺序无关。

2 第五节 多个样本率比较的 分割法 服从χ2分布的多个变量之和亦服从χ2分布,因此一个较大的χ2值,依据分析目的,可以分割成n个分量。多个样本率比较的资料可整理成2 ×k表资料,经行×列表资料检验的结论为拒绝H0,接受H1时,若不经任何处理,而直接用分割法把2×k表χ2分成多个独立的四格表χ2进行两两比较,必须重新规定检验水准,其目的是为保证检验假设中I型错误的概率α不变。

多个实验组间的两两比较 检验假设: H0: ,任两对比组的总体有效率相等 H1: ,任两对比组的总体有效率不等

检验水准调整: 三种疗法治疗周围性面神经麻痹的实例中,检验水准调整为: 对应的临界值:

三种疗法有效率的两两比较 对比组 有效 无效 合计 值 物理疗法组 199 7 206 6.76 <0.0125 药物治疗组 164   物理疗法组 199 7 206 6.76 <0.0125 药物治疗组 164 18 182 363 25 388 21.32 <0.00227 外用膏药组 118 26 144 317 33 350 4.59 >0.0125 282 44 326

第六节 有序分组资料的线性趋势检验 一、 R×C表的分类及其检验方法的选择 1.双向无序R×C表 表中两个分类变量皆为无序分类变量,如表7-8、表7-9和表7-10。对于该类资料,①若研究目的为多个样本率(或构成比)的比较,可用行列表资料的χ2检验;②若研究目的为分析两个分类变量之间有无关联性以及关系的密切程度时,可用行列表资料的χ2检验以及Pearson列联系数进行分析。

2.单向有序R×C表 有两种形式。一种是表中的分组变量(如年龄)是有序的,而指标变量(如传染病的类型)是无序的。其研究目的通常是分析不同年龄组各种传染病的构成情况,可用行列表资料的χ2检验进行分析。另一种情况是表中的分组变量(如疗法)为无序的,而指标变量(如疗效按等级分组)是有序的。其研究目的为比较不同疗法的疗效,宜用秩和检验进行分析。

3.双向有序属性相同的R×C表 表中的两分类变量皆为有序且属性相同。实际上是2×2配对设计的扩展,即水平数≥3的诊断试验配伍设计,如用两种检测方法同时对同一批样品的测定结果。其研究目的通常是分析两种检测方法的一致性,此时宜用一致性检验(或称Kappa检验);也可用特殊模型分析方法 。

4.双向有序属性不同的R×C表 R×C表中两分类变量皆为有序的,但属性不同,如表7-13。对于该类资料,①若研究目的为分析不同年龄组患者疗效之间有无差别时,可把它视为单向有序R×C表资料,选用秩和检验;②若研究目的为分析两有序分类变量间是否存在相关关系,宜用等级相关分析或Pearson积矩相关分析,详见第九章;③若研究目的为分析两有序分类变量间是否存在线性变化趋势,宜用本节所介绍的有序分组资料的线性趋势检验。

年龄与冠状动脉硬化的关系 年龄(岁) (X) 冠状动脉硬化等级(Y) 合计 — + ++ +++ 20~ 70 22 4 2 98 30~ 27 24 9 3 63 40~ 16 23 13 7 59 ≥50 20 15 14 58 122 89 41 26 278