作者：熊林平.

Slides:

Advertisements

Similar presentations

1051 检验 Chi-Square Test 第七章 Content test of fourfold data test of paired fourfold data Fisher probabilities in fourfold data test of R×C table Multiple.

Advertisements

卡方检验. 内容卡方检验入门 1 配对设计两样本率比较的 χ2 检验 2 行列表资料的分析 3 确切概率法 4.

2014 年浙江省数量资料华图网校刘有珍数字推理年份题量数字规律三级等差 2. 和递推 3. 幂次修正 4. 倍数递推 5. 倍数递推 6. 特殊差级 7. 倍数递推 8. 倍数递推 9. 积递推 10. 分数数列

第五节函数的微分一、微分的定义二、微分的几何意义三、基本初等函数的微分公式与微分运算法则四、微分形式不变性五、微分在近似计算中的应用六、小结.

2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.

全微分教学目的：全微分的有关概念和意义教学重点：全微分的计算和应用教学难点：全微分应用于近似计算.

第八章 X2 检验卫生（医学）统计学普通高等教育 “ 十一五 ” 国家级规划教材. Ｘ 2 检验用途 1 、推断两个或两个以上的总体率或总体构成比之间有无差别； 2 、推断两种属性或两个变量之间有无关联性； 3 、频数分布的拟合优度检验。

司法考试题 2002年——2009年.

第十七章分类资料的统计推断.

2013届高考复习方案（第一轮）专题课件.

服务热线：菏泽教师招聘考试统考Q群：菏泽教师统考教育基础模拟题解析.

第五章二次型. 第五章二次型知识点1---二次型及其矩阵表示二次型的基本概念 1. 线性变换与合同矩阵 2.

2011年广西高考政治质量分析广西师范大学附属外国语学校蒋楠.

第一单元　生活与消费目　录课时1　神奇的货币　课时2 多变的价格课时3 多彩的消费.

用问题激发学生的思维 \.

知识回顾 1、通过仔细观察酒精灯的火焰，你可以发现火焰可以分为、、。外焰内焰焰心外焰 2、温度最高的是。

2016届高三期初调研分析徐国民

6.6 单侧置信限 1、问题的引入 2、基本概念 3、典型例题 4、小结.

完全随机设计多样本资料秩和检验.

财经法规与会计职业道德（3）四川财经职业学院.

医学统计学主讲人：信息部林雪君.

第八章 t 检验.

发展心理学王荣山.

第三篇医学统计学方法. 第三篇医学统计学方法医学统计学方法实习2 主讲人陶育纯医学统计学方法实习2 主讲人陶育纯流行病与卫生统计学教研室

不确定度的传递与合成间接测量结果不确定度的评估

2-7、函数的微分教学要求教学要点.

§5 微分及其应用一、微分的概念实例:正方形金属薄片受热后面积的改变量..

线性相关分析.

初中数学八年级下册（苏科版） 10.4 探索三角形相似的条件（2）.

t 检验——问题提出假设检验是通过两组或多组的样本统计量的差别或样本统计量与总体参数的差异来推断他们相应的总体参数是否相同；

第七章财务报告主讲老师：王琼上周知识回顾.

第三章多维随机变量及其分布 §2 边缘分布边缘分布函数边缘分布律边缘概率密度.

统计软件应用 6 主讲人陶育纯 SPSS统计分析统计软件应用 6 主讲人陶育纯教案.

第十章方差分析.

第三篇医学统计学方法. 第三篇医学统计学方法医学统计学方法实习3 主讲人陶育纯医学统计学方法实习3 主讲人陶育纯流行病与卫生统计学教研室

2.1.2 空间中直线与直线之间的位置关系.

医学统计学方法实习3 主讲人陶育纯医学统计学方法实习3 主讲人陶育纯

《2015考试说明》新增考点：“江苏省地级市名称”简析

习题一、概率论 1.已知随机事件A，B，C满足在下列三种情况下，计算（1）A，B，C相互独立（2）A，B独立，A，C互不相容

抽样和抽样分布基本计算 Sampling & Sampling distribution

实数与向量的积.

两组两分类资料检验.

乘法公式 (1) 乘法分配律 (2) 和的平方公式 (3) 差的平方公式 (4) 平方差公式.

变阻器常州市北郊初级中学陆俊.

3.8.1 代数法计算终点误差终点误差公式和终点误差图及其应用 3.8 酸碱滴定的终点误差

模型分类问题 Presented by 刘婷婷苏琬琳.

概率统计主讲教师叶宏山东大学数学院.

线性代数厦门大学线性代数教学组 2019年4月24日6时8分 / 45.

5.2 常用统计分布一、常见分布二、概率分布的分位数三、小结.

第五章相交线与平行线三线八角.

完全随机设计多组资料的比较赵耐青卫生统计教研室.

成绩是怎么算出来的？ 16级第一学期半期考试成绩班级姓名语文数学英语政治历史地理物理化学生物总分 1 张三1 115

相关与回归非确定关系在宏观上存在关系，但并未精确到可以用函数关系来表达。青少年身高与年龄，体重与体表面积非确定关系：

一测定气体分子速率分布的实验实验装置金属蒸汽显示屏狭缝接抽气泵.

概率统计主讲教师叶宏山东大学数学院.

第4课时绝对值.

第四节多个样本均数的两两比较多个样本均数的两两比较又称多重比较(multiple comparison)，其目的是推断究竟哪些总体均数之间存在差别。

分数再认识三真假带分数的练习课.

第15讲特征值与特征向量的性质主要内容：特征值与特征向量的性质.

§5.2 抽样分布　　确定统计量的分布——抽样分布，是数理统计的基本问题之一．采用求随机向量的函数的分布的方法可得到抽样分布．由于样本容量一般不止2或 3(甚至还可能是随机的)，故计算往往很复杂，有时还需要特殊技巧或特殊工具．　　由于正态总体是最常见的总体，故本节介绍的几个抽样分布均对正态总体而言．

第二节函数的极限一、函数极限的定义二、函数极限的性质三、小结思考题.

第三节随机区组设计的方差分析随机区组设计资料的总平方和可以分解为三项：（10.10）.

难点：连续变量函数分布与二维连续变量分布

Statistical Methods in Medicine

坚持，努力，机会留给有准备的人第一章四大金融资产总结主讲老师：陈嫣.

基于列存储的RDF数据管理朱敏

第三章从概率分布函数的抽样 (Sampling from Probability Distribution Functions)

二、配对样本t检验配对设计(paired design)定义:将受试对象按某些重要特征相近的原则配成对子，每对中的两个个体随机地给予两种处理，称为随机配对设计。

9.3多项式乘多项式.

Presentation transcript:

作者：熊林平

χ2检验(Chi-square test)是现代统计学的创始人之一，英国人K χ2检验(Chi-square test)是现代统计学的创始人之一，英国人K . Pearson（1857-1936）于1900年提出的一种具有广泛用途的统计方法，此方法以χ2分布为理论依据，可用于两个或多个率（构成比）间的比较，计数资料的关联度分析，拟合优度检验等等。

χ2分布（chi-square distribution）图7-1 不同自由度的χ2分布曲线图

2分布是一种连续型分布，按分布的密度函数可给出不同自由度的一簇分布曲线。2分布的形状依赖于自由度的大小：（1）当自由度小于等于2时，曲线呈L形；（2）随着自由度的增大，曲线逐渐趋于对称；（3）当自由度趋向于无穷大时, 2分布趋向正态分布。 2分布具有可加性。

2分布具有可加性:如果两个独立的随机变量X1和X2分别服从自由度1和2的χ2分布，那么它们的和X1+X2服从自由度1+ 2的χ2分布。 χ2分布分位数：当自由度确定后，χ2分布曲线下右侧尾部的面积为α时，横轴上相应的χ2值记作χα, 2, 即χ2分布的分位数。

x2分布规律自由度一定时，P值越小， x2值越大。当P 值一定时，自由度越大， x2越大。 =1时， P=0.05， x2 =3.84

总体率（或构成比）的假设检验当两个样本率不同时,有两种可能: 1. P1 , P2所代表的总体率相同,由于抽样误差的存在,造成的不同,这种差别在统计上叫差别无统计学意义。 2. P1 , P2所代表的总体率不同,即两个样本来不同的总体,其差别有统计学意义。现在就是要用统计学的方法进行判断到底属于那种情况。

两组或多组卡方检验数据的整理格式行（Row）×列（Column）表乙组 A21 A22 n2 比较组分类指标（X）合计数阳性数阴性数甲组 A11 A12 n1 乙组 A21 A22 n2 合计 A11 + A21 A12+ A22 n A：表示某组某分类的例数（频数）

表 100例高血压患者治疗后临床记录编号年龄性别治疗组舒张压体温疗效 1 37 男 A 11.27 37.5 有效表 100例高血压患者治疗后临床记录编号年龄性别治疗组舒张压体温疗效 X1 X2 X3 X4 X5 X6 1 37 男 A 11.27 37.5 有效 2 45 女 B 12.53 37.0 无效 3 43 男 A 10.93 36.5 有效 4 59 女 B 14.67 37.8 无效。 100 54 男 B 16.80 37.6 无效

两组药物对高血压患者治疗的疗效将原始数据整理计数资料的频数表疗效（X）比较组有效人数无效人数合计有效率% 比较组有效人数无效人数合计有效率% A组 20 20 40 50 B组 25 35 60 42 问：两药对高血压的疗效是否不同？

2 第一节四格表资料的检验例7-1 某院欲比较异梨醇口服液（试验组）和氢氯噻嗪+地塞米松（对照组）降低颅内压的疗效。将200例颅内压增高症患者随机分为两组，结果见表7-1。问两组降低颅内压的总体有效率有无差别？

表7-1 两组降低颅内压有效率的比较组别有效无效合计有效率（%）试验组 99 5 104 95.20 对照组 75 21 96 表7-1 两组降低颅内压有效率的比较组别有效无效合计有效率（%）试验组 99 5 104 95.20 对照组 75 21 96 78.13 合计 174 26 200 87.00

2.卡方检验的基本思想：表9-2 四格表资料的基本形式处理组阳性事件发生数阳性事件未发生数合计甲 a b a+b 乙 c d 表9-2 四格表资料的基本形式处理组阳性事件发生数阳性事件未发生数合计甲 a b a+b 乙 c d c+d a+c b+d n

根据检验假设H0：，即两样本来自同一总体，或两总体率相同，则从理论上讲，各处理组的发生率和总发生率应相等，有: 各处理组的未发生率和总的未发生率应相等，有:

实际频数A (actual frequency) ( a、b、c、d)的理论频数T( theoretical frequency)（H0:π1=π2=π）： a的理论频数＝ (a+b)×pc= (a+b)×[(a+c.)/ n]=nRnC/n =21.3 b的理论频数＝ (a+b)×(1-pc)= (a+b)×[(b+d.)/ n] =nRnC/n =182.7 c的理论频数＝ (c+d)×pc= (c+d)×[(a+c)/ n] =nRnC/n =6.7 d的理论频数＝ (c+d)×(1-pc)= (c+d)×[(b+d.)/ n] =nRnC/n =57.3

χ2检验的基本公式各种情形下，理论与实际偏离的总和即为卡方值（chi-square value）。若H0成立，则四个格子的实际频数A与理论频数T相差不应该很大，即χ2统计量不应该很大。若χ2值很大，即相对应的P值很小，比如P≤α ，则反过来推断A与T相差太大，超出了抽样误差允许的范围，从而怀疑的H0正确性，继而拒绝H0，接受其对立假设H1，即。

基本公式：表7-1 两组降低颅内压有效率的比较组别有效无效合计有效率（%）试验组 99（90.48） 5（13.52）表7-1 两组降低颅内压有效率的比较组别有效无效合计有效率（%）试验组 99（90.48） 5（13.52） 104 95.20 对照组 75（83.52） 21（12.48） 96 78.13 合计 174 26 200 87.00 基本公式：

2 检验的步骤：检验假设 H0：，即试验组与对照组降低颅内压的总体有效率相等 H1：，即试验组与对照组降低颅内压的总体有效率不等

计算检验统计量

查表作结论查附表8 的界值表得。按拒绝H0，接受H1，可以认为两组降低颅内压总体有效率不等，即可认为异梨醇口服液降低颅内压的有效率高于氢氯噻嗪+地塞米松的有效率。

3. 四格表专用公式（1）为了不计算理论频数T, 可由基本公式推导出，直接由各格子的实际频数（a、b、c、d）计算卡方值的公式：

四格表专用公式：四格表资料数据格式组别阳性阴性合计 A组 a b （a＋b） B组 c d （c＋d）合计（a＋c）组别阳性阴性合计 A组 a b （a＋b） B组 c d （c＋d）合计（a＋c）（b＋d）（n）四格表专用公式：

计算检验统计量查表作结论结果与用基本公式相同！

四格表资料连续性校正实际频数为分类资料，是不连续的，因此计算所得的χ2值是离散型分布。而χ2界值表的依据是χ2分布， χ2分布是连续型分布。因此由公式计算的χ2值查χ2界值表所得的P偏小，特别是当自由度为1时。

对于四格表资料，通常规定：（1）当n≥40且所有的T≥5时，用检验的基本公式；当P≈α时，改用四格表资料的Fisher确切概率法。（2）当n≥40 但有1≤T＜5时，用四格表资料的校正公式；或改用四格表资料的Fisher确切概率法。（3）当n＜40，或T＜1时，用四格表资料的Fisher确切概率法。（4）连续性校正仅用于ν＝1的四格表资料。

四格表资料连续性校正公式

例7-2 某医师欲比较胞磷胆碱与神经节苷酯治疗脑血管疾病的疗效，将78例脑血管疾病患者随机分为两组，结果见表7-2。问两种药物治疗脑血管疾病的有效率是否相等？表7-2 两种药物治疗脑血管疾病有效率的比较组别有效无效合计有效率（%）胞磷胆碱组 46 6 52 88.46 神经节苷酯组 18 8（4.67） 26 69.23 合计 64 14 78 82.05

：，即两种药物治疗脑血管疾病的有效率相等：，即两种药物治疗脑血管疾病的有效率不等校正：未校正： ν=1，按校正χ2值3.14查χ2界值表,得P>0.05,按 α=0.05检验水准不拒绝H0，尚不能认为两种药物治疗脑血管疾病的有效率不等。若按不校正时的χ2值查χ2界值表,得P<0.05,结论与之相反。

2 第二节配对四格表资料的检验计数资料的配对设计常用于两种检验方法、培养方法、诊断方法的比较。其特点是对样本中各观察单位分别用两种方法处理，然后观察两种处理方法的某两分类变量的计数结果。

其中，a,d,为两法观察结果一致的两种情况，b,c为两法观察结果不一致的两种情况。当两种处理方法无差别时，对总体有B=C。由于在抽样研究中，抽样误差是不可避免的，样本中的b和c往往不相等。为此，需进行假设检验。该法一般用于样本含量不太大的资料。

例7-3 某实验室分别用乳胶凝集法和免疫荧光法对58名可疑系统红斑狼疮患者血清中抗核抗体进行测定，结果见表7-3。问两种方法的检测结果有无差别？表7-3 两种方法的检测结果免疫荧光法乳胶凝集法合计＋－ 11（a） 12（b） 23 2（c） 33（d） 35 合计 13 45 58

H0：B＝C，即两种方法的总体检测结果相同 H1：B≠C，即两种方法的总体检测结果不相同

（b＋c）≥40时（b＋c）＜40时本例，P ＜0.05。

第四节行×列表资料的检验 2 专用公式 1、多个样本率的比较 2、样本构成比的比较 3、双向无序分类资料的关联性检验第四节行×列表资料的检验 1、多个样本率的比较 2、样本构成比的比较 3、双向无序分类资料的关联性检验专用公式自由度ν = (行数-1)(列数-1)

1.R×C 表的χ2检验通用公式

2.几种R×C表的检验假设H0

多个样本率或两个构成比比较的2检验表7-8 三种疗法有效率的比较疗法有效无效合计有效率（%）物理疗法 199 7 206 表7-8 三种疗法有效率的比较疗法有效无效合计有效率（%）物理疗法 199 7 206 96.60 药物治疗 164 18 182 90.11 外用膏药 118 26 144 81.94 合计 481 51 532 90.41

H0：π1 ＝ π2 ＝ π3 ，即三种疗法治疗周围性面神经麻痹的有效率相等 H1：三种疗法治疗周围性面神经麻痹的有效率不全相等

查2界值表，得p＜0.005，按α＝0.05水准，拒绝H0 ，接受H1 ，三种疗法治疗周围性面神经麻痹的有效率有差别。

双向无序分类资料的关联性检验表7-10 某地5801人的血型问题：（1）两分类变量有无关联？（2）关联程度如何？ ABO血型 MN血型合计 M N MN O 431 490 902 1823 A 388 410 800 1598 B 495 587 950 2032 AB 137 179 32 348 合计 1451 1666 2684 5801 问题：（1）两分类变量有无关联？（2）关联程度如何？

分析步骤： H0：两种血型系统间无关联 H1：两种血型系统间有关联

查界值表得P＜0.005。按α=0.05检验水准拒绝H0 ，接受H1 ，认为两种血型系统间有关联。进一步计算列联系数：结论：两种血型系统间虽然有关联性，但列联系数数值较小，虽然有统计学意义，仍可认为关系不太密切。

例7-5 某医院肝胆外科在手术中，观察了胆结石的部位与类型的资料如下，试分析两者间有无关系？表7-11 胆结石的类型和部位

行×列表资料的χ2检验的注意事项 1.行×列表资料各格的理论频数不应小于1，并且1≦T<5的格子数不宜超过格子总数的1/5。若出现上述情况，可通过以下方法解决：①最好是增加样本含量，使理论频数增大；②根据专业知识，考虑能否删去理论频数太小的行或列，能否将理论频数太小的行或列与性质相近的邻行或邻列合并；③改用双向无序表的Fisher确切概率法

2．多个样本率比较，若所得统计推断为拒绝H0，接受H1时，只能认为各总体率之间总的来说有差别，但不能说明任两个总体率之间皆有差别。要进一步推断哪两两总体率之间有差别，需进一步做多个样本率的多重比较。 3. 对于有序的R×C表资料不宜用χ2检验。因为行列表资料的χ2检验与分类变量的顺序无关。

2 第五节多个样本率比较的分割法服从χ2分布的多个变量之和亦服从χ2分布，因此一个较大的χ2值，依据分析目的，可以分割成n个分量。多个样本率比较的资料可整理成2 ×k表资料，经行×列表资料检验的结论为拒绝H0，接受H1时，若不经任何处理，而直接用分割法把2×k表χ2分成多个独立的四格表χ2进行两两比较，必须重新规定检验水准，其目的是为保证检验假设中I型错误的概率α不变。

多个实验组间的两两比较检验假设： H0：，任两对比组的总体有效率相等 H1：，任两对比组的总体有效率不等

检验水准调整：三种疗法治疗周围性面神经麻痹的实例中，检验水准调整为：对应的临界值：

三种疗法有效率的两两比较对比组有效无效合计值物理疗法组 199 7 206 6.76 <0.0125 药物治疗组 164 物理疗法组 199 7 206 6.76 <0.0125 药物治疗组 164 18 182 363 25 388 21.32 <0.00227 外用膏药组 118 26 144 317 33 350 4.59 >0.0125 282 44 326

第六节有序分组资料的线性趋势检验一、 R×C表的分类及其检验方法的选择 1．双向无序R×C表表中两个分类变量皆为无序分类变量，如表7-8、表7-9和表7-10。对于该类资料，①若研究目的为多个样本率（或构成比）的比较，可用行列表资料的χ2检验；②若研究目的为分析两个分类变量之间有无关联性以及关系的密切程度时，可用行列表资料的χ2检验以及Pearson列联系数进行分析。

2．单向有序R×C表有两种形式。一种是表中的分组变量（如年龄）是有序的，而指标变量（如传染病的类型）是无序的。其研究目的通常是分析不同年龄组各种传染病的构成情况，可用行列表资料的χ2检验进行分析。另一种情况是表中的分组变量（如疗法）为无序的，而指标变量（如疗效按等级分组）是有序的。其研究目的为比较不同疗法的疗效，宜用秩和检验进行分析。

3．双向有序属性相同的R×C表表中的两分类变量皆为有序且属性相同。实际上是2×2配对设计的扩展，即水平数≥3的诊断试验配伍设计，如用两种检测方法同时对同一批样品的测定结果。其研究目的通常是分析两种检测方法的一致性，此时宜用一致性检验（或称Kappa检验）；也可用特殊模型分析方法。

4．双向有序属性不同的R×C表 R×C表中两分类变量皆为有序的，但属性不同，如表7-13。对于该类资料，①若研究目的为分析不同年龄组患者疗效之间有无差别时，可把它视为单向有序R×C表资料，选用秩和检验；②若研究目的为分析两有序分类变量间是否存在相关关系，宜用等级相关分析或Pearson积矩相关分析，详见第九章；③若研究目的为分析两有序分类变量间是否存在线性变化趋势，宜用本节所介绍的有序分组资料的线性趋势检验。

年龄与冠状动脉硬化的关系年龄(岁）（X）冠状动脉硬化等级（Y）合计 — + ++ +++ 20～ 70 22 4 2 98 30～ 27 24 9 3 63 40～ 16 23 13 7 59 ≥50 20 15 14 58 122 89 41 26 278