卡方检验. 内容 卡方检验入门 1 配对设计两样本率比较的 χ2 检验 2 行列表资料的分析 3 确切概率法 4.

Slides:



Advertisements
Similar presentations
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
Advertisements

第八章 第四节 机动 目录 上页 下页 返回 结束 一个方程所确定的隐函数 及其导数 隐函数的微分法.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
第三节 微分 3.1 、微分的概念 3.2 、微分的计算 3.3 、微分的应用. 一、问题的提出 实例 : 正方形金属薄片受热后面积的改变量.
第八章 X2 检验 卫生(医学)统计学 普通高等教育 “ 十一五 ” 国家级规划教材. X 2 检验用途 1 、推断两个或两个以上的总体率或总体构 成比 之间有无差别; 2 、推断两种属性或两个变量之间有无关联 性; 3 、频数分布的拟合优度检验。
第十七章 分类资料的统计推断.
二项分布.
第十二章 非参数检验 (Nonparametric test)
龙星课程—肿瘤生物信息学上机课程 曹莎
资 料 连续型资料 离散型资料 大样本 小样本.
圆的一般方程 (x-a)2 +(y-b)2=r2 x2+y2+Dx+Ey+F=0 Ax2+Bxy+Cy2+Dx+Ey+ F=0.
第五章 二次型. 第五章 二次型 知识点1---二次型及其矩阵表示 二次型的基本概念 1. 线性变换与合同矩阵 2.
作者:熊林平.
证券投资技术分析.
第七章 非参数统计 非参数统计(亦称非参数检验),是根据样本资料对总体的某种性质或关系进行假设检验的统计推断方法。 主要特点
完全随机设计多样本资料秩和检验.
医学统计学 主讲人:信息部 林雪君.
第十一章 非参数检验 (nonparametric test).
常用逻辑用语复习课 李娟.
第 八 章 t 检 验.
第5章 定积分及其应用 基本要求 5.1 定积分的概念与性质 5.2 微积分基本公式 5.3 定积分的换元积分法与分部积分法
第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 实习2 主讲人 陶育纯 医学统计学方法 实习2 主讲人 陶育纯 流行病与卫生统计学教研室
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
2-7、函数的微分 教学要求 教学要点.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
余角、补角.
探索三角形相似的条件(2).
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
元素替换法 ——行列式按行(列)展开(推论)
统计软件应用 6 主讲人 陶育纯 SPSS统计分析 统计软件应用 6 主讲人 陶育纯 教案.
混合离子络合滴定的最低允许PH值的计算 报告人:肖开炯.
第十章 方差分析.
第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 实习3 主讲人 陶育纯 医学统计学方法 实习3 主讲人 陶育纯 流行病与卫生统计学教研室
第8章 静电场 图为1930年E.O.劳伦斯制成的世界上第一台回旋加速器.
第七章 参数估计 7.3 参数的区间估计.
医学统计学方法 实习3 主讲人 陶育纯 医学统计学方法 实习3 主讲人 陶育纯
抽样和抽样分布 基本计算 Sampling & Sampling distribution
6.4不等式的解法举例(1) 2019年4月17日星期三.
实数与向量的积.
两组两分类资料检验.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
线 性 代 数 厦门大学线性代数教学组 2019年4月24日6时8分 / 45.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
完全随机设计多组资料的比较 赵耐青 卫生统计教研室.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
定理21.9(可满足性定理)设A是P(Y)的协调子集,则存在P(Y)的解释域U和项解释,使得赋值函数v(A){1}。
§8.3 不变因子 一、行列式因子 二、不变因子.
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
3.1 变化率与导数   3.1.1 变化率问题 3.1.2 导数的概念.
3.1.2 空间向量的数量积运算 1.了解空间向量夹角的概念及表示方法. 2.掌握空间向量数量积的计算方法及应用.
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
概 率 统 计 主讲教师 叶宏 山东大学数学院.
第4课时 绝对值.
第一部分:概率 产生随机样本:对分布采样 均匀分布 其他分布 伪随机数 很多统计软件包中都有此工具 如在Matlab中:rand
第四节 多个样本均数的两两比较 多个样本均数的两两比较又称多重比较(multiple comparison),其目的是推断究竟哪些总体均数之间存在差别。
分数再认识三 真假带分数的练习课.
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
线 性 代 数 厦门大学线性代数教学组 2019年5月12日4时19分 / 45.
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
《离散结构》 二元运算性质的判断 西安工程大学计算机科学学院 王爱丽.
§2 方阵的特征值与特征向量.
第三节 随机区组设计的方差分析 随机区组设计资料的总平方和可以分解为三项: (10.10).
难点:连续变量函数分布与二维连续变量分布
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
本底对汞原子第一激发能测量的影响 钱振宇
第三节 数量积 向量积 混合积 一、向量的数量积 二、向量的向量积 三、向量的混合积 四、小结 思考题.
一元一次方程的解法(-).
假设检验.
Sssss.
Presentation transcript:

卡方检验

内容 卡方检验入门 1 配对设计两样本率比较的 χ2 检验 2 行列表资料的分析 3 确切概率法 4

卡方检验入门

概 述  卡方检验是以卡方分布为基础的一种常用假设检 验方法,主要用于分类变量,它基本的无效假设 是:  H 0 :行分类变量与列分类变量无关联  H 1 :行分类变量与列分类变量有关联   =0.05  统计量 ,其中 A i 是样本资料的计数, T i 是在 H 0 为真的情况下的理论数 ( 期望值 ) 。

卡方检验  在 H 0 为真时,实际观察数与理论数之差 A i - T i 应该比较接近 0 。所以在 H 0 为真时,检验统计 量 服从自由度为 k-1 的卡方分布。 即: ,拒绝 H 0 。 上述卡方检验由此派生了不同应用背景的各种问题 的检验,特别最常用的是两个样本率的检验等。因 为该原理的使用范围很广,但本次课程只学习用于 推断两个分类变量是否相互关联。

方法原理

 理论频数  基于 H 0 成立,两样本所在总体无差别的前提下 计算出各单元格的理论频数来

方法原理  残差  设 A 代表某个类别的观察频数, E 代表基于 H0 计算出的期望频数, A 与 E 之差被称为残差。  残差可以表示某一个类别观察值和理论值的偏 离程度,但残差有正有负,相加后会彼此抵消, 总和仍然为 0 。为此可以将残差平方后求和, 以表示样本总的偏离无效假设的程度。

方法原理 另一方面,残差大小是一个相对的概念,相对于期望 频数为 10 时, 20 的残差非常大;可相对于期望频数为 1000 时 20 就很小了。因此又将残差平方除以期望频 数再求和,以标准化观察频数与期望频数的差别。  这就是我们所说的卡方统计量,在 1900 年由英 国统计学家 Pearson 首次提出,其公式为:

方法原理 从卡方的计算公式可见,当观察频数与期望频数完全 一致时,卡方值为 0 ; 观察频数与期望频数越接近,两者之间的差异越小, 卡方值越小; 反之,观察频数与期望频数差别越大,两者之间的差 异越大,卡方值越大。 当然,卡方值的大小也和自由度有关。

方法原理  卡方分布  显然,卡方值的大小不仅与 A 、 E 之差有关,还 与单元格数(自由度)有关

操作步骤 1. 建立检验假设和确定检验水准  H 0 :使用含氟牙膏和一般牙膏儿童龋患率相等  H 1 :使用含氟牙膏和一般牙膏儿童龋患率不等 2.  = 计算检验统计量  2 值

操作步骤 4. 确定 P 值和作出推断结论  查附表 8 ,  2 界值表,得 p>0.05 。按  = 0.05 水准,不拒绝 H0 ,尚不能认为使用含氟牙膏比 使用一般牙膏儿童的龋患率低。  对于四格表,卡方的计算公式又可进行简化, 以方便手工计算 对计算机而言并无实际价值 tabi a b \ c d, chi2

操作步骤  值得指出,成组设计四格表资料的  2 检验与前面 学习过的两样本率比较的双侧 u 检验是等价的。若 对同一资料作两种检验,两个统计量的关系为  2 = u 2 。其对应的界值也为平方关系。两者的应用条 件也是基本一致的,连续性校正也基本互相对应。

卡方检验假设的等价性  两组儿童的龋齿率相同  两组发生率的比较  实际数据的频数分布和理论假设相同  理论分布与实际分布的检验  使用不同的牙膏并不会影响龋齿的发生(两个分 类变量间无关联)  两变量的相关分析

四格表  2 值的校正  英国统计学家 Yates 认为,  2 分布是一种连续型 分布,而四格表资料是分类资料,属离散型分布, 由此计算的  2 值的抽样分布也应当是不连续的, 当样本量较小时,两者间的差异不可忽略,应进 行连续性校正(在每个单元格的残差中都减去 0.5 )  若 n > 40 ,此时有 1< T  5 时,需计算 Yates 连 续性校正  2 值  T <1 ,或 n<40 时,应改用 Fisher 确切概率法直 接计算概率

四格表  2 值的校正

配对设计两样本率比较的 χ 2 检验

方法原理 例 6.9 用 A 、 B 两种方法检查已确诊的乳腺癌患者 140 名, A 法检出 91 名 (65%) , B 法检出 77 名 (55%) , A 、 B 两法一致的检出 56 名 (40%) ,问哪种方法阳 性检出率更高?

方法原理 显然,本例对同一个个体有两次不同的测量,从 设计的角度上讲可以被理解为自身配对设计 按照配对设计的思路进行分析,则首先应当求出 各对的差值,然后考察样本中差值的分布是否按 照 H0 假设的情况对称分布 按此分析思路,最终可整理出如前所列的配对四 格表

方法原理  注意  主对角线上两种检验方法的结论相同,对问题 的解答不会有任何贡献  另两个单元格才代表了检验方法间的差异  假设检验步骤如下:  H0 :两法总体阳性检出率无差别,即 B = C  H1 :两法总体阳性检出率有差别,即 B  C

方法原理  mcci

注意事项  McNemar 检验只会利用非主对角线单元格上的信 息,即它只关心两者不一致的评价情况,用于比 较两个评价者间存在怎样的倾向。因此,对于一 致性较好的大样本数据, McNemar 检验可能会失 去实用价值。  例如对 1 万个案例进行一致性评价, 9995 个都 是完全一致的,在主对角线上,另有 5 个分布 在左下的三角区,显然,此时一致性相当的好。 但如果使用 McNemar 检验,此时反而会得出两 种评价有差异的结论来。

行列表资料的分析

分析步骤  建立假设  H0 :三种不同类型关节炎的疗效相同  H1 :三种不同类型关节炎的疗效不全相同  求出统计量  下结论

几点遗留问题  是否应当进行两两比较?  这又是一个打嘴仗的问题,虽然有人提出用卡 方分割等方法来检验,但同样也有学者对这种 做法嗤之以鼻  实际上,随着统计学的发展,这个问题已被超 越,可以使用对分类数据的建模方法,如 logistic 模型等对此问题加以解答

几点遗留问题  如果是有序资料该怎么处理  传统的卡方检验是无法对次序信息加以利用的  单向有序:秩和检验  双向有序:实际上考察的是两变量间的关联性 (相关性),可以使用专门的关联性指标分析  目前对卡方检验还有一些扩展方法,如 CMH 卡 方,可以处理此类问题

几点遗留问题  行列表卡方检验的适用条件  理论频数不宜太小,一般认为不宜有 1/5 以上格 子的理论频数小于 5 或有一个格子的理论频数 小于 1  不太理想的办法 与邻近行或列中的实际频数合并 删去理论频数太小的格子所对应的行或列  最理想的办法 增加样本含量以增大理论频数(但是可能吗) 确切概率法

分析实例  注意:确切概率法不属于  2 检验的范畴,但常 作为  2 检验应用上的补充。

分析实例 1 .建立检验假设和确立检验水准  H0 :新药组与对照组疗效相等,即  1 =  2  H1 :新药组与对照组疗效不等,即  1   2 2 .计算概率和确定 P 值  本例 n = 36 < 40 ,不满足  2 检验的应用条件, 宜采用四格表确切概率法。

方法原理  在四格表周边合计不变的条件下,在相应的总体 中进行抽样,四格表中出现各种排列组合情况的 概率  本例即 28 、 8 、 22 、 14 保持不变的条件下,若 H0 成立,计算出现各种四格表的概率

方法原理  然后将其中小于等于现有样本概率的概率值相加,即为 P 值:  本例中 P 值 =P(0)+ P(6)+P(7)+P(8)=0.0361<0.05

一点补充  确切概率法的原理具有通用性,对于四格表以外 的情况也适用,如行乘列表、配对、配伍表格均 可  对于较大的行乘列表,确切概率法的计算量将变 得十分惊人,有可能超出硬件系统可以支持的范 围  此时可以采用计算统计学中的其他抽样技术加以 解决,如 Bootstrap 方法等

Stata 计算  两个或多个率、构成比的比较 1.Pearson χ 2 对两个样本率比较 tabi a b\ c d,chi2 r 其中 r 表示按行计算比例 2. 用 Fisher 确切概率法检验量个样本率 tabi a b\ c d,chi2 exact  配对四格表资料的分析 mcci a b c d

Stata 计算 行列表资料统计分析  双变量无序: Pearson 卡方  应用条件:同前。  命令: tabi \ \  单变量有序:秩和检验、 CMH 卡方  双变量有序: Spearman 等级相关、 CMH 卡方