第十一章 两变量关联性分析
本章内容 第一节 线性相关 第二节 秩相关 第三节 分类变量的关联性分析
第一节 线性相关 一 线性相关的概念 线性相关(linear correlation)又称简单相关(simple correlation),用于双变量正态分布(bivariate normal distribution)资料。其性质可由图11-2散点图直观的说明。
目的:研究 两个变量X,Y数量上的依存(或相关) 关系。 特点:统计关系
二、相关系数的意义与计算 意义:相关(correlation coefficient)又称Pearson积差相关系数,用来说明具有直线关系的两变量间相关的密切程度与相关方向。 2. 计算:样本相关系数的计算公式为 (11-3)
例11-2 计算例11-1中凝血酶浓度X与凝血酶时间Y之间样本相关系数。 由例11-1得 , 由公式11-3得
相关系数的特点 1.相关系数r是一个无量纲的数值,且-1<r<1; 2.r>0为正相关,r<0为负相关; 3./r/越接近于1,说明相关性越好./r/越接近于0,说明相关性越差.
相关系数的统计推断 (一)相关系数的假设检验 (11-5) (11-6)
例11-3 继例11-2中算得r=-0926后,试检验相关是否具有统计学意义
检验步骤 本例 n=15,r=-0.926,由公式(11-4)和公式(11-5)得 本例 ,查 界值表得 ,故拒绝 接受 ,认为凝血酶浓度与凝血酶时间之间存在负相关。此结果与查表的结果是一致的。
线性相关中应注意的问题 1.样本的相关系数接近零并不意味着两变量间一定无相关性. 2.一个变量的数值人为选定时莫作相关. 3.出现异常值时甚用相关. 4.相关未必真有内在联系. 5.分层资料盲目合并易出假象.
第二节 秩相关
适用条件: ②总体分布型未知,一端或两端是不确定数值(如<10岁,≥65岁)的资料; ③原始数据用等级表示的资料。 ①资料不服从双变量正态分布而不宜作积差相关分析; ②总体分布型未知,一端或两端是不确定数值(如<10岁,≥65岁)的资料; ③原始数据用等级表示的资料。
一、Spearman秩相关 1. 意义:等级相关系数rs用来说明两个变量间直线相关关系的密切程度与相关方向。 2. 计算公式
例11-4 某地研究2~7岁急性白血病患儿的血小板数与出血症状程度之间的相关性,结果见表11-2,试用秩相关进行分析
表11-2 急性白血病患儿的血小板(109/L)和出血症状 病人编号 血小板数 秩次 p2 出血症状 秩次 q2 pq X p Y q (1) (2) (3) (4) (5) (6) (7) (8)=(3).(6) 121 1 1 +++ 11.5 132.25 11.5 138 2 4 ++ 9.0 81 18 165 3 9 + 7.0 49 21 310 4 16 - 3.5 12.25 14 426 5 25 ++ 9.0 81 45 540 6 36 ++ 9.0 81 54 740 7 49 - 3.5 2.25 24.5 1060 8 64 - 3.5 12.25 28 1260 9 81 - 3.5 12.25 31.5 1290 10 100 - 3.5 12.25 35 1438 11 121 +++ 11.5 132.25 126.25 2004 12 144 - 3.5 12.25 42 合计 — 78 650 - 78 630 451
利用表11-2中的数据容易算得 秩相关系数为负,说明两变量间有负相关关系,同样由样本算得的秩相关系数是否有统计学意义,也应做检验
秩相关系数的统计推断 检验步骤 假设检验 统计推断 当 时,可查书后的 临界值表,若秩相关系数超过临界值,则拒绝 ;当 时,也可采用公式(11-5)或(11-6)式做 检验
例11-5 对例1-4的秩相关系数作假设检验 例11-4中算得 查 临界值表, 例11-5 对例1-4的秩相关系数作假设检验 例11-4中算得 查 临界值表, ,按 的水准,不能拒绝 ,可以认为急性白血病患儿的出血症状与血小板数之间无相关关系
第三节 分类变量的关联性分析
适用条件 对定性变量之间的联系通用的方法是根据两个定性变量交叉分类基数所得的频数资料(列联表)作关联性分析,即关于两种属性独立性的卡方检验 计算公式
交叉分类2×2表的关联分析 例11-6 为观察婴儿腹泻是否与喂养方式有关,某医院儿科随机收集了消化不良的婴儿82例,对每个个体分别观察腹泻与否和喂养方式两种属性,2×2种结果分类记述如表11-3所示,试分析两种属性的关联性。
表11-3婴儿腹泻与喂养方式的关系 喂养方式 腹泻 合计 有 无 人工 30 10 40 母乳 17 25 42 合计 47 35 82
假设检验 :喂养方式与婴儿腹泻之间相互独立 :喂养方式与婴儿腹泻之间有关联 将表中各数据代入公式(7-7)得 , 拒绝原假设,说明婴儿腹泻与喂养方式之间存在关联性.
表11-3 婴儿腹泻与喂养方式的关系 喂养方式 腹泻 合计 有 无 人工 30 10 40 母乳 17 25 42 合计 47 35 82
二 2×2配对资料的关联性分析 例11-7 有56份咽喉涂抹标本,把每份标本一分为二,依同样的条件分别接种于甲乙两种白喉杆菌培养基上,观察白喉菌生长的情况,结果如表11-5,问两种培养基的结果有无关联?
表11-5 两种白喉杆菌培养结果 甲培养基 乙培养基 合计 + - + 22 18 40 - 2 14 16 合计 24 32 56
假设检验 :两种培养基的结果之间互相独立 :两种培养基的结果之间有关联 将本例数据代入公式(7-7)得 有理由拒绝零假设,可以认为甲、乙两种培养基之间存在关联性
三 R×C表分类资料的关联性分析
例11-8 某地居民主要有三种祖籍,均流行甲状腺肿。为探索甲状腺肿类型与祖籍是否有关联,现根据居民甲状腺肿筛查结果,按甲状腺肿类型与祖籍两种属性交叉分类,得表11-6的资料。问甲状腺肿类型与祖籍见有否关联?
表11-6 某地居民按甲状腺肿类型与祖籍两种属性的交叉分类表 表11-6 某地居民按甲状腺肿类型与祖籍两种属性的交叉分类表 祖籍 甲状腺肿类型 合计 弥漫型 结节型 混合型 甲 486 2 4 492 乙 133 260 51 444 丙 100 315 85 500 合计 719 577 140 1436
假设检验 :甲状腺类型与祖籍无关 :甲状腺类型与祖籍有关联 同样作检验得 由 查 界值表, ,拒绝零假设,说明甲状腺肿类型与祖籍之间有关联性 由 查 界值表, ,拒绝零假设,说明甲状腺肿类型与祖籍之间有关联性 计算列联系数
谢谢大家!