第十一章 线性相关与回归
变量间的关系一般来说,可分为两种: 1.确定性关系:即“函数关系”,如 或 2.非确定性关系: 如(1)污染程度与污染源距离 (2)舒张压与年龄 (3)人的身高与体重 (4)药物剂量与动物死亡率 回归与相关就是研究此类问题的统计方法
第一节 直线回归 一、“回归”的由来 F.Galton K.Pearson 每对夫妇的平均身高(英寸) 成年儿子的身高(英寸)
二、线性回归基本概念 当一个变量X改变时,另一个变量Y也 相应地改变,此时称X为自变量(independent variable), Y为应变量(dependentvariable)。 自变量X:可随机变动亦可人为取值。 因(应)变量Y:被视为依赖于X而变化的 反应变量。在X的数值确定时按某种规律 随机变动。
可见,各散点通常并不会恰好在一条直线上,但反映出两变量的线性趋势。我们可以假定,相对于X各个取值, 相应的Y的总体均数位于一条直线上,与X之间数量上的线性依存关系就称为线性回归。这样我们就可以用某个恰当的线性回归方程(linear regression equation)来描述Y的总体均数依赖于X的数值变化:
以 表示 的一个样本估计值,即X确定时Y的样本均数,样本回归方程的一般表达式可写为:
三、直线回归方程的建立 1.一般表达式: 自变量 当 取某一定值时,因变量 的 平均估计值。 时, 的 截距,即当 平均估计值。
斜率(回归系数):当 每改变一个单位时, 的平均改变量。
因此
2.求 和 (依据最小二乘法(method of least square)原理 ),即 最小。
四、直线回归方程图示: 在自变量X的实测全距范围内任取相距较远且易读的两个X值,代入回归方程式,求出两个 ,两点连一直线即可。
五、线性回归的统计推断 (一)总体回归系数的估计与假设检验 1.总体回归系数的区间估计: 其中
为剩余标准差,表示应变量Y值对于回归直线的离散程度。 为样本回归系数的标准误,反映样 本回归系数与总体回归系数之间的抽 样误差。 为剩余标准差,表示应变量Y值对于回归直线的离散程度。
2.回归系数的假设检验 (1)方差分析 SS总 = SS回归 + SS剩余 SS总 SS回归=
SS回归表示在Y总的变异中,可以用X与Y的线性关系引起Y变异来解释的部分。 SS剩余= = SS总 - SS回归 SS剩余表示除X对Y的线性影响之外的一切其它随机因素对Y的影响。 这三个平方和的自由度依次分别为: ν总=n-1, ν回归=1, ν剩余=n-2。
具体分析步骤: 建立假设检验 计算检验统计量 查附表12(P274)F界值表并作结论: 若 ,则P< ,拒绝H0 接受H1 , 则P> ,不拒绝H0
2. t 检验 ν=n-2 3.回归方程无统计学意义原因: (1)影响Y取值的,除X外,还有其它不 可忽略因素。 (2)Y与X关系不是线性的,而存在其它 关系。 (3)Y与X不存在关系。
(二)应变量条件均数 的区间估计 亦可用 表示,是总体中当x为某 定值x0的条件下,y 的条件均数 。 当把x0代入回归方程求得其点估计值
当X= x0时 ,总体条件均数 的 可信区间为:
(二)个体 值的容许区间估计 所谓个体 值的容许区间是指总体中X 为某定值x0时,个体 值的波动范围。 其标准差为:
于是给定X= x0时,个体Y值的 容许区间为:
六、线性回归方程应用: 1.描述X和Y之间依存变化的数量关系 2.利用回归方程进行预测预报 3.用容易测量的指标估计不易测量的指标。 4.利用回归方程获得精度更高的医学参考值范围 5.利用回归方程进行统计控制
七、线性回归分析中应注意的问题 1.作回归分析一定要有实际意义 2.回归分析之前首先应绘制散点图 异常点:是指偏离既定模型的数据点 (即y空间的异常点)。 高杠杆点:是指远离数据主体的点(即x空间的异常点)。 强影响点是指对统计推断影响特别大 的点。
异常点和高杠杆点都可能是强影响点。 处理办法: (1)剔除 (2)在此点补做实验 (3)数据变换 学生化残差( ) 其中
3.考虑建立线性回归模型的基本 假定(LINE)。 4.不可外推。 5.两变量间的直线关系不一定是因果 关系,也可能是伴随关系。
第二节 线性相关 一、直线相关的基本概念 若一个变量X由小到大(或由大到小),则另一变量Y亦相应地由小到大(或由大到小),两个变量的散点图呈直线趋势,我们称这种现象为共变,亦就是这两个变量之间有“相关关系”。 散点呈直线趋势说明两变量之间存在 线性相关关系。
散点图中的点的分布,即线性相关的性 质和相关之间的密切程度,可分为以下 几种情况: 1. 正相关 :如图11.6(a),各点的分布呈现椭圆形,Y随X的增加而增加,X随Y的增加而增加。当各点的分布如图11.6(b)呈现直线型,则Y与X就完全正相关了。
2. 负相关 :如图11. 6(c) ,各点的分布也呈现椭圆形,Y随X的增加而减少,X随Y的增加而减少。当各点的分布如图11 2.负相关 :如图11.6(c) ,各点的分布也呈现椭圆形,Y随X的增加而减少,X随Y的增加而减少。当各点的分布如图11.6(d)呈现直线型,则Y与X就完全负相关了。
3. 零相关: 如图11.6(e),无论X增加还 是减少,Y不受其影响,反之,X也不受Y的 影响。 4.非线性相关: X与Y的散点图如图 11.6(f),图中各点分布可能表示X与Y存 在某种曲线相关,但与线性相关已完全 不同,称为非线性相关。
二、相关系数的意义与计算 1.相关系数的意义 : 相关系数(coefficient of correlation)就是说明具有直线关系的两个变量间相关密切程度和相关方向的统计指标。
2. 相关系数的计算 其中
3.相关系数的性质 相关系数r没有测量单位,其数值为 -1≤r≤+1。 r值为正,表示正相关; r值为负,表示负相关; r值为0,则称零相关即无直线关系。 当r值的绝对值为1时,称完全相关。
4.注意: 生物界影响因素众多,r值为l的机会极少,因而很少有完全相关,经常见到的是r值介于-1与+l之间,即不完全相关。在例数相等的情况下,计算出的相关系数的绝对值愈接近1,相关愈密切;相关系数愈接近0时,相关愈不密切。
三、相关系数的假设检验 建立检验假设: 1.查表法: 一种是按自由度 直接查附 表15的r 界值表 。
2. t-test 自由度
四、决定系数的意义 r的平方称为决定系数 (coefficient of determination)
r2反映出回归平方和在总平方和中所 占的比重。r2越接近1,回归效果越好; 应用决定系数,也可以从回归的角度 对相关程度做进一步的了解,例如, r=0.5,r2=0.25,说明一个变量的变 异仅有25% 由另一变量所引起,避免 了对相关系数表示的相关程度的夸 张解释。
五、相关分析应用中应注意的问题 1.相关分析要求两个变量是服从双变量正 态分布的资料。 2.进行相关分析前应先绘制散点图,散点 图呈现出直线趋势时,再作分析。
3.满足应用条件的同一份双变量资料,回归系数与相关系数的正负号一致,假设检验等价。 4.相关分析时,小样本资料经t-test 只能推断两变量间有无直线关系,而不能推断其相关的密切程度。要推断其相关的密切程度样本含量必须足够大。
AC/ON AC/ON 线性相关系数与回归系数的计算器求法: 开机: 进入线性回归状态: 清除内存: Lin MODE MODE REG 1 2 SHIFT Scl AC/ON =
实例1:求变量x与y的回归系数 和相关系数 X Y 1 3 5 6 7
1 , 5 M+ 6 3 M+ , 5 , 7 M+ SHIFT A 求出a=4.5 7 =
SHIFT B 求出b=0.5 8 = SHIFT r ( 则可求出r=1 = SHIFT 2.5 - 则可求出
线性相关和回归的区别与联系 一、区别 (一)资料要求上: 1.回归: (1)因变量Y(随机变量)必须服从正态 分布,自变量X可精确测量和严格控制的 变量。 Ⅰ型回归:
(2)X和Y服从双变量正态分布 Ⅱ型回归: (Y对X的回归方程或由X推Y) (X对Y的回归方程或由Y推X)
(二)在应用上: 1.回归:反映两个变量间依存变化的数量关系,是单向的。 2. 相关:表示两个变量之间的相互关系,是双向的。
(三)在意义上: b表示X每增大(或减小)一个单位,Y 平均增大(或减小)b个单位。 r 说明具有直线关系的两个变量间相关密切程度和相关方向的统计指标。
(四)计算上: (五)取值范围: (六)单位:b 有单位,r 没有单位。
二、联系 (一)对同一资料 r 与 b 正负号是相同 的:r为正,说明X 与Y相关关系的方向是 一致的; b为正,说明X与Y之间由回归方程所确定的 变量关系是递增的,即X增大(或减小) 一个单位,Y也平均增大(或减小)b个 单位。
(二)r 和b 假设检验等价的(即对同一样本二者的 t 值相等),实际应用时常用其代替对 b 的假设检验。 (三)相关回归可以互相解释: r的平方称为决定系数(coefficient of determination)
第四节 秩相关 一、适用范围: 1.观测值是等级资料双变量资料 2.不服从双变量正态分布的资料 3.观测值是百分数的双变量资料 4.分布不明确的双变量资料
二、Spearman等级相关系数 1.意义:说明具有线性关系的两变量间相关方向和密切程度的统计指标。 2.取值: 的数值亦在 -1与 +1之间,表示正相关,表示负相关。
3.计算 步骤: (1)将X、Y从小到大分别编秩,相同观察值在同一组取平均秩次。 (2)把X、Y秩次分别输入计算器,求出
三、 的假设检验 1.建立假设检验 2.计算检验统计量
3. 结论 (1)当n≤50时,查附表16(P281)中的 等级相关系数 界值表。 若rs>rs (n), 则 P<α 若rs<rs(n), 则 P>α (2)当n>50时 ,计算公式如下: