第十九章 直线相关和回归分析
双变量计量资料:每个个体有两个变量值 总体:无限或有限对变量值 样本:从总体随机抽取的n对变量值 (X1,Y1), (X2,Y2), …, (Xn,Yn) 目的:研究X和Y的数量关系 方法:回归与相关 简单、基本——直线回归、直线相关
目前,“回归”已成为表示变量之间某种数量依存关系的统计学术语,并且衍生出“回归方程”“回归系数”等统计学概念。如研究糖尿病人血糖与其胰岛素水平的关系,研究儿童年龄与体重的关系等。
第一节 直线相关 一、线性相关的基本概念 直线相关(linear correlation):是研究两个变量之间是否存在相关关系的一种统计方法。 适用条件:线性、双变量正态分布资料。 相关分析是用于分析两变量间的互依关系。
例19-1 为研究中年女性体重指数和收缩压之间的关系,随机测量了16 名40 岁以上的女性的体重指数和收缩压,见表19-1,试绘制散点图。
图19-1 16名中年女性体重指数与收缩压散点图
图19-2 相关示意图
二、直线线性相关系数 相关系数又称积差相关系数(coefficientof product-moment correlation),它说明两变量之间线性关系的密切程度与方向的统计指标。样本用r表示,总体用ρ。 -1≤r≤1 (19-1)
相关系数对样本相关关系的计量
计算例19-1的相关系数 (19-2)
三、线性相关系数的假设检验 第一种方法:t检验法
1、建立假设:H0:=0 H1:≠0 =0.05 2、计算检验统计量 3、确定P值,作出统计推论
第二种方法:查表法 1、建立假设:H0:=0 H1:≠0 =0.05 2、计算检验统计量 n=16,r=0.91097,自由度=16-2=14。 3、查r界值表,得统计结论 查r界值表(附表19-1),得r0.01(14)=0.623,因为r> r0.01(14),故P<0.01,按=0.05水准拒绝H0,接受H1,可以认为体重指数与收缩压之间存在正相关关系。
第二节 直线回归 一、线性回归的概念 目的: 在因变量Y和自变量X之间建立一个数学模型,根据这个模型可以根据自变量的变动预测因变量的变动。
区别于函数关系和统计关系 函数关系: 两变量的数量表现在一定条件下是完全确 定的。 如: 圆的面积和半径的关系 统计关系(相关关系):两变量的数量表现尽管存在着密切关系,但却不是完全确定的。 如:成本和利润的关系
简单线性回归模型 样本线性回归方程 为给定X 时Y 的估计值。
a 为回归直线在 Y 轴上的截距 即x 取0时,y 的平均估计值
b 的统计学意义是:X 每增加(减)一个单位, 平均改变b个单位 b>0,直线从左下方走向右上方,Y 随 X 增大而增大 b<0,直线从左上方走向右下方,Y 随 X 增大而减小 b=0,表示直线与 X 轴平行,X 与Y 无直线关系 b 的统计学意义是:X 每增加(减)一个单位, 平均改变b个单位
建立 线性回归模型的步骤 1、确定研究的问题 2、设样本回归模型(如: ) 3、搜集样本资料(数据资料) 4、估计未知参数(计算统计量) 5、得到样本回归方程 6、用模型预测因变量
建立 样本线性回归模型的方法 --最小二乘法 实际观察值与样本回归线上 的点的距离的平方和最小 最小 Y e2 e1 e4 e3 X
(19-6) (19-7) 回归系数 (19-8) 截距(intercept)
例19-1 为研究中年女性体重指数和收缩压之间的关系,随机测量了16 名40 岁以上的女性的体重指数和收缩压,见表19-1,试进行回归分析。 二、直线回归方程的求法 例19-1 为研究中年女性体重指数和收缩压之间的关系,随机测量了16 名40 岁以上的女性的体重指数和收缩压,见表19-1,试进行回归分析。
1、做散点图 考察线性、 异常值 图19-1 16名中年女性体重指数与收缩压散点图
2、求回归系数与常数项
3、列出回归方程
4. 作回归直线 在自变量X的实测值范围内取相距较远且对 易于计算的两个X值,代入方程,求出两个Y值,连接两点的连线,既得直线。
三、线性回归方程的假设检验 回归系数的假设检验 检验总体回归系数β是否为零可用方差分析或与其等价的t检验。
t检验 1、建立假设: H0:=0 H1: ≠0 =0.05
2、计算检验统计量: 3、确定P值,作出统计推论: 查t界值表,得P<0.01,拒绝H0。
四、 直线相关和回归应注意的事项 (一)相关分析注意的事项 1、要有实际意义,不能把毫无关联的两种现象勉强作分析。且相关系数的意义仅限于样本资料中变量的取值范围。 2、相关关系不一定是因果关系,可能仅是表面上的伴随关系,或两个变量同时受另一因素的影响。但对原因一无所知时,有助于寻找事物的原因。
3、不能只根据相关系数绝对值的大小来推断两事物现象之间有无相关以及相关的密切程度,而必须进行相关系数的显著性检验。 4、关于相关分析的样本的合并与分层问题,应审慎对待。
5、散点图在相关分析中具有重要作用,要充分利用,注意观察有无离群值。 当且仅当分层情形下,两变量的关系不会因为合并而被歪曲时才可考虑合并。 (a)(b)无相关相关 (c)相关无相关 (d)正相关负相关 5、散点图在相关分析中具有重要作用,要充分利用,注意观察有无离群值。
(二)回归分析的注意事项 1、要有实际意义,不能把毫无关联的两种现象,随意进行回归分析。 2、要求Y是来自正态分布总体的随机变量,X可以是正态随机变量,也可以是精确测量和严格控制的值。 3、应先绘制散点图。判断直线或曲线趋势。 4、若出现离群值,应及时核查测定、记录或录入的错误。 5、回归直线不要外延。
1、区别: (三) 直线回归与相关的区别和联系 1、资料要求不同 因变量服从正态分布---Ⅰ型回归 因变量与自变量服从双变量正态分布---Ⅱ型回归,可做直线相关分析。 2、应用情况不同 回归说明依存数量关系,相关说明互依关系。
2、联系 1、方向一致 2、假设检验等价tr=tb 3、用回归解释相关 决定系数(coefficient of determination)r2:指回归平方和SS回占总离均差平方和SS总的比例。用于评价在y的总变异中,由线性回归方程所能解释的比例。
4、r、b可互相推导
第三节 等级相关 适用条件: 1、不服从双变量正态分布 2、总体分布型未知 3、原始数据用等级表示的资料
例19-6 为探讨硒与大骨节病之间的关系,分别检测了1990-1999 年某地7-12 岁儿童中大骨节病X 射线阳性检出率和发硒的平均水平如表19-2,试对其进行等级相关分析。
一、Spearman等级相关 基本思想: 计算公式: 19-12
总体等级相关系数s的检验 1、n≤50时,用查表法(附表12) 2、n>50时, 用直线相关的t检验
3、查rs界值表,得统计结论 查rs界值表(附表19-2),得r0.01(9)=0.833,因为 r> r0.01(9) ,故P<0.01,按=0.05水准拒绝H0,接受H1,可以认为儿童大骨节病阳性检出率与发硒的含量有关系。
附表11 r界值表(双侧尾部面积) 自由度 ν 1 概率 P 单侧: 双侧 0.25 0.50 0.10 0.20 0.05 0.025 0.01 0.02 0.005 0.0025 0.001 0.002 0.0005 0.707 0.951 0.988 0.997 1.000 2 0.500 0.800 0.900 0.950 0.980 0.990 0.995 0.998 0.999 3 0.404 0.687 0.805 0.878 0.934 0.959 0.974 0.986 0.991 4 0.347 0.608 0.729 0.811 0.882 0.917 0.942 0.963 5 0.309 0.551 0.669 0.755 0.833 0.875 0.906 0.935 6 0.281 0.507 0.621 0.789 0.834 0.870 0.905 0.925 7 0.260 0.472 0.582 0.666 0.750 0.798 0.836 0.898 8 0.242 0.443 0.549 0.632 0.715 0.765 0.847 0.842 9 0.228 0.419 0.521 0.602 0.685 0.735 0.776 0.820 10 0.216 0.398 0.497 0.576 0.658 0.708 0.795 0.823
附表11 r界值表(双侧尾部面积) 自由度 ν 11 概率 P 单侧: 双侧 0.25 0.50 0.10 0.20 0.05 0.025 0.01 0.02 0.005 0.0025 0.001 0.002 0.0005 0.281 0.380 0.476 0.553 0.634 0.684 0.726 0.772 0.801 12 0.260 0.365 0.457 0.532 0.612 0.661 0.703 0.750 0.780 13 0.242 0.351 0.441 0.514 0.592 0.641 0.683 0.730 0.760 14 0.228 0.338 0.426 0.497 0.574 0.623 0.664 0.711 0.742 15 0.216 0.327 0.412 0.482 0.558 0.606 0.647 0.694 0.725 16 0.206 0.317 0.400 0.468 0.542 0.590 0.631 0.678 0.708 17 0.197 0.308 0.389 0.456 0.529 0.575 0.616 0.662 0.693 18 0.189 0.299 0.378 0.444 0.515 0.561 0.602 0.648 0.679 … 50 0.096 0.181 0.231 0.273 0.322 0.354 0.384 0.419 0.443
附表12 rs界值表 自由度 ν 4 概率 P 单侧: 双侧 0.25 0.50 0.10 0.20 0.05 0.025 0.01 0.02 0.005 0.0025 0.001 0.002 0.0005 0.600 1.000 5 0.500 0.800 0.900 6 0.371 0.657 0.829 0.886 0.943 7 0.321 0.571 0.714 0.786 0.893 0.929 0.964 8 0.310 0.524 0.643 0.738 0.833 0.881 0.905 0.952 0.976 9 0.267 0.483 0.700 0.783 0.867 0.917 0.933 10 0.248 0.455 0.564 0.648 0.745 0.794 0.830 0.879 0.903 11 0.236 0.427 0.534 0.618 0.709 0.755 0.845 0.873 … 50 0.096 0.181 0.231 0.273 0.322 0.354 0.384 0.419 0.443
END