生 物 统 计 学 第7章 回归与相关 彭司华 2016年5月
第7章 回归与相关 7.1相关与回归的概念 7.1.1函数关系和相关关系 第7章 回归与相关 7.1相关与回归的概念 7.1.1函数关系和相关关系 函数关系:变量与变量之间是相互联系并遵循一定的规律变化着,变化规律由变量在变化过程中的数值对应关系反映出来,这种变量之间确定的对应关系叫做函数关系 。 相关关系:变量间的关系是非确定性的,但又呈现一定规律的变化趋势,这种变量之间非确定的关系叫做相关关系。 相关关系的两种情况:一种是一个变量的变化受到另一个变量制约的主从关系(又称为因果关系),另一种是两个变量间的关系是共同受到另外因素影响的结果。 根据涉及的变量多少,相关可分为单相关、复相关和偏相关。 单相关:研究两个变量之间的关系,它包括直线相关和曲线相关 复相关和偏相关:研究三个或三个以上变量间的关系,统称为多元相关。
7.1.2 回归的概念 两个相关变量之间,有时表现为一个变量依赖于另一个变量的从属关系。对于这种情况的两个变量可以区分为自变量(记为X)和依变量(记为Y)。 回归关系:一般自变量X是固定的(试验时预先确定的),并且没有试验误差或试验误差很小,依变量Y则是随自变量X的变化而变化,且受试验误差的影响较大。这种关系称为回归关系, 回归分析:变量回归关系的研究,往往从一个变量的变化来估测另一个变量的变化,这就是回归分析 回归方程:表现回归关系的函数方程称作回归方程
7.2 一元直线回归方程 7.2.1 直线回归方程的建立 根据研究目的,具体确定哪个是自变量,哪个是依变量,再把n对观察值(x1,y1),(x2,y2),…,(xn,yn)在直角坐标系中作图,自变量X为横坐标,依变量Y为纵坐标,此图称为散点图。 例7.1 某科技人员饲养了35尾团头鲂,共重7.2kg,在水温29℃条件下,测量摄食量(g)与耗氧率(mgO2/kg·h)之间的关系,结果如下: 试作散点图并对摄食量与耗氧率之间的关系作初步判断。
要使这条直线能最好地代表各点,各点离这条直线的距离平方和需最小,即 为最小。 采用使误差平方和Q达到最小值的方法,即最小二乘法求a与b的值。根据微分学,参数a,b应满足方程
为X变量与Y变量的离均差的乘积和,简称乘积和,记为SP 回归直线通过点 例7.2 根据例7.1的数据,求耗氧率对摄食量的直线回归方程。
x<-c(20,30,40,50,60,70) y<-c(536.3,573.5,595.9,628.9,669.6,725.7) lm.sol<-lm(y~1+x) summary(lm.sol) plot(y ~ x) anova(lm.sol) ploy(x,y) abline(lm.sol, col = 2, lty = 2) Call: lm(formula = y ~ 1 + x) Residuals: 1 2 3 4 5 6 5.243 6.206 -7.631 -10.869 -6.406 13.457 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 458.5829 12.3986 36.99 3.19e-06 *** x 3.6237 0.2576 14.07 0.000148 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 10.78 on 4 degrees of freedom Multiple R-squared: 0.9802, Adjusted R-squared: 0.9752 F-statistic: 197.9 on 1 and 4 DF, p-value: 0.0001482 例 7.1 R语言实现
预测 > new<-data.frame(x=55) > lm.pred<-predict(lm.sol,new,interval="prediction",level=0.95) > lm.pred fit lwr upr 1 657.8871 624.7889 690.9854
7.2.2 回归直线的精确度 简单地用最小二乘法求出的回归方程有没有意义 7.2.2 回归直线的精确度 简单地用最小二乘法求出的回归方程有没有意义 直线回归方程的估计标准误或离回归标准差 ,是回归线精确度的一个重要统计量,其值越大,由回归线预测y的精确度越低 为离回归平方和,又称为剩余平方和,用Q表示 例7.3 计算例7.1资料的离回归标准差。
直线回归的数学模型和基本假定 基本假定: ① X变数没有误差,或误差很小,Y变数则存在随机误差。 ② 对于X取值范围内的每一个值,都存在着一个Y总体,且有 。 ③ 随机误差相互独立,且有 。
7.2.3 直线回归的显著性检验 7.2.3.1 直线回归关系的显著性检验 1)t测验 根据概率分布理论 有:
例7.4 用t测验对例7.2所求回归方程作回归显著性测验。
为离回归平方和Q,它与X的大小无关,具有 2)F测验 为离回归平方和Q,它与X的大小无关,具有 为回归平方和,简记作U,它是X的不同而引起的,具有
例7.5 用F测验对例7.2所求回归方程作回归显著性测验。
7.2.3.2 两个回归系数相比较的显著性检验 由两个样本的回归系数b1,b2,测验其所属总体的回归系数β1、β2是否相等 假设H0: β1=β2 ,HA: β1≠β2 检验统计量为 当 时,接受HA,即两样本所属总体的回归系数不相等 当 时, 接受H0 ,即两样本所属总体的回归系数相等 可得公共回归系数
7.2.4 直线回归的置信区间 7.2.4.1 回归系数的置信区间
7.2.4.2 回归截距a的置信区间
7.2.4.3 Y的置信区间
7.4 直线相关分析 7.4.1 相关系数与决定系数的概念 对于一元直线回归,目的是建立一个直线性方程,当已知X值时,可由该方程预测出Y的期望值; 对于一元直线相关,X与Y均为随机变量,目的是确定它们之间直线相关的性质和密切程度。 一元直线回归与一元直线相关是分析变量X与Y之间关系的两种不同方法。 (a)变量Y不随变量X变化而变化,表明两变量不相关; (b)变量Y随变量X的增加而呈增加趋势,有同向关系,为正相关, (c)变量Y随变量X的增加而呈递减趋势,有反向关系,为负相关。 (d)两个变量之间呈函数关系或称完全直线关系(或者同向,或者反向)
相关系数:两变量之间存在的相互关系即相关关系定量的度量值,是反映两变量相关性质和紧密程度的特征数 总体相关系数:从总体的数据计算得来的相关系数,用符号ρ代表 样本相关系数:从随机样本的数据计算得来的相关系数,用符号r代表 对某一定的总体来说, ρ是一个常量。 从同一总体中随机抽取的各样本的r值是随机变动的,不是一个常量,且可以通过实验或测量的样本数据来计算它。 将SP除以n-1,消除了样本容量的影响,得样本的协方差 将协方差除以两个标准差sx与sy的乘积而进行将协方差标准化以消除测量单位的影响 ,得到相关系数r
r的特性: ① |r|≤1。 ② 两变量相关愈紧密,|r|愈大。 ③ 两变量不相关,则r=0;两变量呈函数关系,则|r|=1,称完全相关。 ④ r若为正数,两变量呈正相关,变量Y随变量X增大而增大;r若为负数,两变量呈负相关,变量Y随变量X增大而减少。 决定系数是指由X的不同引起的Y的平方和U占Y变数总平方和SSy的比率或由Y的不同引起的X的平方和U’占X变数总平方和SSx的比率 ,记为r2 ,是一个无单位的数,表示x与y关系强弱的一个数 决定系数是相关系数的平方。 除|r|=1和0外,r2总是小于|r| r2的取值区间为[0,1],不能反映两变量相关的性质。 在相关分析中,常用相关系数的符号反映相关的性质,用决定系数的值反映相关的紧密程度。
7.4.2 相关系数的假设测验 7.4.2.1 ρ=0假设测验 不用计算t值,直接查r和R的显著值表来进行显著性检验。若r>rα,可认为相关显著;否则,相关不显著。 H0:总体的两变量不存在直线相关关系,即ρ=0; HA:总体的两变量存在直线相关关系,即ρ≠0。 检验统计量 例7.11 求例7.2中团头鲂摄食量与耗氧率之间的相关系数,并作显著性检验。
7.4.2.2 ρ=C的假设测验 是测验样本所属总体的相关系数与某一指定或理论的相关系数C是否相等 假设H0:ρ=C,HA:ρ≠C 在ρ≠C时,r的抽样分布具有很大的偏态,且随n和ρ的取值而异 采用z变换法,将|r|变换为近似服从正态分布的z值
例7.12 例7.11已算得r=0.99, 试测验其与ρ=0.95的差异显著性。
7.4.2.3 ρ1=ρ2的假设测验 测验两个样本的相关系数所属总体的相关系数是否相等 7.4.2.3 ρ1=ρ2的假设测验 测验两个样本的相关系数所属总体的相关系数是否相等 假设H0:两样本所属总体相关系数相等(ρ1=ρ2), HA:两样本所属总体相关系数不相等(ρ1≠ρ2)