概 率 统 计 主讲教师 叶宏 山东大学数学院
回归分析是描述数据处理方法的一门应用学科,是统计学者常用的工具,本章对回归分析的基础知识和应用作简单介绍。 第7章 回归分析和方差分析 回归分析是描述数据处理方法的一门应用学科,是统计学者常用的工具,本章对回归分析的基础知识和应用作简单介绍。
7.1 一元线性回归 变量之间的关系大致可分为两大类: 1.确定性的关系:可以用精确的函数关系来表达。例如矩形面积S与边长a,b的关系。 7.1 一元线性回归 变量之间的关系大致可分为两大类: 1.确定性的关系:可以用精确的函数关系来表达。例如矩形面积S与边长a,b的关系。 2.非确定性的关系:变量之间既互相联系但又不是完全确定的关系,称为相关关系。例如人的身高与体重、农作物产量与降雨量等的关系。
从数量的角度去研究这种非确定性的关系,是数理统计的一个任务 从数量的角度去研究这种非确定性的关系,是数理统计的一个任务. 包括通过观察和试验数据去判断变量之间有无关系,对其关系大小作数量上的估计、推断和预测,等等. 回归分析就是研究相关关系的一种重要的数理统计方法.
一、一元正态线性回归模型 只有两个变量的回归分析, 称为一元回归分析; 超过两个变量时称为多元回归分析. 变量之间成线性关系时, 称为线性回归, 变量间不具有线性关系时, 称为非线性回归.
设随机变量Y,对于x的每一个值, Y 均有自己的分布 设随机变量Y,对于x的每一个值, Y 均有自己的分布 .若EY 存在,则它一定是x的函数,记为 u(x),其值可通过样本进行估计,对于x的一组值xi (i=1,…,n),作独立试验,对Y 得出n个观测结果yi (i=1,…,n) ,即有n次独立观察, 得样本观测值: (x1,y1) , (x2,y2) ,… , (xn,yn) 我们要解决的问题是:如何利用这些样本观测值来估计u(x).当然,首先要推测其形式,一般可以作出散点图,从中可粗略看出 y与x的关系.
y = a + b x +ε 若y和x之间大体上呈现线性关系, 可假定 其中a 和 b是未知常数, ε表示其它随机因素的影响. 通常假定ε服从正态分布N(0,σ2), 即 其中 为未知参数.
称(2)为 y 关于 x 的一元线性回归方程 . 称 y = a + b x +ε, ε ~N(0,σ2 ) (1) 为一元线性回归模型. 由(1)得 E(y)=a+bx 用E(y)作为y 的估计 得 称(2)为 y 关于 x 的一元线性回归方程 .
(x1,y1) ,… , (xn,yn) (3) 模型(1)中的变量x , y进行n次独立观察, 得样本观测值: 由此样本得方程组: 这里εi 是第 i 次观察时的随机误差,它是不可观察的随机变量.
由于各次观察独立,故有 (4)式和(5)式结合,给出了样本(x1,y1),…,(xn,yn) 的概率性质. 它是对理论模型进行统计分析推断的依据. 也常称(4)+(5)为一元线性回归模型.即
由于方程(6)的建立依赖于通过观察或试验取得的数据, 故又称其为经验回归方程或经验公式. 回归分析的任务是利用n组独立观察数据(x1,y1),…,(xn,yn)来估计a和b, 以估计值 和 分别代替(2)式中的a和b, 得回归方程 由于方程(6)的建立依赖于通过观察或试验取得的数据, 故又称其为经验回归方程或经验公式. 称为未知参数 a,b 的回归系数. 问题:如何利用n组独立观察数据来估计a和b?
二、最小二乘法估计 首先举例说明最小二乘法的思想: 假设为了估计某物体的重量, 对它进行了n次称量, 因称量有误差, 故n次称量结果x1, x2,…,xn有差异, 现在用数 去估计该物体的重量, 则它与上述n次称量结果的偏差的平方和为:
寻找一个使上述平方和达到最小的 ,作为这个物体重量的估计值, 这种方法称为最小二乘法. 最小二乘法认为, 一个好的估计 , 应使这个平方和尽可能地小. 估计原则: 寻找一个使上述平方和达到最小的 ,作为这个物体重量的估计值, 这种方法称为最小二乘法. 用这种方法作出的估计叫最小二乘估计.
对(x,y)作n次观察(试验),得到n对数据,要求找一条直线 ,尽可能好地拟合这些数据. 由回归方程,当x取值xi时, 应取值a+bxi , 而实际观察到的为yi ,这样就形成了偏差
依照最小二乘法的思想,提出目标量Q(a,b) (7) 它是所有实测值yi与回归值 的偏差平方和.
设法求出a , b的估计值 , ,使偏差平方和 Q(a,b)达到最小. y x
由此得到的回归直线 是在所有直线中偏差平方和Q(a,b)最小的一条直线. y x
通常可采用微积分中求极值的办法, 求出使Q(a,b)达到最小的 , . 令:
得 称上式为正规方程组.
由于 改写正规方程组得
因为xi 不全相同,故系数行列式不为0,即 由此解得方程组有唯一解
(8) 其中
也可用下面的等价式子: 其中
可以证明,用最小二乘法求出的估计 分别是 a, b 的无偏估计, 即 它们都是 y1,y2, …,yn的线性函数,而且在所有y1, y2 , …,yn的线性函数中, 最小二乘估计的方差最小.
由于 是从观察值得到的回归方程,它会随观察结果的不同而改变,并且它只反映了由 x 的变化引起的 y 的变化,并没有包含误差项 (1) 的点估计是什么? (2) 回归方程是否有意义? 即自变量 x 的变化是否真的对因变量 y 有影响? 因此有必要对回归效果作出检验. (3) 如果方程真有意义,用它预测 y 时,预测值与真值的偏差能否估计? 下面讨论这这些问题。
三、 的点估计 称 为 xi 处的残差 称 为残差平方和.
反映了除 x 外其它因素对 y 的影响, 这些因素没有反映在自变量x中, 它们可作为随机因素看待. 可以证明 因此
是 的无偏估计.
即
四.线性假设的显著性检验(T 检验法) 检验问题
成立时取检验统计量
给定显著性水平 的拒绝域为
这里第三项为0,第二项为残差平方和,第一项为回归平方和. 五.线性回归的方差分析(F 检验法) 平方和分解公式 这里第三项为0,第二项为残差平方和,第一项为回归平方和.
对检验问题 设显著性水平 取检验统计量 则拒绝域
六.利用回归方程进行预报(预测) 1.点预报 对给定的 x = x0 ,利用回归方程 可以作出Y的点预报值
2.区间预报 设 x = x0 时,Y 的观测值 y0 点预报值 易证