第二章 一元线性回归模型
最小二乘法产生的历史 最小二乘法最早称为回归分析法。由著名的英国生物学家、统计学家道尔顿(F.Gallton)——达尔文的表弟所创。 早年,道尔顿致力于化学和遗传学领域的研究。 他研究父亲们的身高与儿子们的身高之间的关系时,建立了回归分析法。
最小二乘法的地位与作用 现在回归分析法已远非道尔顿的本意 已经成为探索变量之间关系最重要的方法,用以找出变量之间关系的具体表现形式。 后来,回归分析法从其方法的数学原理——残差平方和最小(平方乃二乘也)出发,改称为最小二乘法。
父亲们的身高与儿子们的身高之间 关系的研究 1889年F.Gallton和他的朋友K.Pearson收集了上千个家庭的身高、臂长和腿长的记录 企图寻找出儿子们身高与父亲们身高之间关系的具体表现形式 下图是根据1078个家庭的调查所作的散点图(略图)
儿子们身高向着平均身高“回归”,以保持种族的稳定 160 165 170 175 180 185 140 150 190 200 Y X 儿子们身高向着平均身高“回归”,以保持种族的稳定
“回归”一词的由来 从图上虽可看出,个子高的父亲确有生出个子高的儿子的倾向,同样地,个子低的父亲确有生出个子低的儿子的倾向。得到的具体规律如下: 如此以来,高的伸进了天,低的缩入了地。他百思不得其解,同时又发现某人种的平均身高是相当稳定的。最后得到结论:儿子们的身高回复于全体男子的平均身高,即“回归”——见1889年F.Gallton的论文《普用回归定律》。 后人将此种方法普遍用于寻找变量之间的规律
主要内容 一元线性回归模型 模型参数估计(最小二乘法) 样本判定系数与拟合优度检验 回归参数估计值的显著性检验 模型整体的显著性检验 一元线性回归模型预测 参数估计 假设检验
一. 一元线性回归模型的概念 确定关系 (函数关系) Y=f(X) 相关关系 相关模型 (随机关系) 因果关系 回归模型 1.回归模型 (X的变化是Y的变化的原因)
随机项μ的构成 模型中省略的变量 随机因素 测量误差 确定数学模型形式的误差
Y = β0+β1X1+β2X2+β3X3+………+βiXi+μi 2.线性回归模型 模型的基本形式 Y = β0+β1X1+β2X2+β3X3+………+βiXi+μi 基本假设 解释变量 Xi 是确定性变量,不是随机变量;解释变量之间互不相关; 随机误差项具有0均值和同方差; 随机误差项不存在序列相关关系; 随机误差项与解释变量之间不相关; 随机误差项服从0均值、同方差的正态分布。
3.一元线形回归模型 3 Cov (μi,μJ)= 0 2 Var (μi) = σ2μ 4 Cov (Xi,μi)= 0 只含有一个解释变量的线形回归模型 满足基本假设: 1 E(μi)= 0 2 Var (μi) = σ2μ 3 Cov (μi,μJ)= 0 4 Cov (Xi,μi)= 0 i = 1,2,3,……,n ; j= 1,2,3,……,n i≠j 同方差 高斯-马尔柯夫假定 无序列自相关
异方差 Y Y X X
序列自相关 Y Y X X 负相关 正相关
协方差 Y Y pij是X和Y的联合概率 X X 协方差为正 协方差为负
二. 一元线性回归模型的参数估计 1.基本概念 总体回归模型 样本回归模型 样本回归线(函数)
总体回归线(函数)
(1)散点图 变量Y与变量X的散点图 Y X *
(2)回归线 Y X *
(3)估计量(Estimator) 一个估计量又称统计量,是指一个规则、公式或方法,是用已知的样本所提供的信息去估计总体参数。 统计量是样本的函数,因为抽样是随机的,估计量具有随机性 对一次已经实现的抽样,估计量又是确定的。 在应用中,由具体样本算出的估计量的数值称为估计值。
2.最小二乘法的思路(1) 为了精确地描述Y与X之间的关系,必须使用这两个变量的每一对观察值(n组观察值),才不至于以点概面(做到全面)。 最好指的是找一条直线使得所有这些点到该直线的纵向距离的和(平方和)最小。
最小二乘法的思路(2) y x 纵向距离 横向距离 距离 A为实际点,B为拟合直线上与之对应的点
最小二乘法的思路(3) 纵向距离是度量实际值与拟合值是否相符的有效手段 点到直线的距离——点到直线的垂直线的长度。 横向距离——点沿(平行)X轴方向到直线的距离。 纵向距离——点沿(平行)Y轴方向到直线的距离。也就是实际观察点的Y坐标减去根据直线方程计算出来的Y的拟合值。 实际值-拟合值=残差(剩余)
最小二乘法的思路(4) 纵向距离是Y的实际值与拟合值之差,差异大拟合不好,差异小拟合好,所以称为残差、拟合误差或剩余。 将所有纵向距离平方后相加,即得误差平方和,“最好”直线就是使误差平方和最小的直线。拟合直线在总体上最接近实际观测点。 于是可以运用求极值的原理,将求最好拟合直线问题转换为求误差平方和最小的问题。
数学形式 Y X * △ Y7 Y9 Min
最小二乘法的数学原理 纵向距离是Y的实际值与拟合值之差,差异大拟合不好,差异小拟合好,所以又称为拟合误差或残差。 将所有纵向距离平方后相加,即得误差平方和,“最好”直线就是使误差平方和最小的直线。 于是可以运用求极值的原理,将求最好拟合直线问题转换为求误差平方和最小。
数学推证过程
最小二乘估计量
最小二乘估计量的简化形式 中心矩形式、离差形式
统计学补充知识 总体矩 (1)总体k阶原点矩为 (2)总体k阶中心矩为
统计学补充知识 样本矩 (1)样本k阶原点矩为 (2)样本k阶中心矩为
统计学补充知识 矩估计法 (1)要点就是用样本矩代替总体矩来估计总体的参数! (2)在求各阶矩时,求原点矩或求中心矩都可以,当然,对每一阶而言,二者只能选其一。
注意几个概念的区别 误差:即随机项 残差:观测值减去拟合值,是误差的估计值 离差:样本观测值减去样本平均值 (以后我们都用小写字母表示离差)
3.回归直线的性质(数值性质) 自变量与残差不相关 拟合值与残差不相关 残差和=0 平均值相等 注:此处的小写字母不是表示离差,而就是原值,其后4张幻灯片都是一样的意思,但以后我们常见的还是用小写字母表示离差。
1.估计残差和为零 (Residuals Sum to zero) 由第26张幻灯片的(1)式直接得此结论无须再证明。并推出残差的平均数也等于零。
2.Y的真实值和拟合值有共同的均值 (The actual and fitted values of yi have the same mean)
3.估计残差与自变量不相关(Residuals are unrelated with independent variable)
4.估计残差与拟合值不相关(Residuals are unrelated with fitted value of yi)
数值性质与统计性质 OLS得到的数值性质是指由于运用普通最小二乘法而得以成立的那些性质,而不管数据是怎样产生的。 OLS得到的统计性质是指仅在数据产生的方式满足一定的假设下才得以成立的性质。(课本P99---100共有基本的四个假设)
4.最小二乘估计量的统计性质 线性 无偏性 有效性(最小方差性)
(1)线性 参数估计量 , 是Yi的一个线性函数 参数估计量是一个随机变量,采用不同的参数估计方法,会构造出不同的参数估计量 参数估计值是采用样本数据计算的具体数值,不同样本会得出不同的参数估计值
(2)无偏性 指参数估计量的均值等于总体模型参数值,即
(3)有效性(最小方差性)P105 指在所有线性、无偏估计量中,该参数估计量方差最小
有效性(最小方差) OLS参数估计量的有效性指的是:在一切线性、无偏估计量中,OLS参数估计量的方差最小。 所有参数估计量 最小二乘 线性参数估计量 无偏参数估计量 最小二乘 参数估计量
高斯-马尔柯夫定理 如果满足古典线性回归模型的基本假定,则在所有无偏估计量中,最小二乘估计(OLS)量具有最小方差性,即是最优线性无偏估计量(合称BLUE性质) (Best Linear Unbiased Estimator)
对于高斯-马尔柯夫定理的补充材料 以下9个幻灯片的内容作为补充,有兴趣的同学可以参考,不要求掌握!
1、线性:参数估计量是Yi的线性函数
2、无偏性:参数估计量 的均值(期望)等于模型参数值。即 2、无偏性:参数估计量 的均值(期望)等于模型参数值。即
2、无偏性:
3、有效性:在所有线性、无偏估计量中,最小二乘估计量具有最小方差。
证明最小方差性
4、结论 普通最小二乘估计量具有线性性、无偏性、最小方差性等优良性质。 具有这些优良性质的估计量又称为最佳线性无偏估计量,即BLUE估计量(the Best Linear Unbiased Estimators)。 显然这些优良的性质依赖于对模型的基本假设。
三. 样本判定系数与拟合优度检验 拟合优度评价 由最小二乘法得出的直线能够反映这些点之间的关系吗? 对这些点之间的关系或趋势反映到了何种程度? 于是必须经过某种检验或者找出一个指标,在一定可靠程度下,根据指标值的大小,对拟合的优度进行评价。
总离差平方和的分解 Y X * △ Y9
总离差平方和的分解 由回归方程解释的部分,表示解释变量X对Y的线性影响 残差项,表示回归方程不能解释的部分 总离差平方和(TSS) 回归平方和(ESS) 残差平方和(RSS)
总离差平方和的分解
平方和分解的意义 TSS=ESS+RSS 被解释变量Y总的变动(差异)= 解释变量X引起的变动(差异) + 除X以外的因素引起的变动(差异) 如果X引起的变动在Y的总变动中占很大比例,那么X很好地解释了Y;否则,X不能很好地解释Y。