第三章 两变量线性回归
本章主要内容 第一节 两变量线性回归模型 第二节 参数估计 第三节 最小二乘估计量的性质 第四节 回归拟合度评价和决定系数 第五节 统计推断 第六节 预测
引言 本章介绍两变量线性回归分析。两变量线性回归分析的对象是两变量单向因果关系,模型的核心是两变量线性函数,分析方法是回归分析。两变量线性回归分析是经典计量经济分析的基础,掌握两变量线性回归分析的原理和技术,对进一步学习多元回归和其他计量经济分析方法都有帮助。
第一节 两变量线性回归模型 一、模型的建立 二、模型的假设
一、模型的建立 变量和函数式 变量关系的随机性
变量和函数式 两变量线性因果关系:Y = + X Y——被解释变量 X——解释变量 、——待定参数
1、模型根据: (1)研究问题的需要; (2)经济理论和观点; (3)利用经验和数据分布情况; (4)非线性函数和线性变换。
2、例子: (1)上海经济消费函数研究 P66; (2)科布—道格拉斯生产函数 P68;
例3-1 上海经济的消费规律研究 年份 可支配收入 Y 消费性支出CC 消费性支出C 1981 637 585 1992 3009 2509 1982 659 576 1993 4277 3530 1983 686 615 1994 5868 4669 1984 834 726 1995 7172 1985 1075 992 1996 8159 6763 1986 1293 1170 1997 8439 6820 1987 1437 1282 1998 8773 6866 1988 1723 1648 1999 10932 8248 1989 1976 1812 2000 11718 8868 1990 2182 1936 2001 12883 9336 1991 2485 2167 2002 13250 10464
例3-1 上海经济的消费规律研究
变量关系的随机性 1、在经济问题中精确的因果关系实际上不存在。 人类经济行为本身的随机性;两变量线性关系 通常只是抓了主要矛盾,而忽略的其他众多因素的影响。 2、正确的计量经济模型应该是随机模型: Y = + X + ; 为随机扰动项。
二、模型的假设 1、特定的方法适用的模型是有条件的,因此必须对模型先作设定。 2、六条假设 (1)变量间存在随机函数关系Y= + X + ; (2)误差项均值为0; (3)误差序列同方差; (4)误差序列不相关; (5)X是确定性的,非随机变量; (6)误差项服从正态分布。
对假设的进一步分析 1、前五条假设是古典线性回归模型的基本假定; 2、假设(2)是反映线性回归模型本质的基本假设 ; 3、假设(3)的意义是对应不同观测数据组误差项分布的发散趋势相同,或有相同形状的概率密度函数; 4、假设(4)的意义是对应不同观测值的误差项之间没有相关性; 5、假设(5)和(6)都是为了回归分析和统计推断的方便而要求的,人为性较大的假设 。
第二节 参数估计 一、最小二乘估计 二、消费函数参数估计
一、最小二乘估计 建立两变量线性回归模型后,根据样本数据估计模型的参数,是线性回归分析的核心步骤。 对满足模型假设两变量线性回归模型的参数,最有效的估计方法是最小二乘法。
最小二乘法是根据随机变量理论值和实际值的拟合程度估计参数的。 线性回归模型的理论值可以用样本回归直线上点的坐标表示,实际值就是样本观测数据, 因此线性回归模型理论值与实际值的拟合,就是样本回归直线对观测数据的拟合。
若两变量线性回归模型为: 参数估计的思路就是找到能很好拟合样本数据的样本回归直线,近似模型总体回归直线E(Y ) =+ X,从而得到和 的估计a和b。
判断拟合程度最基本的标准是样本点与回归直线的偏差 ,称为“回归残差”或“残差” 。 越小回归直线离样本点越近,如果所有样本点的回归残差都较小,回归直线对样本趋势的拟合当然最好。 一般采用残差平方和 = 作为判断回归直线对样本数据拟合程度的标准,残差平方和越小就认为拟合程度越好。
核心:残差平方和 最小。
参数估计值
若两变量线性回归模型无常数项,即模型为 ,这时只有一个需要估计的参数,上述最小二乘估计的方法仍然是一致的。 最小二乘估计的残差平方和为 令该残差平方和对b的偏导数等于0,不难求得: b =
二、消费函数参数估计 以例3-1建立的消费函数模型为例,具体说明如何用最小二乘法估计模型中的参数。
例3-3上海经济的消费规律研究 年份 可支配收入 Y 消费性支出CC 消费性支出C 1981 637 585 1992 3009 2509 1982 659 576 1993 4277 3530 1983 686 615 1994 5868 4669 1984 834 726 1995 7172 1985 1075 992 1996 8159 6763 1986 1293 1170 1997 8439 6820 1987 1437 1282 1998 8773 6866 1988 1723 1648 1999 10932 8248 1989 1976 1812 2000 11718 8868 1990 2182 1936 2001 12883 9336 1991 2485 2167 2002 13250 10464
例3-3 上海经济的消费规律研究 Estimation Command: ===================== LS Y C X Estimation Equation: Y = C(1) + C(2)*X Substituted Coefficients: Y = 237.5 + 0.75*X
例3-3 上海经济的消费规律研究 Dependent Variable: Y Method: Least Squares Date: 10/04/04 Time: 20:14 Sample: 1981 2002 Included observations: 18 ------------------------------------------------------------------------------------------------- Variable Coefficient Std. Error t-Statistic Prob. C 237.5 35.50781 4.074556 0.0009 X 0.75 0.008022 98.45858 0.0000 R-squared 0.998352 Mean dependent var 2807.444 Adjusted R-squared 0.998249 S.D. dependent var 2333.000 S.E. of regression 97.61747 Akaike info criterion 12.10443 Sum squared resid 152466.7 Schwarz criterion 12.20336 Log likelihood -106.9399 F-statistic 9694.092 Durbin-Watson stat1.082919 Prob(F-statistic) 0.000000
第三节 最小二乘估计量的性质 一、最小二乘估计的线性性 二、最小二乘估计的均值和无偏性 三、最小二乘估计的方差和最小方差性 四、最小二乘估计的一致性
一、最小二乘估计的线性性: 参数估计量可以表示为被解释变量观测值的线性组合。 b的线性性 b
若把每项因子 记为 ,就得到: b = ,这表明b是随机变量Y 的线性组合。 a 的线性性: =
令 = V ,得a = 这表明a同样是随机变量Y 的线性组合。 线性性对于确定最小二乘估计量服从什么分布非常重要。由于解释变量X是确定性的,与最小二乘估计量的分布性质无关,因此最小二乘估计量可以表示为被解释变量观测值Y的线性组合,就与Y有相同类型的概率分布。
和V 两个指标的性质 =0, = =1, =1, =0
二、最小二乘估计的均值和无偏性 定义:参数估计量的均值就是真实值: b的无偏性的证明
a的无偏性同理可证。 意义:参数估计量是以参数真实值为分布中心的随机变量,反复抽样估计可得真实值。这是重要的分布性质,是推断分析的基础。 因为同时具有线性性和无偏性,因此最小二乘估计量是线性无偏估计量。
三、最小二乘估计的方差和最小方差性 在参数估计是无偏估计、线性无偏估计的基础上,方差较小的则意味着参数估计的精确程度较高,统计推断的效果也较好。 b的方差: a的方差:
在所有可能的线性无偏估计中,最小二乘估计a和b的方差最小。 这个性质称为最小方差性,也称为有效性。 最小二乘估计是参数真实值的最小方差线性无偏估计,也称为最优线性无偏估计或BLUE估计。
四、最小二乘估计的一致性 定义:参数估计量的概率极限等于参数真实值。 意义:属于大样本性质。保证增加样本容量可以逼近参数真实值。 最小二乘估计在模型假设下是一致估计。
第四节 回归拟合度评价和决定系数 一、拟合度评价的意义 二、离差分解和决定系数
一、拟合度评价的意义 评价回归分析、参数估计优劣的根本标准,是回归直线对样本数据的吻合程度,也称为“拟合度”或“回归拟合度”。 回归拟合度是判断和检验参数估计方法的方法之一。 回归拟合度也是检验模型变量关系真实性,判断模型假设是否成立的重要方法。
二、离差分解和决定系数 残差平方和不适用作为拟合度的评价指标。 用Y 的离差被回归值或X 的离差决定的程度作为评价拟合度的标准。 离差分解 SST = SSR + SSE (式3-3)。
1、离差分解 总离差平方和 SST= = 其中 = 称为“回归平方和”,记为SSR 。 残差平方和 记为SSE。 +
(3-3)式表明被解释变量Y的离差平方和可以分解为两部分,一部分是回归平方和,另一部分则是残差平方和。 前一部分SSR相对后一部分SSE越大,说明回归拟合程度越好,Y与X之间的线性决定关系越明显。
2、决定系数 为了突出这几部分之间的相对关系,将(3-3)式两边同除以SST 得到: 1= + 1= + 式中的 正是反映解释变量(或回归直线)对被解释变量决定程度的指标,称为“决定系数”,通常用R 表示。
R 的数值在0到1之间,是一个相对比重指标,可以避免样本数量和样本数值、单位的影响,因此在不同模型和不同样本的回归分析中具有可比性,是比残差平方和更合理的回归拟合度指标。
第五节 统计推断 一、最小二乘估计的分布和标准化 二、误差项方差的估计 三、参数的置信区间和假设检验
一、最小二乘估计的分布和标准化 线性回归模型的统计推断需要以参数估计量的概率分布为基础。 根据对最小二乘估计量性质的分析,已知最小二乘估计量服从以参数真实值为中心,以误差项方差的一个比例为方差的正态分布。
参数最小二乘估计量的这种分布性质,使得参数估计量与真实值通过概率分布联系在一起,从而可以通过参数估计量的分布性质推断参数真实值的情况等 。 在利用正态分布随机变量进行统计推断分析之前,需要先把它们变换为服从标准正态分布的统计量。对于b可以通过下列变换转化为服从标准正态分布的随机变量
二、误差项方差的估计 标准状态分布中包含未知参数 ,必须先估计出来。 本身也是线性回归模型的重要组成部分,是反映这一部分情况的基本参数。 标准状态分布中包含未知参数 ,必须先估计出来。 本身也是线性回归模型的重要组成部分,是反映这一部分情况的基本参数。 因为 因此 是 的无偏估计。
称“残差的标准差”。 用 代 ,得到的统计量服从t分布,而不是正态分布。如: 服从自由度为n-2的t分布。
三、参数的置信区间和假设检验 1、参数的置信区间 2、模型参数的显著性检验 3、其他假设检验
1、参数的置信区间(以参数 为例) 假设要求的置信度是95%,也就是显著性水平 根据t分布的意义,有: 整理该式得到:
这就是参数 的置信度为95%的置信区间,或者说区间估计。 构造参数的置信区间是非常重要的。置信区间限定了参数估计量与参数真实值的偏差程度,使我们对变量关系的了解更加深入和明确,对经济规律的可靠程度和适用情况更有把握。区间估计常常比点估计更加重要。
2、模型参数的显著性检验 模型参数的显著性检验,即检验模型参数是否显著异于0,是其中基本的一种假设检验。 两变量线性回归模型的基本出发点就是两个变量之间存在因果关系,认为解释变量是影响被解释变量变化的主要因素,而这种变量关系是否确实存在或者是否明显,会在参数中反映出来。
检验的具体方法如下:作原假设 备择假设 仍然选择95%置信度,那么95%的可能性 应该满足
如果原假设 成立,也就是说可以认为 是等于0的,那么就意味着: 95%的可能性会成立。 如果结果该不等式不成立,应该拒绝接受原假设,认为参数是显著的,变量关系是存在的。如果该不等式不成立,就不能拒绝接受原假设,只能认为没有显著性,变量关系并不明显存在。
第六节 预测 一、点预测 二、点预测的性质 三、区间预测
一、点预测 预测就是以估计出参数的线性回归模型为基础,对对应解释变量特定水平、未来值的被解释变量水平进行估计判断。 检验模型时通常把观测数据分成两部分,一部分用来进行回归估计参数,一部分用来进行预测和评估模型的预测效果。
点预测公式 预测残差(误差): 由于 未知,因此预测误差也未知。
二、点预测的性质 1、线性性 是一个线性预测,线性性的意义仍然是可以表示为 的线性组合。 =
2、无偏性 的第二个性质是无偏性,即是 的无偏预测, 或 。 这个性质也很容易证明,因为 =0
3、预测方差和最小方差性 作为随机变量,预测量 的方差也有重要意义,方差大小也是影响预测可靠性和价值的重要方面,利用预测量的分布性质进行区间预测要用到它。 根据与的关系,以及证明无偏性时得到的展开式等有:
= 这就是预测量 和预测误差 的方差。
三、区间预测 有了上述对点预测量性质的分析,我们可以与构造参数的区间估计一样,构造对的 预测置信区间,或者说“区间预测”。 有了上述对点预测量性质的分析,我们可以与构造参数的区间估计一样,构造对的 预测置信区间,或者说“区间预测”。 先将 标准化为服从标准正态分布的统计量,然后用 代替 ,得到服从t分布的统计量。
根据样本容量n,以及显著性水平 或 ,查t分布临界值表得 的置信区间为 - ≤ ≤ +