第四章 多元线性回归分析
本章主要内容 第一节 多元线性回归模型 第二节 参数估计 第三节 回归拟合度评价和决定系数 第四节 统计推断和预测
第一节 多元线性回归模型 一、模型的建立 二、模型的假设
一、模型的建立 多元线性回归模型就是研究多因素关系,有多个解释变量的线性回归模型。一般形式是: 其中Y是被解释变量, 是K个认为对Y有显著影响的解释变量(K 2), 是K+1个待定参数,是计量经济分析首先要估计的对象, 是随机误差项。
多元线性回归模型的建立也需要有理论和现实的根据。 多元线性回归模型中包括哪些变量、因素,哪个指标是被解释变量,有几个解释变量或哪几个指标作为解释变量,既要考虑理论分析和研究目的的需要,也应该根据所研究问题的具体情况、相关经济理论,以及以往研究经验等确定。
虽然一个经济指标受到其他几个经济指标线性影响在现实经济中是存在的,但更多的情况下多变量关系往往是非线性的,需要经过数学变换才能转化为多元线性回归模型的标准形式。 例:
二、模型的假设 (1)、变量 和 之间存在多元线性随机函数关系 ; (2)、 对任意 都成立; (3)、 ,与 无关; (1)、变量 和 之间存在多元线性随机函数关系 ; (2)、 对任意 都成立; (3)、 ,与 无关; (4)、误差项不相关,当 时, (5)、解释变量都是确定性的而非随机变量,且解释变量之间不存在线性关系; (6)、误差项 服从正态分布。
对假设的进一步分析 上述六条假设中(2)、(3)、(4)和(6)与两变量模型相同。 第(1)条是关于模型基本变量关系的。 第(5)条不仅针对的解释变量数目增加了,而且多了一个要求解释变量之间没有线性关系的假设,这是多元线性回归模型的重要特点。
多元线性回归模型的矩阵表示
第二节 参数估计 一、最小二乘估计 二、投资函数模型参数估计 三、参数估计的性质和方差估计
一、最小二乘估计 参数估计也是多元线性回归模型的基本步骤。 最小二乘法也是多元线性回归的基本方法。 对于多元线性回归模型
得到样本回归方程: 回归残差平方和 当 对 的一阶偏导数都等于0,得到正规方程组: 其中
该正规方程组有K+1个方程,未知数也是K+1个。只要满足模型假设(5),解释变量之间不存在严格线性关系,就可以解出 的唯一一组解。 该解就是 的最小二乘估计。
特别地,对于两个解释变量的线性回归模型: 样本回归方程是: 可推导出参数最小二乘估计的公式如下:
最小二乘估计的向量、矩阵形式 向量表示 回归方程的向量表示 回归残差向量 残差平方和
当 对 的一阶偏导数都等于0
二、投资函数模型参数估计 作为例子,我们估计[例4-1]的投资函数多元线性回归模型的参数。 假设已获得该地区1968-1983年期间实际投资和实际GNP数据。
表4.1 某地区投资和GNP数据 年份 实际投资 实际GNP 1968 0.161 1.058 1976 0.195 1.298 1969 0.172 1.088 1977 0.231 1.370 1970 0.158 1.086 1978 0.257 1.439 1971 0.173 1.122 1979 0.259 1.479 1972 1.186 1980 0.225 1.474 1973 0.217 1.254 1981 0.241 1.503 1974 0.199 1.246 1982 0.204 1.475 1975 0.163 1.232 1983 0.210 1.500
投资函数EViews回归输出结果 Dependent Variable: Y Method: Least Squares Date: 07/13/04 Time: 19:44 Sample: 1968 1983 Included observations: 16 Variable Coefficient Std. Error t-Statistic Prob. C -0.486463 0.053836 -9.035936 0.0000 X1 -0.016593 0.001819 -9.122606 0.0000 X2 0.639117 0.052896 12.08262 0.0000 R-squared 0.958362 Mean dependent var 0.203750 Adjusted R-squared 0.951957 S.D. dependent var 0.033061 S.E. of regression 0.007246 Akaike info criterion -6.849241 Sum squared resid 0.000683 Schwarz criterion -6.704381 Log likelihood 57.79393 F-statistic 149.6088 Durbin-Watson stat 1.313453 Prob(F-statistic) 0.000000
三、参数估计的性质和方差估计 只要变量关系符合多元回归模型的假设,多元回归分析参数的最小二乘估计量也有优良的性质,也是BLUE估计和一致估计。 因此在模型假设成立的前提下,最小二乘估计也是多元线性回归分析基本的参数估计方法,并能为相关统计推断和预测分析提供基础。
要进一步对多元线性回归模型进行统计推断和检验,同样需要先估计参数估计量的方差。 据最小二乘估计公式和模型假设,可以导出两个解释变量的多元回归模型各个参数的最小二乘估计量的方差。
上述参数估计量方差中的 是模型误差项 的方差,一般可以用多元线性回归最小二乘估计的残差序列: 加以估计,公式是: =
第三节 回归拟合度评价和决定系数 分析两变量线性回归决定系数公式 可以发现,该决定系数只与被解释变量的观测值以及回归残差有关,而与解释变量无直接关系。 多元模型解释变量的数目有多有少,该决定系数是解释变量数目的增函数,意味着不管增加的解释变量是否真是影响被解释变量的重要因素,都会提高决定系数的数值,解释变量个数越多,决定系数一定会越大。
克服决定系数上述缺陷的方法,是对决定系数进行适当的调整,采用如下“调整的决定系数”: =
根据上述公式可以看出,当n 较大和K 较小时, 和R 差别不大,但当n并不是很大而K又较大时,两者的差别是比较明显的。 用这个调整的决定系数作为评价多元线性回归拟合度的评价标准,可以基本消除由于解释变量数目差异造成的影响。 根据上述公式计算决定系数,需要先根据回归直线计算 的理论值,然后计算回归残差序列,再结合样本数据进行计算。
第四节 统计推断和预测 一、参数估计量的标准化 二、统计推断和检验 三、预测
一、参数估计量的标准化 = N[0,1] 在满足模型假设的情况下,多元线性回归模型参数的最小二乘估计量是线性无偏估计。 参数估计量服从以参数真实值为中心的正态分布: 可以通过下列变换转化为标准正态分布的统计量: = N[0,1]
用无偏估计 代替误差项方差 , 代入 得到的统计量服从自由度为n-K-1的t分布,记为 = t(n-K-1) 这个t分布统计量是对多元线性回归参数估计量进行统计推断和检验的基础。
二、统计推断和检验 (一)单个参数的置信区间 (二)参数显著性检验 (三)模型总体显著性检验
(一)单个参数的置信区间 对给定的或要求的置信度,下式应该成立: | |= 因此参数 置信度为 的置信区间(或称区间估计)为: | |= 因此参数 置信度为 的置信区间(或称区间估计)为: [ - , + ]
投资函数模型参数 的区间估计 首先根据EViews给出的回归分析结果,知道 的点估计 =0.639117, 的方差 即 =0.052896。 投资函数模型参数 的区间估计 首先根据EViews给出的回归分析结果,知道 的点估计 =0.639117, 的方差 即 =0.052896。 再通过查表得到自由度为 ,显著性水平=0.05的双侧t分布临界值 把这些数值及代入区间估计公式,可得:
(二)参数的显著性检验 可以对多元线性回归模型的各个参数进行显著性检验,或取特定值的假设检验。 模型参数显著性检验就是对相应参数检验原假设 : =0。如果 =0成立,那么意味着不能排除模型中第k个假设变量是不重要的。 根据要求的置信度(95%或99%),查t分布表得到自由度为n-K-1的t分布统计量的双侧分布临界值。
= = (n-K-1) 如果假设 是真实的,那么95%或99%应该成立: 如果假设 是真实的,那么95%或99%应该成立: = = (n-K-1) 如果t 统计量数值不满足上述不等式,意味着可以拒绝原假设,不能认为第k个解释变量是不重要的,称模型的第k个解释变量通过了显著性检验。
除了上述参数非0的显著性检验以外,也可以检验多元回归模型各个参数取非0的其他特定值的可能性。 检验的原理与显著性检验基本相同,只要把参数的真实值 换成要检验是否成立的数值即可。
(三)模型总体显著性检验 多元线性回归模型每个参数的显著性与模型总体的显著性并不一定一致。 因此还可以进行模型总体显著性,也就是全体解释变量总体对被解释变量是否存在明显影响的检验,称为“回归显著性检验”。 回归显著性检验的基本方法,是检验模型常数项以外所有参数同时为0的假设,即检验原假设为 : =0。
为了方便起见,实践中一般都利用 成立时模型的决定系数应为0的事实,通过检验决定系数的显著性间接检验回归显著性。 决定系数的显著性则利用下列F分布统计量进行检验: F = F (K,n-K-1) 给定显著性水平(对应置信度1-),查F 分布临界值表,得到临界值F (K,n-K-1),若F 统计量大于F 回归是显著的,否则是不显著的。
三、预测 预测也是多元线性回归分析的目的和进一步检验模型的方法,也包括点预测和区间预测两方面。 点预测就是求对应解释变量观测值 的被解释变量值 的估计。 得到回归直线以后,只要 把代入回归直线,得到: 就是一个点预测。
即使模型代表的经济规律在预测时刻是严格成立的,预测 与实际发生的 一般也不会完全一样,因为预测和实际值之间存在预测误差。 但在模型假设成立的前提下,上述基于最小二乘参数估计的预测是一个“线性无偏预测”,而且是具有最小方差的线性无偏预测,也称为“最优预测”。 是观测值 的线性组合,以 为数学期望,且服从正态分布。
利用点预测的上述性质,我们可以构造比点预测更有意义的区间预测: [ se( ), + se( )]
(例)利用投资函数模型进行预测 = ≈0.203 假设1984年的GNP为1.52万亿元,要求预测该年该地区的总投资。 = ≈0.203
用EViews软件进行预测时,需要先把工作文件的样本范围扩大(change workfile range)至包括1984年,然后在数据库中加以编辑(edit),输入1984年的解释变量数值(17,1.52)。 进行回归以后,在回归结果窗口直接点击菜单“forcast”,并在对话框中选择预测样本区间为1968-1984,为了得到预测的标准差序列,在对话框中将其命名为SEYF。 结果可输出如下的预测图形:
投资函数预测图形
注意在回归样本区间范围内的预测实际上就是拟合,主要作用是检验模型。 对应1984年的最后一个预测值(YF)0.202918和预测标准差(SEYF)0.008896是我们真正关注的预测。
在点预测和预测标准差的基础上,很容易进一步构造区间预测了。仍然采用95%的置信度,t 分布临界值仍然是 。 将上述点预测和预测标准差代入区间预测的公式,得到 的95%置信度的区间预测为[0.184,0.222]。