第四章 回归假设的二级检验: 计量经济学检验 第四章 回归假设的二级检验: 计量经济学检验 异方差性 序列相关性 多重共线性
不满足基本假定的情况,主要包括: (1)随机误差项序列存在异方差性; (2)随机误差项序列存在序列相关性; (3)解释变量之间存在多重共线性; (4)解释变量是随机变量且与随机误差项相关 (随机解释变量); 计量经济检验:对模型基本假定的检验
本章学习要点: 有无不满足假设条件的可能性 若不满足假设条件,用OLS得到的估计量会发生什么偏差 用什么方法检验假设条件是否成立 补救措施
§4.1 异方差性 一、异方差的概念 二、产生异方差的原因 三、异方差的后果 四、异方差的检验 五、异方差的修正
即对于不同的样本点,随机误差项的方差不再是常数,而互不相同,则认为出现了异方差性。 一、异方差(方差非齐性)的概念 对于模型 同方差:var(μi)=σ2 i=1,2,…n 异方差: ≠常数 即对于不同的样本点,随机误差项的方差不再是常数,而互不相同,则认为出现了异方差性。
异方差时: i2 = f(Xi) 异方差: 用矩阵表示: 同方差: 异方差一般可归结为三种类型:
二、产生异方差的原因 1、省略自变量 随函数自变量由小到大,因省略自变量 而带来的误差也由小变大 2、样本数据的测量误差 3、模型函数形式的设定误差 4、随机因素的影响 横截面数据更易产生异方差
例4.1.1:截面资料下研究居民家庭的储蓄行为 Yi=0+1Xi+i Yi:第i个家庭的储蓄额 Xi:第i个家庭的可支配收入 高收入家庭:储蓄的差异较大 低收入家庭:储蓄则更有规律性,差异较小 i的方差呈现单调递增型变化
三、异方差性的后果 计量经济学模型一旦出现异方差性,如果仍采用OLS估计模型参数,会产生下列不良后果: 3、模型的预测失效 2、变量的显著性检验失去意义 不是一个有限数值,随X的变化而变化 3、模型的预测失效
四、异方差性的检验 检验思路: 由于异方差性就是相对于不同的解释变量观测值,随机误差项具有不同的方差。 那么: 检验异方差性,也就是检验随机误差项的方差与解释变量观测值之间的相关性及其相关的“形式”。
1、图示法 利用ols进行估计,作|ei|与Xi或Yi的散点图。多元时,可以用|ei|对每个自变量逐个进行检验。 X 同方差 递增异方差 递减异方差 复杂型异方差
2、spearman级次相关检验(等级相关系数检验) Xi——原Xi的等级,|ei|——原|ei|的等级 注:按同规则(升序或降序)排序后所在位置 (或等级) 检验:H0:总体等级相关系数为零 r~
3、戈德菲尔德-匡特(Goldfeld-Quandt)检验 G-Q检验以F检验为基础,适用条件: (1)观察次数比估计的参数个数大两倍以上; (2)μi服从正态分布,除异方差外,其他假定均满足; (3)异方差递增或递减的情况。 H0: μi同方差 H1: μi异方差,方差递增(或递减)
G-Q检验的步骤: ①将n对样本观察值(Xi,Yi)按观察值Xi的大小排队 ②将序列中间的c=n/4个观察值除去,并将剩下的观察值划分为较小与较大的相同的两个子样本,每个子样样本容量均为(n-c)/2 ③对每个子样分别进行OLS回归,并计算各自的残差平方和
å ④在同方差性假定下,构造如下满足F分布的统计量(把高方差段放在分子) ) 1 2 , ( ~ - = å k c n F e i ⑤给定显著性水平,确定临界值F(v1,v2), 若F> F(v1,v2), 则拒绝同方差性假设,表明存在异方差。 当然,还可根据两个残差平方和对应的子样的顺序判断是递增型异方差还是递减异型方差。
4、戈里瑟(Gleiser)检验 原理:建立误差序列对解释变量的回归模型,判断两者是否存在较强的相关关系。 选择关于变量X的不同的函数形式,对方程进行估计并进行显著性检验,如果存在某一种函数形式,使得方程显著成立,则说明原模型存在异方差性。
5、怀特(White)检验 怀特检验适合任何形式的异方差,要求大样本。 基本思想与步骤(以二元为例): 然后做如下辅助回归 X e a + = 2 1 5 4 3
(2)计算统计量nR2,n为样本容量,R2为判定系数 可以证明,在同方差假设下: R2为辅助回归的可决系数,h为辅助回归解释变量的个数, 表示渐近服从某分布。 (3)
注意: 当然,在多元回归中,由于辅助回归方程中可能有太多解释变量,从而使自由度减少,有时可去掉交叉项。 辅助回归仍是检验与解释变量可能的组合的显著性,因此,辅助回归方程中还可引入解释变量的更高次方。 如果存在异方差性,则表明确与解释变量的某种组合有显著的相关性,这时往往显示出有较高的可决系数以及某一参数的t检验值较大。 当然,在多元回归中,由于辅助回归方程中可能有太多解释变量,从而使自由度减少,有时可去掉交叉项。
五、异方差的修正 1、加权最小二乘法(WLS) 基本思想:对原模型加权,使之变成一个新的不存在异方差性的模型,然后采用OLS估计其参数。 ① Yi=β0+β1Xi+μi var(μi)=σ2f(Xi) 变换:
即满足同方差性,可用OLS法估计。 ② 如何决定f(Xi)的形式 利用ols估计ei ,将|ei|对Xi的不同次幂进行回归(同戈里瑟方法),挑选最优模型作为f(Xi)的形式。
例4.1.2, Yi=β1Xi+μi var(μi)=σ2Xi 2、WLS的另一种形式
软件操作: (1)利用OLS求ei (2)求1/|ei| (3)选WLS(命令:LS(W)),权数为1/|ei|
3、广义最小二乘法GLS 对于模型:Y=X+ 若存在异方差: W是一对称正定矩阵,存在一可逆矩阵D使得 W=DD’
用D-1左乘Y=X+两边,得到一个新的模型: 该模型具有同方差性。因为
这就是原模型Y=X+的加权最小二乘估计量,是无偏、有效的估计量。
实际中可取: 例4.1.3 设回归方程为: 问当σi2满足什么假定时,以下估计量是β的最优线性无偏估计量?
例4.1.4 现有X和Y的样本观察值如下表: X 2 5 10 4 10 Y 4 7 4 5 9 假设Y对X的回归模型为: 试用适当的方法估计此回归模型。 解:
Y1i 2 1.4 0.4 1.25 0.9 X1i 0.5 0.2 0.1 0.25 0.1
注意: 在实际操作中通常采用如下的经验方法: 不对原模型进行异方差性检验,而是直接选择加权最小二乘法,尤其是采用截面数据作样本时。 如果确实存在异方差,则被有效地消除了;如果不存在异方差性,则加权最小二乘法等价于普通最小二乘法。
§4.2 序列相关性(自相关性) 一、序列相关性概念 二、自相关性产生的原因 三、序列相关性的后果 四、序列相关性的检验 §4.2 序列相关性(自相关性) 一、序列相关性概念 二、自相关性产生的原因 三、序列相关性的后果 四、序列相关性的检验 五、具有序列相关性模型的估计
如果对于不同的样本点,随机误差项之间不再是不相关的,而是存在某种相关性,则认为出现了序列相关性。 一、序列相关性概念 1、 对于模型 Yi=0+1X1i+2X2i+…+kXki+i i=1,2, …,n 随机项互不相关的基本假设表现为 Cov(i , j)=0 ij, i,j=1,2, …,n 如果对于不同的样本点,随机误差项之间不再是不相关的,而是存在某种相关性,则认为出现了序列相关性。 Cov(i , j)=E (i . j)≠0 ij, i,j=1,2, …,n
或
2、一阶序列相关或一阶自相关 Cov(i , i-1)=E (i . i-1)≠0 ,i=1,2, …,n 总体一阶自相关系数为:
其中vt是随机变数,且满足: 设一阶序列相关μt=f(μt-1)是线性的,称一阶自回归模型。 t=a1t-1+vt 由于序列相关性经常出现在以时间序列为样本的模型中,因此,本节将用下标t代表i。 设一阶序列相关μt=f(μt-1)是线性的,称一阶自回归模型。 t=a1t-1+vt 其中vt是随机变数,且满足:
二、自相关性产生的原因 1、经济变量固有的惯性 例如,居民总消费函数模型: Ct=0+1Yt+t t=1,2,…,n 大多数经济时间数据都有一个明显的特点:惯性,表现在时间序列不同时间的前后关联上。 例如,居民总消费函数模型: Ct=0+1Yt+t t=1,2,…,n 由于消费习惯的影响被包含在随机误差项中,则可能出现序列相关性(往往是正相关 )。
2、模型设定的偏误 所谓模型设定偏误(Specification error)是指所设定的模型“不正确”。主要表现在模型中丢掉了重要的解释变量或模型函数形式有偏误。 3、数据的“编造” 在实际经济问题中,有些数据是通过已知数据生成的,因此,新生成的数据与原数据间就有了内在的联系,表现出序列相关性。 还有就是两个时间点之间的“内插”技术往往导致随机项的序列相关性。
三、序列相关性的后果 1、参数估计量无偏非有效 2、变量的显著性检验失去意义 3、模型的预测失效
序列相关性检验方法有多种,但基本思路相同: 三、序列相关性的检验 基本思路: 序列相关性检验方法有多种,但基本思路相同: 首先 ,采用 OLS 法估计模型,以求得随机误差项的 “ 近似估计量 ”,用 ei 表示: ls i Y e ) ˆ ( - = 然后,通过分析这些“近似估计量”之间的相关性,以判断随机误差项是否具有序列相关性。
1、图示法
2、杜宾-瓦森(Durbin-Watson)检验法 该方法的假定条件是: (1)大样本 (2)随机误差项i为一阶自回归形式: i=i-1+i (3)回归模型中不应含有滞后应变量作为解释变量,即不应出现下列形式: Yi=0+1X1i+kXki+Yi-1+i (4)回归含有截距项 (5) 解释变量X非随机
①提出假设 H0:ρ=0 无一阶自相关 H1:ρ≠0 存在一阶自相关性 ②构造统计量
0≤DW≤4
③判断方法 给定显著性水平α(1%,5%),观察次数为n,模型自变量个数k’(总体参数个数k=k’+1,含常数),从DW分布表中查得临界值上限du和下限dL。 0<DW<dL 存在一阶正自相关 4-dL <DW<4 存在一阶负自相关 dU <DW<4-dU 无自相关 dL<DW<dU 或4-dU <DW<4- dL 不能确定
例,n=30 k’=3 DW=2.3 α=5% dL=1.21 du=1.65 或,n=40 k=3 DW=3.0 α=5% 不能确定 不能确定 正相关 负相关 无自相关 dL dU 2 4 4-dU 4-dL 例,n=30 k’=3 DW=2.3 α=5% dL=1.21 du=1.65 或,n=40 k=3 DW=3.0 α=5% dL=1.39 du=1.60
④ DW检验的局限性 DW检验只适用于大样本一阶自回归形式的序列相关; DW检验存在不能判断的区域; DW检验不适用于联立方程模型中各单一方程的检验; DW检验要求解释变量中不含有滞后因变量,否则,往往会得出不相关的结论。
3、拉格朗日乘数(Lagrange multiplier)检验 拉格朗日乘数检验克服了DW检验的缺陷,适合于高阶序列相关以及模型中存在滞后被解释变量的情形。 它是由布劳殊(Breusch)与戈弗雷(Godfrey)于1978年提出的,也被称为GB检验。 对于模型 如果怀疑随机扰动项存在p阶序列相关:
GB检验可用来检验如下受约束回归方程 约束条件为: H0: 1=2=…=p =0 约束条件H0为真时,大样本下 n为样本容量,R2为如下辅助回归的可决系数: 给定,查临界值2(p),若LM> 2(p) ,否定H0, 可能存在直到p阶的序列相关。实际检验中,可从1阶、2阶、…逐次向更高阶检验。
如果模型被检验证明存在序列相关性,则需要发展新的方法估计模型。 四、序列相关的补救 如果模型被检验证明存在序列相关性,则需要发展新的方法估计模型。 最常用的方法是广义最小二乘法(GLS: Generalized least squares)和广义差分法(Generalized Difference)。
1、广义最小二乘法 对于模型 Y=X+ 如果存在序列相关,同时存在异方差,即有 是一对称正定矩阵,存在一可逆矩阵D,使得 =DD’ Ω μ μ. μ, 2 1 21 12 ) ( Cov( s = ú û ù ê ë é ¢ n E L 是一对称正定矩阵,存在一可逆矩阵D,使得 =DD’
变换原模型: D-1Y=D-1X +D-1 即 Y*=X* + * (*) 该模型无异方差性和序列相关 (*)式的OLS估计: 这就是原模型的广义最小二乘估计量(GLS estimators),是无偏有效估计量。 Ω的估计:
2、广义差分法 ① 广义差分法是将原模型变换为满足OLS法的差分模型,再进行OLS估计。
则有: 该模型为广义差分模型,不存在序列相关问题,可进行OLS估计。
② ρ的估计 ◇ 大样本 小样本
◇ 杜宾(durbin)两步法 以一元为例:Yt=β0+β1Xt+μt 第一步,变换差分模型为下列形式: 第二步,用 对原模型进行广义差分。
◇科克伦-奥科特迭代法。 以一元线性模型为例: 首先,采用OLS法估计原模型 Yi=0+1Xi+i i=1i-1+2i-2+Li-L+i
求出i新的“近似估计值”, 并以之作为样本观测值,再次估计 i=1i-1+2i-2+Li-L+i
类似地,可进行第三次、第四次迭代。 关于迭代的次数,可根据具体的问题来定。 一般是事先给出一个精度,当相邻两次1,2, ,L的估计值之差小于这一精度时,迭代终止。 实践中,有时只要迭代两次,就可得到较满意的结果。两次迭代过程也被称为科克伦-奥科特两步法。
应用软件中的广义差分法 在Eview/TSP软件包下,广义差分采用了科克伦-奥科特(Cochrane-Orcutt)迭代法估计。 在解释变量中引入AR(1)、AR(2)、…,即可得到参数和ρ1、ρ2、…的估计值。 其中AR(m)表示随机误差项的m阶自回归。在估计过程中自动完成了ρ1、ρ2、…的迭代。
例4.2.1,设模型为 Yt=β0+β1Xt+μt μt=0.6μt-1+vt 观察值: Yt 12 16 19 25 22 28 Xt 6.5 8 10 12 10 15 试用广义差分法估计参数。 解:ρ=0.6
Yt*: 9.6 8.8 9.4 13.6 7 14.8 Xt*: 5.2 4.1 5.2 6 2.8 9 软件实现:LS Y C X AR(1) AR(1)求的是ρ
一、多重共线性的概念 二、产生多重共线性的原因 三、多重共线性的后果 四、多重共线性的检验 五、克服多重共线性的方法 六、案例 §4.3 多重共线性 一、多重共线性的概念 二、产生多重共线性的原因 三、多重共线性的后果 四、多重共线性的检验 五、克服多重共线性的方法 六、案例
一、多重共线性的概念 对于模型 Yi=0+1X1i+2X2i++kXki+i i=1,2,…,n 如果某两个或多个解释变量之间出现了相关性,则称为多重共线性 (Multicollinearity)。
如果存在不全为0的ci,使 如果存在 c1X1i+c2X2i+…+ckXki=0 i=1,2,…,n 则称为解释变量间存在完全共线性。 c1X1i+c2X2i+…+ckXki+vi=0 i=1,2,…,n 其中ci不全为0,vi为随机误差项,则称为 近似共线性或交互相关。
在矩阵表示的线性回归模型 Y=X+ 中,完全共线性指:秩(X)<k+1 注意: 完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。
(1)在一个较长的发展时期,因为受同一经济因素的影响,若干经济变量有可能共同升降。 二、产生多重共线性的原因 (1)在一个较长的发展时期,因为受同一经济因素的影响,若干经济变量有可能共同升降。 (2)截面数据也同样可能存在高度相关 例,生产函数中,资本投入与劳动力投入往往出现高度相关情况,大企业二者都大,小企业都小。 (3)滞后变量的引入 例如,消费=f(当期收入, 前期收入) 显然,两期收入间有较强的线性相关性。
三、多重共线性的后果 OLS估计量的无偏性与共线性无关 1、完全共线性下参数估计量不存在 如果存在完全共线性,则(X’X)-1不存在。
2、近似共线性(高度相关) ① OLS估计量方差增大,非有效; ② 重要的变量t值很小,通不过检验; ③ R2很高,但几乎没有回归系数在统计上显著; ④ 参数估计量经济含义不合理; ⑤ 变量的显著性检验失去意义; ⑥ 模型的预测功能失效。
四、多重共线性的检验 多重共线性检验的任务: (1)检验多重共线性是否存在; (2)估计多重共线性的范围,即判断哪些变量之间存在共线性。
(1)对两个解释变量的模型,采用简单相关系数法 1、检验多重共线性是否存在 (1)对两个解释变量的模型,采用简单相关系数法 求出X1与X2的简单相关系数r,若|r|接近1,则说明两变量存在较强的多重共线性。 (2)对多个解释变量的模型,采用综合统计检验法 若 在OLS法下:R2与F值较大,但t检验值较小,说明各解释变量对Y的联合线性作用显著,但各解释变量间存在共线性而使得它们对Y的独立作用不能分辨,故t检验不显著。
如果存在多重共线性,需进一步确定究竟由哪些变量引起。 2、判明存在多重共线性的范围 如果存在多重共线性,需进一步确定究竟由哪些变量引起。 (1) 判定系数检验法 使模型中每一个解释变量分别以其余解释变量为解释变量进行回归,并计算相应的拟合优度。 如果某一种回归 Xj=1X1+2X2+LXL 的判定系数较大,说明Xj与其他X间存在共线性。
在模型中排除某一个解释变量Xj,估计模型; 另一等价的检验是: 在模型中排除某一个解释变量Xj,估计模型; 如果拟合优度与包含Xj时十分接近,则说明Xj与其它解释变量之间存在共线性。 (2)方差膨胀因子检验 方差膨胀因子: 一般当VIF>5或VIF>10 认为模型存在较严重的多重共线性。
第一步,将因变量Y分别对k个解释变量X1、 (3)逐步回归法(Frisch综合分析) X2、…、XK进行简单回归: Y=f1(X1), Y=f2(X2), …, Y=fk(Xk) 根据经济理论和统计标准,挑选出最优简单回归方程。 第二步,把新的变量加到选出的方程中 ① 如果新变量能提高R2 ,且符合经济理论,予以 接纳; ② 如新变量不能提高R2 ,且对其他系数没有大的 影响,便认为是多余的; ③ 如新变量严重影响其他变量的系数值或符号时,便认为是有害的,可能已产生严重的多重共线性,而且这个新变量可能是重要的。
如果模型被检验证明存在多重共线性,则需要发展新的方法估计模型,最常用的方法有三类。 五、克服多重共线性的方法 如果模型被检验证明存在多重共线性,则需要发展新的方法估计模型,最常用的方法有三类。 1、第一类方法:排除引起共线性的变量 找出引起多重共线性的解释变量,将它排除出去。 注意: 这时,剩余解释变量参数的经济含义和数值都发生了变化。
时间序列数据、线性模型:将原模型变换为差分模型: Yi=1 X1i+2 X2i++k Xki+ i 2、第二类方法:差分法 时间序列数据、线性模型:将原模型变换为差分模型: Yi=1 X1i+2 X2i++k Xki+ i 可以有效地消除原模型中的多重共线性。 一般讲,增量之间的线性关系远比总量之间的线性关系弱得多。
3、第三类方法:减小参数估计量的方差 多重共线性的主要后果是参数估计量具有较大的方差,所以 采取适当方法减小参数估计量的方差,虽然没有消除模型中的多重共线性,但确能消除多重共线性造成的后果。 例如: ①增加样本容量,可使参数估计量的方差减小。
②岭回归法(使用有偏估计) 以引入偏误为代价减小参数估计量的方差 具体方法是:引入矩阵D,使参数估计量为 其中矩阵D一般选择为主对角阵,即 (*) 其中矩阵D一般选择为主对角阵,即 D=aI a为大于0的常数。 显然,与未含D的参数B的估计量相比,(*)式的估计量有较小的方差。
根据理论和经验分析,影响粮食生产(Y)的主要因素有: 六、案例——中国粮食生产函数 根据理论和经验分析,影响粮食生产(Y)的主要因素有: 农业化肥施用量(X1);粮食播种面积(X2) 成灾面积(X3); 农业机械总动力(X4); 农业劳动力(X5) 已知中国粮食生产的相关数据,建立中国粮食生产函数: Y=0+1 X1 +2 X2 +3 X3 +4 X4 +4 X5 +
1、用OLS法估计上述模型: R2接近于1; 给定=5%,得F临界值 F0.05(5,12)=3.11 (-0.91) (8.39) (3.32) (-2.81) (-1.45) (-0.14) R2接近于1; 给定=5%,得F临界值 F0.05(5,12)=3.11 F=638.4 > 15.19, 故认上述粮食生产的总体线性关系显著成立。 但X4 、X5 的参数未通过t检验,且符号不正确,故解释变量间可能存在多重共线性。
2、检验简单相关系数 列出X1,X2,X3,X4,X5的相关系数矩阵: 发现: X1与X4间存在高度相关性。
3、找出最简单的回归形式 分别作Y与X1,X2,X4,X5间的回归: 可见,应选第1个式子为初始的回归模型。 (25.58) (11.49) (25.58) (11.49) R2=0.8919 F=132.1 DW=1.56 (-0.49) (1.14) R2=0.075 F=1.30 DW=0.12 (17.45) (6.68) R2=0.7527 F=48.7 DW=1.11 (-1.04) (2.66) R2=0.3064 F=7.07 DW=0.36 可见,应选第1个式子为初始的回归模型。
4、逐步回归 将其他解释变量分别导入上述初始回归模型,寻找最佳回归方程。
5、结论 回归方程以Y=f(X1,X2,X3)为最优:
1、有一个参数个数为4的线性回归模型,用一个容量为T=20的时序数据样本进行普通最小二乘法估计,得到残差的一阶自相关系数为: 作业: 1、有一个参数个数为4的线性回归模型,用一个容量为T=20的时序数据样本进行普通最小二乘法估计,得到残差的一阶自相关系数为: 试根据这些资料计算DW统计量,并在0.05的显著性水平下进行自相关检验。
2、根据某地近18年的时序资料,使用普通最小二乘法,估计得到该地的进口模型为: 式中X1为该地的国内生产总值,X2为存货形成额,X3为消费额,括号中的数字为相应参数估计量的标准误。试根据这些资料检验分析该模型是否存在什么问题。