第三章 异方差和自相关
本章要点 异方差的定义、产生原因及后果 异方差的检验方法 异方差的修正方法 自相关的产生原因 忽略自相关的严重后果 自相关的检验 自相关的修正
在前面的章节里我们已经完成了对经典正态线性回归模型的讨论。但在实际中,经典线性回归模型的基本假定经常是不能得到满足的,而若在此状况下仍应用OLS进行回归,就会产生一系列的问题,因此我们就需要采取不同的方法对基本假定不满足的情况予以处理。 在本章中,我们将着重考虑假定2和假定3得不到满足,即存在异方差和自相关情况下的处理办法。
一、异方差的定义及产生原因 第一节 异方差的介绍 第一节 异方差的介绍 一、异方差的定义及产生原因 异方差(heteroscedasticy)就是对同方差假设(assumption of homoscedasticity)的违反。经典回归中同方差是指随着样本观察点X的变化,线性模型中随机误差项 的方差并不改变,保持为常数,即 i=1,2,…,n (3.1) 如果的数值对不同的样本观察值各不相同,则称随机误差项具有异方差,即 常数 i=1,2,…n (3.2)
图3-1 异方差直观图
为什么会产生这种异方差性呢? 一方面是因为随机误差项包括了测量误差和模型中被省略的一些因素对因变量的影响,另一方面来自不同抽样单元的因变量观察值之间可能差别很大。因此,异方差性多出现在横截面样本之中。至于时间序列,则由于因变量观察值来自不同时期的同一样本单元,通常因变量的不同观察值之间的差别不是很大,所以异方差性一般不明显。
二、异方差的后果 一旦随机误差项违反同方差假设,即具有异方差性,如果仍然用OLS进行参数估计,将会产生什么样的后果呢?
第二节 异方差的检验 由于异方差的存在会导致OLS估计量的最佳性丧失,降低精确度。所以,对所取得的样本数据(尤其是横截面数据)判断是否存在异方差,是我们在进行正确回归分析之前要考虑的事情。异方差的检验主要有图示法和解析法,下面我们将介绍几种常用的检验方法。
一、图示法 图示法是检验异方差的一种直观方法,通常有下列两种思路: (一)因变量y与解释变量x的散点图:若随着x的增加,图中散点分布的区域逐渐变宽或变窄,或出现了偏离带状区域的复杂变化,则随机项可能出现了异方差。 (二)残差图。残差图即残差平方 ( 的估计值)与x的散点图,或者在有多个解释变量时可作残差 与y的散点图或残差 和可能与异方差有关的x的散点图。具体做法:先在同方差的假设下对原模型应用OLS法,求出和残差平方 ,再绘制残差图( , )。
二、解析法 检验异方差的解析方法的共同思想是,由于不同的观察值随机误差项具有不同的方差,因此检验异方差的主要问题是判断随机误差项的方差与解释变量之间的相关性,下列这些方法都是围绕这个思路,通过建立不同的模型和验判标准来检验异方差。
(一)Goldfeld-Quandt检验法 Goldfeld-Quandt检验法是由S.M.Goldfeld和R.E.Quandt于1965年提出的。这种检验方法以F检验为基础,适用于大样本情形(n>30),并且要求满足条件:观测值的数目至少是参数的二倍;随机项没有自相关并且服从正态分布。 统计假设:零假设 : 是同方差(i=1,2,…,n) 备择假设 : 具有异方差
Goldfeld-Quandt检验法涉及对两个最小二乘回归直线的计算,一个回归直线采用我们认为随机项方差较小的数据,另一个采用我们认为随机项方差较大的数据。如果各回归直线残差的方差大致相等,则不能拒绝同方差的原假设,但是如果残差的方差增加很多,就可能拒绝原假设。步骤为:
第一步,处理观测值。 将某个解释变量的观测值按由小到大的顺序排列,然后将居中的d项观测数据除去,其中d的大小可以选择,比如取样本容量的1/4。再将剩余的(n-d)个数据分为数目相等的二组。
第二步,建立回归方程求残差平方和。 拟合两个回归模型,第一个是关于较小x值的那部分数据,第二个是关于较大x值的那部分数据。每一个回归模型都有(n-d)/2个数据以及[(n-d)/2]-2的自由度。d必须足够小以保证有足够的自由度,从而能够对每一个回归模型进行适当的估计。 对每一个回归模型,计算残差平方和:记 值较小的一组子样本的残差平方和为 = , 值较大的一组子样本的残差平方和为 = 。
第三步,建立统计量。 用所得出的两个子样本的残差平方和构成F统计量: 若零假设为真,则上式中n为样本容量(观测值总数),d为被去掉的观测值数目,k为模型中自变量的个数。
第四步,得出结论。 假设随机项服从正态分布(并且不存在序列相关),则统计量 / 将服从分子自由度和分母自由度均为( )的F分布。 对于给定的显著性水平,如果统计量的值大于上述F分布的临界值,我们就拒绝原假设,认为残差具有异方差性。否则,就不能拒绝原假设。
(二)Spearman rank correlation 检验法 其中 表示第i个单元或现象的两种不同特性所处的等级之差,而n表示带有级别的单元或现象的个数。 在这里,我们假设模型为:
第一步,运用OLS法对原方程进行回归,计算残差 = ,i=1,2…n。 第二步,计算Spearman等级相关系数。将 和解释变量观察值 按从小到大或从大到小的顺序分成等级。等级的大小可以人为规定,一般取大小顺序中的序号。如有两个值相等,则规定这个值的等级取相继等级的算术平均值。 然后,计算 与 的等级差 ,= 的等级- 的等级。最后根据公式计算Spearman等级相关系数。
第三步,对总体等级相关系数 进行显著性检验 : =0, : 0。样本 的显著性可通过t检验按下述方法加以检验: 对于多元回归模型,可分别计算 与每个解释变量的等级相关系数,再分别进行上述检验。
(三)Park检验法 Park检验法就是将残差图法公式化,提出 是解释变量 的某个函数,然后通过检验这个函数形式是否显著,来判定是否具有异方差性及其异方差性的函数结构。该方法的主要步骤如下: 第一步,建立被解释变量y对所有解释变量x的回归方程,然后计算残差 (i=1,2,…,n) 第二步,取异方差结构的函数形式为 = ,其中, 和 是两个未知参数, 是随机变量。写成对数形式则为: = 。
第三步,建立方差结构回归模型,同时用 来代替 ,即 = 。对此模型运用OLS法。对 进行t检验,如果不显著,则没有异方差性。否则表明存在异方差。 Park检验法的优点是不但能确定有无异方差性,而且还能给出异方差性的具体函数形式。但也有质疑,认为 仍可能有异方差性,因而结果的真实性要受到影响。
(四)Glejser检验法 这种方法类似于Park检验。首先从OLS回归取得残差 之后,用 的绝对值对被认为与 密切相关的X变量作回归。 有如下几种函数形式(其中 是误差项):
Glejser检验方法的优点是允许在更大的范围内寻找异方差性的结构函数。缺点是难于确定 的适当的幂次,这往往需要进行大量的计算。从实际方面考虑,该方法可用于大样本,而在小样本中,则仅可作为异方差摸索的一种定性技巧。
(五)Breusch-Pagan检验法 该方法的基本思想是构造残差平方序列与解释变量之间的辅助函数,得到回归平方和ESS,从而判断异方差性存在的显著性。 设模型为: (3.7) 并且 (3.8) 在式(3.8)中 表示是某个解释变量或全部。
提出原假设为 , 具体步骤如下: 第一步,用OLS方法估计式(3.7)中的未知参数,得 (3.9) 和 (n为样本容量) (3.10) 第二步,构造辅助回归函数 (3.11) 式中 为随机误差项。
第四步,对于给定显著性水平 ,查 分布表得 ,比较 与 ,如果 > ,则拒绝原假设,表明模型中存在异方差。 第三步,用OLS方法估计式(3.11)中的未知参数,计算解释的平方和ESS,可以证明当有同方差性,且n无限增大时有 第四步,对于给定显著性水平 ,查 分布表得 ,比较 与 ,如果 > ,则拒绝原假设,表明模型中存在异方差。
(六)White检验 White检验的提出避免了Breusch-Pagan检验一定要已知随机误差的方差产生的原因,并且要求随机误差服从正态分布。White检验与Breusch-Pagan检验很相似,但它不需要关于异方差的任何先验知识,只要求在大样本的情况下。 下面是White检验的基本步骤: 设二元线性回归模型为 (3.12)
异方差与解释变量的一般线性关系为 第一步,用OLS法估计式3.3的参数 。 第二步,计算残差序列 和 。 第三步,求 对 , , , , 的线性回归估计式,即构造辅助回归函数。 第四步,计算统计量 ,其中n为样本容量, 为辅助回归函数中的决定系数。
第五步,在的 原假设下,服从自由度为5的 分布,给定显著性水平 ,查分布表得临界值 ,比较 与 ,如果前者大于后者,则拒绝原假设,表明式(3 第五步,在的 原假设下,服从自由度为5的 分布,给定显著性水平 ,查分布表得临界值 ,比较 与 ,如果前者大于后者,则拒绝原假设,表明式(3.12)中随机误差存在异方差。 此外,由于金融问题研究中经常需要处理时间序列数据,当存在异方差性的时候,可考虑用ARCH方法检验。检验异方差的方法多种多样,可以根据所研究问题的需要加以选择,也可以同时选择不同的方法,对检验结果进行分析比较,以求得出更准确的结论。
第三节 异方差的修正 异方差性虽然不损坏OLS估计量的无偏性和一致性,但却使它们不再是有效的,甚至不是渐近(即在大样本中)有效的。参数的显著性检验失效,降低了预测精度。故而直接运用普通最小二乘法进行估计不再是恰当的,需要采取相应的修正补救办法以克服异方差的不利影响。 其基本思路是变异方差为同方差,或者尽量缓解方差变异的程度。 在这里,我们将会遇到的情形分为两种:当误差项方差为已知和当为未知。
一、当为 已知:加权最小二乘法 (weighted least squares,WLS 在同方差的假定下,对不同的 , 偏离均值的程度相同,取相同权数的做法是合理的。但在异方差情况下,则是显而易见的错误,因为的 方差在不同的 上是不同的。比如在递增异方差中,对应于较大的x值的估计值的偏差就比较大,残差所反映的信息应打折扣;而对于较小的x值,偏差较小,应给予重视。
所以在这里我们的办法就是:对较大的残差平方赋予较小的权数,对较小的残差平方赋予较大的权数。这样对残差所提供信息的重要程度作一番校正,以提高参数估计的精度。
可以考虑用 作为 的权数。 于是加权最小二乘法可以表述成使加权残差平方和 达到最小。
二、当 为未知 已知真实的 可以用WLS得到BLUE估计量。但现实中多数情况下是未知的,所以还要考虑别的方法来消除异方差。一般来讲,可以将异方差的表现分为这样几种类别。我们以 为模型。 (一) 正比于 : 可对原方程做如下变换:
(二) 正比于 : 就可将原始的模型进行入下变换 (三) 正比于Y均值的平方: 将原模型进行如下变换:
在上述变换中,都可以看到对的形式采取的是一种猜测的态度,即我们也不能肯定采取哪种变换更有效。同时这些变换可能还有其他的一些问题: 1.当解释变量多于1个时,也许先验上不知道应选择哪一个X去进行变换; 2.当 无法直接得知而要从前面讨论的一个或多个变换中做出估计时,所有用到t检验F检验等的检验程序,都只有在大样本中有效。 3.谬误相关的问题。
三、模型对数变换法 仍以模型 为例,变量 和 分别用 和 代替,则对模型 进行估计,通常可以降低异方差性的影响。 原因?
第四节 金融实例分析 [例3-1]纽约股票交易所(NYSE)与美国证券交易委员会(SEC)关于经济佣金率放松管制的争论,其中异方差的检验与修正在证明规模效应存在与否起着重要的作用。
下面通过一个具体金融案例来讨论异方差的检验与修正过程 : 根据北京市1978-1998年人均储蓄与人均收入的数据资料,若假定X为人均收入(元),Y为人均储蓄(元),分析人均储蓄受人均收入的线性影响,可建立一元线性回归模型进行分析。 设模型为
1 用OLS估计法估计参数 图3-3 Eviews回归结果
(1)图示法 图3-4 残差图
(2)Goldfeld-Quandt检验 按前述检验方法,对1978~1985与1991~1998年时间段的数据进行OLS方法检验,求出F统计量,查表得是否存在异方差
(3)ARCH检验 图3-5 ARCH检验结果
异方差的修正 :WLS法 图3-6 WLS估计结果
对数变换法 图3-7 对数变换估计结果
第五节 自相关的概念和产生原因 为了能更好地说明自相关问题,我们以一个金融案例来开始本章余下三节的学习,并将在下面反复用到这个例子。 第五节 自相关的概念和产生原因 为了能更好地说明自相关问题,我们以一个金融案例来开始本章余下三节的学习,并将在下面反复用到这个例子。 例:利率的变化 我们将用工业生产指数(IP),货币供应量增长率(GM2),以及通胀率(GPW)的函数来解释国债利率R的变化。
R=3个月期美国国债利率。为年利率的某一百分比 IP=联邦储备委员会的工业生产指数(1987=100) M2=名义货币供给、以十亿美元为单位 PW=所有商品的生产价格指数(1982=100)
用于回归模型的货币与价格变量是: 回归方程是:(括号中为t统计量) (2.84)(8.89)(3.91) (6.15) =0.22 DW=0.18 S=2.458 Mean=6.07
一、滞后值与自相关的概念 在阐释自相关概念之前,先介绍滞后值的概念。一个变量的滞后值是这个变量在一段时间前的取值。举个例子: 滞后一期的取值,记为 。 y的一阶差分,记为 ,是用y的当期值减去前一期的值: ,以此类推,可以得到滞后二期,滞后三期值。
表3-1 当期值、滞后值、差分的关系 1990.1 0.8 —— 1990.2 1.3 0.5 1990.3 -0.9 -2.2 1990.4 0.2 1.1 1990.5 -1.7 -1.9 1990.6 2.3 4.0 1990.7 0.1 1990.8 0.0 -0.1 …
回到自相关问题,在回归模型: 经典线性回归模型(CLRM)的基本假设第三条是: 若此假设被破坏,即 , 随机误差项u的取值与它的前一期或前几期的取值(滞后值)有关,则称误差项存在序列相关或自相关。 自相关有正相关和负相关之分。实证表明:在经济数据中,常见的是正自相关。
(a)正自相关
(b)负自相关
(c)无自相关
二、自相关产生的原因 1.经济数据的固有的惯性(inertia)带来的相关 2.模型设定误差带来的相关 3.数据的加工带来的相关
第六节 自相关的度量与后果 一、自相关的度量 第六节 自相关的度量与后果 一、自相关的度量 假定存在自相关,若 的取值仅与前一期 有关,即 =f( ),则称这种自相关为一阶自相关。对于一般经济现象而言,两个随机项在时间上相隔越远,前者对后者的影响越小。如果存在自相关的话,最强的自相关应该是一阶自相关。这里,我们只讨论一阶自相关,并且假定这是一种线性自相关,具有一阶线性自回归AR(1)的形式:
式中 为常数,称为自相关系数。 是一个新随机项,它满足经典回归的全部假定。 上式可以看成是一个一元回归模型。 是因变量, 是自变量, 是回归系数。可用OLS法估计 :
当 >0时,为正相关, <0为负相关。当 =0时,由上式知, = ,此时为一个没有自相关的随机变量。当 =1或 =-1时, 与 之间的相关性最强: =1表示完全一阶正相关; =-1表示完全一阶负相关。由此可见,自相关系数 是一阶线性自相关强度的一个度量,其绝对值大小决定自相关的强弱。
二、出现自相关后的后果 (1)最小二乘估计量仍然是线性的和无偏的,但却不是有效的。 (2)OLS估计量的方差是有偏的。 因此,在随机项存在自相关的情况下,t检验失效,同样对F检验也有类似的结果。
第七节 自相关的检验与修正 一、自相关的检验方法 检验自相关的方法也可以分为两种:一种是图示法,另一种是解析法。 (一)图示法 第七节 自相关的检验与修正 一、自相关的检验方法 检验自相关的方法也可以分为两种:一种是图示法,另一种是解析法。 (一)图示法 由于回归残差 可以作为随机项 的估计量, 的性质可以从 的性质中反映出来。我们可以通过观察残差是否存在自相关来判断随机项是否存在自相关。
1.按时间顺序绘制残差图 图3-9 利率残差
2.绘制 , 散点图 图3-10 利率残差 、 散点图
(二)解析法 通过图示法我们只能粗略的判断是否存在自相关,如果要精确地探测序列相关性,需要使用解析法。解析法是通过假设检验来探测序列相关性的,下面我们将介绍其中的几种方法。
1.D-W(Durbin-Watson)检验 对一阶自相关 : 当 =0时, 不具有一阶自相关,当 时,具有一阶自相关。 D-W检验构造的统计量 : d
上式可表示为:
Durbin-Watson证明了d的实际分布介于两个极限分布之间。一个是下极限分布,其下临界值为 ,上临界值为4- ;另一个是上极限分布,其下临界值为 ,上临界值为4- 。
D-W检验的步骤: (1)建立假设 : (2)进行OLS回归并获得残差; (3)计算d值,大多数计算软件已能够实现。比如:Eviews软件就直接可以获得; (4)给定样本容量及解释变量的个数,从D—W表中查到临界值 和 ; (5)将d的现实值与临界值进行比较:具体的比较过程可参见上图所示。
D-W检验的局限性 (1)D-W检验不适合用于自回归模型。 (2)D-W检验只适用于一阶线性自相关 。 (3)d统计量无法用来判定那些通过原点的回归模型的自相关问题。 (4)利用D-W检验检验自相关时,一般要求样本容量至少为15,否则很难对自相关的存在性做明确的结论。
2、杜宾-h(Durbin-h)统计量 经济学的研究过程中,遇上解释变量中包含有因变量的滞后值的情况很多,为克服这样的困境,杜宾提出了一个基于h统计量的渐近检验: 在没有自相关的原假设之下,统计量是渐近正态的,其均值为0,方差为1。当检验一阶自回归的误差时,即使X包含有多个因变量的滞后值,统计量检验仍然有效。
3.Breusch-Godfrey 检验 当序列可能存在高阶自相关,或者我们需要同时检验残差与它的若干滞后项之间是否存在相关性,此时我们可以用Breusch-Godfrey检验(简记BG检验法)。BG检验法假定误差项是由如下的阶自回归过程产生的: 建立的零假设是: =0
BG检验法的步骤 (1)用最小二乘法估计回归模型并得到残差 (2)将 对第一步中的所有解释变量及 的r个滞后值( )进行回归,并取得 值。由于我们取了 的r阶滞后值,所以在这次回归中我们只有 个观测值(其中T为原方程观测值个数)。 (3)BG检验建立的检验统计量是 ,在大样本的条件下,它服从自由度为p的 分布,即 。若 大于临界值,则拒绝不存在自相关的零假设,反之则不能拒绝。
二、自相关的修正方法 (一)已知的情况下——广义差分法: 一般在实践中,往往假定残差项存在一阶自回归方式,即: 若自相关系数 已知,自相关问题就解决。 回到前例,经过DW检验发现随机项具有正的自相关现象,并且d=0.18。因此,直接用OLS估计就不适合了,必须先消除自相关的影响: 已知 ,则
我们的回归模型是: 假设随机项u具有一阶线性自相关的形式: , 满足经典回归的全部假定。 将上式滞后一期并乘以 =0.91 得到:
上二式相减,得到: 令 称为广义差分变换.
故 满足经典回归的全部假定,变换后的模型(上式)称为广义差分模型,已经没有自相关。 以上过程就是将原回归模型进行广义差分变换得到广义差分模型,对广义差分模型应用普通最小二乘法估计,这种方法称为广义差分法。
(二) 未知的情况下——杜宾两步法 杜宾两步法的主要步骤如下: 第一步:对模型 进行变换得到:
对上式用OLS进行估计,得到: 得到的 的系数就是自相关系数 的估计值 :
第二步:用 对原始数据进行差分变换: 得到:
对上式进行OLS估计,得到: (4.35) (2.18) (-6.74) d=1.5259 =0.09176/(1-0.976)=3.82 所以,用杜宾两步法修正的结果为:
本章小结 在金融计量和经济计量诸多分析中都要面对异方差问题,异方差问题是金融计量和经济计量时不满足经典回归条件的几个主要问题之一。本章首先明确了异方差的定义,并简要说明了其产生原因及后果,在此基础上从图示法和解析法两个方面介绍了诸多异方差的检验方法,然后具体介绍了修正异方差的方法,并辅以实例详细说明了异方差检验到修正的过程。
另外,作为经典线性回归模型(CLRM)五个假设的有一个破坏——自相关,本章从案例出发,逐步引出自相关问题的解决思路。其中,观测是否存在自相关,可以选择图示法或者解析法;如何解决自相关问题,可以通过广义差分法或者杜宾两步法等等。如何正确、快速的选择合适的方法,不仅因具体的数据而不同,也取决于解决问题者的敏锐感觉和熟练程度。