第十章 伪回归和单位根
本章结构 第一节 时间序列及其平稳性 第二节 时间序列平稳性检验 第三节 时间序列的单积和协积
第一节 时间序列及其平稳性 一、时间序列数据和随机过程 二、经典计量分析和时间序列的平稳性 三、时间序列非平稳和伪回归
一、时间序列数据和随机过程 计量经济分析中的截面数据是在同一时点抽样统计得到的,可以理解为一个随机变量反复抽样的结果。 时间序列数据则是在不同时间观测或统计的数据,不能看作同一个随机变量生成的,不能看作与截面数据一样的同一个随机变量的反复抽样,而应该看作不同随机变量生成的,看作是一个随机过程的一个实现。
所谓随机过程就是一系列具有顺序性和内在联系的随机变量的集合。 随机过程一般定义为随机变量族 ,其中T 是给定的实数集,对应每个 的 是随机变量。 当进一步明确参数t代表时间,T 是整数集合时,离散型随机过程 称为“时间序列”。
因为时间序列数据每个时点的观测统计值,都相当于该时点生成变量水平的一个随机变量的一个实现值,因此整个时间序列数据就是由各个时点的随机变量构成的随机过程的“一个实现”。
二、经典计量分析和时间序列的平稳性 计量经济回归分析的参数估计及相关推断检验,都是建立在随机变量总体均值、方差推断基础上的。 如果使用的是截面数据,那么因为截面数据是一个随机变量的抽样结果,因此根据中心极限定理等,可以用截面数据的样本均值和方差推断随机变量的总体均值和方差,以此为基础的计量回归分析和预测是有效的。
当计量分析使用的数据是时间序列数据时,情况就会有所不同。 因为时间序列并不是一个随机变量的反复抽样,而是随机过程的一个实现,每个数据都是特定时间随机变量的唯一实现值,时间序列样本均值和方差的含义与截面数据也不同,这样以随机变量总体均值和方差的推断为基础的计量经济分析的基础就会出现问题。
其实并不是以时间序列数据为基础的计量分析都会存在问题。 只要所使用的时间序列数据是平稳的,以时间序列数据为基础的计量经济分析就是有效的。 所谓平稳时间序列数据就是由平稳随机过程生成的时间序列数据。
随机过程的平稳性包括严平稳和弱平稳两种情况。 严平稳即随机过程 在任意时点概率分布的特性不受时间原点改变的影响,可以用任意m个时刻 观测值 的联合概率分布,与 时刻观测值 的联合概率分布相同 = 表示。
严平稳性隐含任意时刻随机变量的概率分布相同,意味着各个时点随机变量均值和方差(存在且有限时)都相同,即 和 都与t无关,两个随机变量的协方差: 与时间t无关,只与时间间隔k有关。 对可能存在的高阶矩也同样。 严平稳性要求是相当高的,比较难满足和证明。
现实应用中常采用另一种相对较弱的,使用比较方便,比较符合计量经济分析要求的弱平稳性或协方差平稳性。 弱平稳性即满足下列三条要求: (1) ; (2) ; (3) 。
严平稳性一般情况下强于弱平稳性,但也不一定隐含弱平稳,因为严平稳过程各随机变量的一、二阶矩并不一定存在。 平稳的时间序列有稳定的趋势(期望)、波动性(方差)和横向联系(协方差),可以用时间序列的样本均值和方差推断各时点随机变量的分布特征。 因此运用平稳时间序列数据的经典回归分析是有效的,以往时间序列数据的计量回归分析实际上隐含假设数据是平稳的。
三、时间序列非平稳和伪回归 时间序列的平稳性并不总是有保证的,许多常用的经济时间序列,如GDP、物价指数、股票价格等,都有非平稳的特性。 例如下面图10.1中INVGM和GER两个时间序列数据的连线图,就是经济时间序列的典型图形。 根据这两个图形很容易看出,这两个时间序列都不符合平稳时间序列要求的稳定均值的特征,GER的图形也不满足稳定方差的基本特征,因此这两个时间序列都是非平稳的。
图10.1 非平稳时间序列数据连线图
如果把非平稳的时间序列当作平稳序列,事实上会破坏古典线性回归模型的基本假设,用这样的模型进行回归,得到的统计量都是失效的,分析、检验和预测结果都是无效的,对计量回归分析的有效性有很大的影响。
非平稳时间序列的另一个问题是,虽然这种时间序列事实上会破坏经典回归分析的基础和有效性,但根据分析结果并不一定能发现问题。 事实上,有时即使时间序列严重非平稳,分析结果完全无效,t、F、 等指标却仍然很正常,模型的显著性和拟合程度看起来都很好。这种问题通常称为“伪回归” 问题。
Granger和Newbold提出了判断伪回归的一个经验法则:若回归分析结果 >DW 就可能存在伪回归问题。 判断伪回归比较可靠的方法是从导致伪回归的根源,也就是时间序列的非平稳性问题出发,通过检验时间序列是否平稳序列加以判断。
第二节 时间序列平稳性检验 一、图形检验 二、自相关图检验 三、单位根检验
一、图形检验 平稳随机过程的均值和方差函数是常数,意味着平稳时间序列的取值必然围绕一个水平的中心趋势,以相同的发散程度分布。 根据这一点,可以从数据分布图形直接对数据是否平稳进行判断。 例如当时间序列数据的连线图形出现类似图10.1的情况时,就肯定不是平稳时间序列,因为这两种图形表明时间序列数据都没有不变的中心趋势,或者说中心趋势是变化的,而且也没有稳定的方差。
如图10.2 ,该时间序列数据基本上是平稳的。
多数经济时间序列有上升或下降的趋势性,而不是围绕不变水平波动。 例如图10.3中的时间序列数据CAPAR就是有明显的上升趋势的时间序列数据。 不符合平稳性定义,但围绕稳定上升趋势的形态与平稳数据是相似的,预测作用也相似。把这种数据排除在平稳序列之外,平稳序列的应用价值必然受到很大限制。
图10.3 趋势平稳时间序列
这个问题可以通过对平稳性概念的扩展解决。 方法是把数据的趋势部分看成先分离出来,然后根据分离趋势后的纯随机部分判定平稳性。 例如一个时间序列t 时刻的随机变量可以表示为 ,其中 是一个平稳序列,那么该序列去掉时间趋势 之后的部分就是平稳的,称为“趋势平稳” 。 趋势平稳时间序列中的时间趋势既可以是线性,也可以是非线性的。
二、自相关图检验 原理:平稳时间序列过程的自协方差,或由协方差计算的自相关函数,应该很小、很快趋向于0,具有截尾或拖尾特征 。这些特征正是判断时间序列平稳性的重要依据。 由于自相关是相对量指标,方便横向比较和建立一般标准,因此通常利用自相关函数进行判断。 利用自相关函数判断时间序列平稳性的首要问题是计算自相关函数。
自相关函数是以协方差函数为基础定义的 ,其中 和 分别为协方差和方差函数。 因为只有时间序列的一个实现,因此不可能根据随机变量协方差、方差的定义计算,只能用样本,也就是时间序列观测值的时间平均代替总体平均,时间矩代替总体矩,得到自相关函数的估计。
自相关函数最好的估计方法是样本自相关函数: 其中:
对不同的k分别计算出样本自相关函数 的值以后,可以描绘出对应不同k的 的分布图形,根据图形的特征判断时间序列是否平稳。 常用计量分析软件都有给出序列相关图的功能,因此运用相关图检验时间序列的平稳性非常方便。
三、单位根检验 定义:如果随机过程中随机变量满足关系式: 或 。其中 是服从白噪声过程的修正项, 是常数,则称该随机过程为一个“单位根过程” 。 上述单位根过程只是单位根过程的基本形式,单位根过程还可以扩展到包含时间趋势项等的多种情况。
在给定 的前提下 的条件期望 不是与t 无关的常数,而且因为
事实上,大多数经济时间序列非平稳性的原因都是因为包含单位根过程。因此现代计量经济分析主要通过检验是否存在单位根,检验时间序列的平稳性。 检验单位根最常用的方法是迪基-富勒检验和扩展迪基-富勒检验。 我们先介绍基本的迪基-富勒检验方法。
首先检验时间序列是否属于最基本的单位根过程,也称为随机游走过程 ,其中 为白噪声过程。 如果自回归模型 中 ,或者变换成的回归模型 中的 ,那么时间序列{ }就是最基本的单位根过程——随机游走过程,肯定是非平稳的。 因此上述差分模型中 的显著性检验,就是检验时间序列是否存在上述单位根问题。
检验 显著性的方法是先用最小二乘法估计 再计算相应的t 统计量值,再根据样本容量等t 分布临界值,并判断 的显著性。 值得注意的问题是,如果时间序列确实是非平稳的单位根过程,那么上述回归分析得到的t 统计量是不服从t 分布的,因此不能用t 分布表的临界值判断 的显著性。 为此迪基和富勒通过蒙特卡罗模拟方法构造了专门的统计分布表,给出包括10%、5%、1%几个显著性水平的临界值,称为DF 临界值表。
为了区别起见,把上述模型回归分析计算的t 统计量改称为 统计量。 把上述回归模型计算到的 统计量与DF 临界值表中查到的临界值 比较, 时拒绝 的假设,认为 具有显著性,时间序列不服从上述单位根过程,时间序列是平稳的。 反之则认为 不显著,认为时间序列服从上述单位根过程,时间序列是非平稳的。 上述单位根检验方法就称为“迪基-富勒检验”,简称“DF 检验”。
随机游走过程只是最简单的一种单位根过程,许多非平稳时间序列包含更复杂的单位根过程,包含常数项、趋势项和高阶差分项等。 为了使迪基-富勒检验适用单位根过程的检验,必须作适当的扩展。方法是分别采用下列模型:
其中 代表常数因子, 是趋势项, 是m个分布滞后项。 这三种模型中对应 的 统计量的性质与随机游走模型对应统计量相同。 以这三个回归模型为基础,用各个模型中回归分析得到的 统计量和DF 临界值表,可以检验各自 的显著性。 例10-1。详见Eviews演示。
第三节 时间序列的单积和协积 把非平稳的时间序列数据用于平稳性数据为基础的计量经济回归分析,会影响分析的有效性,因此应该避免这种情况。 但检验时间序列平稳性的目的并不是淘汰数据,因为简单地排除数据会浪费这些数据包含的信息,甚至会导致计量分析无法进行,平稳性检验的根本目的是更好地利用数据。 单积和协积是利用非平稳时间序列数据的关键。
一、时间序列的单积性 对不少非平稳时间序列作差分变换得到的差分序列都是平稳序列。例如随机游走序列的差分序列是白噪声序列,肯定是平稳的,许多单位根过程的差分序列同样也是平稳的。 对于这种非平稳时间序列,它们的差分序列的计量分析一般是有效的。因为时间序列的差分序列与时间序列本身包含许多一致的信息,差分与原变量之间常常可以相互转换,因此利用差分数据进行计量分析也是有意义的。
不过并不是所有非平稳时间序列的差分序列都是平稳的,如果差分序列也不是平稳的,那么也不能用于以平稳性为基础的计量模型。 因此利用差分数据进行分析之前,必须对差分序列进行平稳性检验。检验的方法是把单位根检验用于时间序列的差分序列。
对于经过差分变换仍然非平稳的时间序列,还可以对差分序列再作差分变换,也就是对原序列作两次差分变换。如果两次差分变换得到的二次差分序列是平稳的,则二次差分序列可用于计量分析。 进一步,如果二次差分序列仍然是非平稳的,还可以进行三次差分,并根据三次差分序列的平稳性分别处理。 依次类推,一个非平稳时间序列可以在进行了d次差分才变为平稳序列。
这种经过d 次差分才平稳的时间序列,称为d 阶“单积” 的,并记为I(d)。 一次差分平稳的时间序列就是一阶单积的, I(1) ,二次差分平稳的就是二阶单积的, I(2)。本身平稳的时间序列也被称为0阶单积的,并记为I(0)。 时间序列的单积性和单积阶数对于了解时间序列的性质,更有效地利用时间序列数据都有非常重要的意义。
二、时间序列的协积性 如果一组时间序列 都是同阶单积的(I(d)),并且存在向量 使加权组合: 当 时是两个序列协积, 时是三个序列协积,其余可依次类推。
具有协积性的非平稳序列各自的非平稳趋势和波动有相互抵消的作用。 因此虽然非平稳本身有导致回归分析失效的影响,但如果模型中的几个非平稳时间序列具有协积性,回归分析仍然可以是有效的,不需要担心非平稳性会造成问题。 以两变量线性回归 为例。
因为 ,因此{ }平稳就是{ }平稳,这就意味着要么 和 本身都是平稳的,要么 和 都是同阶单积并有协积关系。这两种情况下模型的回归分析都是有效的。 因此只要误差序列{ }平稳该模型就是有效的。因为回归残差序列{ }的平稳性与误差序列{ }的平稳性是一致的。
因此时间序列之间的协积性检验就是检验它们的线性回归残差序列的平稳性。 在一定意义上可以理解为,时间序列伪回归和单位根的思想只是迫使我们检验回归残差序列的平稳性。 当然,时间序列的协积分析在时间序列分析中还有其他的作用,时间序列分析中的误差修正模型就与协积分析有密切的关系。