第九章 时间序列计量经济学模型的理论与方法 第一节 时间序列的平稳性及其检验 第二节 随机时间序列模型的识别和估计 第三节 协整分析与误差修正模型
§9.1 时间序列的平稳性及其检验 一、问题的引出:非平稳变量与经典回归模型 二、时间序列数据的平稳性 三、平稳性的图示判断 四、平稳性的单位根检验 五、单整、趋势平稳与差分平稳随机过程
一、问题的引出:非平稳变量与经典回归模型
⒈常见的数据类型 到目前为止,经典计量经济模型常用到的数据有: 时间序列数据(time-series data); 截面数据(cross-sectional data) 平行/面板数据(panel data/time-series cross-section data) ★时间序列数据是最常见,也是最常用到的数据。
⒉经典回归模型与数据的平稳性 经典回归分析暗含着一个重要假设:数据是平稳的。 数据非平稳,大样本下的统计推断基础——“一致性”要求——被破怀。 经典回归分析的假设之一:解释变量X是非随机变量 放宽该假设:X是随机变量,则需进一步要求: (1)X与随机扰动项 不相关∶Cov(X,)=0 (2) 依概率收敛:
第(1)条是OLS估计的需要 第(2)条是为了满足统计推断中大样本下的“一致性”特性: 注意:在双变量模型中: 因此: ▲如果X是非平稳数据(如表现出向上的趋势),则(2)不成立,回归估计量不满足“一致性”,基于大样本的统计推断也就遇到麻烦。
⒊ 数据非平稳,往往导致出现“虚假回归”问题 表现在:两个本来没有任何因果关系的变量,却有很高的相关性(有较高的R2): 例如:如果有两列时间序列数据表现出一致的变化趋势(非平稳的),即使它们没有任何有意义的关系,但进行回归也可表现出较高的可决系数。 在现实经济生活中: 情况往往是实际的时间序列数据是非平稳的,而且主要的经济变量如消费、收入、价格往往表现为一致的上升或下降。这样,仍然通过经典的因果关系模型进行分析,一般不会得到有意义的结果。
时间序列分析模型方法就是在这样的情况下,以通过揭示时间序列自身的变化规律为主线而发展起来的全新的计量经济学方法论。 时间序列分析已组成现代计量经济学的重要内容,并广泛应用于经济分析与预测当中。
二、时间序列数据的平稳性
时间序列分析中首先遇到的问题是关于时间序列数据的平稳性问题。 假定某个时间序列是由某一随机过程(stochastic process)生成的,即假定时间序列{Xt}(t=1, 2, …)的每一个数值都是从一个概率分布中随机得到,如果满足下列条件: 1)均值E(Xt)=是与时间t 无关的常数; 2)方差Var(Xt)=2是与时间t 无关的常数; 3)协方差Cov(Xt,Xt+k)=k 是只与时期间隔k有关,与时间t 无关的常数; 则称该随机时间序列是平稳的(stationary),而该随机过程是一平稳随机过程(stationary stochastic process)。
例9.1.1.一个最简单的随机时间序列是一具有零均值同方差的独立分布序列: Xt=t , t~N(0,2) 该序列常被称为是一个白噪声(white noise)。 由于Xt具有相同的均值与方差,且协方差为零,由定义,一个白噪声序列是平稳的。 例9.1.2.另一个简单的随机时间列序被称为随机游走(random walk),该序列由如下随机过程生成: Xt=Xt-1+t 这里, t是一个白噪声。
容易知道该序列有相同的均值:E(Xt)=E(Xt-1) 为了检验该序列是否具有相同的方差,可假设Xt的初值为X0,则易知 X1=X0+1 X2=X1+2=X0+1+2 … … Xt=X0+1+2+…+t 由于X0为常数,t是一个白噪声,因此Var(Xt)=t2 即Xt的方差与时间t有关而非常数,它是一非平稳序列。
然而,对X取一阶差分(first difference): Xt=Xt-Xt-1=t 由于t是一个白噪声,则序列{Xt}是平稳的。 后面将会看到:如果一个时间序列是非平稳的,它常常可通过取差分的方法而形成平稳序列。 事实上,随机游走过程是下面我们称之为1阶自回归AR(1)过程的特例 Xt=Xt-1+t 不难验证:1)||>1时,该随机过程生成的时间序列是发散的,表现为持续上升(>1)或持续下降(<-1),因此是非平稳的;
2)=1时,是一个随机游走过程,也是非平稳的。 第二节中将证明:只有当-1<<1时,该随机过程才是平稳的。 1阶自回归过程AR(1)又是如下k阶自回归AR(K)过程的特例: Xt= 1Xt-1+2Xt-2…+kXt-k 该随机过程平稳性条件将在第二节中介绍。
三、平稳性检验的图示判断
给出一个随机时间序列,首先可通过该序列的时间路径图来粗略地判断它是否是平稳的。 一个平稳的时间序列在图形上往往表现出一种围绕其均值不断波动的过程; 而非平稳序列则往往表现出在不同的时间段具有不同的均值(如持续上升或持续下降)。
定义随机时间序列的自相关函数(autocorrelation function, ACF)如下: k=k/0 进一步的判断: 检验样本自相关函数及其图形 定义随机时间序列的自相关函数(autocorrelation function, ACF)如下: k=k/0 自相关函数是关于滞后期k的递减函数(Why?)。 实际上,对一个随机过程只有一个实现(样本),因此,只能计算样本自相关函数(Sample autocorrelation function)。
一个时间序列的样本自相关函数定义为: 易知,随着k的增加,样本自相关函数下降且趋于零。但从下降速度来看,平稳序列要比非平稳序列快得多。
注意: 确定样本自相关函数rk某一数值是否足够接近于0是非常有用的,因为它可检验对应的自相关函数k的真值是否为0的假设。 Bartlett曾证明:如果时间序列由白噪声过程生成,则对所有的k>0,样本自相关系数近似地服从以0为均值,1/n 为方差的正态分布,其中n为样本数。 也可检验对所有k>0,自相关系数都为0的联合假设,这可通过如下QLB统计量进行:
该统计量近似地服从自由度为m的2分布(m为滞后长度)。 因此:如果计算的Q值大于显著性水平为的临界值,则有1-的把握拒绝所有k(k>0)同时为0的假设。 例9.1.3: 表9.1.1序列Random1是通过一随机过程(随机函数)生成的有19个样本的随机时间序列。
容易验证:该样本序列的均值为0,方差为0.0789。 从图形看:它在其样本均值0附近上下波动,且样本自相关系数迅速下降到0,随后在0附近波动且逐渐收敛于0。
由于该序列由一随机过程生成,可以认为不存在序列相关性,因此该序列为一白噪声。 根据Bartlett的理论:k~N(0,1/19) 因此任一rk(k>0)的95%的置信区间都将是 可以看出:k>0时,rk的值确实落在了该区间内,因此可以接受k(k>0)为0的假设。 同样地,从QLB统计量的计算值看,滞后17期的计算值为26.38,未超过5%显著性水平的临界值27.58,因此,可以接受所有的自相关系数k(k>0)都为0的假设。 因此,该随机过程是一个平稳过程。
序列Random2是由一随机游走过程 Xt=Xt-1+t 生成的一随机游走时间序列样本。 其中,第0项取值为0, t是由Random1表示的白噪声。
图形表示出:该序列具有相同的均值,但从样本自相关图看,虽然自相关系数迅速下降到0,但随着时间的推移,则在0附近波动且呈发散趋势。 样本自相关系数显示:r1=0.48,落在了区间[-0.4497, 0.4497]之外,因此在5%的显著性水平上拒绝1的真值为0的假设。 该随机游走序列是非平稳的。
图形:表现出了一个持续上升的过程,可初步判断是非平稳的。 样本自相关系数:缓慢下降,再次表明它的非平稳性。
从滞后18期的QLB统计量看: QLB(18)=57.18>28.86=20.05 拒绝:该时间序列的自相关系数在滞后1期之后的值全部为0的假设。 结论: 1978~2000年间中国GDP时间序列是非平稳序列。
例9.1.5 检验§2.10中关于人均居民消费与人均国内生产总值这两时间序列的平稳性。 原图 样本自相关图
从图形上看:人均居民消费(CPC)与人均国内生产总值(GDPPC)是非平稳的。 从滞后14期的QLB统计量看: CPC与GDPPC序列的统计量计算值均为57.18,超过了显著性水平为5%时的临界值23.68。再次表明它们的非平稳性。 就此来说,运用传统的回归方法建立它们的回归方程是无实际意义的。 不过,第三节中将看到,如果两个非平稳时间序列是协整的,则传统的回归结果却是有意义的,而这两时间序列恰是协整的。
四、平稳性的单位根检验
1、DF检验 单位根检验(unit root test)是统计检验中普遍应用的一种检验方法。 我们已知道,随机游走序列 Xt=Xt-1+t 对时间序列的平稳性除了通过图形直观判断外,运用统计量进行统计检验则是更为准确与重要的。 单位根检验(unit root test)是统计检验中普遍应用的一种检验方法。 1、DF检验 我们已知道,随机游走序列 Xt=Xt-1+t 是非平稳的,其中t是白噪声。 而该序列可看成是随机模型 Xt=Xt-1+t 中参数=1时的情形。
也就是说,我们对式 Xt=Xt-1+t (*) 做回归,如果确实发现=1,就说随机变量Xt有一个单位根。 (*)式可变形式成差分形式: Xt=(1-)Xt-1+ t =Xt-1+ t (**) 检验(*)式是否存在单位根=1,也可通过(**)式判断是否有 =0。
检验一个时间序列Xt的平稳性,可通过检验带有截距项的一阶自回归模型 Xt=+Xt-1+t (*) 中的参数是否小于1。 一般地: 检验一个时间序列Xt的平稳性,可通过检验带有截距项的一阶自回归模型 Xt=+Xt-1+t (*) 中的参数是否小于1。 或者:检验其等价变形式 Xt=+Xt-1+t (**) 中的参数是否小于0 。 在第二节中将证明,(*)式中的参数>1或=1时,时间序列是非平稳的; 对应于(**)式,则是>0或 =0。
因此,针对式 Xt=+Xt-1+t 我们关心的检验为:零假设 H0:=0。 备择假设 H1:<0 上述检验可通过OLS法下的t检验完成。 然而,在零假设(序列非平稳)下,即使在大样本下t统计量也是有偏误的(向下偏倚),通常的t 检验无法使用。 Dicky和Fuller于1976年提出了这一情形下t统计量服从的分布(这时的t统计量称为统计量),即DF分布(见表9.1.3)。 由于t统计量的向下偏倚性,它呈现围绕小于零值的偏态分布。
因此,可通过OLS法估计 Xt=+Xt-1+t 并计算t统计量的值,与DF分布表中给定显著性水平下的临界值比较: 如果:t<临界值,则拒绝零假设H0: =0, 认为时间序列不存在单位根,是平稳的。
注意:在不同的教科书上有不同的描述,但是结果是相同的。 例如:“如果计算得到的t统计量的绝对值大于临界值的绝对值,则拒绝ρ=0”的假设,原序列不存在单位根,为平稳序列。
2、ADF检验 进一步的问题:在上述使用 Xt=+Xt-1+t 对时间序列进行平稳性检验中,实际上假定了时间序列是由具有白噪声随机误差项的一阶自回归过程AR(1)生成的。 但在实际检验中,时间序列可能由更高阶的自回归过程生成的,或者随机误差项并非是白噪声,这样用OLS法进行估计均会表现出随机误差项出现自相关(autocorrelation),导致DF检验无效。 另外,如果时间序列包含有明显的随时间变化的某种趋势(如上升或下降),则也容易导致上述检验中的自相关随机误差项问题。 为了保证DF检验中随机误差项的白噪声特性,Dicky和Fuller对DF检验进行了扩充,形成了ADF(Augment Dickey-Fuller )检验。
ADF检验是通过下面三个模型完成的: 模型3 中的t是时间变量,代表了时间序列随时间变化的某种趋势(如果有的话)。 检验的假设都是:针对H1: <0,检验 H0:=0,即存在一单位根。模型1与另两模型的差别在于是否包含有常数项和趋势项。
实际检验时从模型3开始,然后模型2、模型1。 何时检验拒绝零假设,即原序列不存在单位根,为平稳序列,何时检验停止。否则,就要继续检验,直到检验完模型1为止。 检验原理与DF检验相同,只是对模型1、2、3进行检验时,有各自相应的临界值。 表9.1.4给出了三个模型所使用的ADF分布临界值表。
一个简单的检验过程: 同时估计出上述三个模型的适当形式,然后通过ADF临界值表检验零假设H0:=0。 1)只要其中有一个模型的检验结果拒绝了零假设,就可以认为时间序列是平稳的; 2)当三个模型的检验结果都不能拒绝零假设时,则认为时间序列是非平稳的。 这里所谓模型适当的形式就是在每个模型中选取适当的滞后差分项,以使模型的残差项是一个白噪声(主要保证不存在自相关)。
例9.1.6 检验1978~2000年间中国支出法GDP时间序列的平稳性。 1)经过偿试,模型3取了2阶滞后: 通过拉格朗日乘数检验(Lagrange multiplier test)对随机误差项的自相关性进行检验: LM(1)=0.92, LM(2)=4.16, 小于5%显著性水平下自由度分别为1与2的2分布的临界值,可见不存在自相关性,因此该模型的设定是正确的。 从的系数看,t>临界值,不能拒绝存在单位根的零假设。 时间T的t统计量小于ADF分布表中的临界值,因此不能拒绝不存在趋势项的零假设。需进一步检验模型2 。
2)经试验,模型2中滞后项取2阶: LM检验表明模型残差不存在自相关性,因此该模型的设定是正确的。 从GDPt-1的参数值看,其t统计量为正值,大于临界值,不能拒绝存在单位根的零假设。 常数项的t统计量小于AFD分布表中的临界值,不能拒绝不存常数项的零假设。需进一步检验模型1。
3)经试验,模型1中滞后项取2阶: LM检验表明模型残差项不存在自相关性,因此模型的设定是正确的。 从GDPt-1的参数值看,其t统计量为正值,大于临界值,不能拒绝存在单位根的零假设。 可断定中国支出法GDP时间序列是非平稳的。
例9.1.7 检验§2.10中关于人均居民消费与人均国内生产总值这两时间序列的平稳性。 1)对中国人均国内生产总值GDPPC来说,经过偿试,三个模型的适当形式分别为
三个模型中参数的估计值的t统计量均大于各自的临界值,因此不能拒绝存在单位根的零假设。 结论:人均国内生产总值(GDPPC)是非平稳的。
2)对于人均居民消费CPC时间序列来说,三个模型的适当形式为
三个模型中参数CPCt-1的t统计量的值均比ADF临界值表中各自的临界值大,不能拒绝该时间序列存在单位根的假设,
五、单整、趋势平稳与差分平稳随机过程
⒈单整 随机游走序列 Xt=Xt-1+t 经差分后等价地变形为 Xt=t 由于t是一个白噪声,因此差分后的序列{Xt}是平稳的。
如果一个时间序列经过一次差分变成平稳的,就称原序列是一阶单整(integrated of 1)序列,记为I(1)。 一般地,如果一个时间序列经过d次差分后变成平稳序列,则称原序列是d 阶单整(integrated of d)序列,记为I(d)。 显然,I(0)代表一平稳时间序列。 现实经济生活中: 1)只有少数经济指标的时间序列表现为平稳的,如利率等; 2)大多数指标的时间序列是非平稳的,如一些价格指数常常是2阶单整的,以不变价格表示的消费额、收入等常表现为1阶单整。 大多数非平稳的时间序列一般可通过一次或多次差分的形式变为平稳的。 但也有一些时间序列,无论经过多少次差分,都不能变为平稳的。这种序列被称为非单整的(non-integrated)。
例9.1.8 中国支出法GDP的单整性。 经过试算,发现中国支出法GDP是1阶单整的,适当的检验模型为
例9.1.9 中国人均居民消费与人均国内生产总值的单整性。 经过试算,发现中国人均国内生产总值GDPPC是2阶单整的,适当的检验模型为 同样地,CPC也是2阶单整的,适当的检验模型为
⒉ 趋势平稳与差分平稳随机过程 前文已指出,一些非平稳的经济时间序列往往表现出共同的变化趋势,而这些序列间本身不一定有直接的关联关系,这时对这些数据进行回归,尽管有较高的R2,但其结果是没有任何实际意义的。这种现象我们称之为虚假回归或伪回归(spurious regression)。 如:用中国的劳动力时间序列数据与美国GDP时间序列作回归,会得到较高的R2 ,但不能认为两者有直接的关联关系,而只不过它们有共同的趋势罢了,这种回归结果我们认为是虚假的。
换言之,如果一个包含有某种确定性趋势的非平稳时间序列,可以通过引入表示这一确定性趋势的趋势变量,而将确定性趋势分离出来。 为了避免这种虚假回归的产生,通常的做法是引入作为趋势变量的时间,这样包含有时间趋势变量的回归,可以消除这种趋势性的影响。 然而这种做法,只有当趋势性变量是确定性的(deterministic)而非随机性的(stochastic),才会是有效的。 换言之,如果一个包含有某种确定性趋势的非平稳时间序列,可以通过引入表示这一确定性趋势的趋势变量,而将确定性趋势分离出来。
考虑如下的含有一阶自回归的随机过程: Xt=+t+Xt-1+t (*) 其中:t是一白噪声,t为一时间趋势。 1)如果=1,=0,则(*)式成为一带位移的随机游走过程: Xt=+Xt-1+t (**) 根据的正负,Xt表现出明显的上升或下降趋势。这种趋势称为随机性趋势(stochastic trend)。 2)如果=0,0,则(*)式成为一带时间趋势的随机变化过程: Xt=+t+t (***) 根据的正负,Xt表现出明显的上升或下降趋势。这种趋势称为确定性趋势(deterministic trend)。
3) 如果=1,0,则Xt包含有确定性与随机性两种趋势。 判断一个非平稳的时间序列,它的趋势是随机性的还是确定性的,可通过ADF检验中所用的第3个模型进行。 该模型中已引入了表示确定性趋势的时间变量t,即分离出了确定性趋势的影响。 因此,(1)如果检验结果表明所给时间序列有单位根,且时间变量前的参数显著为零,则该序列显示出随机性趋势; (2)如果没有单位根,且时间变量前的参数显著地异于零,则该序列显示出确定性趋势。
随机性趋势可通过差分的方法消除 如:对式 Xt=+Xt-1+t 可通过差分变换为 Xt= +t 该时间序列称为差分平稳过程(difference stationary process);
确定性趋势无法通过差分的方法消除,而只能通过除去趋势项消除, 确定性趋势无法通过差分的方法消除,而只能通过除去趋势项消除, 如:对式 Xt=+t+t 可通过除去t变换为 Xt - t =+t 该时间序列是平稳的,因此称为趋势平稳过程(trend stationary process)。 最后需要说明的是,趋势平稳过程代表了一个时间序列长期稳定的变化过程,因而用于进行长期预测则是更为可靠的。