时间序列回归
平稳时间序列 非平稳时间序列
利用回归模型进行预测 由于遗漏变量的存在,回归系数不具有因果解释,但这个回归有助于父母预测没有公布的学区测试成绩。更一般地,即使没有一个系数具有因果关系的回归模型也能用于预测。从预测的角度看,模型能否提供尽可能准确的预测才是最重要的。虽然不存在完美预测,但回归模型能提供准确和可靠的预测。 时间序列模型主要用于经济预测,因此,因果关系不是我们关心的重点。
时间序列 时间序列可以分为平稳时间序列和非平稳时间序列。 时间序列指的是同一个体在不同时点上的数据。对于离散时间{1, 2,,T},记随机变量y 的相应观测值为{y1,y2, … ,yT}, 时间序列可以分为平稳时间序列和非平稳时间序列。
几个时间序列的例子
从第4个图可以看出:股指日收益率在某一段时间内剧烈波动,而在另一段时间内又风平浪静。从理论上,这可以抽象为,当本期或过去若干期的波动(方差)较大时,未来几期的波动(方差)很可能也较大;反之亦然。换言之,方差大的观测值似乎集聚在一起,而方差小的观测值似乎也集聚在一起。这被称为“波动集群”(volatility clustering)或“扎堆”。
时间序列数据的这种特殊的异方差现象,被称为“自回归条件异方差”(ARCH) 。Bollerslev (1986)对ARCH 进行了推广,创建了GARCH模型。
滞后、一阶差分、对数和增长率 时间序列变量 Y在时间t上的观测值为Yt ,总观测次数记为T。即观测t和观测t+1之间的时间段为时间的单位,如周、月、季度、年。 滞后: Yt的前一期值称为一阶滞后值,记为Yt-1。其j阶滞后值为j期前的取值,为Yt-j。类似的,Yt+1表示未来一期的Y值。 一阶差分: t-1期和t期间Y值的变化为: Yt-Yt-1;这个变化称为变量Yt的一阶差分。
通常我们先计算经济时间序列的对数或对数变化后再来分析它们。这么做的一个理由是许多经济序列,如国内生产总值,具有近似指数的增长速度,即序列长期而言趋向于平均每年以一定的百分率增长。因此,序列的对数具有近似于线性的增长速度。
类似的,我们有: 因此,Yt的百分率变化近似等于
年通货膨胀率的两种计算方法
自相关
表中的这些数据表明通货膨胀是强正自相关的:一阶自相关系数为0 表中的这些数据表明通货膨胀是强正自相关的:一阶自相关系数为0.84。样本自相关系数随着滞后阶数的增加而下降,但是即使在四个季度的滞后,样本自相关系数仍然很大。 通货膨胀率的变化是负自相关的;如果某一季度的通货膨胀率上升,那么其下一季度往往下降。平均来看,某个季度通货膨胀的上升往往与下一季度通货膨胀的下降相联系。
自回归AR(P)模型 自回归模型用于考察某一个经济变量随时间变化的趋趋势,如通货膨胀率、GDP的增长趋势等。它的特点是仅有一个变量,一般将该变量的t期的值作为被解释变量,解释变量为该变量的滞后项。 一个典型的自回归模型:
一阶自回归模型 AR(1) AR(1) 为平稳时间序列的条件是: |β1| <1
式中的系数为负,因此一个季度的通货膨胀率上升伴随着下一季度通货膨胀率的下降。或者说,上一季度对本季度的影响为负。
自回归模型经常用于经济预测
时间序列预测和OLS预期值的区别 时间序列预测和预测误差属于“样本外”的观测, OLS而预期值和残差属于“样本内”的观测。 换句话说,OLS的Y的实际值可知,残差等于拟合值与实际值之差,而时间序列的预测是针对用于估计回归的数据以外的某个日期所作的。
在通货膨胀中的应用 假设预测是在2005年第一季度之前做的,过了2005年第一季度做一下验证。
这个AR(1)模型的预测能力如何? 从表中实际数据可知,2005:I的实际通货膨胀率为2.4%,因此AR(1)模型预测高了0.7个百分点,即预测误差为-0.7。
p阶自回归模型AR(p) AR(1)模型利用Yt-1预测Yt,但这么做忽略了较远的过去值中的潜在有用信息。因此我们引入AR(p)。
用上式预测2005:I的通货膨胀率
自回归分布滞后模型(ADL) “自回归”:因变量的滞后值当作解释变量。 “分布滞后”:回归中也包含了其他预测变量的多个滞后值(“分布滞后”)。 如果解释变量包含因变量Yt的p阶滞后和其他预测变量Xt的q阶滞后,该自回归分布滞后模型称为ADL(p, q)。
在自回归AR(p)模型中,为了提高预测力或解释力,也可引入其他解释变量,构成“自回归分布滞后模型”(Autoregressive Distributed Lag Model,简记ADL(p, q) : p为被解释变量y的自回归阶数,而q为解释变量x的滞后阶数。
利用历史失业率预测通货膨胀变化 短期Phillips曲线:较高的失业率通常伴随着未来通货膨胀率的下降。 例如,1982年的平均失业率为9. 7%,下一年通货膨胀率下降了2. 9%,二者的相关系数为-0.36。
我们可以建立一个ADL(4,1)模型:
考虑到多阶滞后失业率可能会对模型更有帮助,因此我们再加入失业率的其他三个滞后项后,建立一个ADL(4,4)模型:
滞后阶数的确定 在AR模型和ADL模型中,p和q取多少比较合适?
p的一种选择方法是从包含很多项滞后的模型开始,然后进行有关最后一项滞后的假设检验。例如,可以从估计AR(6)开始,接着在5%水平下检验六阶滞后系数是否显著;如果不显著就去掉它;然后估计AR(5),检验五阶滞后的系数,以此类推。
在实践中,可以结合以上两种方法来确定p。 一般来说,BIC 更倾向于筛选出“精简的”模型。如果二者结果不一致,为了保守起见(即尽量避免遗漏变量偏差),可取二者滞后阶数的大者。
平稳性时间序列的条件 平稳时间序列的期望、方差、自协方差、自相关系数等数字特征均不随时间推移而改变。
Granger因果检验 经济学中常常要确定因果关系究竟是从x 到y,还是从y 到x,还是双向因果关系。 Clive Granger 提出的检验方法基于以下思想: 如果x 是y 的因,但y 不是x 的因,则x 的过去值可以帮助预测y 的未来值,但y 的过去值却不能帮助预测x 的未来值。 格兰杰因果关系并非真正意义上的因果关系。 它充其量只是一种动态相关关系,表明一个变量是否对另一变量有“预测能力”(predictability)。
平稳时间序列的Stata应用
时间序列基础 1. 定义时间变量 tsset 表示时间的变量 2. 滞后项和差分项的表示 滞后项: L.变量名 L2.变量名 差分项: D.变量名 L3.变量名 打开本书数据集macro_2e,并定义时间变量: use macro_2e tsset time
建立通货膨胀率的j阶自相关系数 假设 j:1---4。 corr inf L.inf Corr inf L2.inf
建立AR(1)模型和AR(p) AR(1) reg D.inf DL.inf AR(4) reg D.inf DL.inf DL2.inf DL3.inf DL4.inf
建立ADL(p,q)模型 ADL(4,1) reg D.inf DL.inf DL2.inf DL3.inf DL4.inf L.unem reg D.inf DL.inf DL2.inf DL3.inf DL4.inf L.unem L2.unem L3.unem L4.unem
确定自回归的阶数(信息准则) 1. F检验 reg D.inf DL.inf DL2.inf DL3.inf DL4.inf DL5.inf DL6.inf 观察t值 2. 利用信息准则,对不同滞后阶数进行回归并且比较其AIC和BIC的值。 estat ic 比较上述AR和ADL模型,选择一个最佳模型。
格兰杰因果检验 打开consumption_china,分别检验“消费是GDP的格兰杰因”与“GDP是消费的格兰杰因”,将滞后期均设为3年,置信度设为10%。 方法1:reg y L(1/3).c L(1/3).y test L.c L2.c L3.c reg c L(1/3).y L(1/3).c test L.y L2.y L3.y
方法2:下载程序gcause findit gcause gcause c y,lag(3) gcause y c,lag(3) 察看消费对数和收入对数的格兰杰因果关系。
向量自回归过程 我们常常同时关心几个变量的预测,如GDP增长率与失业率。 一种方法是用单变量时间序列的方法对每个变量分别作预测。 另一种方法则是将这些变量放在一起,作为一个系统来预测,以使得预测相互自洽(mutually consistent),称为“多变量时间序列”(multivariate time series)。 由Sims(1980)所提倡的“向量自回归”(Vector Autoregression,简记VAR)正是这样一种方法。
表达式的两个方程,其解释变量完全相同。
VAR模型滞后阶数的选择 方法之一是使用信息准则,比如AIC或BIC。 方法之二是检验最后一阶系数的显著性(类似于由大到小的序贯规则)。在上例中,假设要确定使用VAR(p)还是VAR(p–1),则可检验原假设
VAR变量个数的选择 VAR系统中包含的变量个数越多,则需要估计的系数越多。
在设定VAR模型时,主要应根据经济理论来确定哪些变量应在VAR模型中。 比如,经济理论告诉我们,通货膨胀率、失业率、短期利息率互相关联,可以构成一个三变量的VAR模型。
VAR模型的stata命令 每期的投资(I)、可支配收入(Y)、消费(C)的变化都受到滞后两期的I、Y、C的变化的影响。
VAR模型的估计方法: 打开文件lutkepohl.dta。本数据为德国1960年第一季度到1982年第四季度的宏观数据库。 变量说明: qtr:标示时间的季度信息 investment、linvestment、dlinvestment:投资、投资的对数、投资的对数差分。 income、lincome、 dlincome:收入、收入的对数、收入的对数差分。 consumption、 lconsumption、dlconsumption:消费、消费的对数、消费的对数差分。
1。检验平稳性 dfuller investment dfuller linvestment dfuller dlinvestment 我们发现只有投资的对数差分dlinvestment平稳。同理可得: dlincome、dlconsumption平稳,因此,可以建立这三个变量的VAR模型。
2。选择滞后阶数 几种不同的选择标准:最终预测误差FPE,赤池信息准则AIC,施瓦茨信息准则SBIC,汉南-昆准则HQIC。 varsoc dlinvestment dlincome dlconsumption 最终确认最大滞后阶数为2。 3。估计VAR模型 var dlinvestment dlincome dlconsumption ,lag(1/2)
结果解读: 1. 建立完整的AVR模型(三个方程的方程组,待估系数为21个)。 2. 哪些方程通过了R2检验和chi2检验。 3. 详细说明该VAR模型的经济含义。 4. 检验各阶系数的联合显著性 varwle 5. 检验残差是否为白噪声 varlmar
4。画出脉冲响应图:控制其它因素不变的情况下,对某个内生变量的外部冲击,对其自身和其它内生变量的影响。 varbasic dlinvest dlincome dlconsumption , irf(未正交化)
5。平稳性检验 varstable varstable, graph varstable, graph dlabel