第七章:回归分析的其它问题 第一节 虚拟变量 第二节 设定误差 第三节 滞后变量模型介绍 第四节 随机解释变量 第五节 时间序列模型初步
第一节 虚拟变量 一、虚拟变量及其作用 1.定义:取值为0和1的人工变量,表示非量化(定性)因素对模型的影响,一般用符号D表示。例如:政策因素、地区因素、心理因素、季节因素等。 2.作用: ⑴描述和测量定性因素的影响; ⑵正确反映经济变量之间的相互关系,提高模型的精度; ⑶便于处理异常数据。
二、虚拟变量的设置原则 引入虚拟变量一般取0和1。 对定性因素一般取级别数减1个虚拟变量。例子1:性别因素,二个级别(男、女)取一个虚拟变量,D=1表示男(女),D=0表示女(男)。 例子2:季度因素,四个季度取3个变量。 小心“虚拟变量陷阱”!
三、虚拟变量的应用 1、在常数项引入虚拟变量,改变截距。 对上式作OLS,得到参数估计值和回归模型: (7.1.2)相当于两个回归模型:
2、在斜率处引入虚拟变量,改变斜率。 作OLS后得到参数估计值,回归模型为: 同样可以写成二个模型: 可考虑同时在截距和斜率引入虚拟变量:
3、虚拟变量用于季节性因素分析。 取 原模型若为 则引入虚拟变量后的模型为: 回归模型可视为:
例题:美国制造业的利润—销售额行为 模型: 利用1965—1970年六年的季度数据,得结果: 括号内为t统计值。 显然,三季度和四季度与一季度差异并不明显,重新回归,仅考虑二季度,有结果:
4、引用虚拟变量处理“时间拐点”问题。 常见的情况: a. 若T0为两个时间段之间的某个拐点,虚拟变量为: b. 用虚拟变量表示某个特殊时期的影响; 模型中虚拟变量可放在截距项或斜率处。
5、分阶段计酬问题。 若工作报酬与业务量挂钩,且不同业务量提成比例不一样(递增),设S1、S2为二个指标临界点 工资模型为:
作OLS得到参数估计值后,三个阶段的报酬回归模型为:
例子:佣金与销售额的关系: 模型: 样本回归函数:
第二节 设定误差 一、设定误差的定义: 计量经济模型在建立模型时发生变量选择或其它错误,导致OLS结果可能有问题。 二、设定误差的类型及后果 第二节 设定误差 一、设定误差的定义: 计量经济模型在建立模型时发生变量选择或其它错误,导致OLS结果可能有问题。 二、设定误差的类型及后果 一般的设定误差包括:1、多设无必要的解释变量;2、漏设重要的解释变量;3、引入错误的解释变量;4、错误的函数形式; 5、样本数据发生偏差。具体形式及后果见下页。
假设一正确模型为: 1、多设变量后,模型为: 为无关变量。 后果:OLS估计值仍是无偏估计,多设变量前的参数估计值均值为0。 2、漏设变量后,假设少x1,模型为: 后果:OLS估计值不是无偏估计,失效。 3、设错变量: 后果:参数的OLS估计值不是无偏的。(同2)
4、错误的函数形式如: 5、样本数据发生偏差时,可能有: 其中, 上述4、5二种类型因错误明显,无法用OLS求参数估计值。 一般 讨论1、2两种设定误差即可。
第三节 滞后变量模型介绍 一、滞后变量及模型 第三节 滞后变量模型介绍 一、滞后变量及模型 经济活动中,有些因素的影响不仅体现在当期,而且波及以后的时期。这种有滞后影响作用的因素构成的变量即为滞后变量,而含有滞后变量的模型称为滞后变量模型,分为有限滞后模型和无限滞后模型两类。 二、产生滞后变量的可能原因:一类原因为心理因素,人的行为或经济活动所具有的惯性;另一类因素为客观因素,包括技术因素和制度因素两种。
三、滞后变量模型面临的问题 滞后变量模型若直接使用OLS,可能会出现一些问题: 1、多重共线性问题; 2、自由度损失问题; 3、滞后变量模型中,最大滞后程度或者说最大滞后期限较难确定。 由于上述原因,滞后变量模型一般会采用其它的估计方法。
四、滞后变量模型的类型 1、分布滞后模型。滞后变量仅为解释变量,形式为: 2、自回归模型。滞后变量为被解释变量的滞后值,且被解释变量的滞后值作为解释变量用。形式为: 滞后变量模型常用的估计方法有Alt-Tinbergen方法、Almon估计法、Koyck方法等。
第四节 随机解释变量 一、随机解释变量:即解释变量为随机变量,违背了基本假设。实际的经济活动中,随机解释变量较为常见。 第四节 随机解释变量 一、随机解释变量:即解释变量为随机变量,违背了基本假设。实际的经济活动中,随机解释变量较为常见。 单方程线性计量经济学模型假设之一是: 即解释变量与随机项不相关。 这一假设实际是要求: 或者X是确定性变量,不是随机变量; 或者X虽是随机变量,但与随机误差项不相关。 违背这一假设设的问题被称为随机解释变量问题。
二、随机解释变量的成因: 1、滞后被解释变量; 2、观测误差的存在,使得解释变量的样本值出现不确定性; 3、有些经济变量不能用确定性的方法控制样本值,所以观测值具有随机性。
三、随机解释变量 的三种后果 1、解释变量是随机的,但与随机误差变量不相关,即有: 因为OLS估计值为: 且有
2、解释变量为随机变量,小样本情况下与随机误差变量相关,但渐近不相关,即: 此时 为B的渐近无偏估计。 3、解释变量是随机变量,且与随机误差变量在任何情况下都高度相关,即有: 则OLS估计值 为B的有偏估计。
强调:滞后被解释变量作解释变量,并且与随机误差项相关 如果模型中的随机解释变量是滞后被解释变量,并且与随机误差项相关时,除了OLS法参数估计量是有偏外,还带来两个后果: ①模型必然具有随机误差项的自相关性。因为该滞后被解释变量与滞后随机误差项相关,又与当期随机误差项相关。 ②D.W.检验失效。因为不管D.W.统计量的数值是多少,随机误差项的自相关性总是存在的。
随机解释变量模型举例: A、耐用品存量调整模型: 耐用品的存量Qt由前一个时期的存量Qt-1和当期收入It共同决定: 这是一个滞后被解释变量作为解释变量的模型。 但是,如果模型不存在随机误差项的序列相关性,那么随机解释变量Q t-1只与ut-1相关,与ut不相关,属于上述的第1种情况。
合理预期理论认为消费是由对收入的预期所决定的,或者说消费是有计划的,而这个计划是根据对收入的预期制定的。于是有: B、合理预期的消费函数模型 合理预期理论认为消费是由对收入的预期所决定的,或者说消费是有计划的,而这个计划是根据对收入的预期制定的。于是有: e t Y 其中 表示 t 期收入预期值。 而预期收入与实际收入之间存在差距,表现为: e t Y 1 ) ( - + = l 该式是由合理预期理论给出的。
容易推得: 存量调整模型和合理预期模型都是较有代表性的滞后变量模型。 在该模型中,作为解释变量的 不仅是一个随机解释变量,而且与模型的随机误差项 高度相关(因为Ct-1与ut-1高度相关)。属于上述第3种情况。 存量调整模型和合理预期模型都是较有代表性的滞后变量模型。
第五节 时间序列模型初步 时间序列模型:所谓时间序列,就是各种社会、经济、自然现象的数量指标按照时间序列排列起来的经计数据。所谓时间序列分析模型,就是揭示时间序列自身的变化规律和相互联系的数学表达式(李子奈)。时间序列模型分确定性模型和随机模型两大类。 我们主要介绍随机模型和序列稳定性检验。
随机时间序列模型(time series modeling)是指仅用它的过去值及随机扰动项所建立起来的模型,其一般形式为 1、时间序列模型的基本概念 随机时间序列模型(time series modeling)是指仅用它的过去值及随机扰动项所建立起来的模型,其一般形式为 建立具体的时间序列模型,需解决如下三个问题: (1)模型的具体形式 (2)时序变量的滞后期 (3)随机扰动项的结构 例如,取线性方程、一期滞后以及白噪声随机扰动项( t =t),模型将是一个1阶自回归过程AR(1): Xt=Xt-1+ t 这里, t特指一白噪声(零均值、等方差、不相关),
一般的p阶自回归过程AR(p)是 (1)如果随机扰动项是一个白噪声(t=t),则称(*)式为一纯AR(p)过程(pure AR(p) process),记为 (2)如果t不是一个白噪声,通常认为它是一个q阶的移动平均(moving average)过程MA(q): 该式给出了一个纯MA(q)过程(pure MA(p) process)。
将纯AR(p)与纯MA(q)结合,得到一个一般的自回归移动平均(autoreg ressive moving average)过程ARMA(p,q): Xt=1Xt-1+ 2Xt-2 + … + pXt-p + t - 1t-1 - 2t-2 - - qt-q 该式表明: (1)一个随机时间序列可以通过一个自回归移动平均过程生成,即该序列可以由其自身的过去或滞后值以及随机扰动项来解释。 (2)如果该序列是平稳的,即它的行为并不会随着时间的推移而变化,那么我们就可以通过该序列过去的行为来预测未来。 这也正是随机时间序列分析模型的优势所在。
滞后算子(lag operator )L: 引入滞后算子(lag operator )L,具有: (*)式变换为: 考虑p阶自回归模型AR(p) (*) 引入滞后算子(lag operator )L,具有: (*)式变换为: 记 (*)式又变换为:
对于移动平均模型MR(q): 其中t是一个白噪声,引入L有: 记 则有: 自回归移动平均过程ARMA(p,q)的滞后算子式为:
2、时间序列分析模型的适用性 经典回归模型的问题: 迄今为止,对一个时间序列Xt的变动进行解释或预测,是通过某个单方程回归模型或联立方程回归模型进行的,由于它们以因果关系为基础,且具有一定的模型结构,因此也常称为结构式模型(structural model)。 然而,如果Xt波动的主要原因可能是我们无法解释的因素,如气候、消费者偏好的变化等,则利用结构式模型来解释Xt的变动就比较困难或不可能,因为要取得相应的量化数据,并建立令人满意的回归模型是很困难的。 有时,即使能估计出一个较为满意的因果关系回归方程,但由于对某些解释变量未来值的预测本身就非常困难,甚至比预测被解释变量的未来值更困难,这时因果关系的回归模型及其预测技术就不适用了。
例如,时间序列过去是否有明显的增长趋势,如果增长趋势在过去的行为中占主导地位,能否认为它也会在未来的行为里占主导地位呢? 在这些情况下,我们采用另一条预测途径:通过时间序列的历史数据,得出关于其过去行为的有关结论,进而对时间序列未来行为进行推断。 例如,时间序列过去是否有明显的增长趋势,如果增长趋势在过去的行为中占主导地位,能否认为它也会在未来的行为里占主导地位呢? 或者时间序列显示出循环周期性行为,我们能否利用过去的这种行为来外推它的未来走向? ●随机时间序列分析模型,就是要通过序列过去的变化特征来预测未来的变化趋势。 使用时间序列分析模型的另一个原因在于: 如果经济理论正确地阐释了现实经济结构,则这一结构可以写成类似于ARMA(p,q)式的时间序列分析模型的形式。
二、时间序列数据的平稳性
1、平稳的定义 1)均值E(Xt)=是与时间t 无关的常数; 2)方差Var(Xt)=2是与时间t 无关的常数; 假定某个时间序列是由某一随机过程(stochastic process)生成的,即假定时间序列{Xt}(t=1, 2, …)的每一个数值都是从一个概率分布中随机得到,如果满足下列条件: 1)均值E(Xt)=是与时间t 无关的常数; 2)方差Var(Xt)=2是与时间t 无关的常数; 3)协方差Cov(Xt,Xt+k)=k 是只与时期间隔k有关,与时间t 无关的常数; 则称该随机时间序列是平稳的(stationary),而该随机过程是一平稳随机过程(stationary stochastic process)。
例1.一个最简单的随机时间序列是一具有零均值同方差的独立分布序列: Xt=t , t~N(0,2) 该序列常被称为是一个白噪声(white noise)。 由于Xt具有相同的均值与方差,且协方差为零,由定义,一个白噪声序列是平稳的。 例2.另一个简单的随机时间列序被称为随机游走(random walk),该序列由如下随机过程生成: Xt=Xt-1+t 这里, t是一个白噪声。
容易知道该序列有相同的均值:E(Xt)=E(Xt-1) 为了检验该序列是否具有相同的方差,可假设Xt的初值为X0,则易知 X1=X0+1 X2=X1+2=X0+1+2 … … Xt=X0+1+2+…+t 由于X0为常数,t是一个白噪声,因此Var(Xt)=t2 即Xt的方差与时间t有关而非常数,它是一非平稳序列。
然而,对X取一阶差分(first difference): Xt=Xt-Xt-1=t 由于t是一个白噪声,则序列 是平稳的。 后面将会看到:如果一个时间序列是非平稳的,它常常可通过取差分的方法而形成平稳序列。 事实上,随机游走过程是下面我们称之为1阶自回归AR(1)过程的特例 Xt=Xt-1+t 不难验证:1)||>1时,该随机过程生成的时间序列是发散的,表现为持续上升(>1)或持续下降(<-1),因此是非平稳的;
2、随机序列平稳性的单位根检验(unit root test) 单位根检验统计检验中普遍应用的一种检验方法。 1)、DF检验 我们已知道,随机游走序列 Xt=Xt-1+t 是非平稳的,其中t是白噪声。 而该序列可看成是随机模型 Xt=Xt-1+t 中参数=1时的情形。
也就是说,我们对式 (*) 做回归,如果确实发现 ,就说随机变量Xt有一个单位根。 (*)式可变形式为差分: (**) 检验(*)式是否存在单位根=1,也可通过(**)式判断是否有 =0。
检验一个时间序列Xt的平稳性,可通过检验带有截距项的一阶自回归模型 (*) 中的参数是否小于1。 一般地: 检验一个时间序列Xt的平稳性,可通过检验带有截距项的一阶自回归模型 (*) 中的参数是否小于1。 或者:检验其等价变形式 (**) 中的参数是否小于0 。 可以证明,(*)式中的参数>1或=1时,时间序列是非平稳的; 对应于(**)式,则是>0或 =0,时间序列是非平稳的; 。
在式 中。 零假设 ;备择假设 上述检验可通过OLS法下的t检验完成。 在式 中。 零假设 ;备择假设 上述检验可通过OLS法下的t检验完成。 然而,在零假设(序列非平稳)下,即使在大样本下t统计量也是有偏误的(向下偏倚),通常的t 检验无法使用。
Dicky和Fuller于1976年提出了这一情形下t统计量服从的分布(这时的t统计量称为统计量),即DF分布(见表9.1.3)。
因此,可通过OLS法估计 并计算t统计量的值,与DF分布表中给定显著性水平下的临界值比较: 如果:t<临界值,则拒绝零假设H0: =0, 认为时间序列不存在单位根,是平稳的。 注意:在不同的教科书上有不同的描述,但是结果是相同的。 例如:“如果计算得到的t统计量的绝对值大于临界值的绝对值,则拒绝ρ=0”的假设,原序列不存在单位根,为平稳序列。
2、ADF检验 DF检验假定了时间序列是由具有白噪声随机误差项的一阶自回归过程AR(1)生成的。 但在实际检验中,时间序列可能由更高阶的自回归过程生成的,或者随机误差项并非是白噪声,这样用OLS法进行估计均会表现出随机误差项出现自相关(autocorrelation),导致DF检验无效。 另外,如果时间序列包含有明显的随时间变化的某种趋势(如上升或下降),则也容易导致上述检验中的自相关随机误差项问题。 为了保证DF检验中随机误差项的白噪声特性,Dicky和Fuller对DF检验进行了扩充,形成了ADF(Augment Dickey-Fuller )检验。
ADF检验是通过下面三个模型完成的: 模型3 中的t是时间变量,代表了时间序列随时间变化的某种趋势(如果有的话)。 检验的假设都是:针对H1: <0,检验 H0:=0,即存在一单位根。模型1与另两模型的差别在于是否包含有常数项和趋势项。
注意: 可以说,DF检验是模型1中差分滞后期为0时的特殊情形,实际运用中只要没有趋势项变量t,两者差异不大。
检验原理与DF检验相同,只是对模型1、2、3进行检验时,有各自相应的临界值。 表9.1.4给出了三个模型所使用的ADF分布临界值表。但在Eviews软件中,临界值在结果中同时给出,使用软件后,下表意义不大。
一个简单的检验过程: 同时估计出上述三个模型的适当形式,然后通过ADF临界值表检验零假设H0:=0。 1)只要其中有一个模型的检验结果拒绝了零假设,就可以认为时间序列是平稳的; 2)当三个模型的检验结果都不能拒绝零假设时,则认为时间序列是非平稳的。 这里所谓模型适当的形式就是在每个模型中选取适当的滞后差分项,以使模型的残差项是一个白噪声(主要保证不存在自相关)。
ADF检验的Eviews实现 在主菜单选择Quick/Series Statistics/Unit Root Test,屏幕提示用户输入待检验序列名,输入后,会出现对话框: 选择滞后阶(Lagged diffierence),选择方程形式,点OK。
出现结果: 结果右面给出的是显著水平在1%、5%和10%下的临界值,如果ADF检验值小于某个临界值,即以该显著水平推翻原假设 ,接受备选假设 ,此时序列是平稳的。 上图中ADF值为0.009992>-2.8196,不能推翻原假设,被检序列是非平稳的。