第五章 经典单方程计量经济学模型:专门问题 第五章 经典单方程计量经济学模型:专门问题 §5.1 虚拟变量模型 §5.2 滞后变量模型 §5.3 模型设定误差
§5.1 虚拟变量模型 Dummy Variables Regression Models 一、虚拟变量的基本含义 二、虚拟变量的引入 三、虚拟变量的设置原则
一、虚拟变量的基本含义
1、虚拟变量(dummy variables) 许多经济变量是可以定量度量。 一些影响经济变量的因素是无法定量度量。 为了在模型中能够反映这些因素的影响,并提高模型的精度,需要将它们“量化”。 这种“量化”通常是通过引入“虚拟变量”来完成的。根据这些因素的属性类型,构造只取“0”或“1”的人工变量,通常称为虚拟变量,记为D。 虚拟变量只作为解释变量。
一般地,在虚拟变量的设置中: 例如,反映文程度的虚拟变量可取为: 虚拟变量能否取1、0以外的数值? 基础类型、肯定类型取值为1; 比较类型,否定类型取值为0。 例如,反映文程度的虚拟变量可取为: D=1,本科学历 D=0,非本科学历 虚拟变量能否取1、0以外的数值?
2、虚拟变量模型 同时含有一般解释变量与虚拟变量的模型称为虚拟变量模型或者方差分析(analysis-of variance: ANOVA)模型。 例如,一个以性别为虚拟变量考察企业职工薪金的模型: 其中:Yi为企业职工的薪金;Xi为工龄; Di=1,若是男性,Di=0,若是女性。
二、虚拟变量的引入
1、加法方式 虚拟变量作为解释变量引入模型有两种基本方式:加法方式和乘法方式。 上述企业职工薪金模型中性别虚拟变量的引入采取了加法方式。 在该模型中,如果仍假定E(i)=0,则企业男、女职工的平均薪金为:
假定2>0,则两个函数有相同的斜率,但有不同的截距。意即,男女职工平均薪金对工龄的变化率是一样的,但两者的平均薪金水平相差2。 可以通过对2的统计显著性进行检验,以判断企业男女职工的平均薪金水平是否有显著差异。 2 0
将上例中的性别换成教育水平,教育水平考虑三个层次:高中以下、高中、大学及其以上。 大学及以上
在上例中同时引入性别和教育水平:
女职工本科以下学历的平均薪金: 男职工本科以下学历的平均薪金: 女职工本科以上学历的平均薪金: 男职工本科以上学历的平均薪金:
2、乘法方式 加法方式引入虚拟变量,考察:截距的不同。 许多情况下,斜率发生变化,或斜率、截距同时发生变化。 斜率的变化可通过以乘法的方式引入虚拟变量来测度。
例如,根据消费理论,收入决定消费。但是,农村居民和城镇居民的边际消费倾向往往是不同的。这种消费倾向的不同可通过在消费函数中引入虚拟变量来考察。 农村居民: 城镇居民:
例如,根据消费理论,收入决定消费。但是,在自然灾害、战争等反常年份,消费倾向往往发生变化。这种消费倾向的变化可通过在消费函数中引入虚拟变量来考察。
例如,根据消费理论,收入决定消费。但是,从某一个时点开始,消费倾向发生变化。这种消费倾向的变化也可通过在消费函数中引入虚拟变量来考察。
3、同时引入加法与乘法形式的虚拟变量 当截距与斜率发生变化时,则需要同时引入加法与乘法形式的虚拟变量。 对于一元模型,有两组样本,则有可能出现下述四种情况中的一种: 1=1 ,且2=2 ,即两个回归相同,称为重合回归(Coincident Regressions); 11 ,但2=2 ,即两个回归的差异仅在其截距,称为平行回归(Parallel Regressions); 1=1 ,但22 ,即两个回归的差异仅在其斜率,称为汇合回归(Concurrent Regressions); 11,且22 ,即两个回归完全不同,称为相异回归(Dissimilar Regressions)。
例如,以1978-2009年的数据为样本,以GDP作为解释变量,建立居民消费函数。根据分析,1992年前后,自发消费和消费率都可能发生变化。 通过统计检验,判断两个时期中消费函数的截距和斜率是否发生变化。
例5.1.1以中国2007年各个地区城镇居民家庭人均可支配收入与人均生活消费支出,以及农村居民家庭人均纯收入与人均生活消费支出的相关数据,建立居民消费函数模型。 可以采用邹氏稳定性检验来考察农村居民与城镇居民边际消费倾向是否有差异。 也可以建立虚拟变量模型,考察农村居民与城镇居民边际消费倾向是否有差异。
估计得到 由变量显著性检验得到:2007年农村居民与城镇居民的边际消费倾向并无显著差异,他们有着共同的消费函数。
三、虚拟变量的设置原则
每一定性变量(qualitative variable)所需的虚拟变量个数要比该定性变量的状态类别数(categories)少1。即如果有m种状态,只在模型中引入m-1个虚拟变量。 例如,季节定性变量有春、夏、秋、冬4种状态,只需要设置3个虚变量: 如果设置第4个虚变量,则出现“虚拟变量陷井”(Dummy Variable Trap),为什么?
包含季节变量的正确模型: 解释变量完全共线性
如果在服装需求函数模型中必须包含3个定性变量:季节(4种状态)、性别(2种状态)、职业(5种状态),应该设置多少虚变量? 模型含常数项 模型不含常数项
讨论:定序定性变量可否按照状态赋值? 例如:表示居民对某种服务的满意程度,分5种状态:非常不满意、一般不满意、无所谓、一般满意、非常满意。在模型中按照状态分别赋值0、1、2、3、4或者-2、-1、0、1、2。 被经常采用,尤其在管理学、社会学研究领域。 正确的方法: 设置多个虚拟变量,理论上正确,带来自由度损失。 以定性变量为研究对象,构造多元排序离散选择模型,然后以模型结果对定性变量的各种状态赋值。但需要更多的信息支持。 赋值的方法等于是对虚变量方法中的各个虚变量的参数施加了约束,而这种约束经常被检验为错误的。
讨论:虚变量与状态的不同对应关系对估计结果有无影响? 例3.2.2中引入经济区位因素:东、中、西 Y = -240.6137536 + 249.8125832*D1 + 154.5909868*D2 + 0.6090284838*X1 + 0.2032206892*X2 Y = 9.198829575 - 249.8125832*DD1 - 95.22159634*DD2 + 0.6090284838*X1 + 0.2032206892*X2
从上述2个得到:东部与中部自发性消费相差154.6,中部与西部相差95.2。 虚变量与状态的不同对应关系对估计结果无影响。
§5.2 滞后变量模型 Lagged Variables Regression Models 一、滞后变量模型 二、分布滞后模型的参数估计 三、自回归模型的参数估计 四、格兰杰因果关系检验
一、滞后变量模型
1、滞后变量 滞后被解释变量(Lagged explained variable )和滞后解释变量( Lagged explanatory variable )作为模型的解释变量。 一般出现在时间序列数据样本的模型中。 模型中出现滞后变量的原因: 心理原因 技术原因 制度原因
2、滞后变量模型 以滞后变量作为解释变量,就得到滞后变量模型,也称动态模型。 自回归分布滞后模型(Autoregressive Distributed Lag Model, ADL):既含有Y对自身滞后变量的回归,还包括着X分布在不同时期的滞后变量。 有限自回归分布滞后模型:滞后期长度有限 无限自回归分布滞后模型:滞后期无限
分布滞后模型(distributed-lag model) :模型中没有滞后被解释变量,仅有解释变量X的当期值及其若干期的滞后值。 0:短期(short-run)或即期乘数(impact multiplier),表示本期X变化一单位对Y平均值的影响程度。 i (i=1,2…,s):动态乘数或延迟系数,表示各滞后期X的变动对Y平均值影响的大小。
称为长期(long-run)或均衡乘数(total distributed-lag multiplier),表示X变动一个单位,由于滞后效应而形成的对Y平均值总影响的大小。 如果各期的X值保持不变,则X与Y间的长期或均衡关系即为
自回归模型(autoregressive model) :模型中的解释变量仅包含X的当期值与被解释变量Y的一个或多个滞后值。 称为一阶自回归模型(first-order autoregressive model)。
二、分布滞后模型的参数估计
1、分布滞后模型估计的困难 无限期的分布滞后模型,由于样本观测值的有限性,使得无法直接对其进行估计。 有限期的分布滞后模型,OLS会遇到如下问题: 没有先验准则确定滞后期长度; 如果滞后期较长,将缺乏足够的自由度进行估计和检验; 同名变量滞后值之间可能存在高度线性相关,即模型存在高度的多重共线性。
2、分布滞后模型的修正估计方法 通过对各滞后变量加权,组成线性合成变量而有目的地减少滞后变量的数目,以缓解多重共线性,保证自由度。 经验加权法:根据实际问题的特点和实际经验给各滞后变量指定权数,滞后变量按权数线性组合,构成新的变量。 权数据的类型有:递减型、矩型、倒V型等。 经验权数法的优点是:简单易行;缺点是:设置权数的随意性较大。
阿尔蒙(Almon)多项式法 主要思想:针对有限滞后期模型,通过阿尔蒙变换,定义新变量,以减少解释变量个数,然后用OLS法估计参数。 主要步骤为: 第一步,阿尔蒙变换
i=0,1,…,s 例如取m=2
事实上,多项式分布滞后模型比原分布滞后模型的多重共线性问题可能增强了,而不是削弱了。 第二步,模型的OLS估计 对变换后的模型进行OLS估计,得α的估计值; 计算滞后分布模型参数β的估计值。 在实际估计中,阿尔蒙多项式的阶数m一般取2或3,不超过4,否则达不到减少变量个数的目的。 由于m+1<s,可以认为原模型存在的自由度不足和多重共线性问题已得到改善。 事实上,多项式分布滞后模型比原分布滞后模型的多重共线性问题可能增强了,而不是削弱了。
例5.2.2 发电量主要取决于电力部门固定资产,而固定资产是由历年的投资形成的,适合于建立分布滞后模型。 由于无法预知电力行业基本建设投资对发电量影响的时滞期,需取不同的滞后期试算。经过试算发现,在2阶阿尔蒙多项式变换下,滞后期数取到第7期,估计结果的经济意义比较合理。 估计2阶阿尔蒙多项式模型:
计算分布滞后模型参数估计值,进而得到分布滞后模型估计式 : 直接对分布滞后模型进行OLS估计的结果: 所有变量均未通过显著性检验,而且负值的出现也与实际经济意义不相符。
科伊克(Koyck)方法 科伊克方法是将无限分布滞后模型转换为自回归模型,然后进行估计。
科伊克模型的特点: 科伊克变换产生了两个新问题: 以一个滞后因变量Yt-1代替了大量的滞后解释变量Xt-i,最大限度地节省了自由度,解决了滞后期长度s难以确定的问题; 由于滞后一期的因变量Yt-1与Xt的线性相关程度肯定小于X的各期滞后值之间的相关程度,从而缓解了多重共线性。 科伊克变换产生了两个新问题: 模型存在随机项vt的一阶自相关性; 滞后被解释变量Yt-1与随机项vt不独立。
三、自回归模型的参数估计
1、自回归模型的构造 一个无限期分布滞后模型可以通过科伊克变换转化为自回归模型。 许多滞后变量模型都可以转化为自回归模型,自回归模型是经济生活中更常见的模型。 以适应预期模型以及局部调整模型为例进行说明。
自适应预期(Adaptive expectation)模型
局部调整(Partial Adjustment)模型
2、自回归模型的参数估计 自回归模型估计时的主要问题: 视滞后被解释变量与随机扰动项之间的相关性选择估计方法。 滞后被解释变量可能与随机扰动项相关; 随机扰动项可能出现序列相关性。 视滞后被解释变量与随机扰动项之间的相关性选择估计方法。 工具变量法:解释变量Yt-1与随机扰动项t相关(例如科伊克模型、自适应预期模型)。 普通最小二乘法:解释变量Yt-1与随机扰动项t同期无关(例如局部调整模型)。
工具变量法只解决了解释变量与t相关对参数估计所造成的影响,但没有解决t的自相关问题。 例5.2.3 货币流通量局部调整模型的建立; 货币流通量局部调整模型的估计。
四、格兰杰因果关系检验 Granger Test of Causality
1、原理 自回归分布滞后模型揭示:某变量的变化受其自身及其他变量过去行为的影响。 当两个变量在时间上有先导——滞后关系时,可以从统计上考察这种关系是单向的还是双向。 如果主要是一个变量过去的行为在影响另一个变量的当前行为,存在单向关系; 如果双方的过去行为在相互影响着对方的当前行为,存在双向关系。 向量自回归分布滞后模型可以用于变量间关系的检验。
2、格兰杰因果关系检验 X对Y有单向影响:α整体不为零,而λ整体为零; Y对X有单向影响:λ整体不为零,而α 整体为零;
格兰杰检验是通过受约束的F检验完成的。如: 如果F>F(m,n-k) ,则拒绝原假设。能否说“X是Y的格兰杰原因”?为什么?
如果F<F(m,n-k) ,则不拒绝原假设。 综合上述检验: X是Y的格兰杰原因。
格兰杰因果关系检验对于滞后期长度的选择有时很敏感。不同的滞后期可能会得到完全不同的检验结果。 一般首先以模型随机误差项不存在序列相关为标准选取滞后期,然后进行因果关系检验。
3、例5.2.4 检验1978~2006年间中国当年价GDP(X)与居民消费(Y)之间的因果关系。
数据
选择Granger检验
选择检验的序列
确定滞后阶数(1阶)
检验结果 由相伴概率知,在5%的显著性水平下,既拒绝“X不是Y的格兰杰原因”的假设,也拒绝“Y不是X的格兰杰原因”的假设。因此,从1阶滞后的情况看,可支配收入X的增长与居民消费支出Y增长互为格兰杰原因。 从检验模型随机干扰项1阶序列相关的LM检验看,以Y为被解释变量的模型的LM=0.897,对应的伴随概率P= 0.343,表明在5%的显著性水平下,该检验模型不存在序列相关性;但是,以X为被解释变量的模型的LM=11.37,对应的伴随概率P= 0.001,表明在5%的显著性水平下,该检验模型存在严重的序列相关性。
检验结果 从2阶滞后期开始,检验模型都拒绝了“X不是Y的格兰杰原因”的假设,而不拒绝“Y不是X的原因”的假设。 滞后阶数为2或3时,两类检验模型都不存在序列相关性。 由赤池信息准则,发现滞后2阶检验模型拥有较小的AIC值。 可判断:可支配收入X是居民消费支出Y的格兰杰原因,而不是相反,即国民收入的增加更大程度地影响着消费的增加。
Granger因果检验是必要条件,不是充分条件。 对于同阶单整的非平稳序列: 理论上讲不能直接采用。 经过差分以后采用,经济意义发生变化。 模拟试验表明,当2个序列逐渐由平稳过程向非平稳过 程过渡时,检验存在因果关系的概率出现一定程度的 上升。但上升幅度远小于2个序列之间因果关系的显著 性增强时所引起的上升幅度。 同阶单整非平稳序列的Granger因果检验结果具有一定 的可靠性。 Granger因果检验是必要条件,不是充分条件。
数据
检验结果 统计检验必须建立在经济关系分析的基础之上,结论才有意义。
§5.3 模型设定偏误问题 Model Specification Error(Bias) 一、模型设定偏误的类型 二、模型设定偏误的后果 三、模型设定偏误的检验
一、模型设定偏误的类型
Types of Specification errors(bias) Omission of a relevant variable(s) Inclusion of an unnecessary variable(s) Adopting the wrong functional form Errors of measurement Incorrect specification of the stochastic error term To distinguish between model specification errors and model mis-specification errors
1、相关变量的遗漏(omitting relevant variables) 例如,如果“正确”的模型为 而我们将模型设定为 即设定模型时漏掉了一个相关的解释变量。 这类错误称为遗漏相关变量。
2、无关变量的误选 (including irrevelant variables) 例如,如果“真”的模型为 Y=0+1X1+2X2+ 但我们将模型设定为 Y=0+ 1X1+ 2X2+ 3X3 + 即设定模型时,多选了一个无关解释变量。
3、错误的函数形式 (wrong functional form) 例如,如果“真实”的回归函数为 但却将模型设定为
二、模型设定偏误的后果
1、遗漏相关变量偏误(omitting relevant variable bias)
如果X2与X1相关, 1的估计量在小样本下有偏,在大样本下非一致。 随机扰动项的方差估计也是有偏的。 1估计量的方差是有偏的。
2、包含无关变量偏误(including irrelevant variable bias) 对包含无关变量的模型进行估计,参数估计量是无偏的,但不具有最小方差性。
3、错误函数形式偏误(wrong functional form bias) 产生的偏误是全方位的。
三、模型设定偏误的检验
1、检验是否含有无关变量 检验的基本思想:如果模型中误选了无关变量,则其系数的真值应为零。因此,只须对无关变量系数的显著性进行检验。 t检验:检验某1个变量是否应包括在模型中; F检验:检验若干个变量是否应同时包括在模型中。
2、检验是否有相关变量的遗漏或函数形式设定偏误 残差图示法
残差序列变化图 (a)趋势变化 :模型设定时可能遗漏了一随着时间的推移而持续上升的变量 (b)循环变化:模型设定时可能遗漏了一随着时间的推移而呈现循环变化的变量
模型函数形式设定偏误时残差序列呈现正负交替变化 图示:一元回归模型中,真实模型呈幂函数形式,但却选取了线性函数进行回归。
拉姆齐(Ramsey)于1969年提出的RESET 检验(regression error specification test)。 一般性设定偏误检验 拉姆齐(Ramsey)于1969年提出的RESET 检验(regression error specification test)。 RESET 检验基本思想: 如果事先知道遗漏了哪个变量,只需将此变量引入模型,估计并检验其参数是否显著不为零即可; 问题是不知道遗漏了哪个变量,需寻找一个替代变量Z,来进行上述检验。 RESET检验中,采用所设定模型中被解释变量Y的估计值Ŷ的若干次幂来充当该“替代”变量。
RESET检验也可用来检验函数形式设定偏误的问题。 估计原模型,得到残差和被解释变量的估计量; 根据它们的图形判断应该引入Ŷ的若干次幂; 对增加变量的模型进行估计,并进行F检验或者t检验来判断是否增加这些“替代”变量。 RESET检验也可用来检验函数形式设定偏误的问题。 将非线性模型设定为线性可以近似认为遗漏了解释变量的2次、3次项; 引入模型,再进行检验。
RESET 检验例题 根据1978~2006年间中国当年价GDP(X)与居民消费(Y)之间的因果关系检验结果,以Y为被解释变量,X为解释变量,建立中国总量消费函数模型。 下面仅演示如何进行RESET检验,其它内容见教科书例5.3.1。
随机项具有强烈的1阶自相关性,是否遗漏了重要的相关变量? 原模型估计 随机项具有强烈的1阶自相关性,是否遗漏了重要的相关变量?
选择RESET检验
选择引入的变量数
检验结果 拒绝原模型与引入新变量的模型可决系数无显著差异的假设,表明原模型确实存在遗漏相关变量的设定偏误。
线性模型与双对数线性模型的选择(仅供有兴趣的同学自学)