Download presentation
Presentation is loading. Please wait.
1
Multicollinearity 一、多重共线性的概念 二、多重共线性的后果 三、多重共线性的检验 四、克服多重共线性的方法 五、例题
§4.3 多重共线性 Multicollinearity 一、多重共线性的概念 二、多重共线性的后果 三、多重共线性的检验 四、克服多重共线性的方法 五、例题 六、分部回归与多重共线性
2
一、多重共线性的概念
3
1、多重共线性 如果某两个或多个解释变量之间出现了相关性,则称为多重共线性(Multicollinearity)。
perfect multicollinearity approximate multicollinearity
4
2、实际经济问题中的多重共线性 产生多重共线性的主要原因: (1)经济变量相关的共同趋势 (2)滞后变量的引入 (3)样本资料的限制
5
二、多重共线性的后果 Consequences of Multicollinearity
6
1、完全共线性下参数估计量不存在 如果存在完全共线性,则(X’X)-1不存在,无法得到参数的估计量。
7
近似共线性下,可以得到OLS参数估计量,但参数估计量方差的表达式为
由于|X’X|0,引起(X’X) -1主对角线元素较大,使参数估计值的方差增大,OLS参数估计量非有效。
8
以二元线性模型 y=1x1+2x2+ 为例: 恰为X1与X2的线性相关系数的平方r2 由于 r2 1,故 1/(1- r2 )1。
9
当完全不共线时, r2 =0 当近似共线时, 0< r2 <1 多重共线性使参数估计值的方差增大,1/(1-r2)为方差膨胀因子(Variance Inflation Factor, VIF) 当完全共线时, r2=1,
10
如果模型中两个解释变量具有线性相关性,例如 X2= X1 ,
3、参数估计量经济含义不合理 如果模型中两个解释变量具有线性相关性,例如 X2= X1 , 这时,X1和X2前的参数1、2并不反映各自与被解释变量之间的结构关系,而是反映它们对被解释变量的共同影响。 1、2已经失去了应有的经济含义,于是经常表现出似乎反常的现象:例如1本来应该是正的,结果恰是负的。
11
4、变量的显著性检验失去意义 存在多重共线性时 参数估计值的方差与标准差变大 容易使通过样本计算的t值小于临界值, 误导作出参数为0的推断
可能将重要的解释变量排除在模型之外
12
5、模型的预测功能失效 变大的方差容易使区间预测的“区间”变大,使预测失去意义。
13
注意: 除非是完全共线性,多重共线性并不意味着任何基本假设的违背; 因此,即使出现较高程度的多重共线性,OLS估计量仍具有线性性等良好的统计性质。 问题在于,即使OLS法仍是最好的估计方法,它却不是“完美的”,尤其是在统计推断上无法给出真正有用的信息。
14
三、多重共线性的检验 Detection of Multillinearity
15
说明 多重共线性表现为解释变量之间具有相关关系,所以用于多重共线性的检验方法主要是统计方法:如判定系数检验法、逐步回归检验法等。 多重共线性检验的任务是: (1)检验多重共线性是否存在; (2)估计多重共线性的范围,即判断哪些变量之间存在共线性。
16
(1)对两个解释变量的模型,采用简单相关系数法
1、检验多重共线性是否存在 (1)对两个解释变量的模型,采用简单相关系数法 求出X1与X2的简单相关系数r,若|r|接近1,则说明两变量存在较强的多重共线性。 (2)对多个解释变量的模型,采用综合统计检验法 如果在OLS法下,R2与F值较大,但t检验值较小,说明各解释变量对Y的联合线性作用显著,但各解释变量间存在共线性而使得它们对Y的独立作用不能分辨,故t检验不显著。
17
2、判明存在多重共线性的范围 (1) 判定系数检验法
使模型中每一个解释变量分别以其余解释变量为解释变量进行辅助回归(Auxiliary Regression),并计算相应的拟合优度。 如果某一种回归Xji=1X1i+2X2i+LXLi的判定系数较大,说明Xj与其他X间存在共线性。 可以构造F检验:
18
在模型中排除某一个解释变量Xj,估计模型;
(2) 排除变量法(Stepwise Backward Regression ) 在模型中排除某一个解释变量Xj,估计模型; 如果拟合优度与包含Xj时十分接近,则说明Xj与其它解释变量之间存在共线性。
19
(3)逐步回归法(Stepwise forward Regression)
以Y为被解释变量,逐个引入解释变量,构成回归模型,进行模型估计。 根据拟合优度的变化决定新引入的变量是否独立。 如果拟合优度变化显著,则说明新引入的变量是一个独立解释变量; 如果拟合优度变化很不显著,则说明新引入的变量与其它变量之间存在共线性关系。
20
四、克服多重共线性的方法 Remedial Measures of Multicollinearity
21
找出引起多重共线性的解释变量,将它排除。
1、第一类方法:排除引起共线性的变量 找出引起多重共线性的解释变量,将它排除。 以逐步回归法得到最广泛的应用。 注意:剩余解释变量参数的经济含义和数值都发生了变化。
22
2、第二类方法:差分法 时间序列数据为样本的线性模型; 将原模型变换为差分模型,可以有效地消除原模型中的多重共线性。
一般讲,对于经济数据,增量之间的线性关系远比总量之间的线性关系弱得多。 另外一个重要的意义,差分可以将非平稳序列变为平稳序列。在第9章将介绍。 差分模型随机项的序列相关问题
23
多重共线性的主要后果是参数估计量具有较大的方差。
3、第三类方法:减小参数估计量的方差 多重共线性的主要后果是参数估计量具有较大的方差。 采取适当方法减小参数估计量的方差,虽然没有消除模型中的多重共线性,但确能消除多重共线性造成的后果。 例如,增加样本容量,可使参数估计量的方差减小。 例如,岭回归法
24
*岭回归法(Ridge Regression)
20世纪70年代发展,以引入偏误为代价减小参数估计量的方差。 具体方法是:引入矩阵D,使参数估计量为 其中矩阵D一般选择为主对角阵,即D=aI,a为大于0的常数。 显然,与未含D的参数B的估计量相比,估计量有较小的方差。
25
五、案例——中国粮食生产函数 (自学)
26
步骤 以粮食产量作为被解释变量,以影响粮食产量的主要因素农业化肥施用量、粮食播种面积、成灾面积、农业机械总动力、农业劳动力为解释变量,建立中国粮食生产函数模型; 用OLS法估计模型; 检验简单相关系数; 找出最简单的回归形式; 采用逐步回归方法得到最终模型。
27
六、补充:分部回归与多重共线性 Partitioned Regression and Multillinearity
28
1、分部回归法(Partitioned Regression)
将解释变量分为两部分,对应的参数也分为两部分 在满足解释变量与随机误差项不相关的情况下,可以写出关于参数估计量的方程组:
29
这就是仅以X1作为解释变量时的参数估计量。
30
2、由分部回归法得到的启示 如果一个多元线性模型的解释变量之间完全正交,可以将该多元模型分为多个一元模型、二元模型、…进行估计,参数估计结果不变; 实际模型由于存在或轻或重的共线性,如果将它们分为多个一元模型、二元模型、…进行估计,参数估计结果将发生变化;
31
当模型存在共线性,将某个共线性变量去掉,剩余变量的参数估计结果将发生变化,而且经济含义有发生变化;
严格地说,实际模型由于总存在一定程度的共线性,所以每个参数估计量并不 真正反映对应变量与被解释变量之间的结构关系。
32
§4.4 随机解释变量问题 Random Explanatory Variables
一、随机解释变量问题 二、随机解释变量的后果 三、工具变量法 四、解释变量的内生性检验 五、例题
33
一、随机解释变量问题
34
1、随机解释变量问题 基本假设:解释变量X1,X2,…,Xk是确定性变量。
如果存在一个或多个随机变量作为解释变量,则称原模型出现随机解释变量问题。 假设X2为随机解释变量。对于随机解释变量问题,分三种不同情况:
35
(2) 随机解释变量与随机误差项同期无关(contemporaneously uncorrelated),但异期相关。
(1) 随机解释变量与随机误差项独立(Independence) (2) 随机解释变量与随机误差项同期无关(contemporaneously uncorrelated),但异期相关。 (3) 随机解释变量与随机误差项同期相关(contemporaneously correlated)。
36
在实际经济问题中,经济变量往往都具有随机性。
2、实际经济问题中的随机解释变量问题 在实际经济问题中,经济变量往往都具有随机性。 但是在单方程计量经济学模型中,凡是外生变量都被认为是确定性的。 于是随机解释变量问题主要表现于:用滞后被解释变量作为模型的解释变量的情况。 例如:
37
Qt=0+1It+2Qt-1+t t=1,T
(1) 耐用品存量调整模型 耐用品的存量Qt由前一个时期的存量Qt-1和当期收入It共同决定: Qt=0+1It+2Qt-1+t t=1,T 如果模型不存在随机误差项的序列相关性,那么随机解释变量Qt-1只与t-1相关,与t不相关,属于上述的第2种情况。
38
(2) 合理预期的消费函数模型 Ct-1是一随机解释变量,且与 (t-t-1)高度相关(为什么?)。属于上述第3种情况。
39
二、随机解释变量的后果
40
计量经济学模型一旦出现随机解释变量,且与随机扰动项相关的话,如果仍采用OLS法估计模型参数,不同性质的随机解释变量会产生不同的后果。
下面以一元线性回归模型为例进行说明。
41
1、随机解释变量与随机误差项相关图 拟合的样本回归线可能低估截距项,而高估斜率项。 拟合的样本回归线高估截距项,而低估斜率项。 (a)正相关
(b)负相关 拟合的样本回归线可能低估截距项,而高估斜率项。 拟合的样本回归线高估截距项,而低估斜率项。
42
2、如果X与相互独立,OLS参数估计量仍然是无偏、一致估计量。
43
3、如果X与同期不相关,异期相关,得到的参数估计量有偏、但却是一致的。
kt的分母中包含不同期的X, kt与t相关
44
4、如果X与同期相关,得到的参数估计量有偏、且非一致。
前面已经证明
45
三、工具变量法 Instrument variables
46
1、工具变量的选取 工具变量:在模型估计过程中被作为工具使用,以替代模型中与随机误差项相关的随机解释变量。
选择为工具变量的变量必须满足以下条件: 与所替代的随机解释变量高度相关; 与随机误差项不相关; 与模型中其它解释变量不相关,以避免出现多重共线性。
47
2、工具变量的应用 多元线性模型的正规方程组 X2为与μ相关的随机变量
48
能否说“用工具变量代替了模型中的随机解释变量”? 能否说“其它解释变量用自己作为工具变量”?
Z作为X2的工具变量 能否说“用工具变量代替了模型中的随机解释变量”? 能否说“其它解释变量用自己作为工具变量”? 能否说“用Z作为X1的工具变量,用X1作为X2的工具变量”?
49
这种求模型参数估计量的方法称为工具变量法(instrumental variable method),相应的估计量称为工具变量法估计量(instrumental variable (IV) estimator)。 工具变量矩阵
50
3、工具变量法估计量是一致估计量 一元回归中,工具变量法估计量为
51
4、几个重要的概念 (1)在小样本下,工具变量法估计量仍是有偏的。
(2)工具变量并没有替代模型中的解释变量,只是在估计过程中作为“工具”被使用。 (3)如果模型中有两个以上的随机解释变量与随机误差项相关,就必须找到两个以上的工具变量。但是,一旦工具变量选定,它们在估计过程被使用的次序不影响估计结果(Why?)。
52
(4)OLS可以看作工具变量法的一种特殊情况。
(5)如果1个随机解释变量可以找到多个互相独立的工具变量,人们希望充分利用这些工具变量的信息,就形成了广义矩方法(Generalized Method of Moments, GMM)。 在GMM中,矩条件大于待估参数的数量,于是如何求解成为它的核心问题。 工具变量法是GMM的一个特例。 (6)要找到与随机扰动项不相关而又与随机解释变量相关的工具变量并不是一件很容易的事 可以用Xt-1作为原解释变量Xt的工具变量。
53
5、 IV演示:居民总消费模型 以居民消费总额JMXF为被解释变量; 以GDP和JMXF(-1)为解释变量; 进行OLS估计。
以政府消费ZFXF作为工具变量,进行IV估计; 以政府消费ZFXF和资本形成ZBXC作为工具变量,进行GMM估计。
54
数据
55
OLS估计
57
IV估计
59
GMM估计
61
估计结果 OLS: JMXF = *GDP *JMXF(-1) IV: JMXF = *GDP *JMXF(-1) GMM: JMXF = *GDP *JMXF(-1)
62
拟合结果
63
四、解释变量的内生性检验
64
Hausman检验 如果δ显著为0→υ与Y同期无关→υ与μ同期无关→ X与μ同期无关→X是同期外生变量;
Z1外生,与μ不相关 选择Z2作为X 的工具变量 如果δ显著为0→υ与Y同期无关→υ与μ同期无关→ X与μ同期无关→X是同期外生变量; 如果δ显著不为0→ υ与Y同期相关→υ与μ同期相关→X与μ同期相关→ X是同期内生变量。
65
五、例:中国城镇居民人均消费函数 (自学)
66
步骤 以中国城镇居民人均消费为被解释变量,人均可支配收入和前一年城镇居人均消费支出为解释变量,建立模型;
经分析认为,人均可支配收入可能具有同期内生性; 选择工具变量; 采用Hausman检验判断,城镇居民人均可支配收入确实是内生变量; 采用工具变量估计。 为了比较,采用OLS估计。
Similar presentations