第六章 多重共线性 (Multi-Collinearity) 第一节 多重共线性的定义 第二节 多重共线性的检验 第三节 多重共线性的消除
第一节 多重共线性的定义 多重量共线性及产生原因 多重共线性的后果
一、多重共线性的概念及其产生原因 解释变量之间存在较强的线性相关关系,使得 的行列式值近似于0(等于0是完全共线性),逆阵可求得,但不稳定。出现于多元线性模型。例:生产函数、需求函数.
如果某两个或多个解释变量之间出现了近似相关性,则称为多重共线性。 1、多重共线性定义 对于模型 i=1,2,…,n (6.1) 其基本假设之一是解释变量是互相独立的。 如果某两个或多个解释变量之间出现了近似相关性,则称为多重共线性。
如果存在 i=1,2,…,n (6.2) 其中: 不全为0,即某一个解释变量可以用其它解释变量的线性组合表示,则称为解释变量间存在完全共线性。 如果存在 i=1,2,…,n (6.3) 其中 不全为0,为随机误差项,则称为一般共线性(近似共线性)或交互相关(intercorrelated)。
在矩阵表示的线性回归模型 Y=XB+N 中,完全共线性指:秩(X)<k+1,即矩阵
例如,X2=X1,这时X1与X2的相关系数为1,解释变量X2对因变量的作用完全可由X1代替。 注意: 完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。这种近似共线性即为多重共线性。
2、实际经济问题中的多重共线性现象 经济变量的共同变化趋势 时间序列样本:经济繁荣时期,各基本经济变量(收入、消费、投资、价格)都趋于增长;衰退时期,又同时趋于下降。 横截面数据:生产函数中,资本投入与劳动力投入往往出现高度相关情况,大企业二者都大,小企业都小。
在计量经济模型中,往往需要引入滞后经济变量来反映真实的经济关系。 滞后变量的引入 在计量经济模型中,往往需要引入滞后经济变量来反映真实的经济关系。 例如,消费=f(当期收入, 前期收入) 显然,两期收入间有较强的线性相关性。
一般经验 对于采用时间序列数据作样本、以简单线性形式建立的计量经济学模型,往往存在多重共线性。 以截面数据作样本时,问题不那么严重,但多重共线性仍然是存在的。
3.多重共线性产生的原因: 综上所述,多重共线性产生的原因大概有以下三点: (1)经济变量之间的内在联系 (2)经济发展的“共向性” (3)模型中含有滞后变量
二、多重共线性的后果
二、多重共线性的影响 1.难以区分解释变量的单独影响(估计值可得,但误差增大); 例:有多个因素的农业生产函数、方差扩大因子 1.难以区分解释变量的单独影响(估计值可得,但误差增大); 例:有多个因素的农业生产函数、方差扩大因子 2.T检验可靠性降低,通常会出现较小的T值和较大的F值,R2亦大。从理论上讲,估计值仍是BLUE。(容易剔除重要的解释变量) 3.参数估计值不稳定,模型缺乏稳定性;
4、完全共线性下参数估计量不存在(过程可略) 如果存在完全共线性,则(X’X) -1不存在,无法得到参数的估计量。
5、近似共线性下普通最小二乘法参数估计量非有效 在一般共线性(或称近似共线性)下,虽然可以得到OLS法参数估计量,但是由参数估计量方差的表达式为 可见,由于此时|X’X|0,引起(X’X) -1主对角线元素较大,从而使参数估计值的方差增大,OLS参数估计量非有效。
即:多重共线性使参数估计值的方差增大,方差扩大因子(Variance Inflation Factor)为1/(1-r2),其增大趋势见下表:
如果模型中两个解释变量具有线性相关性,例如X1和X2,那么它们中的一个变量可以由另一个变量表征。 6、参数估计量经济含义不合理 如果模型中两个解释变量具有线性相关性,例如X1和X2,那么它们中的一个变量可以由另一个变量表征。 这时,X1和X2前的参数并不反映各自与被解释变量之间的结构关系,而是反映它们对被解释变量的共同影响。 所以各自的参数已经失去了应有的经济含义,于是经常表现出似乎反常的现象,例如本来应该是正的,结果恰是负的。
7、变量的显著性检验失去意义 存在多重共线性时 参数估计值的方差与标准差变大 使t统计量的拒绝域变小(临界值增大) 误导作出参数为0的推断 可能将重要的解释变量排除在模型之外
变大的方差容易使区间预测的“区间”变大,使预测失去意义。 8、模型的预测功能失效 变大的方差容易使区间预测的“区间”变大,使预测失去意义。 能否说:如果存在完全共线性,预测值的置信区间为(-∞,+∞)?
第二节、多重共线性的检验
由于多重共线性表现为解释变量之间具有相关关系,所以用于多重共线性的检验方法主要是统计方法:如判定系数检验法、逐步回归检验法等,在多重共线性十分明显时,经验检验法,即综合统计检验法亦可。 多重共线性检验的任务是: (1)检验多重共线性是否存在; (2)估计多重共线性的范围,即判断哪些变量之间存在共线性。
(1)对两个解释变量的模型,采用简单相关系数法 1、检验多重共线性是否存在 (1)对两个解释变量的模型,采用简单相关系数法 求出X1与X2的简单相关系数r,若|r|接近1,则说明两变量存在较强的多重共线性。 (2)对多个解释变量的模型,采用综合统计检验法 若 在OLS法下,模型的R2与F值较大,但各参数估计值的t检验值较小,说明各解释变量对Y的联合线性作用显著,但各解释变量间存在共线性而使得它们对Y的独立作用不能分辨,故t检验不显著。这是一种经验检验。
2、判明存在多重共线性的范围,寻找多余变量 (1) 判定系数检验法 使模型中每一个解释变量分别以其余解释变量为解释变量进行回归计算,并计算相应的拟合优度,也称为判定系数。如果在某一种形式 Xji=1X1i+2X2i+LXLi 中判定系数较大,则说明在该形式中作为被解释变量的Xj可以用其他X的线性组合代替,即Xj与其他X之间存在共线性。
式中:Rj•2为第j个解释变量对其他解释变量的回归方程的决定系数, 等价的检验是对上述回归方程作F检验 式中:Rj•2为第j个解释变量对其他解释变量的回归方程的决定系数, 若存在较强的共线性,则Rj•2较大且接近于1,这时(1- Rj•2 )较小,从而Fj的值较大。因此,可以在给定的显著性水平下,通过计算F值的方法进行检验。
另一等价的检验: 在模型中排除某一个解释变量Xj,估计模型,如果拟合优度与包含Xj时十分接近,则说明Xj与其它解释变量之间存在共线性。
以Y为被解释变量,逐个引入解释变量,构成回归模型,进行模型估计。 (2) 逐步回归法 以Y为被解释变量,逐个引入解释变量,构成回归模型,进行模型估计。 根据拟合优度的变化决定新引入的变量是否可以用其它变量的线性组合代替,而不作为独立的解释变量。 如果拟合优度变化显著,则说明新引入的变量是一个独立解释变量; 如果拟合优度变化很不显著,则说明新引入的变量不是一个独立解释变量,它可以用其它变量的线性组合代替,也就是说它与其它变量之间存在共线性关系。
与之等价的另一种逐步回归法 在原模型中轮流减去一个解释变量作OLS,若结果中的R2与原模型的R2较接近,T值有明显改进,则该变量为多余变量,有多重共线性。
(3)、方差膨胀因子:设计辅助函数 作OLS回归后得判定系数Ri2,定义方差膨胀因子为下式,因子越大,多重共线性越明显: 可以证明:
方差膨胀因子检验 判定系数Ri2=0.9, VIF=10 判定系数Ri2=0.8, VIF=5 几种观点,认为VIF>8或10时,多重共线性显著,且Xi为多余变量. 如果多个变量的方差膨胀因子都比较大,选最大的方差膨胀因子的变量为多余的.
利用Eviews 实现检验 1、相关系数检验:编辑解释变量的Group后,Quick\Group Statistics\Correlation得相关系数矩阵,有较高相关系数有多重共线性。 2、判定系数法:用原模型中某个解释变量作被解释变量,用其余解释变量作因变量,OLS后有较高的R2和T值,则有多重共线性,该变量即为多余变量。
利用Eviews 实现检验(续) 3、逐步回归法 (1)以Y为被解释变量,逐个引入解释变量,构成回归模型,进行模型估计。如果拟合优度变化显著,则说明新引入的变量是一个独立解释变量;如果拟合优度变化很不显著,新引进的解释变量可能引起多重量共线性。 (2)在原模型中轮流减去一个解释变量作OLS,若结果中的R2与原模型的R2较接近,T值有明显改进,则该变量为多余变量,有多重共线性。
第三节、多重共线性的消除
思路:尽可能减少解释变量个数。传统方法有下面几条: 1、直接剔除可替代或有重复的解释变量; 2、可能的话,增加观察值个数; 3、利用关于参数的先验信息; 4、采用时间序列数据和横截面数据结合的方法,如J 托宾的汽车销售模型。
5、变量代换,一般将线性模型变为差分模型。 6、采用其它回归方法降低方差;如主成份回归、岭回归等。 7、具可操作性的方法:利用专用软件找出多余变量,如逐步回归法与判定系数法。
1、直接剔除可替代或有重复的解释变量; 找出引起多重共线性的解释变量,将它排除出去,是最为有效的克服多重共线性问题的方法。以逐步回归法得到最广泛的应用。 注意: 剩余解释变量参数的经济含义和数值都发生了变化。另,在实际应用中,若检验表明应被剔除的变量有重要的经济意义,此时应慎重。
2、可能的话,增加观察值个数; 一般情况下,观察值(样本)个数增加后,解释变量间的相关性将被削弱,多重共线性情况有所好转。
3、利用关于参数的先验信息(压缩解释变量数量); 例1:最早的C-D生产函数中假设 +=1 (或假设规模报酬不变) ,这样使得原先的二元模型变为一元模型,多重共线性自然消失; 例2:设工业能源需求函数为: 其中x1、x2分别为轻、重工业的产值,y为能源消耗值,多重共线性明显,但两产业间有能源消耗比例:b1=b2,将此比例用入,原模型为
4、采用时间序列数据和横截面数据结合的方法 如J 托宾的汽车销售模型。 Y为车辆出售数,两个解释变量P和I分别为平均价格和收入,参数 为价格弹性和收入弹性。一般的时间序列数据中,价格和收入有较强的相关性,托宾提出先用横截面数据先求得收入弹性 的估计值,再用新模型求 的估计值:
对于以时间序列数据为样本、以直接线性关系为模型关系形式的计量经济学模型,将原模型变换为差分模型 5、变量代换--差分法 对于以时间序列数据为样本、以直接线性关系为模型关系形式的计量经济学模型,将原模型变换为差分模型 Yi=1 X1i+2 X2i++k Xki+ i 可以有效地消除存在于原模型中的多重共线性。 一般讲,增量之间的线性关系远比总量之间的线性关系弱得多。
例如:在中国消费模型中的2个变量:
由表中的比值可以直观地看到,两变量增量的线性关系弱于总量之间的线性关系。 进一步分析: Y与C(-1)之间的判定系数为0.9845, △Y与△C(-1)之间的判定系数为0.7456。 一般认为:两个变量之间的判定系数大于0.8时,二者之间存在线性关系。 所以,原模型经检验地被认为具有多重共线性,而差分模型则可认为不具有多重共线性。
6、采用减小参数估计量的方差的方法 多重共线性的主要后果是参数估计量具有较大的方差,所以采取适当方法减小参数估计量的方差,虽然没有消除模型中的多重共线性,但确能消除多重共线性造成的后果。 例如,增加样本容量,可使参数估计量的方差减小。
再如:岭回归法(Ridge Regression) 70年代发展的岭回归法,以引入偏误为代价减小参数估计量的方差,受到人们的重视。 具体方法是:引入矩阵D,使参数估计量为 其中矩阵D一般选择为主对角阵,即 D=aI (2.6.6) a为大于0的常数。 显然,与未含D的参数B的估计量相比,(2.6.5)的估计量有较小的方差。但(2.6.5)是有偏估计。
金011、01甲、01乙作业: 文字作业P184:3.2 3.5 3.9 3.14,做在本子上;下周交。