第六章 多重共线性 (Multi-Collinearity)

Slides:



Advertisements
Similar presentations
一、 一阶线性微分方程及其解法 二、 一阶线性微分方程的简单应用 三、 小结及作业 §6.2 一阶线性微分方程.
Advertisements

第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
第三节 微分 3.1 、微分的概念 3.2 、微分的计算 3.3 、微分的应用. 一、问题的提出 实例 : 正方形金属薄片受热后面积的改变量.
3.4 空间直线的方程.
第6章 多重共线性的情形及其处理 6 .1 多重共线性产生的背景和原因 6 .2 多重共线性对回归模型的影响 6 .3 多重共线性的诊断
第十章 相关与回归分析 PowerPoint 统计学.
第五章 二次型. 第五章 二次型 知识点1---二次型及其矩阵表示 二次型的基本概念 1. 线性变换与合同矩阵 2.
一、能线性化的多元非线性回归 二、多元多项式回归(线性化)
一、二阶行列式的引入 用消元法解二元线性方程组. 一、二阶行列式的引入 用消元法解二元线性方程组.
计量经济学习题课 詹 鹏 南京财经大学数量经济学2010级.
第三章 函数逼近 — 最佳平方逼近.
6.6 单侧置信限 1、问题的引入 2、基本概念 3、典型例题 4、小结.
第四章 多重共线性和 虚拟变量的应用.
§4.3 多重共线性 Multi-Collinearity.
第四章 经典单方程计量经济学模型:放宽基本假定的模型
Multicollinearity 一、多重共线性的概念 二、多重共线性的后果 三、多重共线性的检验 四、克服多重共线性的方法 五、例题
预测与决策分析 Forecasting and Decision Analysis
第一章 行列式 第五节 Cramer定理 设含有n 个未知量的n个方程构成的线性方程组为 (Ⅰ) 由未知数的系数组成的n阶行列式
第二章 经典单方程计量经济学模型: 一元线性回归模型
量化视角下的豆粕投资机会分析 格林期货研发培训中心 郭坤龙.
第5章 定积分及其应用 基本要求 5.1 定积分的概念与性质 5.2 微积分基本公式 5.3 定积分的换元积分法与分部积分法
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
全 微 分 欧阳顺湘 北京师范大学珠海分校
2-7、函数的微分 教学要求 教学要点.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
计量经济学 第三章 多元线性回归模型.
第一章 商品 第一节 价值创造 第二节 价值量 第三节 价值函数及其性质 第四节 商品经济的基本矛盾与利己利他经济人假设.
Applied Regression Analysis
§3.3 多元线性回归模型的统计检验 一、拟合优度检验 二、方程的显著性检验(F检验) 三、变量的显著性检验(t检验) 四、参数的置信区间.
计量经济学 第四章 多重共线性.
引子: 国内生产总值增加会减少财政收入吗?
§3.7 热力学基本方程及麦克斯韦关系式 热力学状态函数 H, A, G 组合辅助函数 U, H → 能量计算
计量经济学 第三章 多元线性回归模型.
第二章 回归模型 法、参数的普通最小二乘估计式及相关性质、对模型的经济意 义检验和统计检验,能应用Eviews软件进行最小二乘估计与统
一元线性回归模型 § 1 回归分析概述 § 2 一元线性回归模型的参数估计 § 3 一元线性回归模型的统计检验
第2章 一元线性回归 2 .1 一元线性回归模型 2 .2 参数 的估计 2 .3 最小二乘估计的性质 2 .4 回归方程的显著性检验
第2章 一元线性回归分析 §2.1 :回归分析及回归模型 §2.2 :一元线性模型的参数估计 §2.3 :参数估计值的性质及统计推断
计算机数学基础 主讲老师: 邓辉文.
§2 求导法则 2.1 求导数的四则运算法则 下面分三部分加以证明, 并同时给出相应的推论和例题 .
多元回归分析:估计 y = b0 + b1x1 + b2x bkxk + u 计量经济学导论 刘愿.
第十章 方差分析.
第七章 参数估计 7.3 参数的区间估计.
第四章 多重共线性.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
统 计 学 (第三版) 2008 作者 贾俊平 统计学.
Partial Differential Equations §2 Separation of variables
9.1 简单线性相关分析 9.2 一元线性回归分析 9.3 多元线性回归与复相关分析 9.4 变量间非线性关系的回归
3.8.1 代数法计算终点误差 终点误差公式和终点误差图及其应用 3.8 酸碱滴定的终点误差
线 性 代 数 厦门大学线性代数教学组 2019年4月24日6时8分 / 45.
第六章 自相关.
§4.2 序列相关性 Serial Correlation.
第六章 多重共线性 一、多重共线性的概念 二、实际经济问题中的多重共线性 三、多重共线性的后果 四、多重共线性的检验
§8.3 不变因子 一、行列式因子 二、不变因子.
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
第四章 多元线性回归分析.
学习任务三 偏导数 结合一元函数的导数学习二元函数的偏导数是非常有用的. 要求了解二元函数的偏导数的定义, 掌握二元函数偏导数的计算.
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
线 性 代 数 厦门大学线性代数教学组 2019年5月12日4时19分 / 45.
概率论与数理统计B.
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
第三节 随机区组设计的方差分析 随机区组设计资料的总平方和可以分解为三项: (10.10).
第三节 函数的微分 3.1 微分的概念 3.2 微分的计算 3.3 微分的应用.
多元线性回归分析.
第三节 数量积 向量积 混合积 一、向量的数量积 二、向量的向量积 三、向量的混合积 四、小结 思考题.
数学模型实验课(二) 最小二乘法与直线拟合.
§4.5 最大公因式的矩阵求法( Ⅱ ).
第三章 线性方程组 §4 n维向量及其线性相关性(续7)
Presentation transcript:

第六章 多重共线性 (Multi-Collinearity) 第一节 多重共线性的定义 第二节 多重共线性的检验 第三节 多重共线性的消除

第一节 多重共线性的定义 多重量共线性及产生原因 多重共线性的后果

一、多重共线性的概念及其产生原因 解释变量之间存在较强的线性相关关系,使得 的行列式值近似于0(等于0是完全共线性),逆阵可求得,但不稳定。出现于多元线性模型。例:生产函数、需求函数.

如果某两个或多个解释变量之间出现了近似相关性,则称为多重共线性。 1、多重共线性定义 对于模型 i=1,2,…,n (6.1) 其基本假设之一是解释变量是互相独立的。 如果某两个或多个解释变量之间出现了近似相关性,则称为多重共线性。

如果存在 i=1,2,…,n (6.2) 其中: 不全为0,即某一个解释变量可以用其它解释变量的线性组合表示,则称为解释变量间存在完全共线性。 如果存在 i=1,2,…,n (6.3) 其中 不全为0,为随机误差项,则称为一般共线性(近似共线性)或交互相关(intercorrelated)。

在矩阵表示的线性回归模型 Y=XB+N 中,完全共线性指:秩(X)<k+1,即矩阵

例如,X2=X1,这时X1与X2的相关系数为1,解释变量X2对因变量的作用完全可由X1代替。 注意: 完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。这种近似共线性即为多重共线性。

2、实际经济问题中的多重共线性现象 经济变量的共同变化趋势 时间序列样本:经济繁荣时期,各基本经济变量(收入、消费、投资、价格)都趋于增长;衰退时期,又同时趋于下降。 横截面数据:生产函数中,资本投入与劳动力投入往往出现高度相关情况,大企业二者都大,小企业都小。

在计量经济模型中,往往需要引入滞后经济变量来反映真实的经济关系。 滞后变量的引入 在计量经济模型中,往往需要引入滞后经济变量来反映真实的经济关系。 例如,消费=f(当期收入, 前期收入) 显然,两期收入间有较强的线性相关性。

一般经验 对于采用时间序列数据作样本、以简单线性形式建立的计量经济学模型,往往存在多重共线性。 以截面数据作样本时,问题不那么严重,但多重共线性仍然是存在的。

3.多重共线性产生的原因: 综上所述,多重共线性产生的原因大概有以下三点: (1)经济变量之间的内在联系 (2)经济发展的“共向性” (3)模型中含有滞后变量

二、多重共线性的后果

二、多重共线性的影响 1.难以区分解释变量的单独影响(估计值可得,但误差增大); 例:有多个因素的农业生产函数、方差扩大因子 1.难以区分解释变量的单独影响(估计值可得,但误差增大); 例:有多个因素的农业生产函数、方差扩大因子 2.T检验可靠性降低,通常会出现较小的T值和较大的F值,R2亦大。从理论上讲,估计值仍是BLUE。(容易剔除重要的解释变量) 3.参数估计值不稳定,模型缺乏稳定性;

4、完全共线性下参数估计量不存在(过程可略) 如果存在完全共线性,则(X’X) -1不存在,无法得到参数的估计量。

5、近似共线性下普通最小二乘法参数估计量非有效 在一般共线性(或称近似共线性)下,虽然可以得到OLS法参数估计量,但是由参数估计量方差的表达式为 可见,由于此时|X’X|0,引起(X’X) -1主对角线元素较大,从而使参数估计值的方差增大,OLS参数估计量非有效。

即:多重共线性使参数估计值的方差增大,方差扩大因子(Variance Inflation Factor)为1/(1-r2),其增大趋势见下表:

如果模型中两个解释变量具有线性相关性,例如X1和X2,那么它们中的一个变量可以由另一个变量表征。 6、参数估计量经济含义不合理 如果模型中两个解释变量具有线性相关性,例如X1和X2,那么它们中的一个变量可以由另一个变量表征。 这时,X1和X2前的参数并不反映各自与被解释变量之间的结构关系,而是反映它们对被解释变量的共同影响。 所以各自的参数已经失去了应有的经济含义,于是经常表现出似乎反常的现象,例如本来应该是正的,结果恰是负的。

7、变量的显著性检验失去意义 存在多重共线性时 参数估计值的方差与标准差变大 使t统计量的拒绝域变小(临界值增大) 误导作出参数为0的推断 可能将重要的解释变量排除在模型之外

变大的方差容易使区间预测的“区间”变大,使预测失去意义。 8、模型的预测功能失效 变大的方差容易使区间预测的“区间”变大,使预测失去意义。 能否说:如果存在完全共线性,预测值的置信区间为(-∞,+∞)?

第二节、多重共线性的检验

由于多重共线性表现为解释变量之间具有相关关系,所以用于多重共线性的检验方法主要是统计方法:如判定系数检验法、逐步回归检验法等,在多重共线性十分明显时,经验检验法,即综合统计检验法亦可。 多重共线性检验的任务是: (1)检验多重共线性是否存在; (2)估计多重共线性的范围,即判断哪些变量之间存在共线性。

(1)对两个解释变量的模型,采用简单相关系数法 1、检验多重共线性是否存在 (1)对两个解释变量的模型,采用简单相关系数法 求出X1与X2的简单相关系数r,若|r|接近1,则说明两变量存在较强的多重共线性。 (2)对多个解释变量的模型,采用综合统计检验法 若 在OLS法下,模型的R2与F值较大,但各参数估计值的t检验值较小,说明各解释变量对Y的联合线性作用显著,但各解释变量间存在共线性而使得它们对Y的独立作用不能分辨,故t检验不显著。这是一种经验检验。

2、判明存在多重共线性的范围,寻找多余变量 (1) 判定系数检验法 使模型中每一个解释变量分别以其余解释变量为解释变量进行回归计算,并计算相应的拟合优度,也称为判定系数。如果在某一种形式 Xji=1X1i+2X2i+LXLi 中判定系数较大,则说明在该形式中作为被解释变量的Xj可以用其他X的线性组合代替,即Xj与其他X之间存在共线性。

式中:Rj•2为第j个解释变量对其他解释变量的回归方程的决定系数, 等价的检验是对上述回归方程作F检验 式中:Rj•2为第j个解释变量对其他解释变量的回归方程的决定系数, 若存在较强的共线性,则Rj•2较大且接近于1,这时(1- Rj•2 )较小,从而Fj的值较大。因此,可以在给定的显著性水平下,通过计算F值的方法进行检验。

另一等价的检验: 在模型中排除某一个解释变量Xj,估计模型,如果拟合优度与包含Xj时十分接近,则说明Xj与其它解释变量之间存在共线性。

以Y为被解释变量,逐个引入解释变量,构成回归模型,进行模型估计。 (2) 逐步回归法 以Y为被解释变量,逐个引入解释变量,构成回归模型,进行模型估计。 根据拟合优度的变化决定新引入的变量是否可以用其它变量的线性组合代替,而不作为独立的解释变量。 如果拟合优度变化显著,则说明新引入的变量是一个独立解释变量; 如果拟合优度变化很不显著,则说明新引入的变量不是一个独立解释变量,它可以用其它变量的线性组合代替,也就是说它与其它变量之间存在共线性关系。

与之等价的另一种逐步回归法 在原模型中轮流减去一个解释变量作OLS,若结果中的R2与原模型的R2较接近,T值有明显改进,则该变量为多余变量,有多重共线性。

(3)、方差膨胀因子:设计辅助函数 作OLS回归后得判定系数Ri2,定义方差膨胀因子为下式,因子越大,多重共线性越明显: 可以证明:

方差膨胀因子检验 判定系数Ri2=0.9, VIF=10 判定系数Ri2=0.8, VIF=5 几种观点,认为VIF>8或10时,多重共线性显著,且Xi为多余变量. 如果多个变量的方差膨胀因子都比较大,选最大的方差膨胀因子的变量为多余的.

利用Eviews 实现检验 1、相关系数检验:编辑解释变量的Group后,Quick\Group Statistics\Correlation得相关系数矩阵,有较高相关系数有多重共线性。 2、判定系数法:用原模型中某个解释变量作被解释变量,用其余解释变量作因变量,OLS后有较高的R2和T值,则有多重共线性,该变量即为多余变量。

利用Eviews 实现检验(续) 3、逐步回归法 (1)以Y为被解释变量,逐个引入解释变量,构成回归模型,进行模型估计。如果拟合优度变化显著,则说明新引入的变量是一个独立解释变量;如果拟合优度变化很不显著,新引进的解释变量可能引起多重量共线性。 (2)在原模型中轮流减去一个解释变量作OLS,若结果中的R2与原模型的R2较接近,T值有明显改进,则该变量为多余变量,有多重共线性。

第三节、多重共线性的消除

思路:尽可能减少解释变量个数。传统方法有下面几条: 1、直接剔除可替代或有重复的解释变量; 2、可能的话,增加观察值个数; 3、利用关于参数的先验信息; 4、采用时间序列数据和横截面数据结合的方法,如J 托宾的汽车销售模型。

5、变量代换,一般将线性模型变为差分模型。 6、采用其它回归方法降低方差;如主成份回归、岭回归等。 7、具可操作性的方法:利用专用软件找出多余变量,如逐步回归法与判定系数法。

1、直接剔除可替代或有重复的解释变量; 找出引起多重共线性的解释变量,将它排除出去,是最为有效的克服多重共线性问题的方法。以逐步回归法得到最广泛的应用。 注意: 剩余解释变量参数的经济含义和数值都发生了变化。另,在实际应用中,若检验表明应被剔除的变量有重要的经济意义,此时应慎重。

2、可能的话,增加观察值个数; 一般情况下,观察值(样本)个数增加后,解释变量间的相关性将被削弱,多重共线性情况有所好转。

3、利用关于参数的先验信息(压缩解释变量数量); 例1:最早的C-D生产函数中假设 +=1 (或假设规模报酬不变) ,这样使得原先的二元模型变为一元模型,多重共线性自然消失; 例2:设工业能源需求函数为: 其中x1、x2分别为轻、重工业的产值,y为能源消耗值,多重共线性明显,但两产业间有能源消耗比例:b1=b2,将此比例用入,原模型为

4、采用时间序列数据和横截面数据结合的方法 如J 托宾的汽车销售模型。 Y为车辆出售数,两个解释变量P和I分别为平均价格和收入,参数 为价格弹性和收入弹性。一般的时间序列数据中,价格和收入有较强的相关性,托宾提出先用横截面数据先求得收入弹性 的估计值,再用新模型求 的估计值:

对于以时间序列数据为样本、以直接线性关系为模型关系形式的计量经济学模型,将原模型变换为差分模型 5、变量代换--差分法 对于以时间序列数据为样本、以直接线性关系为模型关系形式的计量经济学模型,将原模型变换为差分模型 Yi=1  X1i+2  X2i++k  Xki+  i 可以有效地消除存在于原模型中的多重共线性。 一般讲,增量之间的线性关系远比总量之间的线性关系弱得多。

例如:在中国消费模型中的2个变量:

由表中的比值可以直观地看到,两变量增量的线性关系弱于总量之间的线性关系。 进一步分析: Y与C(-1)之间的判定系数为0.9845, △Y与△C(-1)之间的判定系数为0.7456。 一般认为:两个变量之间的判定系数大于0.8时,二者之间存在线性关系。 所以,原模型经检验地被认为具有多重共线性,而差分模型则可认为不具有多重共线性。

6、采用减小参数估计量的方差的方法 多重共线性的主要后果是参数估计量具有较大的方差,所以采取适当方法减小参数估计量的方差,虽然没有消除模型中的多重共线性,但确能消除多重共线性造成的后果。 例如,增加样本容量,可使参数估计量的方差减小。

再如:岭回归法(Ridge Regression) 70年代发展的岭回归法,以引入偏误为代价减小参数估计量的方差,受到人们的重视。 具体方法是:引入矩阵D,使参数估计量为 其中矩阵D一般选择为主对角阵,即 D=aI (2.6.6) a为大于0的常数。 显然,与未含D的参数B的估计量相比,(2.6.5)的估计量有较小的方差。但(2.6.5)是有偏估计。

金011、01甲、01乙作业: 文字作业P184:3.2 3.5 3.9 3.14,做在本子上;下周交。