第六章 多重共线性 一、多重共线性的概念 二、实际经济问题中的多重共线性 三、多重共线性的后果 四、多重共线性的检验

Slides:



Advertisements
Similar presentations
第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
Advertisements

2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
第三节 微分 3.1 、微分的概念 3.2 、微分的计算 3.3 、微分的应用. 一、问题的提出 实例 : 正方形金属薄片受热后面积的改变量.
3.4 空间直线的方程.
《解析几何》 乐山师范学院 0 引言 §1 二次曲线与直线的相关位置.
第五章 二次型. 第五章 二次型 知识点1---二次型及其矩阵表示 二次型的基本概念 1. 线性变换与合同矩阵 2.
一、能线性化的多元非线性回归 二、多元多项式回归(线性化)
一、二阶行列式的引入 用消元法解二元线性方程组. 一、二阶行列式的引入 用消元法解二元线性方程组.
计量经济学习题课 詹 鹏 南京财经大学数量经济学2010级.
第四章 回归假设的二级检验: 计量经济学检验
6.6 单侧置信限 1、问题的引入 2、基本概念 3、典型例题 4、小结.
第四章 多重共线性和 虚拟变量的应用.
§4.3 多重共线性 Multi-Collinearity.
第六章 多重共线性 (Multi-Collinearity)
第四章 经典单方程计量经济学模型:放宽基本假定的模型
Multicollinearity 一、多重共线性的概念 二、多重共线性的后果 三、多重共线性的检验 四、克服多重共线性的方法 五、例题
第一章 行列式 第五节 Cramer定理 设含有n 个未知量的n个方程构成的线性方程组为 (Ⅰ) 由未知数的系数组成的n阶行列式
量化视角下的豆粕投资机会分析 格林期货研发培训中心 郭坤龙.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
2-7、函数的微分 教学要求 教学要点.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
计量经济学 第三章 多元线性回归模型.
第一章 商品 第一节 价值创造 第二节 价值量 第三节 价值函数及其性质 第四节 商品经济的基本矛盾与利己利他经济人假设.
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
§3.3 多元线性回归模型的统计检验 一、拟合优度检验 二、方程的显著性检验(F检验) 三、变量的显著性检验(t检验) 四、参数的置信区间.
计量经济学 第四章 多重共线性.
引子: 国内生产总值增加会减少财政收入吗?
计量经济学 第三章 多元线性回归模型.
第二章 回归模型 法、参数的普通最小二乘估计式及相关性质、对模型的经济意 义检验和统计检验,能应用Eviews软件进行最小二乘估计与统
一元线性回归模型 § 1 回归分析概述 § 2 一元线性回归模型的参数估计 § 3 一元线性回归模型的统计检验
第2章 一元线性回归 2 .1 一元线性回归模型 2 .2 参数 的估计 2 .3 最小二乘估计的性质 2 .4 回归方程的显著性检验
第4章 多元线性回归分析.
第2章 一元线性回归分析 §2.1 :回归分析及回归模型 §2.2 :一元线性模型的参数估计 §2.3 :参数估计值的性质及统计推断
多元回归分析:估计 y = b0 + b1x1 + b2x bkxk + u 计量经济学导论 刘愿.
第十章 方差分析.
第七章 参数估计 7.3 参数的区间估计.
若2002年我国国民生产总值为 亿元,如果 ,那么经过多少年国民生产总值 每年平均增长 是2002年时的2倍? 解:设经过 年国民生产总值为2002年时的2倍, 根据题意有 , 即.
第四章 多重共线性.
第4章 非线性规划 4.5 约束最优化方法 2019/4/6 山东大学 软件学院.
第一章 函数与极限.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
抽样和抽样分布 基本计算 Sampling & Sampling distribution
9.1 简单线性相关分析 9.2 一元线性回归分析 9.3 多元线性回归与复相关分析 9.4 变量间非线性关系的回归
3.8.1 代数法计算终点误差 终点误差公式和终点误差图及其应用 3.8 酸碱滴定的终点误差
模型分类问题 Presented by 刘婷婷 苏琬琳.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
线 性 代 数 厦门大学线性代数教学组 2019年4月24日6时8分 / 45.
第六章 自相关.
§4.2 序列相关性 Serial Correlation.
复习.
定理21.9(可满足性定理)设A是P(Y)的协调子集,则存在P(Y)的解释域U和项解释,使得赋值函数v(A){1}。
§8.3 不变因子 一、行列式因子 二、不变因子.
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
第四章 多元线性回归分析.
第一部分:概率 产生随机样本:对分布采样 均匀分布 其他分布 伪随机数 很多统计软件包中都有此工具 如在Matlab中:rand
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
线 性 代 数 厦门大学线性代数教学组 2019年5月12日4时19分 / 45.
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
概率论与数理统计B.
§2 方阵的特征值与特征向量.
第二节 简单线性回归模型的最小二乘估计 用样本去估计总体回归函数,总要使用特定的方法,而任何估 计参数的方法都需要有一定的前提条件——假定条件 一、简单线性回归的基本假定 为什么要作基本假定? ●只有具备一定的假定条件,所作出的估计才具有良好的统计性质。 ●模型中有随机扰动项,估计的参数是随机变量,显然参数估计值的分布与扰动项的分布有关,只有对随机扰动的分布作出假定,才能比较方便地确定所估计参数的分布性质,也才可能进行假设检验和区间估计等统计推断。
第三节 随机区组设计的方差分析 随机区组设计资料的总平方和可以分解为三项: (10.10).
第三节 函数的微分 3.1 微分的概念 3.2 微分的计算 3.3 微分的应用.
多元线性回归分析.
Volterra-Lotka方程 1925年, A. Lotka(美)和V. Volterra(意)给出了第一个两物种间的捕食模型。
§4.5 最大公因式的矩阵求法( Ⅱ ).
第三章 线性方程组 §4 n维向量及其线性相关性(续7)
§2 自由代数 定义19.7:设X是集合,G是一个T-代数,为X到G的函数,若对每个T-代数A和X到A的函数,都存在唯一的G到A的同态映射,使得=,则称G(更严格的说是(G,))是生成集X上的自由T-代数。X中的元素称为生成元。 A变, 变 变, 也变 对给定的 和A,是唯一的.
Presentation transcript:

第六章 多重共线性 一、多重共线性的概念 二、实际经济问题中的多重共线性 三、多重共线性的后果 四、多重共线性的检验 第六章 多重共线性 一、多重共线性的概念 二、实际经济问题中的多重共线性 三、多重共线性的后果 四、多重共线性的检验 五、克服多重共线性的方法 六、案例

问题的提出 在前述基本假定下OLS估计具有BLUE的优良性。 估计参数时,必须检验基本假定是否满足,并针对基本假定不满足的情况,采取相应的补救措施或者新的方法。 检验基本假定是否满足的检验称为计量经济学检验

回顾6项基本假定 (1)解释变量间不相关(无多重共线性) (2)E(ui)=0 (随机项均值为零) (3)Var(ui)=2 (同方差) (4)Cov(ui, uj)=0(随机项无自相关) (5)Cov(X, ui)=0(随机项与解释变量X不相关) (6)随机扰动服从正态分布。

不满足基本假定的情形(1) 1、通常不会发生随机扰动项均值不等于0的情形。若发生也不会影响解释变量的系数,只会影响截距项。 2、随机扰动项正态性假设一般能够成立,就算不成立,在大样本下也会近似成立的。所以不讨论此假定是否违背。

不满足基本假定的情形(2) 3、解释变量之间相关=>多重共线 4、随机扰动项相关=>序列自相关 时间序列数据经常出现序列相关 5、随机扰动项方差不等于常数=>异方差 截面数据时,经常出现异方差

解决问题的思路 1、定义违反各个基本假定的基本概念 2、违反基本假定的原因、背景 3、诊断基本假定的违反 4、违反基本假定的补救措施(修正)

一、多重共线性的概念 对于模型 Yi=0+1X1i+2X2i++kXki+i i=1,2,…,n 其基本假设之一是解释变量是互相独立的。 如果某两个或多个解释变量之间出现了相关性,则称为多重共线性(Multicollinearity)。

如果存在 如果存在 c1X1i+c2X2i+…+ckXki=0 i=1,2,…,n 其中: ci不全为0,则称为解释变量间存在完全共线性(perfect multicollinearity)。 如果存在 c1X1i+c2X2i+…+ckXki+vi=0 i=1,2,…,n 其中ci不全为0,vi为随机误差项,则称为 近似共线性(approximate multicollinearity)或交互相关(intercorrelated)。

在矩阵表示的线性回归模型 Y=X+ 中,完全共线性指:秩(X)<k+1,即 中,至少有一列向量可由其他列向量(不包括第一列)线性表出。 如:X2= X1,则X2对Y的作用可由X1代替。

一般地,产生多重共线性的主要原因有以下三个方面: 二、实际经济问题中的多重共线性 一般地,产生多重共线性的主要原因有以下三个方面: (1)经济变量相关的共同趋势 时间序列样本:经济繁荣时期,各基本经济变量(收入、消费、投资、价格)都趋于增长;衰退时期,又同时趋于下降。

在经济计量模型中,往往需要引入滞后经济变量来反映真实的经济关系。 横截面数据:生产函数中,资本投入与劳动力投入往往出现高度相关情况,大企业二者都大,小企业都小。 (2)滞后变量的引入 在经济计量模型中,往往需要引入滞后经济变量来反映真实的经济关系。 例如,消费=f(当期收入, 前期收入) 显然,两期收入间有较强的线性相关性。

由于完全符合理论模型所要求的样本数据较难收集,特定样本可能存在某种程度的多重共线性。 (3)样本资料的限制 由于完全符合理论模型所要求的样本数据较难收集,特定样本可能存在某种程度的多重共线性。 一般经验: 时间序列数据样本:简单线性模型,往往存在多重共线性。 截面数据样本:问题不那么严重,但多重共线性仍然是存在的。

三、多重共线性的后果 1. 完全共线性下参数估计量不存在 的OLS估计量为: 如果存在完全共线性,则(X’X)-1不存在,无法得到参数的估计量。

例:对离差形式的二元回归模型 如果两个解释变量完全相关,如x2= x1,则 这时,只能确定综合参数1+2的估计值:

近似共线性下,可以得到OLS参数估计量, 但参数估计量方差的表达式为 由于|X’X|0,引起(X’X) -1主对角线元素较大,使参数估计值的方差增大,OLS参数估计量非有效。

仍以二元线性模型 y=1x1+2x2+ 为例: 恰为X1与X2的线性相关系数的平方r2 由于 r2 1,故 1/(1- r2 )1

当完全不共线时, r2 =0 当近似共线时, 0< r2 <1 多重共线性使参数估计值的方差增大,1/(1-r2)为方差膨胀因子(Variance Inflation Factor, VIF) 当完全共线时, r2=1,

如果模型中两个解释变量具有线性相关性,例如 X2= X1 , 3. 参数估计量经济含义不合理 如果模型中两个解释变量具有线性相关性,例如 X2= X1 , 这时,X1和X2前的参数1、2并不反映各自与被解释变量之间的结构关系,而是反映它们对被解释变量的共同影响。 1、 2已经失去了应有的经济含义,于是经常表现出似乎反常的现象:例如1本来应该是正的,结果恰是负的。

4. 变量的显著性检验失去意义 存在多重共线性时 参数估计值的方差与标准差变大 容易使通过样本计算的t值小于临界值, 误导作出参数为0的推断 可能将重要的解释变量排除在模型之外

变大的方差容易使区间预测的“区间”变大,使预测失去意义。 5. 模型的预测功能失效 变大的方差容易使区间预测的“区间”变大,使预测失去意义。

注意: 除非是完全共线性,多重共线性并不意味着任何基本假设的违背; 因此,即使出现较高程度的多重共线性,OLS估计量仍具有线性性等良好的统计性质。 问题在于,即使OLS法仍是最好的估计方法,它却不是“完美的”,尤其是在统计推断上无法给出真正有用的信息。

四、多重共线性的检验 多重共线性检验的任务是: 多重共线性表现为解释变量之间具有相关关系,所以用于多重共线性的检验方法主要是统计方法:如判定系数检验法、逐步回归检验法等。 多重共线性检验的任务是: (1)检验多重共线性是否存在; (2)估计多重共线性的范围,即判断哪些变量之间存在共线性。

(1)对两个解释变量的模型,采用简单相关系数法 1. 检验多重共线性是否存在 (1)对两个解释变量的模型,采用简单相关系数法 求出X1与X2的简单相关系数r,若|r|接近1,则说明两变量存在较强的多重共线性。 (2)对多个解释变量的模型,采用综合统计检验法 若在OLS法下:R2与F值较大,但t检验值较小,说明各解释变量对Y的联合线性作用显著,但各解释变量间存在共线性而使得它们对Y的独立作用不能分辨,故t检验不显著。即R2较大但t值显著的不多。另外判断参数估计值的符号,如果不符合经济理论或实际情况,可能存在多重共线性。

如果存在多重共线性,需进一步确定究竟由哪些变量引起。 2. 判明存在多重共线性的范围 如果存在多重共线性,需进一步确定究竟由哪些变量引起。 (1) 判定系数检验法 使模型中每一个解释变量分别以其余解释变量为解释变量进行回归,并计算相应的拟合优度。 如果某一种回归: Xji=1X1i+2X2i+LXLi 的判定系数较大,说明Xj与其他X间存在共线性。

具体可进一步对上述回归方程作F检验: 构造如下F统计量 式中:Rj•2为第j个解释变量对其他解释变量的回归方程的决定系数,

在模型中排除某一个解释变量Xj,估计模型; 若存在较强的共线性,则Rj•2较大且接近于1,这时(1- Rj•2 )较小,从而Fj的值较大。 因此,给定显著性水平,计算F值,并与相应的临界值比较,来判定是否存在相关性。 另一等价的检验是: 在模型中排除某一个解释变量Xj,估计模型; 如果拟合优度与包含Xj时十分接近,则说明Xj与其它解释变量之间存在共线性。

以Y为被解释变量,逐个引入解释变量,构成回归模型,进行模型估计。 (2)逐步回归法 以Y为被解释变量,逐个引入解释变量,构成回归模型,进行模型估计。 根据拟合优度的变化决定新引入的变量是否独立。 如果拟合优度变化显著,则说明新引入的变量是一个独立解释变量; 如果拟合优度变化很不显著,则说明新引入的变量与其它变量之间存在共线性关系。

如果模型被检验证明存在多重共线性,则需要发展新的方法估计模型,最常用的方法有三类。 五、克服多重共线性的方法 如果模型被检验证明存在多重共线性,则需要发展新的方法估计模型,最常用的方法有三类。 1. 第一类方法:排除引起共线性的变量 找出引起多重共线性的解释变量,将它排除。 以逐步回归法得到最广泛的应用。 注意:这时,剩余解释变量参数的经济含义和数值都发生了变化。

剔除变量与设定偏误 面对严重多重共线性,最简单的做法之一是剔除共线性诸变量之一,但是从模型中删除一个变量,可能导致设定偏误或设定误差。也就是说在分析中使用了不正确设定的模型。 由上面的讨论可见,从模型中除掉一个变量以缓解多重共线性的问题会导致设定上的偏误,因此在某些情形中,医治也许比疾病更糟糕,多重共线性虽然有碍于对模型参数的准确估计,但是剔除变量,则对参数的真值有严重的误导,应该记得,在近似共线性情形下,OLS估计量仍是BLUE。

时间序列数据、线性模型:将原模型变换为差分模型: 2. 第二类方法:差分法 时间序列数据、线性模型:将原模型变换为差分模型: Yi=1  X1i+2  X2i++k  Xki+  i 可以有效地消除原模型中的多重共线性。 一般讲,增量之间的线性关系远比总量之间的线性关系弱得多。

例如:在中国消费模型中的2个变量:

由表中的比值可以直观地看到,两变量增量的线性关系弱于总量之间的线性关系。 进一步分析: Y与C(-1)之间的相关系数为0.9845, △Y与△C(-1)之间的相关系数为0.7456。 一般认为:两个变量之间的相关系数大于0.8时,二者之间存在线性关系。 所以,原模型经检验地被认为具有多重共线性,而差分模型则可认为不具有多重共线性。

3. 第三类方法:减小参数估计量的方差 多重共线性的主要后果是参数估计量具有较大的方差,所以采取适当方法减小参数估计量的方差,虽然没有消除模型中的多重共线性,但确能消除多重共线性造成的后果。 例如: 增加样本容量,可使参数估计量的方差减小。

4. 变量变换 销量 出厂价格 市场价格 市场总供应量 高度相关 相对价格

5. 用被解释变量的滞后值代替解释变量的滞后值 个人消费 现期收入 前期收入 高度相关 线性关系较弱

6.利用先验信息改变约束形式 先验信息:在此之前的研究成果所提供的信息。 利用某些先验信息,可以把有共线性的变量组合成新的变量,从而消除共线性。 如 其中Y=消费,X2=收入 X3=财富。因为收入与财富有高度共线的趋势,如果先验认为 则代入消去

利用先验信息改变约束形式 高度相关 已知α+ β =1,即规模报酬不变,则将 β =1- α代入

7.截面数据和时序数据结合 有时在时间序列数据中多重共线性严重的变量,在截面数据中不一定有严重的共线性。 在假定截面数据估计出的参数在时间序列数据中变化不大的前提下,可先用截面数据估计出一些变量的参数,再代入原模型估计另一些变量的参数。 例:销量与商品价格、消费者收入。

根据理论和经验分析,影响粮食生产(Y)的主要因素有: 六、案例一——中国粮食生产函数 根据理论和经验分析,影响粮食生产(Y)的主要因素有: 农业化肥施用量(X1) 粮食播种面积(X2) 成灾面积(X3) 农业机械总动力(X4) 农业劳动力(X5) 已知中国粮食生产的相关数据,建立中国粮食生产函数: Y=0+1 X1 +2 X2 +3 X3 +4 X4 +4 X5 +

R2接近于1; 给定=5%,得F临界值 F0.05(5,12)=3.11 1. 用OLS法估计上述模型: T = (-0.91) (8.39) (3.32) (-2.81) (-1.45) (-0.14) R2接近于1; 给定=5%,得F临界值 F0.05(5,12)=3.11 F=638.4 > 15.19,故认上述粮食生产的总体线性关系显著成立。但X4 、X5 的参数未通过t检验,且符号不正确,故解释变量间可能存在多重共线性。

2. 检验简单相关系数 列出X1,X2,X3,X4,X5的相关系数矩阵: 发现: X1与X4间存在高度相关性。

3. 找出最简单的回归形式 分别作Y与X1,X2,X4,X5间的回归: 可见,应选第一个式子为初始的回归模型。 3. 找出最简单的回归形式 分别作Y与X1,X2,X4,X5间的回归: (25.58) (11.49) R2=0.8919 F=132.1 DW=1.56 (-0.49) (1.14) R2=0.075 F=1.30 DW=0.12 (17.45) (6.68) R2=0.7527 F=48.7 DW=1.11 (-1.04) (2.66) R2=0.3064 F=7.07 DW=0.36 可见,应选第一个式子为初始的回归模型。

4. 逐步回归 将其他解释变量分别导入上述初始回归模型,寻找最佳回归方程。

回归方程以Y=f(X1,X2,X3)为最优: 5. 结论 5. 结论 回归方程以Y=f(X1,X2,X3)为最优: 注:虽然后两个模型的调整判定系数更大,但是分别有x4和x5的参数估计值不显著,所以不是只看拟合优度一个指标的。

六、案例二——中国消费函数模型

1、OLS估计结果

2、差分法估计结果

3、比较 β1:0.48095→0.49672 β2:0.19854→0.15850 在消除了共线性后,GDP对CONS的影响增大,CONS1对CONS的影响减少。

当模型存在共线性,将某个共线性变量去掉,剩余变量的参数估计结果将发生变化,而且经济含义发生变化; 严格地说,实际模型由于总存在一定程度的共线性,所以每个参数估计量并不真正反映对应变量与被解释变量之间的结构关系。

附: 违反三个假定的总结

多重共线性 序列相关性 异方差性 定义 要 点 对于模型 Yi=0+1X1i+2X2i++kXki+i i=1,2,…,n 其基本假设之一是解释变量是互相独立的。如果某两个或多个解释变量之间出现了相关性,则称为多重共线性。 定义 要 点 多重共线性 序列相关性 异方差性

后果 多重共线性 序列相关性 异方差性 检验思路

1判定系数检验法 2逐步回归法 检验 方法 多重共线性 序列相关性 异方差性 解决方法