计量经济学 第四章 多重共线性.

Slides:



Advertisements
Similar presentations
第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
Advertisements

2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
第三节 微分 3.1 、微分的概念 3.2 、微分的计算 3.3 、微分的应用. 一、问题的提出 实例 : 正方形金属薄片受热后面积的改变量.
计量经济学 第五章 异 方 差 性.
第6章 多重共线性的情形及其处理 6 .1 多重共线性产生的背景和原因 6 .2 多重共线性对回归模型的影响 6 .3 多重共线性的诊断
第十章 相关与回归分析 PowerPoint 统计学.
圆的一般方程 (x-a)2 +(y-b)2=r2 x2+y2+Dx+Ey+F=0 Ax2+Bxy+Cy2+Dx+Ey+ F=0.
第五章 二次型. 第五章 二次型 知识点1---二次型及其矩阵表示 二次型的基本概念 1. 线性变换与合同矩阵 2.
一、能线性化的多元非线性回归 二、多元多项式回归(线性化)
一、二阶行列式的引入 用消元法解二元线性方程组. 一、二阶行列式的引入 用消元法解二元线性方程组.
计量经济学习题课 詹 鹏 南京财经大学数量经济学2010级.
第三章 函数逼近 — 最佳平方逼近.
第四章 多重共线性和 虚拟变量的应用.
§4.3 多重共线性 Multi-Collinearity.
第六章 多重共线性 (Multi-Collinearity)
第四章 经典单方程计量经济学模型:放宽基本假定的模型
Multicollinearity 一、多重共线性的概念 二、多重共线性的后果 三、多重共线性的检验 四、克服多重共线性的方法 五、例题
预测与决策分析 Forecasting and Decision Analysis
常用逻辑用语复习课 李娟.
量化视角下的豆粕投资机会分析 格林期货研发培训中心 郭坤龙.
第二节 微积分基本公式 1、问题的提出 2、积分上限函数及其导数 3、牛顿—莱布尼茨公式 4、小结.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
全 微 分 欧阳顺湘 北京师范大学珠海分校
2-7、函数的微分 教学要求 教学要点.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
计量经济学 第三章 多元线性回归模型.
第一章 商品 第一节 价值创造 第二节 价值量 第三节 价值函数及其性质 第四节 商品经济的基本矛盾与利己利他经济人假设.
Applied Regression Analysis
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
§3.3 多元线性回归模型的统计检验 一、拟合优度检验 二、方程的显著性检验(F检验) 三、变量的显著性检验(t检验) 四、参数的置信区间.
引子: 国内生产总值增加会减少财政收入吗?
第六章 正态条件下回归的推论.
计量经济学 第三章 多元线性回归模型.
第二章 回归模型 法、参数的普通最小二乘估计式及相关性质、对模型的经济意 义检验和统计检验,能应用Eviews软件进行最小二乘估计与统
一元线性回归模型 § 1 回归分析概述 § 2 一元线性回归模型的参数估计 § 3 一元线性回归模型的统计检验
第2章 一元线性回归 2 .1 一元线性回归模型 2 .2 参数 的估计 2 .3 最小二乘估计的性质 2 .4 回归方程的显著性检验
第4章 多元线性回归分析.
计算机数学基础 主讲老师: 邓辉文.
§2 求导法则 2.1 求导数的四则运算法则 下面分三部分加以证明, 并同时给出相应的推论和例题 .
第一章 函数 函数 — 研究对象—第一章 分析基础 极限 — 研究方法—第二章 连续 — 研究桥梁—第二章.
多元回归分析:估计 y = b0 + b1x1 + b2x bkxk + u 计量经济学导论 刘愿.
第十章 方差分析.
第七章 参数估计 7.3 参数的区间估计.
若2002年我国国民生产总值为 亿元,如果 ,那么经过多少年国民生产总值 每年平均增长 是2002年时的2倍? 解:设经过 年国民生产总值为2002年时的2倍, 根据题意有 , 即.
第4章 非线性规划 4.5 约束最优化方法 2019/4/6 山东大学 软件学院.
统 计 学 (第三版) 2008 作者 贾俊平 统计学.
9.1 简单线性相关分析 9.2 一元线性回归分析 9.3 多元线性回归与复相关分析 9.4 变量间非线性关系的回归
模型分类问题 Presented by 刘婷婷 苏琬琳.
Three stability circuits analysis with TINA-TI
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
第六章 自相关.
第六章 多重共线性 一、多重共线性的概念 二、实际经济问题中的多重共线性 三、多重共线性的后果 四、多重共线性的检验
定理21.9(可满足性定理)设A是P(Y)的协调子集,则存在P(Y)的解释域U和项解释,使得赋值函数v(A){1}。
第16讲 相似矩阵与方阵的对角化 主要内容: 1.相似矩阵 2. 方阵的对角化.
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
第4课时 绝对值.
第三章 两变量线性回归.
第四章 多元线性回归分析.
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
线 性 代 数 厦门大学线性代数教学组 2019年5月12日4时19分 / 45.
概率论与数理统计B.
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
第三节 函数的微分 3.1 微分的概念 3.2 微分的计算 3.3 微分的应用.
多元线性回归分析.
第三节 数量积 向量积 混合积 一、向量的数量积 二、向量的向量积 三、向量的混合积 四、小结 思考题.
《偏微分方程》第一章 绪论 第一章 绪论 1.1.
数学模型实验课(二) 最小二乘法与直线拟合.
§4.5 最大公因式的矩阵求法( Ⅱ ).
第三章 线性方程组 §4 n维向量及其线性相关性(续7)
Presentation transcript:

计量经济学 第四章 多重共线性

引子: 发展农业会减少财政收入吗? 为了分析各主要因素对财政收入的影响,建立财政收 入模型: 采用普通最小二乘法得到以下估计结果 其中: CS财政收入(亿元) ; NZ农业增加值(亿元); GZ工业增加值(亿元); JZZ建筑业增加值(亿元); TPOP总人口(万人); CUM最终消费(亿元); SZM受灾面积(万公顷) 数据样本时期1978年-2007年(资料来源:《中国统计年鉴2008》,中国统计出版社2008年版) 采用普通最小二乘法得到以下估计结果

财政收入模型的EViews估计结果 Variable Coefficient Std. Error t-Statistic Prob. 农业增加值 工业增加值建筑业增加值 总人口 最终消费 受灾面积 截距 -1.907548 0.045947 6.458374 0.096022 0.003108 -0.027627 -5432.507 0.342045 0.042746 0.765767 0.091660 0.042807 0.048904 8607.753 -5.576888 1.074892 8.433867 1.047591 0.072609 -0.564916 -0.631118 0.0000 0.2936 0.3057 0.9427 0.5776 0.5342 R-squared 0.989654 Adjusted R-squared 0.986955 S.E. of regression 1437.448 Sum squared resid 47523916 Log likelihood -256.7013 Durbin-Watson stat 1.654140  Mean dependent var 10049.04     S.D. dependent var 12585.51     Akaike info criterion 17.58009     Schwarz criterion 17.90704     F-statistic 366.6801     Prob(F-statistic) 0.000000

模型估计与检验结果分析 ●可决系数为0.9897 ,校正的可决系数为0.9870,模型拟合很好。模型对财政收入的解释程度高达98.9%。 ●F统计量为366.68,说明0.05水平下回归方程整体上显著。 ● t 检验结果表明,除了农业增加值、建筑业增加值以外,其他因素对财政收入的影响均不显著。 ●农业增加值的回归系数是负数。 农业的发展反而会使财政收入减少吗?! 这样的异常结果显然与理论分析和实践经验不相符。 若模型设定和数据真实性没问题,问题出在哪里呢?

第四章 多重共线性 本章讨论四个问题: ●什么是多重共线性 ●多重共线性产生的后果 ●多重共线性的检验 ●多重共线性的补救措施

第一节 什么是多重共线性 本节基本内容: ●多重共线性的含义 ●产生多重共线性的背景

一、多重共线性的含义 在计量经济学中所谓的多重共线性(Multi-Collinearity), 则称解释变量 之间存在着完全的多重共 线性。 不仅包括完全的多重共线性,还包括不完全的多重共线性。 在有截距项的模型中,截距项可以视为其对应的解释变量总 是为1。对于解释变量 ,如果存在不全为0的 数 ,使得 则称解释变量 之间存在着完全的多重共 线性。 或者说,当 时,表明在数据矩阵 中,至少有 一个列向量可以用其余的列向量线性表示,则说明存在完全的多 重共线性。

不完全的多重共线性 实际中,常见的情形是解释变量之间存在不完全的多重共线性。 ,存在不全为0的数 对于解释变量 ,使得 为随机变量。这表明解释变量 只是一种近似的线性关系。 其中,

回归模型中解释变量的关系 可能表现为三种情形: (1) ,解释变量间完全共线性。此时模型参数将无法确定。 ,解释变量间存在一定程度的线性关系。实际中常遇到的情形。 (2) (3) ,解释变量间毫无线性关系,变量间相互正交。这时已不需要作多元回归,每个参数j都可以通过Y 对 Xj 的一元回归来估计。

二、产生多重共线性的背景 多重共线性产生的经济背景主要有几种情形: 1.经济变量之间具有共同变化趋势。 2.模型中包含滞后变量。 3.利用截面数据建立模型也可能出现多重共线性。 4.样本数据自身的原因。

第二节 多重共线性产生的后果 本节基本内容: ●完全多重共线性产生的后果 ●不完全多重共线性产生的后果

一、完全多重共线性产生的后果 1.参数的估计值不确定 2.参数估计值的方差无限大 当解释变量完全线性相关时 ——OLS 估计式不确定 ▲ 从偏回归系数意义看:在 和 完全共线性时,无法保持 不变,去单独考虑 对 的影响(  和  的影响不可区分) ▲ 从OLS估计式看:可以证明此时 2.参数估计值的方差无限大 OLS估计式的方差成为无穷大:

二、不完全多重共线性产生的后果 如果模型中存在不完全的多重共线性,可以得到参数的估计值,但是对计量经济分析可能会产生一系列的影响。 1.参数估计值的方差增大 当 增大时 也增大

2.对参数区间估计时,置信区间趋于变大 3.假设检验容易作出错误的判断 4.可能造成可决系数较高,但对各个参数单独的 t 检验却可能不显著,甚至可能使估计的回归系数符号相反,得出完全错误的结论。

第三节 多重共线性的检验 本节基本内容: ● 简单相关系数检验法 ● 方差扩大(膨胀)因子法 ● 直观判断法 ● 逐步回归法

一、简单相关系数检验法 含义:简单相关系数检验法是利用解释变量之间的线性相关程度去判断是否存在严重多重共线性的一种简便方法。 判断规则:一般而言,如果每两个解释变量的简单相关系数(零阶相关系数)比较高,例如大于0.8,则可认为存在着较严重的多重共线性。

注意: 较高的简单相关系数只是多重共线性存在的充分条件,而不是必要条件。特别是在多于两个解释变量的回归模型中,有时较低的简单相关系数也可能存在多重共线性。因此并不能简单地依据相关系数进行多重共线性的准确判断。

二、辅助回归模型检验 当模型的解释变量个数多于两个,并且呈现出较为复杂的相关关系时,可以通过每个解释变量对其它解释变量的辅助回归模型来检验多重共线性,即依次建立k个辅助回归模型: ( i=1,2,…,k) 若其中某些方程显著,则表明存在多重共线性。

三、方差扩大(膨胀)因子法 统计上可以证明,解释变量 的参数估计式 的方差可表示为 其中的 是变量 (Variance Inflation Factor),即 的方差扩大因子 其中 是多个解释变量辅助回归的可决系数

经验规则 ●方差膨胀因子越大,表明解释变量之间的多重共性越严重。反过来,方差膨胀因子越接近于1,多重共线性越弱。 ●经验表明,方差膨胀因子≥10时,说明解释变量与其余解释变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计。

另一个与VIF等价的指标是“容许度”(Tolerance),其定义为: 显然,0≤TOL≤1;当xi与其它解释变量高度相关时,TOL→0。因此,一般当TOL<0.1时,认为模型存在较严重的多重共线性

四、直观判断法 1. 当增加或剔除一个解释变量,或者改变一个观测值时,回归参数的估计值发生较大变化,回归方程可能存在严重的多重共线性。 2. 从定性分析认为,一些重要的解释变量的回归系数的标准误差较大,在回归方程中没有通过显著性检验时,可初步判断可能存在严重的多重共线性。

3. 有些解释变量的回归系数所带正负号与定性分析结果违背时,很可能存在多重共线性。 4. 解释变量的相关矩阵中,自变量之间的相关系数较大时,可能会存在多重共线性问题。

五、逐步回归检测法 逐步回归的基本思想 将变量逐个的引入模型,每引入一个解释变量后,都要进行F检验,并对已经选入的解释变量逐个进行t 检验,当原来引入的解释变量由于后面解释变量的引入而变得不再显著时,则将其剔除。以确保每次引入新的变量之前回归方程中只包含显著的变量。 在逐步回归中,高度相关的解释变量,在引入时会被剔除。因而也是一种检测多重共线性的有效方法。

第四节 多重共线性的补救措施 本节基本内容: ●修正多重共线性的经验方法 ●逐步回归法 岭回归法在本科教学中只是供选择使用 的内容。

一、修正多重共线性的经验方法 1. 剔除变量法 把方差扩大因子最大者所对应的自变量首先 剔除再重新建立回归方程,直至回归方程中 不再存在严重的多重共线性。 注意:需注意产生新的问题: ①模型的经济意义不合理; ②是否使模型产生异方差性或自相关性; ③若剔除不当,可能会产生模型设定误差,造成参数估计严重有偏

2. 增大样本容量 如果样本容量增加,会减小回归参数的方差, 标准误差也同样会减小。因此尽可能地收集足 够多的样本数据可以改进模型参数的估计。 问题:增加样本数据在实际计量分析中常面临 许多困难。

3. 变换模型形式 一般而言,差分后变量之间的相关性要比差分前弱得多,所以差分后的模型可能降低出现共线性的可能性,此时可直接估计差分方程。 问题:差分会丢失一些信息,差分模型的误差项可能存在序列相关,可能会违背经典线性回归模型的相关假设,在具体运用时要慎重。

4. 利用非样本先验信息 通过经济理论分析能够得到某些参数之间的关 系,可以将这种关系作为约束条件,将此约束 条件和样本信息结合起来进行约束最小二乘估 计。

【例】 生产函数 ,L与K通常高度相关 已知附加信息: α+β=1 (规模报酬不变) 则 或 记 y=Y/L , k=K/L 则C-D生产函数可以表示成: y=Akβ 利用OLS法估计 ,进而得到

5. 横截面数据与时序数据并用 首先利用横截面数据估计出部分参数,再利用 时序数据估计出另外的部分参数,最后得到整 个方程参数的估计。 注意:这里包含着假设,即参数的横截面估计和 从纯粹时间序列分析中得到的估计是一样的。

6. 变量变换 变量变换的主要方法: (1)计算相对指标 (2)将名义数据转换为实际数据 (3)将小类指标合并成大类指标 变量数据的变换有时可得到较好的结果,但无 法保证一定可以得到很好的结果。

二、逐步回归法 (1)用被解释变量对每一个所考虑的解释变量做简单回归。 (2)以对被解释变量贡献最大的解释变量所对应的回归方程为基础,按对被解释变量贡献大小的顺序逐个引入其余的解释变量。 若新变量的引入改进了 和 检验,且回归参 数的t 检验在统计上也是显著的,则在模型中保 留该变量。

若新变量的引入未能改进 和 检验,且对其他回 归参数估计值的t 检验也未带来什么影响,则认为该 变量是多余变量。 若新变量的引入未能改进 和 检验,且显著地影 响了其他回归参数估计值的数值或符号,同时本身的 回归参数也通不过t 检验,说明出现了严重的多重共 线性。

第五节 案例分析 一、研究的目的要求 二、模型设定及其估计 旅游支出 ,并以公路里程次 和铁路里程 作为相关基础设施的代表 第五节 案例分析 一、研究的目的要求 提出研究的问题——为了规划中国未来国内旅游产业 的发展,需要定量地分析影响中国国内旅游市场发展 的主要因素。 二、模型设定及其估计 影响因素分析与确定——影响因素主要有国内旅游 人数 ,城镇居民人均旅游支出 ,农村居民人均 旅游支出 ,并以公路里程次 和铁路里程 作为相关基础设施的代表 理论模型的设定 其中 : ——第 t 年全国国内旅游收入

数据的收集与处理 1994年—2007年中国旅游收入及相关数据 年份 国内旅游收入Y(亿元) 国内旅游人数X2(万人次) 公路里程 X5(万km) 铁路里程X6(万km) 1994 1023.5 52400 414.7 54.9 111.78 5.90 1995 1375.7 62900 464.0 61.5 115.70 5.97 1996 1638.4 63900 534.1 70.5 118.58 6.49 1997 2112.7 64400 599.8 145.7 122.64 6.60 1998 2391.2 69450 607.0 197.0 127.85 6.64 1999 2831.9 71900 614.8 249.5 135.17 6.74 2000 3175.5 74400 678.6 226.6 140.27 6.87 2001 3522.4 78400 708.3 212.7 169.80 7.01 2002 3878.4 87800 739.7 209.1 176.52 7.19 2003 3442.3 87000 684.9 200.0 180.98 7.30 2004 4710.7 110200 731.8 210.2 187.07 7.44 2005 5285.9 121200 737.1 227.6 193.05 7.54 2006 6229.74 139400 766.4 221.9 345.70 7.71 2007 7770.62 161000 906.9 222.5 358.37 7.80

OLS 估计的结果 该模型 可决系数很高,F检验值 593.4168,明显显著。 但是当 时 不仅 、 系数的t检验不显著,而且 系数的符号与预期的相反,这表明很可能存在严重的多重共线性。 、

表明各解释变量间确实存在严重的多重共线性 计算各解释变量的相关系数 X2 X3 X4 X5 X6  1.000000  0.867192  0.566024  0.945539  0.891303  0.811726  0.805129  0.956903  0.487669  0.790144  0.812921 表明各解释变量间确实存在严重的多重共线性

三、消除多重共线性 采用逐步回归法检验和解决多重供线性问题。 分别作Y 对X2、X3、X4、X5、X6的一元回归 变量 参数估计值 0.0588 14.0225 19.6103 22.5957 3025.062 t 统计量 18.2488 9.3090 3.2710 8.7084 9.1392 0.9652 0.8784 0.4714 0.8634 0.8744 0.9623 0.8682 0.4273 0.8520 0.8639 的大小排序为: X2、 X3、X6、X5、X4。 以X2为基础,顺次加入其他变量逐步回归,过程从略 (见教材)

四、回归结果的解释与分析 最后消除多重共线性的结果 t=(-10.5998)(16.0418) (3.8314) (1.9744) = -3136.713 +0.0435 + 3.6660 + 2.1786 t=(-10.5998)(16.0418) (3.8314) (1.9744) =0.9961 =0.9949 F=841.4324 DW=1.1763 这说明,在其他因素不变的情况下,当国内旅游人数 每增加 1万人次,城镇居民人均旅游花费 和农村居民人均旅游花费 分别增加1元时,国内旅游收入 将分别平均增加0.0435 亿元、3.666亿元和2.1786亿元。

第四章 小结 1.多重共线性是指各个解释变量之间有准确或近似 准确的线性关系。 2.多重共线性的后果: 如果各个解释变量之间有完全的共线性,则它们的 回归系数是不确定的,并且它们的方差会无穷大。 如果共线性是高度的但不完全的,回归系数可估计, 但有较大的标准误差。回归系数不能准确地估计。

3.诊断共线性的经验方法: (1) 表现为可决系数异常高而回归系数的t 检验不显著。 (2) 变量之间的零阶或简单相关系数。多个解释变量时,较低的零阶相关也可能出现多重共线性,需要检查偏相关系数。 (4)如果 高而偏相关系数低,则多重共线性是可能的。 (5) 用解释变量间辅助回归的可决系数判断。

4.降低多重共线性的经验方法: (1)利用外部或先验信息; (2)横截面与时间序列数据并用; (3)剔除高度共线性的变量(如逐步回归); (4)数据转换; (5)获取补充数据或新数据; (6)选择有偏估计量(如岭回归)。 经验方法的效果取决于数据的性质和共线性的严重程度。

第 四 章 结 束 了! THANKS