第6章 多重共线性的情形及其处理 6 .1 多重共线性产生的背景和原因 6 .2 多重共线性对回归模型的影响 6 .3 多重共线性的诊断

Slides:



Advertisements
Similar presentations
一、 一阶线性微分方程及其解法 二、 一阶线性微分方程的简单应用 三、 小结及作业 §6.2 一阶线性微分方程.
Advertisements

第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
2.6 隐函数微分法 第二章 第二章 二、高阶导数 一、隐式定义的函数 三、可微函数的有理幂. 一、隐函数的导数 若由方程 可确定 y 是 x 的函数, 由 表示的函数, 称为显函数. 例如, 可确定显函数 可确定 y 是 x 的函数, 但此隐函数不能显化. 函数为隐函数. 则称此 隐函数求导方法.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
全微分 教学目的:全微分的有关概念和意义 教学重点:全微分的计算和应用 教学难点:全微分应用于近似计算.
§3.4 空间直线的方程.
3.4 空间直线的方程.
《解析几何》 乐山师范学院 0 引言 §1 二次曲线与直线的相关位置.
第五章 二次型. 第五章 二次型 知识点1---二次型及其矩阵表示 二次型的基本概念 1. 线性变换与合同矩阵 2.
一、能线性化的多元非线性回归 二、多元多项式回归(线性化)
§1 二阶与三阶行列式 ★二元线性方程组与二阶行列式 ★三阶行列式
一、二阶行列式的引入 用消元法解二元线性方程组. 一、二阶行列式的引入 用消元法解二元线性方程组.
第三章 函数逼近 — 最佳平方逼近.
10.2 立方根.
第13章 多重线性回归与相关 (multiple linear regression & multiple correlation)
§4.3 多重共线性 Multi-Collinearity.
第六章 多重共线性 (Multi-Collinearity)
《高等数学》(理学) 常数项级数的概念 袁安锋
预测与决策分析 Forecasting and Decision Analysis
第一章 行列式 第五节 Cramer定理 设含有n 个未知量的n个方程构成的线性方程组为 (Ⅰ) 由未知数的系数组成的n阶行列式
量化视角下的豆粕投资机会分析 格林期货研发培训中心 郭坤龙.
第四章 函数的积分学 第六节 微积分的基本公式 一、变上限定积分 二、微积分的基本公式.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
2-7、函数的微分 教学要求 教学要点.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
Applied Regression Analysis
第2章 Z变换 Z变换的定义与收敛域 Z反变换 系统的稳定性和H(z) 系统函数.
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
计量经济学 第四章 多重共线性.
引子: 国内生产总值增加会减少财政收入吗?
§3.7 热力学基本方程及麦克斯韦关系式 热力学状态函数 H, A, G 组合辅助函数 U, H → 能量计算
第2章 一元线性回归 2 .1 一元线性回归模型 2 .2 参数 的估计 2 .3 最小二乘估计的性质 2 .4 回归方程的显著性检验
元素替换法 ——行列式按行(列)展开(推论)
计算机数学基础 主讲老师: 邓辉文.
§2 求导法则 2.1 求导数的四则运算法则 下面分三部分加以证明, 并同时给出相应的推论和例题 .
第一章 函数 函数 — 研究对象—第一章 分析基础 极限 — 研究方法—第二章 连续 — 研究桥梁—第二章.
第十章 方差分析.
若2002年我国国民生产总值为 亿元,如果 ,那么经过多少年国民生产总值 每年平均增长 是2002年时的2倍? 解:设经过 年国民生产总值为2002年时的2倍, 根据题意有 , 即.
第4章 非线性规划 4.5 约束最优化方法 2019/4/6 山东大学 软件学院.
第一章 函数与极限.
数列.
线 性 代 数 厦门大学线性代数教学组 2019年4月24日6时8分 / 45.
第四章 一次函数 4. 一次函数的应用(第1课时).
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
第六章 多重共线性 一、多重共线性的概念 二、实际经济问题中的多重共线性 三、多重共线性的后果 四、多重共线性的检验
第16讲 相似矩阵与方阵的对角化 主要内容: 1.相似矩阵 2. 方阵的对角化.
§8.3 不变因子 一、行列式因子 二、不变因子.
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
4) 若A可逆,则 也可逆, 证明: 所以.
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
线 性 代 数 厦门大学线性代数教学组 2019年5月12日4时19分 / 45.
概率论与数理统计B.
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
正弦、余弦函数的性质 华容一中 伍立华 2017年2月24日.
§2 方阵的特征值与特征向量.
第三节 多重共线性的检验 本节基本内容: ● 简单相关系数检验法 ● 方差扩大(膨胀)因子法 ● 直观判断法 ● 逐步回归法.
第三节 函数的微分 3.1 微分的概念 3.2 微分的计算 3.3 微分的应用.
回归分析实验课程 (实验三) 多项式回归和定性变量的处理.
定义5 把矩阵 A 的行换成同序数的列得到的矩阵,
第四节 向量的乘积 一、两向量的数量积 二、两向量的向量积.
多元线性回归分析.
第三节 数量积 向量积 混合积 一、向量的数量积 二、向量的向量积 三、向量的混合积 四、小结 思考题.
数学模型实验课(二) 最小二乘法与直线拟合.
§4.5 最大公因式的矩阵求法( Ⅱ ).
第三章 线性方程组 §4 n维向量及其线性相关性(续7)
一元一次方程的解法(-).
§2 自由代数 定义19.7:设X是集合,G是一个T-代数,为X到G的函数,若对每个T-代数A和X到A的函数,都存在唯一的G到A的同态映射,使得=,则称G(更严格的说是(G,))是生成集X上的自由T-代数。X中的元素称为生成元。 A变, 变 变, 也变 对给定的 和A,是唯一的.
Presentation transcript:

第6章 多重共线性的情形及其处理 6 .1 多重共线性产生的背景和原因 6 .2 多重共线性对回归模型的影响 6 .3 多重共线性的诊断 6 .1 多重共线性产生的背景和原因 6 .2 多重共线性对回归模型的影响 6 .3 多重共线性的诊断 6 .4 消除多重共线性的方法 6 .5 主成分回归 6 .6 本章小结与评注

第六章 多重共线性的情形及其处理 如果存在不全为0的p+1个数c0,c1,c2,…,cp ,使得 第六章 多重共线性的情形及其处理 如果存在不全为0的p+1个数c0,c1,c2,…,cp ,使得 c0+c1xi1+c2xi2+…+cpxip=0 , i=1,2,…,n (6.1) 则称自变量x1,x2,…,xp之间存在着完全多重共线性。 在实际经济问题中完全的多重共线性并不多见,常见的是(6.1)式近似成立的情况,即存在不全为0的p+1个数c0,c1,c2,…,cp ,使得 c0+c1xi1+c2xi2+…+cpxip≈0 , i=1,2,…,n(6.2) 称自变量x1,x2,…,xp之间存在着多重共线性 (Multi-collinearity),也称为复共线性。

§6.1多重共线性产生的经济背景和原因 当我们所研究的经济问题涉及到时间序列资料时,由于经济变量随时间往往存在共同的变化趋势,使得它们之间就容易出现共线性。 例如, 我们要研究我国居民消费状况,影响居民消费的因素很多,一般有职工平均工资、农民平均收入、银行利率、全国零售物价指数、国债利率、货币发行量、储蓄额、前期消费额等,这些因素显然既对居民消费产生重要影响,它们之间又有着很强的相关性。

§6.1多重共线性产生的经济背景和原因 许多利用截面数据建立回归方程的问题常常也存在自变量高度相关的情形。 例如,我们以企业的截面数据为样本估计生产函数,由于投入要素资本K,劳动力投入L,科技投入S,能源供应E等都与企业的生产规模有关,所以它们之间存在较强的相关性。

c0+c1xi1+c2xi2+…+cpxip=0 , i=1,2,…,n  §6.2 多重共线性对回归模型的影响 设回归模型 y=β0+β1x1+β2x2+…+βpxp+ε 存在完全的多重共线性,即对设计矩阵X的列向量存在不全为零的一组数c0,c1,c2,…,cp ,使得 c0+c1xi1+c2xi2+…+cpxip=0 , i=1,2,…,n  设计矩阵X的秩rank(X)< p+1,此时|x′x|=0,正规方程组的解不唯一,(x′x)-1不存在,回归参数的最小二乘估计表达式 不成立。

c0+c1xi1+c2xi2+…+cpxip≈0 , i=1,2,…,n §6.2 多重共线性对回归模型的影响 对非完全共线性, 存在不全为零的一组数c0,c1,c2,…,cp ,使得 c0+c1xi1+c2xi2+…+cpxip≈0 , i=1,2,…,n

§6.2 多重共线性对回归模型的影响 我们做y对两个自变量x1,x2的线性回归,假定y与x1,x2都已经中心化,此时回归常数项为零,回归方程为

§6.2 多重共线性对回归模型的影响

§6.2 多重共线性对回归模型的影响

§6.2 多重共线性对回归模型的影响 当给不同的r12值时,由表6.1可看出方差增大的速度。 为了方便,我们假设σ2/L11=1,相关系数从0.5变为0.9时,回归系数的方差增加了295%,相关系数从0.5变为0.95时,回归系数的方差增加了670%。

§6.2 多重共线性对回归模型的影响 在例3.3中,我们建立的中国民航客运量回归方程为: §6.2 多重共线性对回归模型的影响 在例3.3中,我们建立的中国民航客运量回归方程为: =450.9+0.354x1-0.561x2-0.0073x3+21.578x4+0.435x5 其中:y—民航客运量(万人), x1—国民收入(亿元), x2—消费额(亿元), x3—铁路客运量(万人), x4—民航航线里程(万公里), x5—来华旅游入境人数(万人)。 5个自变量都通过了t检验,但是x2的回归系数是负值,x2是消费额,从经济学的定性分析看,消费额与民航客运量应该是正相关,负的回归系数无法解释。问题出在哪里?这正是由于自变量之间的复共线性造成的。

§6.3 多重共线性的诊断 一、方差扩大因子法 对自变量做中心标准化,则X*′X*=(rij)为自变量的相关阵。记 §6.3 多重共线性的诊断 一、方差扩大因子法 对自变量做中心标准化,则X*′X*=(rij)为自变量的相关阵。记 C=(cij)=(X*′X*)-1 (6.5) 称其主对角线元素VIFj=cjj为自变量xj的方差扩大因子(Variance Inflation Factor,简记为VIF)。根据(3.31)式可知, 其中Ljj是xj的离差平方和,由(6.6)式可知用cjj做为衡量自变量xj的方差扩大程度的因子是恰如其分的。

§6.3 多重共线性的诊断

§6.3 多重共线性的诊断

§6.3 多重共线性的诊断

§6.3 多重共线性的诊断 经验表明,当VIFj≥10时,就说明自变量xj与其余自变量之间有严重的多重共线性,且这种多重共线性可能会过度地影响最小二乘估计值。 还可用p个自变量所对应的方差扩大因子的平均数来度量多重共线性。当 远远大于1时就表示存在严重的多重共线性问题。

§6.3 多重共线性的诊断

§6.3 多重共线性的诊断 以下用SPSS软件诊断例3.2中国民航客运量一例中的多重共线性问题。

§6.3 多重共线性的诊断 二、特征根判定法 (一)特征根分析 §6.3 多重共线性的诊断 二、特征根判定法 (一)特征根分析 根据矩阵行列式的性质,矩阵的行列式等于其特征根的连乘积。因而,当行列式|X′X|≈0时, 矩阵X′X至少有一个特征根近似为零。反之可以证明,当矩阵X′X至少有一个特征根近似为零时,X 的列向量间必存在复共线性,证明如下:

§6.3 多重共线性的诊断 记X =(X0 ,X1,…,Xp),其中 Xi为X 的列向量, §6.3 多重共线性的诊断 记X =(X0 ,X1,…,Xp),其中 Xi为X 的列向量, X0 =(1,1,…,1)′是元素全为1的n维列向量。 λ是矩阵X′X的一个近似为零的特征根,λ≈0 c=(c0,c1, …,cp)′是对应于特征根λ的单位特征向量,则 X′X c=λc≈0

c0+c1xi1+c2xi2+…+cpxip≈0 , i=1,2,…,n §6.3 多重共线性的诊断 上式两边左乘c′,得 c′X′X c≈0 从而有 X c≈0 即 c0X0 +c1X1+…+cp Xp≈0 写成分量形式即为 c0+c1xi1+c2xi2+…+cpxip≈0 , i=1,2,…,n 这正是(6.2)式定义的多重共线性关系。

§6.3 多重共线性的诊断 (二)条件数 为特征根λi的条件数(Condition Index)。 §6.3 多重共线性的诊断 (二)条件数 特征根分析表明,当矩阵X′X有一个特征根近似为零时,设计矩阵X 的列向量间必存在复共线性。那么特征根近似为零的标准如何确定哪?这可以用下面介绍的条件数确定。记X′X的最大特征根为λm,称 为特征根λi的条件数(Condition Index)。

§6.3 多重共线性的诊断 用条件数判断多重共线性的准则 0<k<10时,设计矩阵X没有多重共线性; §6.3 多重共线性的诊断 用条件数判断多重共线性的准则 0<k<10时,设计矩阵X没有多重共线性; 10≤k<100时,认为X存在较强的多重共线性; 当k≥100时,则认为存在严重的多重共线性。

§6.3 多重共线性的诊断 对例3.2中国民航客运量的例子,用SPSS软件计算出 特征根与条件数如下:

§6.3 多重共线性的诊断 方差比例是用于判断哪几个自变量之间存在共线性的。实际上共线性关系可以根据(6.9)式直接从特征向量看出来,只是SPSS软件在线性回归模块中没有输出特征向量阵。 把特征向量按照特征值由大到小排成行向量,每个数值平方后再除以特征值,然后再把每列数据除以列数据之和,使得每列数据之和为1,这样就得到了输出结果6.2的方差比。 再次强调的是线性回归分析共线性诊断中设计阵X包含代表常数项的一列1,而因子分析模块中给出的特征向量是对标准化的设计阵给出的,两者之间有一些差异。

§6.3 多重共线性的诊断 (三)直观判定法  1.当增加或剔除一个自变量,或者改变一个观测值时,回归系数的估计值发生较大变化。 §6.3 多重共线性的诊断 (三)直观判定法  1.当增加或剔除一个自变量,或者改变一个观测值时,回归系数的估计值发生较大变化。 2.从定性分析认为,一些重要的自变量在回归方程中没有通过显著性检验。 3.有些自变量的回归系数所带正负号与定性分析结果违背。 4.自变量的相关矩阵中,自变量间的相关系数较大。 5.一些重要的自变量的回归系数的标准误差较大。

§6.4 消除多重共线性的方法 一、剔除一些不重要的解释变量 §6.4 消除多重共线性的方法 一、剔除一些不重要的解释变量 在剔除自变量时,可以将回归系数的显著性检验、方差扩大因子VIF以及自变量的经济含义结合起来考虑,以引进或剔除变量。

§6.4 消除多重共线性的方法

§6.4 消除多重共线性的方法

§6.4 消除多重共线性的方法

§6.4 消除多重共线性的方法 二、增大样本容量 例如, 由(6.3)式和(6.4)式 §6.4 消除多重共线性的方法 二、增大样本容量 例如, 由(6.3)式和(6.4)式 可以看到,在r12固定不变时,当样本容量n增大时,L11和L22都会增大,两个方差均可减小,从而减弱了多重共线性对回归方程的影响。

§6.4 消除多重共线性的方法 三、回归系数的有偏估计 §6.4 消除多重共线性的方法 三、回归系数的有偏估计 消除多重共线性对回归模型的影响是近30年来统计学家们关注的热点课题之一,除以上方法被人们应用外,统计学家还致力于改进古典的最小二乘法,提出以采用有偏估计为代价来提高估计量稳定性的方法,如: 岭回归法 主成分回归法 偏最小二乘法等。

§6.5 主成分回归 主成分分析(Principal Components Analysis,简记为PCA)是多元统计分析的一个基本方法,是对数据做一个正交旋转变换,也就是对原有变量做一些线性变换,变换后的变量是正交的。为了避免变量的量纲不同所产生的影响,要求先把数据做中心标准化,中心标准化后的自变量样本观测数据矩阵(即设计阵)就是n行p列的矩阵, 就是相关阵。

§6.5 主成分回归 以例3.3民航客运量的数据为例

§6.5 主成分回归

§6.5 主成分回归 现在用y对前两个主成分Factor1和Factor2做普通最小 二乘回归,得主成分回归回归方程: §6.5 主成分回归 现在用y对前两个主成分Factor1和Factor2做普通最小 二乘回归,得主成分回归回归方程: 不过以上回归方程的自变量是用两个主成分Factor1和Factor2表示的,应该转换回到用原始自变量表示的回归方程。

§6.5 主成分回归 分别用两个主成分Factor1和Factor2做因变量,以5个原始自变量做自变量做线性回归,所得的回归系数就是所需要的线性组合的系数。得到

§6.5 主成分回归 还原后的主成分回归方程为: 每个回归系数的解释也都合理。

§6.5 主成分回归 载荷矩阵

§6. 6 本章小结与评注 再假定x2与x3的简单相关系数r23=-0.5,x2与x3的离差平方和L22=L33=1,此时 §6. 6 本章小结与评注 当解释变量之间的简单相关系数很大时,可以断定自变量间存在着严重的多重共线性;但是一个回归方程存在严重的多重共线性时,解释变量之间的简单相关系数不一定很大。例如假定3个自变量之间有完全确定的关系 再假定x2与x3的简单相关系数r23=-0.5,x2与x3的离差平方和L22=L33=1,此时

§6. 6 本章小结与评注 同理 r13=0.5