第5章 自变量的选择与逐步回归 5.1 自变量选择对估计和预测的影响 5.2 所有子集回归 5.3 逐步回归 5.4 本章小结与评注.

Slides:



Advertisements
Similar presentations
一、 一阶线性微分方程及其解法 二、 一阶线性微分方程的简单应用 三、 小结及作业 §6.2 一阶线性微分方程.
Advertisements

第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
第三节 微分 3.1 、微分的概念 3.2 、微分的计算 3.3 、微分的应用. 一、问题的提出 实例 : 正方形金属薄片受热后面积的改变量.
非线性时间序列模型 一般非线性时间序列模型介绍 条件异方差模型 上海财经大学 统计与管理学院.
第六章 回归分析.
5 多元线性回归分析 §1 一元线性回归分析 §2 多元线性回归分析 §3 最优回归方程的选取 §4 可线性化的非线性回归.
第十章 相关与回归分析 PowerPoint 统计学.
回归分析法预测 (Regression Analysis)
《解析几何》 乐山师范学院 0 引言 §1 二次曲线与直线的相关位置.
一、能线性化的多元非线性回归 二、多元多项式回归(线性化)
6.6 单侧置信限 1、问题的引入 2、基本概念 3、典型例题 4、小结.
第13章 多重线性回归与相关 (multiple linear regression & multiple correlation)
第一章 行列式 第五节 Cramer定理 设含有n 个未知量的n个方程构成的线性方程组为 (Ⅰ) 由未知数的系数组成的n阶行列式
量化视角下的豆粕投资机会分析 格林期货研发培训中心 郭坤龙.
§5.3 定积分的换元法 和分部积分法 一、 定积分的换元法 二、 定积分的分部积分法 三、 小结、作业.
第5章 定积分及其应用 基本要求 5.1 定积分的概念与性质 5.2 微积分基本公式 5.3 定积分的换元积分法与分部积分法
不确定度的传递与合成 间接测量结果不确定度的评估
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
第三章 导数与微分 习 题 课 主要内容 典型例题.
2-7、函数的微分 教学要求 教学要点.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
计量经济学 第三章 多元线性回归模型.
在PHP和MYSQL中实现完美的中文显示
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
§3.3 多元线性回归模型的统计检验 一、拟合优度检验 二、方程的显著性检验(F检验) 三、变量的显著性检验(t检验) 四、参数的置信区间.
多元逐步回归 多元线性回归中自变量的确定: 根据理论知识与经验决定自变量,由于对部分自变量的作用不确认,借助统计分析来实现,剔除:
Multiple linear regression
一元线性回归模型 § 1 回归分析概述 § 2 一元线性回归模型的参数估计 § 3 一元线性回归模型的统计检验
第2章 一元线性回归 2 .1 一元线性回归模型 2 .2 参数 的估计 2 .3 最小二乘估计的性质 2 .4 回归方程的显著性检验
第4章 多元线性回归分析.
计算机数学基础 主讲老师: 邓辉文.
§2 求导法则 2.1 求导数的四则运算法则 下面分三部分加以证明, 并同时给出相应的推论和例题 .
多元回归分析:估计 y = b0 + b1x1 + b2x bkxk + u 计量经济学导论 刘愿.
第十章 方差分析.
第七章 参数估计 7.3 参数的区间估计.
若2002年我国国民生产总值为 亿元,如果 ,那么经过多少年国民生产总值 每年平均增长 是2002年时的2倍? 解:设经过 年国民生产总值为2002年时的2倍, 根据题意有 , 即.
第一章 函数与极限.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
统 计 学 (第三版) 2008 作者 贾俊平 统计学.
Partial Differential Equations §2 Separation of variables
模型分类问题 Presented by 刘婷婷 苏琬琳.
Three stability circuits analysis with TINA-TI
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
用统计学方法研究电商平台上的产品销售特征
实体描述呈现方法的研究 实验评估 2019/5/1.
定理21.9(可满足性定理)设A是P(Y)的协调子集,则存在P(Y)的解释域U和项解释,使得赋值函数v(A){1}。
iSIGHT 基本培训 使用 Excel的栅栏问题
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
多层循环 Private Sub Command1_Click() Dim i As Integer, j As Integer
第三章 两变量线性回归.
第四章 多元线性回归分析.
第一部分:概率 产生随机样本:对分布采样 均匀分布 其他分布 伪随机数 很多统计软件包中都有此工具 如在Matlab中:rand
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
概率论与数理统计B.
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
第三节 随机区组设计的方差分析 随机区组设计资料的总平方和可以分解为三项: (10.10).
回归分析实验课程 (实验三) 多项式回归和定性变量的处理.
基于列存储的RDF数据管理 朱敏
多元线性回归分析.
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
3.1回归分析的基本思想及其初步应用(四) 高二数学 选修2-3 第三章 统计案例.
线性规划 Linear Programming
《偏微分方程》第一章 绪论 第一章 绪论 1.1.
数学模型实验课(二) 最小二乘法与直线拟合.
一元一次方程的解法(-).
§2 自由代数 定义19.7:设X是集合,G是一个T-代数,为X到G的函数,若对每个T-代数A和X到A的函数,都存在唯一的G到A的同态映射,使得=,则称G(更严格的说是(G,))是生成集X上的自由T-代数。X中的元素称为生成元。 A变, 变 变, 也变 对给定的 和A,是唯一的.
Presentation transcript:

第5章 自变量的选择与逐步回归 5.1 自变量选择对估计和预测的影响 5.2 所有子集回归 5.3 逐步回归 5.4 本章小结与评注

§第5章 自变量选择与逐步回归 从20世纪60年代开始,关于回归自变量的选择成为统计学中研究的热点问题。统计学家们提出了许多回归选元的准则,并提出了许多行之有效的选元方法。 本章从回归选元对回归参数估计和预测的影响开始,介绍自变量选择常用的几个准则;扼要介绍所有子集回归选元的几个方法;详细讨论逐步回归方法及其应用。

§5.1 自变量选择对估计和预测的影响 一、全模型和选模型 设研究某一实际问题涉及到对因变量有影响的因素共有m个,回归模型为: y=β0+β1x1+β2x2+…+βmxm+ε (5.1) 称为全回归模型。 如果我们从所有可供选择的m个变量中挑选出p个,记为x1,x2,…,xp,构成的回归模型为: y=β0p+β1px1+β2px2+…+βppxp+εp (5.2) 称模型(5.2)式为选模型。

§5.1 自变量选择对估计和预测的影响 一、全模型和选模型 模型选择不当会给参数估计和预测带来什么影响?下面我们将分别给予讨论。 为了方便,我们把模型(5.1)式的参数估计向量 和σ2的估计记为: 把模型(5.2)式的参数估计向量记为

§5.1 自变量选择对估计和预测的影响 二、自变量选择对预测的影响 关于自变量选择对预测的影响可以分成两种情况: 第一种情况是全模型正确而误用了选模型; 第二种情况是选模型正确而误用了全模型式。

§5.1 自变量选择对估计和预测的影响 (一)全模型正确而误用选模型的情况

§5.1 自变量选择对估计和预测的影响 (一)全模型正确而误用选模型的情况

§5.1 自变量选择对估计和预测的影响 (一)全模型正确而误用选模型的情况

§5.1 自变量选择对估计和预测的影响 (一)全模型正确而误用选模型的情况

§5.1 自变量选择对估计和预测的影响 (一)全模型正确而误用选模型的情况

§5.1 自变量选择对估计和预测的影响 (二)选模型正确而误用全模型的情况

§5.1 自变量选择对估计和预测的影响 (二)选模型正确而误用全模型的情况

§5.1 自变量选择对估计和预测的影响 (二)选模型正确而误用全模型的情况 上述结论告诉我们,一个好的回归模型,并不是考虑的自变量越多越好。在建立回归模型时,选择自变量的基本指导思想是“少而精”。哪怕我们丢掉了一些对因变量y还有些影响的自变量,由选模型估计的保留变量的回归系数的方差,要比由全模型所估计的相应变量的回归系数的方差小。而且,对于所预测的因变量的方差来说也是如此。丢掉了一些对因变量y有影响的自变量后,所付出的代价是估计量产生了有偏性。然而,尽管估计量是有偏的,但预测偏差的方差会下降。另外,如果保留下来的自变量有些对因变量无关紧要,那么,方程中包括这些变量会导致参数估计和预测的有偏性和精度降低。

§5.2 所有子集回归 一、所有子集的数目 从另一个角度看 §5.2 所有子集回归 一、所有子集的数目 有m个可供选择的变量x1,x2,…,xm,由于每个自变量都有入选和不入选两种情况,这样y关于这些自变量的所有可能的回归方程就有2m-1个。 从另一个角度看

§5.2 所有子集回归 二、关于自变量选择的几个准则 §5.2 所有子集回归 二、关于自变量选择的几个准则 从数据与模型拟合优劣的直观考虑出发,认为残差平方和SSE最小的回归方程就是最好的。还曾用复相关系数R来衡量回归拟合的好坏。然而这两种方法都有明显的不足,这是因为:

§5.2 所有子集回归 准则1 自由度调整复相关系数达到最大

§5.2 所有子集回归 准则1 自由度调整复相关系数达到最大 从另外一个角度考虑回归的拟合效果, 回归误差项方差σ2的无偏估计为: §5.2 所有子集回归 准则1 自由度调整复相关系数达到最大 从另外一个角度考虑回归的拟合效果, 回归误差项方差σ2的无偏估计为: 此无偏估计式中也加入了惩罚因子n-p-1

§5.2 所有子集回归 准则1 自由度调整复相关系数达到最大

§5.2 所有子集回归 准则2 赤池信息量AIC达到最小 §5.2 所有子集回归 准则2 赤池信息量AIC达到最小 AIC准则是日本统计学家赤池(Akaike)1974年根据极大似然估计原理提出的一种较为一般的模型选择准则,人们称它为Akaike信息量准则 (Akaike Information Criterion,简记为AIC)。AIC准则既可用来作回归方程自变量的选择,又可用于时间序列分析中自回归模型的定阶上。由于该方法的广泛应用,使得赤池乃至日本统计学家在世界的声誉大增。

§5.2 所有子集回归 准则2 赤池信息量AIC达到最小 §5.2 所有子集回归 准则2 赤池信息量AIC达到最小 设回归模型的似然函数为L(θ,x), θ的维数为p,x为样本,在回归分析中样本为y=(y1,y2,…yn)′,则AIC定义为:

§5.2 所有子集回归 准则2 赤池信息量AIC达到最小 假定回归模型的随机误差项ε遵从正态分布,即 ε~N(0,σ2) 对数似然函数为

§5.2 所有子集回归 AIC=nln(SSE)+2p 对每一个回归子集计算AIC,其中AIC最小者所对应的模型是“最优”回归模型 §5.2 所有子集回归 准则2 赤池信息量AIC达到最小 带入公式 中 这里似然函数中的未知参数个数为p+2,略去与p无关的常数,得回归模型的AIC公式为 AIC=nln(SSE)+2p 对每一个回归子集计算AIC,其中AIC最小者所对应的模型是“最优”回归模型

§5.2 所有子集回归 准则4 Cp统计量达到最小 1964年马勒斯 (Mallows)从预测的角度提出一个可以用来选择自变量的统计量————Cp统计量。根据性质5,即使全模型正确,但仍有可能选模型有更小的预测误差。Cp正是根据这一原理提出来的。

§5.2 所有子集回归 准则4 Cp统计量达到最小 考虑在n个样本点上,用选模型(5.2)式作回报预测时,预测值与期望值的相对偏差平方和为:

§5.2 所有子集回归 准则4 Cp统计量达到最小 可以证明,Jp的期望值是 略去无关的常数2,据此构造出Cp统计量为

§5.2 所有子集回归 准则4 Cp统计量达到最小

§5.2 所有子集回归 例5.1 y表示某种消费品的销售额, x1表示居民可支配收入, x2表示该类消费品的价格指数, §5.2 所有子集回归 例5.1 y表示某种消费品的销售额, x1表示居民可支配收入, x2表示该类消费品的价格指数, x3表示其他消费品平均价格指数。 表5.1给出了某地区18年某种消费品销售情况资料,试建立该地区该消费品销售额预测方程。

§5.2 所有子集回归 表5.1 序号 x1(元) x2(%) x3(%) (百万元) 1 81.2 85.0 87.0 7.8 2 §5.2 所有子集回归 序号 x1(元) x2(%) x3(%) (百万元) 1 81.2 85.0 87.0 7.8 2 82.9 92.0 94.0 8.4 3 83.2 91.5 95.0 8.7 4 85.9 92.9 95.5 9.0 5 88.0 93.0 96.0 9.6 6 99.9 97.0 10.3 7 102.0 97.5 10.6 8 105.3 95.6 10.9 9 117.7 98.9 98.0 11.3 10 126.4 101.5 101.2 12.3 11 131.2 102.5 13.5 12 148.0 105.0 104.0 14.2 13 153.0 106.0 105.9 14.9 14 161.0 109.0 109.5 15.9 15 170.0 112.0 111.0 18.5 16 174.0 112.5 19.5 17 185.0 113.0 112.3 19.9 18 189.0 114.0 20.5 表5.1

§5.2 所有子集回归 这个例子中,n=18,m=3, 所有的自变量子集有2m-1=7个,即有7个回归子集。 表5.2 自变量子集 R2 §5.2 所有子集回归 表5.2 自变量子集 R2 AIC Cp x1 0.9728 0.9711 40.06 4.134 x2 0.9566 0.9539 48.48 16.151 x3 0.9508 0.9477 50.74 20.452 x1,x2 0.9747 0.9714 40.76 4.734 x1,x3 0.9784 0.9755 37.93 2.005 x2,x3 0.9576 0.9519 50.09 17.461 x1,x2,x3 0.9811 0.9771 37.52 2.000 这个例子中,n=18,m=3, 所有的自变量子集有2m-1=7个,即有7个回归子集。

§5.2 所有子集回归 由表5.2的3项指标均可看到x1,x2,x3是“最优”子集,x1,x3是“次优”子集。回归方程分别为

§5.2 所有子集回归 三、用SAS软件寻找最优子集 (1)程序编辑窗(PROGRAM EDITOR),用来编辑程序。 §5.2 所有子集回归 三、用SAS软件寻找最优子集 SAS软件共有三个基本窗口,分别为: (1)程序编辑窗(PROGRAM EDITOR),用来编辑程序。 (2)日志窗(LOG),显示已执行的语句和系统信息,包括 错误信息。 (3)输出窗(OUTPUT)显示程序运行结果。 用主菜单的Window命令可以实现在三个窗口间的转换。

§5.2 所有子集回归 data data1; input x1-x12 y; cards; §5.2 所有子集回归 data data1; input x1-x12 y; cards; 1.94 4.5 154.45 207.33 246.87 277.64 135.79 30.58 110.67 80.83 51.83 14.09 2384 0.33 6.49 133.16 127.29 120.17 114.88 81.21 14.05 35.7 16 27.1 2.93 202 … ; proc reg; model y=x1-x12/selection=adjrsq; run;

§5.2 所有子集回归 以下是部分输出结果: R-square In §5.2 所有子集回归 以下是部分输出结果: Adjusted R-square Variables in Model R-square In 0.82985517 0.86388414 6 X3 X5 X8 X9 X10 X11 0.82692850 0.86731185 7 X3 X5 X6 X8 X9 X10 X11 0.82487399 0.85989919 6 X3 X6 X8 X9 X10 X11 0.82366778 0.86481197 7 X3 X4 X5 X8 X9 X10 X11 0.82343275 0.86463178 7 X3 X5 X8 X9 X10 X11 X12 0.82311828 0.86439068 7 X3 X5 X7 X8 X9 X10 X11 …

§5.3 逐步回归 一、问题的提出及逐步回归的思想 §5.3 逐步回归 一、问题的提出及逐步回归的思想 自变量的所有可能子集构成2m-1个回归方程,当可供选择的自变量不太多时,用前边的方法可以求出一切可能的回归方程,然后用几个选元准则去挑出“最好”的方程,但是当自变量的个数较多时,要求出所有可能的回归方程是非常困难的。为此,人们提出了一些较为简便、实用、快速的选择“最优”方程的方法。人们所给出的方法各有优缺点,至今还没有绝对最优的方法,目前常用的方法有“前进法”、“后退法”、“逐步回归法”,而逐步回归法最受推崇。

§5.3 逐步回归 一、问题的提出及逐步回归的思想 §5.3 逐步回归 一、问题的提出及逐步回归的思想 在后边的讨论中,无论我们从回归方程中剔除某个自变量,还是给回归方程增加某个自变量都要利用(3.42)式的偏F检验,这个偏F检验与(3.40)式的t检验是等价的,F检验的定义式的统计意义更为明了,并且容易推广到对多个自变量的显著性检验,因而采用F检验。

§5.3 逐步回归 一、前进法

§5.3 逐步回归 一、问题的提出及逐步回归的思想

§5.3 逐步回归 一、问题的提出及逐步回归的思想 依上述方法接着做下去。直至所有未被引入方程的自变量的F值均小于Fα(1,n-p-1)时为止。这时,得到的回归方程就是最终确定的方程。 每步检验中的临界值Fα(1,n-p-1)与自变量数目p有关,在用软件计算时,我们实际使用的是显著性P值(或记为sig)做检验。

§5.3 逐步回归 一、问题的提出及逐步回归的思想 §5.3 逐步回归 一、问题的提出及逐步回归的思想 例5.4 对例3.1国际旅游外汇收入y对第三产业的12个变量做回归的数据,用前进法做变量选择,取显著性水平α进=0.05。 首先进入线性回归对话框,将y与x1至x12分别选入各自的变量框,然后在Method对话框中点选前进法Forward,点选Options选项看到默认的显著性水平α进正是0.05。部分运行结果如下:

§5.3 逐步回归

§5.3 逐步回归

§5.3 逐步回归

§5.3 逐步回归 一、问题的提出及逐步回归的思想

§5.3 逐步回归 二、后退法

§5.3 逐步回归 二、后退法

§5.3 逐步回归 二、后退法 续例5.4 对例3.1国际旅游外汇收入y对第三产业的12个变量做回归的数据,用后退法做变量选择,取显著性水平α出=0.10。 首先进入线性回归对话框,将y与x1至x12分别选入各自的变量框,然后在Method对话框中点选后退法Backward,点选Options选项看到默认的显著性水平α出正是0.10。部分运行结果见表5.4:

§5.3 逐步回归 二、后退法

§5.3 逐步回归 二、后退法

§5.3 逐步回归 二、后退法

§5.3 逐步回归 三、逐步回归法 逐步回归的基本思想是“有进有出”。具体做法是将变量一个一个引入,当每引入一个自变量后,对已选入的变量要进行逐个检验,当原引入的变量由于后面变量的引入而变得不再显著时,要将其剔除。这个过程反复进行,直到既无显著的自变量选入回归方程,也无不显著自变量从回归方程中剔除为止。这样就避免了前进法和后退法各自的缺陷,保证了最后所得的回归子集是“最优”回归子集。

§5.3 逐步回归 三、逐步回归法 α进<α出 §5.3 逐步回归 三、逐步回归法 在逐步回归中需要注意的一个问题是引入自变量和剔除自变量的显著性水平α值是不相同的,要求 α进<α出 否则可能产生“死循环”。也就是当α进≥α出时,如果某个自变量的显著性P值在α进与α出之间,那末这个自变量将被引入、剔除、再引入、再剔除、…,循环往复,以至无穷。

§5.3 逐步回归 三、逐步回归法 续例5.4 对例3.1国际旅游外汇收入y对第三产业的12个变量做回归的数据,用逐步回归法做变量选择,取显著性水平α进=0.05,α出=0.10。 首先进入线性回归对话框,将y与x1至x12分别选入各自的变量框,然后在Method对话框中点选逐步回归法Stepwise,点选Options选项看到默认的显著性水平正是 α进=0.05,α出=0.10。部分运行结果见表5.5:

§5.3 逐步回归 三、逐步回归法

§5.3 逐步回归

§5.4 本章小结与评注 一、逐步回归实例分析 为例,建立回归方程,分析影响股票价格趋势变动的因素。 §5.4 本章小结与评注 一、逐步回归实例分析 例5.5 为了研究香港股市的变化规律,此例以恒生指数 为例,建立回归方程,分析影响股票价格趋势变动的因素。 这里我们选了6个影响股票价格指数的经济变量: x1(百万$) —成交额, x2—九九金价($/两), x3—港汇指数, x4—人均生产总值(现价$), x5—建筑业总开支(现价百万$), x6—房地产买卖金额(百万$), x7—优惠利率(最低%)。 y为恒生指数。

§5.3 逐步回归 年份 y x1 x2 x3 x4 x5 x6 x7 1974 172.9 11246 681 105.9 10183 4110 11242 9 1975 352.94 10335 791 107.4 10414 3996 12693 6.5 1976 447.67 13156 607 114.4 13134 4689 16681 6 1977 404.02 6127 714 110.8 15033 6876 22131 4.75 1978 409.51 27419 911 99.4 17389 8636 31353 1979 619.71 25633 1231 91.4 21715 12339 43528 9.5 1980 1121.17 95684 2760 90.8 27075 16623 70752 10 1981 1506.94 105987 2651 86.3 31827 19937 125989 16 1982 1105.79 46230 2105 125.3 35393 24787 99468 10.5 1983 933.03 37165 3030 38823 25112 82478 1984 1008.54 48787 2810 106.6 46079 24414 54936 8.5 1985 1567.56 75808 2649 115.7 47871 22970 87135 1986 1960.06 123128 3031 110.1 54372 24403 129884 1987 2884.88 371406 3644 105.8 65602 30531 153044 5 1988 2556.72 198569 3690 101.6 74917 37861 215033 5.25

§5.3 逐步回归 Y X1 X2 X3 X4 X5 X6 X7 1.0000 0.9171 0.8841 -0.0425 0.9382 0.8786 0.9372 -0.0955 0.7375 -0.1293 0.7842 0.6973 0.7817 -0.1732 -0.1083 0.9195 0.9477 0.8747 0.1517 0.0725 0.0469 -0.0952 -0.4164 0.9601 0.9137 -0.1409 0.9167 0.0666 0.0617

§5.3 逐步回归

§5.3 逐步回归

§5.3 逐步回归