Presentation is loading. Please wait.

Presentation is loading. Please wait.

第5章 自变量的选择与逐步回归 5.1 自变量选择对估计和预测的影响 5.2 所有子集回归 5.3 逐步回归 5.4 本章小结与评注.

Similar presentations


Presentation on theme: "第5章 自变量的选择与逐步回归 5.1 自变量选择对估计和预测的影响 5.2 所有子集回归 5.3 逐步回归 5.4 本章小结与评注."— Presentation transcript:

1 第5章 自变量的选择与逐步回归 5.1 自变量选择对估计和预测的影响 5.2 所有子集回归 5.3 逐步回归 5.4 本章小结与评注

2 §第5章 自变量选择与逐步回归 从20世纪60年代开始,关于回归自变量的选择成为统计学中研究的热点问题。统计学家们提出了许多回归选元的准则,并提出了许多行之有效的选元方法。 本章从回归选元对回归参数估计和预测的影响开始,介绍自变量选择常用的几个准则;扼要介绍所有子集回归选元的几个方法;详细讨论逐步回归方法及其应用。

3 §5.1 自变量选择对估计和预测的影响 一、全模型和选模型 设研究某一实际问题涉及到对因变量有影响的因素共有m个,回归模型为:
y=β0+β1x1+β2x2+…+βmxm+ε (5.1) 称为全回归模型。 如果我们从所有可供选择的m个变量中挑选出p个,记为x1,x2,…,xp,构成的回归模型为: y=β0p+β1px1+β2px2+…+βppxp+εp (5.2) 称模型(5.2)式为选模型。

4 §5.1 自变量选择对估计和预测的影响 一、全模型和选模型 模型选择不当会给参数估计和预测带来什么影响?下面我们将分别给予讨论。
为了方便,我们把模型(5.1)式的参数估计向量 和σ2的估计记为: 把模型(5.2)式的参数估计向量记为

5 §5.1 自变量选择对估计和预测的影响 二、自变量选择对预测的影响 关于自变量选择对预测的影响可以分成两种情况:
第一种情况是全模型正确而误用了选模型; 第二种情况是选模型正确而误用了全模型式。

6 §5.1 自变量选择对估计和预测的影响 (一)全模型正确而误用选模型的情况

7 §5.1 自变量选择对估计和预测的影响 (一)全模型正确而误用选模型的情况

8 §5.1 自变量选择对估计和预测的影响 (一)全模型正确而误用选模型的情况

9 §5.1 自变量选择对估计和预测的影响 (一)全模型正确而误用选模型的情况

10 §5.1 自变量选择对估计和预测的影响 (一)全模型正确而误用选模型的情况

11 §5.1 自变量选择对估计和预测的影响 (二)选模型正确而误用全模型的情况

12 §5.1 自变量选择对估计和预测的影响 (二)选模型正确而误用全模型的情况

13 §5.1 自变量选择对估计和预测的影响 (二)选模型正确而误用全模型的情况
上述结论告诉我们,一个好的回归模型,并不是考虑的自变量越多越好。在建立回归模型时,选择自变量的基本指导思想是“少而精”。哪怕我们丢掉了一些对因变量y还有些影响的自变量,由选模型估计的保留变量的回归系数的方差,要比由全模型所估计的相应变量的回归系数的方差小。而且,对于所预测的因变量的方差来说也是如此。丢掉了一些对因变量y有影响的自变量后,所付出的代价是估计量产生了有偏性。然而,尽管估计量是有偏的,但预测偏差的方差会下降。另外,如果保留下来的自变量有些对因变量无关紧要,那么,方程中包括这些变量会导致参数估计和预测的有偏性和精度降低。

14 §5.2 所有子集回归 一、所有子集的数目 从另一个角度看
§ 所有子集回归 一、所有子集的数目 有m个可供选择的变量x1,x2,…,xm,由于每个自变量都有入选和不入选两种情况,这样y关于这些自变量的所有可能的回归方程就有2m-1个。 从另一个角度看

15 §5.2 所有子集回归 二、关于自变量选择的几个准则
§ 所有子集回归 二、关于自变量选择的几个准则 从数据与模型拟合优劣的直观考虑出发,认为残差平方和SSE最小的回归方程就是最好的。还曾用复相关系数R来衡量回归拟合的好坏。然而这两种方法都有明显的不足,这是因为:

16 § 所有子集回归 准则1 自由度调整复相关系数达到最大

17 §5.2 所有子集回归 准则1 自由度调整复相关系数达到最大 从另外一个角度考虑回归的拟合效果, 回归误差项方差σ2的无偏估计为:
§ 所有子集回归 准则1 自由度调整复相关系数达到最大 从另外一个角度考虑回归的拟合效果, 回归误差项方差σ2的无偏估计为: 此无偏估计式中也加入了惩罚因子n-p-1

18 § 所有子集回归 准则1 自由度调整复相关系数达到最大

19 §5.2 所有子集回归 准则2 赤池信息量AIC达到最小
§ 所有子集回归 准则2 赤池信息量AIC达到最小 AIC准则是日本统计学家赤池(Akaike)1974年根据极大似然估计原理提出的一种较为一般的模型选择准则,人们称它为Akaike信息量准则 (Akaike Information Criterion,简记为AIC)。AIC准则既可用来作回归方程自变量的选择,又可用于时间序列分析中自回归模型的定阶上。由于该方法的广泛应用,使得赤池乃至日本统计学家在世界的声誉大增。

20 §5.2 所有子集回归 准则2 赤池信息量AIC达到最小
§ 所有子集回归 准则2 赤池信息量AIC达到最小 设回归模型的似然函数为L(θ,x), θ的维数为p,x为样本,在回归分析中样本为y=(y1,y2,…yn)′,则AIC定义为:

21 § 所有子集回归 准则2 赤池信息量AIC达到最小 假定回归模型的随机误差项ε遵从正态分布,即 ε~N(0,σ2) 对数似然函数为

22 §5.2 所有子集回归 AIC=nln(SSE)+2p 对每一个回归子集计算AIC,其中AIC最小者所对应的模型是“最优”回归模型
§ 所有子集回归 准则2 赤池信息量AIC达到最小 带入公式 这里似然函数中的未知参数个数为p+2,略去与p无关的常数,得回归模型的AIC公式为 AIC=nln(SSE)+2p 对每一个回归子集计算AIC,其中AIC最小者所对应的模型是“最优”回归模型

23 § 所有子集回归 准则4 Cp统计量达到最小 1964年马勒斯 (Mallows)从预测的角度提出一个可以用来选择自变量的统计量————Cp统计量。根据性质5,即使全模型正确,但仍有可能选模型有更小的预测误差。Cp正是根据这一原理提出来的。

24 § 所有子集回归 准则4 Cp统计量达到最小 考虑在n个样本点上,用选模型(5.2)式作回报预测时,预测值与期望值的相对偏差平方和为:

25 § 所有子集回归 准则4 Cp统计量达到最小 可以证明,Jp的期望值是 略去无关的常数2,据此构造出Cp统计量为

26 § 所有子集回归 准则4 Cp统计量达到最小

27 §5.2 所有子集回归 例5.1 y表示某种消费品的销售额, x1表示居民可支配收入, x2表示该类消费品的价格指数,
§ 所有子集回归 例5.1 y表示某种消费品的销售额, x1表示居民可支配收入, x2表示该类消费品的价格指数, x3表示其他消费品平均价格指数。 表5.1给出了某地区18年某种消费品销售情况资料,试建立该地区该消费品销售额预测方程。

28 §5.2 所有子集回归 表5.1 序号 x1(元) x2(%) x3(%) (百万元) 1 81.2 85.0 87.0 7.8 2
§ 所有子集回归 序号 x1(元) x2(%) x3(%) (百万元) 1 81.2 85.0 87.0 7.8 2 82.9 92.0 94.0 8.4 3 83.2 91.5 95.0 8.7 4 85.9 92.9 95.5 9.0 5 88.0 93.0 96.0 9.6 6 99.9 97.0 10.3 7 102.0 97.5 10.6 8 105.3 95.6 10.9 9 117.7 98.9 98.0 11.3 10 126.4 101.5 101.2 12.3 11 131.2 102.5 13.5 12 148.0 105.0 104.0 14.2 13 153.0 106.0 105.9 14.9 14 161.0 109.0 109.5 15.9 15 170.0 112.0 111.0 18.5 16 174.0 112.5 19.5 17 185.0 113.0 112.3 19.9 18 189.0 114.0 20.5 表5.1

29 §5.2 所有子集回归 这个例子中,n=18,m=3, 所有的自变量子集有2m-1=7个,即有7个回归子集。 表5.2 自变量子集 R2
§ 所有子集回归 表5.2 自变量子集 R2 AIC Cp x1 0.9728 0.9711 40.06 4.134 x2 0.9566 0.9539 48.48 16.151 x3 0.9508 0.9477 50.74 20.452 x1,x2 0.9747 0.9714 40.76 4.734 x1,x3 0.9784 0.9755 37.93 2.005 x2,x3 0.9576 0.9519 50.09 17.461 x1,x2,x3 0.9811 0.9771 37.52 2.000 这个例子中,n=18,m=3, 所有的自变量子集有2m-1=7个,即有7个回归子集。

30 § 所有子集回归 由表5.2的3项指标均可看到x1,x2,x3是“最优”子集,x1,x3是“次优”子集。回归方程分别为

31 §5.2 所有子集回归 三、用SAS软件寻找最优子集 (1)程序编辑窗(PROGRAM EDITOR),用来编辑程序。
§ 所有子集回归 三、用SAS软件寻找最优子集 SAS软件共有三个基本窗口,分别为: (1)程序编辑窗(PROGRAM EDITOR),用来编辑程序。 (2)日志窗(LOG),显示已执行的语句和系统信息,包括 错误信息。 (3)输出窗(OUTPUT)显示程序运行结果。 用主菜单的Window命令可以实现在三个窗口间的转换。

32 §5.2 所有子集回归 data data1; input x1-x12 y; cards;
§ 所有子集回归 data data1; input x1-x12 y; cards; proc reg; model y=x1-x12/selection=adjrsq; run;

33 §5.2 所有子集回归 以下是部分输出结果: R-square In
§ 所有子集回归 以下是部分输出结果: Adjusted R-square Variables in Model R-square In X3 X5 X8 X9 X10 X11 X3 X5 X6 X8 X9 X10 X11 X3 X6 X8 X9 X10 X11 X3 X4 X5 X8 X9 X10 X11 X3 X5 X8 X9 X10 X11 X12 X3 X5 X7 X8 X9 X10 X11

34 §5.3 逐步回归 一、问题的提出及逐步回归的思想
§5.3 逐步回归 一、问题的提出及逐步回归的思想 自变量的所有可能子集构成2m-1个回归方程,当可供选择的自变量不太多时,用前边的方法可以求出一切可能的回归方程,然后用几个选元准则去挑出“最好”的方程,但是当自变量的个数较多时,要求出所有可能的回归方程是非常困难的。为此,人们提出了一些较为简便、实用、快速的选择“最优”方程的方法。人们所给出的方法各有优缺点,至今还没有绝对最优的方法,目前常用的方法有“前进法”、“后退法”、“逐步回归法”,而逐步回归法最受推崇。

35 §5.3 逐步回归 一、问题的提出及逐步回归的思想
§5.3 逐步回归 一、问题的提出及逐步回归的思想 在后边的讨论中,无论我们从回归方程中剔除某个自变量,还是给回归方程增加某个自变量都要利用(3.42)式的偏F检验,这个偏F检验与(3.40)式的t检验是等价的,F检验的定义式的统计意义更为明了,并且容易推广到对多个自变量的显著性检验,因而采用F检验。

36 §5.3 逐步回归 一、前进法

37 §5.3 逐步回归 一、问题的提出及逐步回归的思想

38 §5.3 逐步回归 一、问题的提出及逐步回归的思想 依上述方法接着做下去。直至所有未被引入方程的自变量的F值均小于Fα(1,n-p-1)时为止。这时,得到的回归方程就是最终确定的方程。 每步检验中的临界值Fα(1,n-p-1)与自变量数目p有关,在用软件计算时,我们实际使用的是显著性P值(或记为sig)做检验。

39 §5.3 逐步回归 一、问题的提出及逐步回归的思想
§5.3 逐步回归 一、问题的提出及逐步回归的思想 例5.4 对例3.1国际旅游外汇收入y对第三产业的12个变量做回归的数据,用前进法做变量选择,取显著性水平α进=0.05。 首先进入线性回归对话框,将y与x1至x12分别选入各自的变量框,然后在Method对话框中点选前进法Forward,点选Options选项看到默认的显著性水平α进正是0.05。部分运行结果如下:

40 §5.3 逐步回归

41 §5.3 逐步回归

42 §5.3 逐步回归

43 §5.3 逐步回归 一、问题的提出及逐步回归的思想

44 §5.3 逐步回归 二、后退法

45 §5.3 逐步回归 二、后退法

46 §5.3 逐步回归 二、后退法 续例5.4 对例3.1国际旅游外汇收入y对第三产业的12个变量做回归的数据,用后退法做变量选择,取显著性水平α出=0.10。 首先进入线性回归对话框,将y与x1至x12分别选入各自的变量框,然后在Method对话框中点选后退法Backward,点选Options选项看到默认的显著性水平α出正是0.10。部分运行结果见表5.4:

47 §5.3 逐步回归 二、后退法

48 §5.3 逐步回归 二、后退法

49 §5.3 逐步回归 二、后退法

50 §5.3 逐步回归 三、逐步回归法 逐步回归的基本思想是“有进有出”。具体做法是将变量一个一个引入,当每引入一个自变量后,对已选入的变量要进行逐个检验,当原引入的变量由于后面变量的引入而变得不再显著时,要将其剔除。这个过程反复进行,直到既无显著的自变量选入回归方程,也无不显著自变量从回归方程中剔除为止。这样就避免了前进法和后退法各自的缺陷,保证了最后所得的回归子集是“最优”回归子集。

51 §5.3 逐步回归 三、逐步回归法 α进<α出
§5.3 逐步回归 三、逐步回归法 在逐步回归中需要注意的一个问题是引入自变量和剔除自变量的显著性水平α值是不相同的,要求 α进<α出 否则可能产生“死循环”。也就是当α进≥α出时,如果某个自变量的显著性P值在α进与α出之间,那末这个自变量将被引入、剔除、再引入、再剔除、…,循环往复,以至无穷。

52 §5.3 逐步回归 三、逐步回归法 续例5.4 对例3.1国际旅游外汇收入y对第三产业的12个变量做回归的数据,用逐步回归法做变量选择,取显著性水平α进=0.05,α出=0.10。 首先进入线性回归对话框,将y与x1至x12分别选入各自的变量框,然后在Method对话框中点选逐步回归法Stepwise,点选Options选项看到默认的显著性水平正是 α进=0.05,α出=0.10。部分运行结果见表5.5:

53 §5.3 逐步回归 三、逐步回归法

54 §5.3 逐步回归

55 §5.4 本章小结与评注 一、逐步回归实例分析 为例,建立回归方程,分析影响股票价格趋势变动的因素。
§5.4 本章小结与评注 一、逐步回归实例分析 例5.5 为了研究香港股市的变化规律,此例以恒生指数 为例,建立回归方程,分析影响股票价格趋势变动的因素。 这里我们选了6个影响股票价格指数的经济变量: x1(百万$) —成交额, x2—九九金价($/两), x3—港汇指数, x4—人均生产总值(现价$), x5—建筑业总开支(现价百万$), x6—房地产买卖金额(百万$), x7—优惠利率(最低%)。 y为恒生指数。

56 §5.3 逐步回归 年份 y x1 x2 x3 x4 x5 x6 x7 1974 172.9 11246 681 105.9 10183 4110 11242 9 1975 352.94 10335 791 107.4 10414 3996 12693 6.5 1976 447.67 13156 607 114.4 13134 4689 16681 6 1977 404.02 6127 714 110.8 15033 6876 22131 4.75 1978 409.51 27419 911 99.4 17389 8636 31353 1979 619.71 25633 1231 91.4 21715 12339 43528 9.5 1980 95684 2760 90.8 27075 16623 70752 10 1981 105987 2651 86.3 31827 19937 125989 16 1982 46230 2105 125.3 35393 24787 99468 10.5 1983 933.03 37165 3030 38823 25112 82478 1984 48787 2810 106.6 46079 24414 54936 8.5 1985 75808 2649 115.7 47871 22970 87135 1986 123128 3031 110.1 54372 24403 129884 1987 371406 3644 105.8 65602 30531 153044 5 1988 198569 3690 101.6 74917 37861 215033 5.25

57 §5.3 逐步回归 Y X1 X2 X3 X4 X5 X6 X7 1.0000 0.9171 0.8841 0.9382 0.8786 0.9372 0.7375 0.7842 0.6973 0.7817 0.9195 0.9477 0.8747 0.1517 0.0725 0.0469 0.9601 0.9137 0.9167 0.0666 0.0617

58 §5.3 逐步回归

59 §5.3 逐步回归

60 §5.3 逐步回归


Download ppt "第5章 自变量的选择与逐步回归 5.1 自变量选择对估计和预测的影响 5.2 所有子集回归 5.3 逐步回归 5.4 本章小结与评注."

Similar presentations


Ads by Google