多元逐步回归 多元线性回归中自变量的确定: 根据理论知识与经验决定自变量,由于对部分自变量的作用不确认,借助统计分析来实现,剔除: (1)对问题的研究可能不重要; (2)可能实际上与其他变量重叠; (3)较大测量误差。
为何要剔除一部分自变量? 自变量太多,信息成本高,模型复杂,不易分析理解; 高度相关的自变量并不增强模型的预测能力,反而加大回归系数的样本变差,削弱模型的描述能力。
多元逐步回归 多元逐步回归------从m个自变量中选择K(K≤m)个自变量,拟合最优或较理想的多元线性回归方程。 选出的自变量数应: 足够少:对应变量无重要作用的自变量不能多,剔除在方程外 充分多:对应变量有重要作用的自变量不能少,保留在方程中
自变量选择准则 残差平方和(SS残)与确定系数(R2) 残差均方( MS残)与调整确定系数(Adj R2) AIC信息统计量 CP统计量 预测残差平方和PRESS
残差平方和(SS残) 残差平方和(SS残)与确定系数(R2) 以某一自变量Xj被引入模型中导致残差平方和的改变量评价在此模型条件下Xj对应变量影响程度; 引入Xj,SS残减少量多,则Xj对Y的作用大,可被引入; 剔除Xj, SS残增加量多,则Xj对Y的作用大,不应剔除.
确定系数(R2) R2 =1-SS残/SS总 R2与SS残完全相关,作为选择自变量的准则时完全与SS残等价。
SS残与R2 如具有p个自变量的某一种组合可使: SS残P与含全部(m个)自变量SS残m接近; R2P与 R2m接近,则含这p个自变量的方程为“最优”方程。 但 “接近”的标准凭主观确定
SS残与R2 SS残值小,R2大的模型为较“优”模型。 SS残、 R2值的大小与引入自变量个数有关,随自变量个数的增加SS残减少, R2 缺点: 按SS残值小,R2大的原则选择自变量,全部自变量均引入时的模型为较“优”模型,未起到选择自变量作用; SS残变化量准则适用于比较具有相同自变量个数模型优劣的判据,而不适合对变量个数不同的模型的比较。
残差均方( MS残) MS残P=SS残P/(n-p-1) : 含P个自变量时的MS残 MS残是在SS残准则基础上增加了(n-p-1)-1因子,随着自变量个数的增加, SS残减少, (n-p-1)同时减少, MS残不一定减低。
残差均方( MS残) 模型从无自变量开始,按自变量对Y作用大小逐渐引入,当对Y作用大的自变量引入时, SS残减少幅度大于(n-p-1)减少幅度,MS残降低; 当模型中自变量增加到一定程度,对Y作用大的自变量已基本引入,再增加自变量, SS残减少幅度小于(n-p-1)减少幅度, MS残增加。
调整确定系数(Adj R2) 作为选择自变量的准则, Adj R2与MS残等价。 缺点: 当n很大, Adj R2≈ R2 ,评判效果不佳
AIC信息统计量 由日本统计学家Akaike(1974)提出并修正以适合于回归模型选择的准则------ Akaike 信息量准则( Akaike information criterion),简记AIC。 AIC实用计算式 AIC=n.Ln(SS残P)+2P SS残P:含P个自变量时的残差平方和。 AIC达到最小为准则
CP统计量 Mallows,C.L(1966)提出。 :含有P个 自变量的残差平方和; :含有全部 自变量(m个)的残差平方和
CP统计量 CP统计量从预测出发,基于残差平方和的一个准则。 若含有P个 自变量的模型合适, n大时,CP准则效果好
预测残差平方和PRESS hii 度量第i个数据点到数据中心的距离 当PRESS达到最小的自变量组合模型为“最优”模型
自变量选择方法 目的决定自变量选择方法 选择对应变量作最好预报的一组自变量----着眼点是拟合回归方程的一组自变量整体,用该组自变量应使回归方程拟合得最好; 选择对应变量作最好解释的主要自变量----着眼点是引入回归方程的一组自变量的每个自变量
自变量选择方法 最优子集法 向前法 向后法 逐步法
最优子集法 m个自变量,可建立2m-1个不同自变量组合方程,按某一自变量选择准则,从2m-1个方程中选择一个或几个最优的方程。 常用自变量选择准则:SS残准则、R2准则、Adj R2准则、CP准则 建议选择: Adj R2准则、CP准则
最优子集法 优点 MS残最小,F最大,回归方程最优; 缺点: 计算量大,如m=15,则必须拟合215-1=32767个子集回归方程来挑选最优,因此该法主要适用于m较小情况 当样本含量n小时,结果的重复性差; 不能保证:引入回归方程的各自变量都有统计学意义、回归方程外的各自变量都无统计学意义
最优子集法实例输出结果解读(M=3) 子集 SS残 R2 MS残 Adj R2 CP X1 877477 0.4824 109684 0.4177 5.8226 X2 1112338 0.3439 139042 0.2618 8.9866 X3 794759 0.5312 99345 0.4726 4.7079 X1.X2 496437 0.7072 70919 0.6235 2.6885 X1.X3 645925 0.6190 92275 0.5101 4.7026 X2.X3 654165 0.6141 93452 0.5039 4.8136 X1.X2.X3 445332 0.7373 74222 0.6060 4.0000
向前法(forward selection) 基本思想 0步:方程中无自变量,SS回= 0, SS残= SS总; 1步:分别建立自变量为X1、X2…Xm的m个回归方程,对贡献最大者,即F最大者(假如为X1)作偏回归平方和F检验,如无统计学意义,则终止,如有统计学意义,则引入X1,完成第1步;
向前法 2步:在方程中已有X1情况下,分别引入1个其余自变量,(X1,X2),(X1,X3)…(X1,Xm)建立方程,引入偏F最大者(假设为X2)作F检验,如无统计学意义,则终止,如有统计学意义,则引入X2,完成第2步; 反复上述过程,直到剩余变量不能再引入。整个过程结束。
向前法 优点:计算量小 缺点:引入自变量在当时有统计学意义,但随着其他自变量引入,可能引入的自变量与前期引入自变量间存在共线性,导致前期引入自变量作用无统计学意义,因此,最终方程中可能存在无统计学意义的自变量。
向后法(backward selection) 0步:建立1个包含全部自变量的方程,作F检验,如无统计学意义,全部过程结束,否则进行第1步; 1步:建立剔除1个自变量的方程(共m个方程),计算剔除变量后所致残差平方和增量的偏F值,取最小者与F界值比较,如无统计学意义,则将对应的自变量剔除; ……重复上述过程,每次循环剔除1个对模型贡献最小的且无统计学意义的自变量,直到方程中变量都不能再剔除为止。
向后法 优点:可行性强,若自变量较少时,不太多的步骤可以获得回归方程; 缺点: 1、第0步计算含全部自变量的回归方程,如自变量数多,则计算量大; 2、每次剔除1个贡献最小且无统计学意义的自变量,若无统计学意义的自变量多,则计算量大。
逐步法(stepwise selection) 向前法与向后法相结合,基本思想: 1步:在全部自变量中,引入一个对Y贡献最大的自变量,建立只含1个自变量的回归方程; 2步:在上步基础上考虑引入第2个变量,建立只含2个自变量的回归方程; 3步: 2个自变量的回归方程中是否有变量剔除; …..每引入1个与剔除1个自变量均作假设检验,以保证引入新自变量前与引入新变量后,方程中均只含有具有统计学意义的自变量,直到无法剔除方程中的自变量,也无法引入方程外的自变量。
实例 P34