§9.3 线性回归分析 一. 什么是回归分析 相关分析研究变量之间相关的方向和相关的程度,但是相关分析不能指出变量间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。 回归分析则是研究变量之间的数量变化规律的一种方法。
通过回归分析,我们可以研究变量之间相互关系的具体形式,确定一个数学表达式,即回归方程。根据这个回归方程可以从已知量来推测未知量,从而为估算和预测提供了一个重要的方法。 回归一词何来? 达尔文( Charles Darwin ) 表弟 高尔登( Francis Galton ) 学生 皮尔逊(Karl Pearson)
为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。
二. 线性回归模型 1. 一元线性回归模型 设x和y有相关关系,y并不由x唯一确定,而是 有下式子成立: y= b0 + b1 x+ e,其中e为随机误差 0 和 1 称为回归参数, 其中,0称为回归常数 1称为回归系数
根据我们从收集到的样本 我们可以把模型写成如下形式: 残差 通过最小二乘法估计出参数 为回归方程。 回归系数,表示x变动一个单位而引起的y的平均变动单位
一元线性回归 y x
设因变量y与k个自变量x1,x2…xk相关,且有 以下式子成立: y= b0 + b1 x1+ b2 x2 + … + bk xk + e, 2. 多元线性回归模型 设因变量y与k个自变量x1,x2…xk相关,且有 以下式子成立: y= b0 + b1 x1+ b2 x2 + … + bk xk + e, 其中e为随机误差, i 为回归参数(i=0,1,2…k) 其中, 0回归常数, i (i=1,2…k)称为偏回归系数
根据我们收集到的样本 我们可以把模型写成如下形式: 残差 通过最小二乘法估计出参数 为多元回归方程。 偏回归系数 表示xi变动一个单位而引起的y的平均变动单位
三. 线性回归方程的统计检验 回归方程的拟合优度检验 度量回归直线的拟合优度最常用的指标是判定系数。 回归直线与各观测数据的接近程度称为回归直线的拟合优度(goodness of fit)。 度量回归直线的拟合优度最常用的指标是判定系数。 该指标是建立在对总离差平方和进行分解的基础之上的。
离差分解图(以一元为例) y x o
{ { { 离差平方和的分解 两端平方后求和有 表示由自变量变化引起的离差平方和 由随机误差引起的离差平方和 总变差平方和 (SST) 回归平方和 (SSR) { 残差平方和 (SSE) {
判定系数 ( coefficient of determination )
为避免增加自变量而高估R2,可以用样本容量n和自变量的个数k去修正R2,计算出调整的判定系数(adjusted multiple coefficient of determination)。
若自变量对因变量是没有意义的,则引入该自变量不会使均方误差减少,因此调整的R2也不会增加。 因此,在线性回归分析中,一般来说,调整的判定系数越大越好。
2.回归方程的显著性检验 回归方程的的检验是检验因变量y与k个自变量之间的线性关系是否显著,检验是否可以用线性模型来描述因变量和自变量之间的关系。
第一步:建立回归方程显著性检验的零假设: 第二步:构造的统计量是F统计量: F值越大,说明回归方程越显著。
第三步,计算F统计量的值及相应的概率P值 第四步,作出推断: 给定显著水平 ,当F统计量所对应的概率P值 小于 时,拒绝零假设,即认为回归方程显著。 否则,不能拒绝零假设,即认为回归方程不显著。
3. 回归系数的显著性检验 回归方程的显著性检验只能检验回归系数是不是同时与零有显著差异,即使回归方程通过了显著性检验,并不能保证每一个回归系数都与零有显著差异。 因此要进行回归系数的显著性检验。分别检验每一个回归系数是否与零有显著差异。
回归系数的显著性检验(T检验): 第一步:建立零假设: 第二步:构造T检验统计量
第三步:计算出t统计量的值和相应的概率P值 第四步,作出推断: 给定显著水平 ,当T统计量所对应的概率P值 小于 时,拒绝零假设,即认为该回归系数显著。 应该保留在方程中。 否则,不能拒绝零假设,即认为该回归系数不 显著。应该从方程中剔除。
4. 回归方程的残差分析 回归模型的前提要求残差项服从方差相等的正态分布,且残差项间应该相互独立。 如果这个前提没有满足,回归方程的应用效果将极不理想。 因此我们要对残差进行分析。
残差分析的主要工作有: 残差序列的正态性分析:可以通过描绘标准化残差序列的直方图或者qq图来检验。 残差序列的独立性分析:即分析残差序列是否存在相关的现象。 可以通过计算Durbin-Waston的值来检验。 D.W接近2就认为残差之间是相互独立的。 残差序列的异方差性分析。分析残差序列是否存在异方差性。可以通过绘制残差序列的散点图来检验。 4. 对样本奇异值的判定(|标准化残差值|是否大于3)。
残差序列图(不存在异方差性和序列相关) o
残差序列图(存在异方差性) o
四. 多元线性回归的自变量筛选问题 1. 自变量筛选方法 (1) 向前筛选法 (2) 向后筛选法 (3) 逐步筛选法 2. 自变量间多重共线性的测度 多重共线性:自变量之间存在线性相关关系 容忍度 ; 容忍度越大,说明该变量的多重共线性越小
案例分析: 为了研究香港故事的变化规律,以恒生指数为例,建立回归方程,分析影响股票价格趋势变动的因素。这里研究的股票价格指数,并非某一种股票的价格,而是综合反映股票市场上所有上市股票价格整体水平变化的指标。这里我们选了6个影响股票价格指数的经济变量:x2九九金价(港元/两); x3港汇指数; x4人均生产总值(港元), x5建筑业总开支(万港元); x6房地产买卖金额(万港元); x7优惠利率(最低%)。 其中,分别从贵金属、汇率和利率方面反映金融环境的影响,则从不同方面反映了整体经济状况。由于市场环境状况对股价也有十分重要的影响,本例选择成交额(万港元)来反映市场状况。y表示恒生指数。本例收集了以上变量1974-1988年的15年的数据资料。(见恒生指数.sav)
操作步骤: 1.选择菜单: Analyze-Regression-linear 2.在Dependent中选入变量y恒生指数,其余变量选入independents.在method中选择stepwise 3. 点击Statistics按钮,选择如下:
操作步骤: 4. 点击Plots选项,选择如下:
操作步骤: 5. 点击Plots选项,选择如下:
操作步骤: 6. 点击OK
结果分析: 表1 引入或剔除的变量 表1表示通过逐步回归产生的三种模型.模型1最先引入了变量x4人均生长总值,接着引入了变量x1成交额,没有变量被剔除,建立了模型2;最后又引入了变量x6房地产买卖金额,没有变量被剔除,建立了模型3。
表2 模型汇总表 表2显示了模型的拟合情况。模型3的复相关系数R为0.991,判定系数为0.981,调整的判别系数为0.976,比前两个模型的调整判别系数都要高。模型3的DW检验值为1.403,可以暂时认为残差序列间无序列相关。
表3 回归方程的显著性检验结果 表3描述了各模型的回归方程的显著性检验结果。可以看出,三个模型的F检验的概率P值都为0,说明所有自变量的回归系数不同时为零。且随着自变量的引入,均方误差在不断减少,故可以认为因变量y与三个自变量之间x4 、 x1和x6存在线性关系。
表4 回归系数检验结果 表4描述了各模型的偏回归系数、标准化偏回归系数及其对应的检验值。x4,x1,x6变量对应的回归系数的对应检验统计量的概率p值分别为:0.011,0和0.011,均小于显著水平0.05,故认为它们都与零有显著差别,是具有显著意义的。
表4 回归系数检验结果 接上页。故根据模型3可以建立多元线性回归方程为:
表4 回归系数检验结果 接上页。表的第四列为标准化回归系数,可以看出x4,x1,x6变量对应的标准化回归系数分别为:0.319,0.417和0.319,因此本例的标准化回归方程为:
表5 残差统计结果 表5是残差统计结果。主要显示预测值、标准化预测值、残差和标准化残差等统计量的最大值、最小值、均值和标准差。这里标准化残差的最大绝对值为1.75,小于3,故可以认为不存在奇异值。
图2 标准化残差的正态累计概率图(QQ图) 图1 标准化残差的直方图 图1是标准化残差的直方图,从图可以看出,近似标准化残差序列基本符合正态分布。图2是标准化残差的正态累计图,可以看到改图点近似排列在从左下角到右上角的对角线上,也证明了残差序列基本符合正态分布
图3标准化残差和预测变量的散点图 图3是标准化残差和预测变量的散点图,从图中可以看出,这些点都均匀分布在0水平线上下,故可以认为不存在异方差性。
课程结束了,谢谢各位同学!