第4章 多元线性回归分析
多元线性回归分析 4.1 多元线性回归模型设定 4.2 多元线性回归模型参数估计 4.3 更多假设下OLS估计量性质 4.2.1 回归系数估计 4.2.2 误差估计—残差 4.2.3 的分布 4.3 更多假设下OLS估计量性质 4.4 回归系数检验(t检验) 4.5 调整 、信息准则和变量选择 4.5.1调整 4.5.2 信息准则
多元线性回归分析 4.6 回归模型检验(F检验) 4.7 用EViews7.2进行多元线性回归 4.8 假设条件的放松 4.9 自变量共线性 4.8 假设条件的放松 4.7.1 假设条件的放松(一)—非正态分布误差项 4.7.2 假设条件的放松(二)—异方差 4.7.3 假设条件的放松(三)—非随机抽样和序列 相关 4.7.4 假设条件的放松(四)—内生性 4.9 自变量共线性 重要概念
4.1 多元线性回归模型设定 模型设定: 假设1(零条件均值:zero conditonal mean) 给定解释变量,误差项条件数学期望为0,即
4.1 多元线性回归模型设定 假设2 (无共线性:no colinearity) 解释变量之间不存在线性关系。即不存在不全 为零的一组数 使得 若不成立,称自变量间存在完全共线性(perfect colinearity),此时参数不能被唯一估计。
4.1 多元线性回归模型设定 … 假设2’(样本无共线性:no colinearity) 对于样本模型,从无共线性的假设得出解释变量 样本值形成的向量之间线性无关。 … 假设2’(样本无共线性:no colinearity) 不存在不全为零的一组数 使得
4.2 多元线性回归模型参数估计 4.2.1 回归系数估计 4.2.2 误差估计—残差 4.2.3 的分布
4.2 多元线性回归模型参数估计 4.2.1 回归系数估计 类比原则得样本矩条件
4.2 多元线性回归模型参数估计 4.2.1 回归系数估计 多元回归分析参数估计一般用矩阵表示,这里 仅给出二元情况下用克莱姆法则解出的解。
4.2 多元线性回归模型参数估计 4.2.1回归系数估计 结论 结论1: OLS估计的一致性 为一致估计,即 结论2: OLS估计的无偏性 为无偏估计:
4.2 多元线性回归模型参数估计 4.2.2 误差估计—残差 结论 结论3: 如果假设1和假设2满足,则回归残差是回归误差的 一致估计: 结论4: 如果假设1和假设2满足,残差形成的向量和自变量 样本值形成的向量正交。
4.2 多元线性回归模型参数估计 4.2.3 的分布 结论5 如果假设1和假设2满足,样本量 较大时,OLS估 计 近似服从正态分布: 其中
4.3 更多假设下OLS估计量性质 假设3(同方差:homoskedasticity) 假设4(随机抽样: random sample) 给定解释变量,误差项条件方差为常数,即 假设4(随机抽样: random sample) 样本 是随机抽样产生的,样本之间相互独立,模型误差项 之间相互独立。
4.3 更多假设下OLS估计量性质 结论6 如果假设1~假设4满足,则当样本量 较大时, OLS估计 近似服从结论5中的正态分布,方差计算 如果假设1~假设4满足,则当样本量 较大时, OLS估计 近似服从结论5中的正态分布,方差计算 公式为 其中 为以 为因变量对其余解释变量进行多元线 性回归的拟合优度。
4.3 更多假设下OLS估计量性质 结论7 如果假设1~假设4满足,统计量 是误差项方差 的无偏和一致估计,即 为回归标准误,记为 。
4.3 更多假设下OLS估计量性质 结论8 结论9 如果假设1~假设4满足,样本量 较大时,如下统计 量近似服从正态分布 如果假设1~假设4满足,样本量 较大时,如下统计 量近似服从正态分布 结论9 如果假设1~假设4满足,OLS估计量 为最有效估计: 在 的所有线性无偏估计中, 的方差最小。这称为 OLS估计的马尔科夫性。
4.3 更多假设下OLS估计量性质 假设5(正态分布: normal distribution) 给定解释变量,误差项 服从正态分布, 即 给定解释变量,误差项 服从正态分布, 即 其中
4.3 更多假设下OLS估计量性质 结论10 如果假设1~假设5满足, (1) 服从正态分布, , 由上面公式给出; (1) 服从正态分布, , 由上面公式给出; (2) 服从自由度为 的t-分布 其中 由上面公式给出, 。
4.4 回归系数检验( 检验) 检验的原假设和备选假设为: 通常取显著水平 或 假设1~5都成立的情况下,统计量 4.4 回归系数检验( 检验) 检验的原假设和备选假设为: 通常取显著水平 或 假设1~5都成立的情况下,统计量 样本量较大时(n>35),0.05显著水平下双边检验临界值接近2,故常用t值是否大于2判断参数是否显著。
4.5 调整 、信息准则和变量选择 4.5.1调整 4.5.2 信息准则
4.5 调整 、信息准则和变量选择 4.5.1调整 增加解释变量只会减少RSS的值(不受限的最小化总比受限的最小化来的小),从而增加 值。 4.5 调整 、信息准则和变量选择 4.5.1调整 增加解释变量只会减少RSS的值(不受限的最小化总比受限的最小化来的小),从而增加 值。 用自由度来调整 的定义 关系:
4.5 调整 、信息准则和变量选择 4.5.2 信息准则 将模型自变量个数考虑在内的变量选择标准:AIC,SC,HQ 4.5 调整 、信息准则和变量选择 4.5.2 信息准则 将模型自变量个数考虑在内的变量选择标准:AIC,SC,HQ 应用原则是使信息准则值最小的模型最好。(只对嵌套模型有用) 常用AIC和SC准则,SC准则对增加解释变量的惩罚更为严厉,因此得出的模型往往更简洁。
4.6 回归模型检验( F检验) 拟合优度和信息准则均不严格,带有很 多主观判断,因此要进行严格的模型检验。 原假设: 至少一个不为0 统计量:
4.6 回归模型检验( F检验) 结论11 如果假设1~假设5满足,上述统计量服从第一自由度为k、第二自由度为(n-2)的F分布,即: 一个参数的t检验要拒绝原假设;反之,即使全部t检 验都不拒绝原假设,上述F检验也不一定不拒绝原假 设。
4.7 用EViews7.2进行多元线性回归 步骤: 与一元线性回归模型类似,先建立Excel数据文件,再将文件导入EViews 用Genr按钮从原始数据生成回归模型中的变量 按住Control键,选中回归模型中的变量,点击鼠标右键,在弹出菜单中点选Open→as Group 在数据表格界面点击菜单:Proc→Make Equation,进入模型估计(Equation Estimation)对话框
4.7 用EViews7.2进行多元线性回归 步骤: 模型设定窗口Equation specification,默认OLS估计方法
4.7 用EViews7.2进行多元线性回归 步骤: 输出结果
4.7 用EViews7.2进行多元线性回归 步骤: 在输出结果界面点击顶端按钮Resids,将输出残差图 同样可以在结果界面点击菜单Forecast,保存拟合值。
4.8 假设条件的放松 4.8.1 假设条件的放松(一)—非正态分 布误差项 4.8.2 假设条件的放松(二)—异方差 4.8.3 假设条件的放松(三)—非随机抽 样和序列相关 4.8.4 假设条件的放松(四)—内生性
4.8 假设条件的放松 4.8.1 假设条件的放松(一)—非正态分 布误差项 去掉假设5不影响OLS估计的一致性、无偏性和渐近正态性。 不能采用t-检验来进行参数的显著性检验,也不能用F检验进行整体模型检验。 大样本情况下,t统计量往往服从标准正态分布(在原假设下)。
4.8 假设条件的放松 4.8.2 假设条件的放松(二)—异方差 异方差检验原理 至少一个不为0
4.8 假设条件的放松 4.8.3 假设条件的放松(三)—非随机抽 样和序列相关 序列相关不影响OLS估计的无偏性、一致性和渐近正态性 标准误的计算要用HAC标准误 用EViews检验序列相关
4.8 假设条件的放松 4.8.4 假设条件的放松(四)—内生性 假设1’(外生性假设:exogenous independent variable) 模型误差项和解释变量不相关0,即 结论5’:如果假设1’和假设2满足, (1)OLS估计 是 的一致估计; (2)当样本量 较大时, 近似服从正态分布:
4.8 假设条件的放松 4.8.4 假设条件的放松(四)—内生性 若假设1’都不能满足,则OLS失效,此时应当采用工具变量估计方法、面板数据估计方法等其他方法。
4.9 自变量共线性 当假设2和假设2’不满足时,存在多重共线性(multicolinearity),模型无法估计。 方差膨胀因子 一般认为,当 时, 与其他自变量存在严重共线性,需进行处理。
4.9 自变量共线性 存在多重共线性时处理方法 (1)增加样本量。 (2)对变量实施变换。例如对取正值的变量取自然对数,采用增长率数据而不是原始数据等。 (3)多重共线性只对有共线关系的自变量的回归系数OLS估计方差有影响,如果所关注的自变量不存在严重多重共线性,则不影响对问题的判断。
重要概念 1、多元线性回归模型的概念和理论大多与一元线性回归模型相同。由于有多个自变量,为了模型参数可以被估计,除了对模型误差项给出必要的假设之外,需要假设解释变量之间不存在完全共线性。 2、在无共线性假设下,设误差项的外生性假设是最基本的假设,在此假设下,OLS估计具有一致性和渐近正态性。如果同方差假设和随机抽样假设同时成立,则OLS估计近似服从正态分布,参数估计的标准误采用(4.18)计算,并采用结论8中的统计量对参数进行t检验。如果误差项存在异方差,OLS估计近似服从正态分布,但参数估计的标准误需要采用(4.26)给出的White方法进行计算,用于回归系数假设检验的t-统计量计算做相应的调整。如果误差项存在异方差和序列相关,则OLS估计近似服从正态分布,但参数估计的标准误需要采用Newey-West给出HAC方法进行计算,用于回归系数假设检验的t-统计量计算做相应的调整。采用EViews软件进行操作时,在回归选项中根据误差项假设选择合适的选项可得出稳健的检验结果。 如果外生性假设不满足,不能采用OLS方法估计模型。
重要概念 3. 多元线性回归的因变量总平方和,可以分解为回归平方和和残差平方和,由此可以定义拟合优度 。 会随自变量的增加而增加,以此为标准会使模型包含过多的对因变量没有解释能力的自变量。对 分子分母中的量用各自的自由度调整得出调整 。信息准则与调整 在自变量取舍上具有相同功能。信息准则包括AIC、SC和HQ,使用的原则是选择使信息准则达到最小的模型。 和信息准则只能用于嵌套模型的比较。 4. 多元线性回归模型误差项是否有异方差可以通过White方法进行检验。White方法的做法是对辅助回归模型进行检验,辅助回归以原回归模型的OLS回归残差平方 为因变量以原模型自变量、自变量平方和自变量的交叉相乘为解释变量的回归,以回归的F检验结果决定是否存在异方差。
重要概念 5.多元线性回归模型误差项是否有序列相关可以通过布罗施-葛德福瑞LM检验方法进行检验。只需要在EViews结果输出界面逐级点击菜单即可实现误差项的序列相关检验。 6. 与一元线性回归模型不同,多元线性回归模型自变量之间的多重共线性会影响到回归系数OLS估计的方差和标准误,从而影响到t-检验。方差膨胀因子VIF用来衡量共线性的程度。当存在严重共线性时,可以通过变量变换、增加样本量减轻影响,但不能轻易将解释变量从模型中去掉,导致参数OLS估计的不一致性,带来更严重的后果。