第二章 回归模型 法、参数的普通最小二乘估计式及相关性质、对模型的经济意 义检验和统计检验,能应用Eviews软件进行最小二乘估计与统 第二章 回归模型 学习要求:掌握一元及多元线性回归模型的基本理论与方 法、参数的普通最小二乘估计式及相关性质、对模型的经济意 义检验和统计检验,能应用Eviews软件进行最小二乘估计与统 计检验,利用模型进行预测。 本章主要教学内容: 第一节 一元与多元线性回归模型 第二节 最小二乘估计及其性质 第三节 回归系数的区间估计与假设检验 第四节 回归模型的统计检验 第五节 回归预测 第六节 非线性回归模型
第一节 一元与多元回归模型 一、回归与相关 经济变量之间的关系通常可分成两类: 确定性函数关系——一个(一些)变量的值给定后,另一个 变量的值完全确定; 不确定性的统计关系——一个(一些)变量的值给定后,另 一个变量的值不能完全确定。 例: 无息票债券的面值、到期期限与债券的现价完全决定债券的 到期收益率,y = f(x)。 居民的可支配收入不能完全决定居民的消费支出, y = f(x,u),u为一个随机变量。
1. 两个变量之间的线性相关关系 若一个变量变化时,另一个变量倾向于同向变化,称两个 变量间存在正相关关系; 若一个变量变化时,另一个变量倾向于反向变化,称两个 变量间存在负相关关系; 若一个变量的变化不会造成另一个变量的具有倾向性的变 化,称两个变量不相关。 相关关系不是确定的函数关系。 例:两个变量的相关关系 * 小学生年龄与60米短跑的用时(负相关) * 企业信用等级与企业债券(贷款)的利率(负相关) * 一般情况下,债券的期限与债券的利率(正相关) * 一般商品的价格与商品的供应量(正相关) * 汽油的价格与对冰淇淋的需求量(不相关)
2. 两个变量线性相关的度量方法 * 两个变量的分布已知,得到相关系数的精确值: * 若只有变量的样本数据,得到相关系数的估计值: 相关系数的估计值与样本取值有关。
* 相关系数只能度量两个变量是否具有线性相关性,而不 注意: * 相关系数只能度量两个变量是否具有线性相关性,而不 能度量其他,如: x服从[-1,1]上的均匀分布, 显然,y与x存在确定的函数关系,但它们的线性相关系数为0。 * 相关关系不是因果关系,经济变量之间的因果关系只能 从经济理论中导出,而不能从统计分析中直接得到。 例: 太阳黑子爆发的次数与澳大利亚的野狼数
3. 条件均值与总体回归函数 y与x之间存在不确定的关系: ,x给定后y的数学期 望, ,称为y关于x的条件均值,g(x) 也称为总体回归函数。 在许多实际经济、金融问题中,真正需要了解的是一个变量 关于另一个(另一些)变量的总体回归函数: 4. 回归分析 回归分析研究变量y与变量x之间的具体的统计依存关系,特 别是研究y关于x的条件均值的具体形式,即研究总体回归函数 g(x)。 回归分析中,x看成解释变量,y为被解释变量,回归分析研 究y的条件平均值如何随x的变化而变化,即回归关系研究变量 之间的随机因果关系,这与相关关系不同。
二、一元线性回归模型与基本假设 1. 概念 假设总体回归函数为线性函数,即: 我们关心参数究竟取什么值。 考虑模型: ,称为一元线性回归模型, 其中 称为随机扰动项(随机误差项),加入此项的原因在于: * 未知的对y有较大影响的因素; * 已知但无法获得观测数据的对y有较大影响的因素; * 众多对y有很小影响的因素; 其他还包括: * 模型的设定误差; * 变量的观察误差;等。
2. 回归分析方法 * 采集样本数据: * 采用适当的方法估计模型参数; * 得到样本回归函数: , * 将样本回归函数作为总体回归函数的估计。 3. 一元回归模型的基本假设 在回归分析中,为采用适当的方法估计模型参数,需要对回归 模型提出一些基本假设,这些假设包括: * 解释变量为非随机变量 * ,意味着 ,表明模型设置无系 统性偏差; * 同方差:各随机扰动项的方差相同 * 无自相关:各随机扰动项互不相关 * 误差项与解释变量不相关; * 随机扰动项均服从正态分布。
4.由基本假设衍生的性质
三、多元线性回归模型与基本假设 1. 多元线性回归模型 一般形式: 矩阵形式:
2. 多元线性回归模型的基本假设 * 解释变量为非随机变量; * ; * 各随机扰动项的方差相同; * 各随机扰动项互不相关; * 随机扰动项与各解释变量互不相关; * 随机扰动项均服从正态分布; * 无多重共线性,即满足: 思考题:从多元线性回归模型的基本假设,可以得到哪些衍 生性质 ?
第二节 最小二乘估计及性质 一、最小二乘估计 1. 概念 一元回归模型 中,使 达到最小值的 称为模型参数的最小二乘估计(OLS) 2. 最小二乘估计的计算方法
3. 最小二乘估计的Eviews实现 例1: sjk21给出我国1985-1998年期间每年税收收入y和国内生产总 值(GDP)x 的统计资料,假设y与x的关系可以表示为 试利用Eviews软件计算模型参数的最小二乘估计。 解: * 启动Eviews、建立工作文件:file\new\workfile,确定频 率 项; * 导入sjk1: procs\import\read text-lotus-Excel,输入 相关项; * 在主窗口输入命令: ls y c x,回车后,系统输出模型参数 的最小二乘估计 (附后),估计得到的方程为
随机扰动项的方差的估计 当解释变量取 时,模型预测的y的条件期望值 令 则 可看成随机扰动项的估计值,随机扰动项的方 差的估计可表示为:
5. 多元线性回归模型的最小二乘估计 多元线性回归模型 中,使 达到最小时的参数值,称为模型参数的最小二乘估计。 多元线性回归模型的矩阵形式: 由一阶条件得到(证明附后): 于是
例2: 我国国有独立核算工业企业生产函数。根据生产函数理论, 生产函数的基本形式为 其中,L、K分别为生产过程中投入的劳动与资金,时间变量t反 映技术进步的影响。Sjk22给出我国1978-1994年期间国有独立 核算工业企业的有关统计资料,其中y为工业总产值(可比价), L、K分别为年末职工人数和固定资产净值(可比价)。试利用 Eviews软件建立线性生产函数 解: 在主窗口输入命令: Ls y c t L k,估计得到的方程
6. 多元回归模型中扰动项方差的估计
二、最小二乘估计的性质 参数估计量的评价标准 ① 无偏性: ,参数估计无系统性偏差 ② 有效性,即最小方差性,参数估计精度较好、 更接近于真值; ③ 一致性:
2. 最小二乘估计的数值性质 无须对回归模型作任何假设,就可得到的最小二乘估计的 性质称为最小二乘估计的数值性质,这些性质有: ① ② 样本回归直线通过样本均值点 ③ 性质③由同学自己推导,作为今天的一个作业。
3. 最小二乘估计的统计性质 统计性质:满足模型基本假设时所拥有的性质。 ① 最小二乘估计为线性估计 由于模型参数为线性估计,因此当随机扰动项服从正态分布时,参数估计量与服从正态分布,这为对模型的统计推断提供了便利。
② 最小二乘估计为无偏估计 同样可以证明, 。 ③ 在所有的线性估计中,最小二乘估计具有最小方差(证明见后) 高斯—马尔柯夫定理 在满足线性回归模型基本假设的条件下,模型参数的最小二乘估计具有线性性、无偏性、最小方差性。
第三节 回归系数的区间估计与假设检验 一、最小二乘估计量的分布 满足基本假设时,参数的最小二乘估计量服从正态分布
参数估计量标准差
二、回归系数的显著性检验 回归系数的显著性检验,就是检验以下假设是否为真 很显然,如果第二个原假设为真,则x的变动对y的变动没有影 响,已建立的模型不适当。 数理统计知识复习:
当第二个原假设为真时 构造检验统计量:
同样,当第一个原假设为真时,检验统计量 对多元回归模型,检验统计量为
检验方法: 给定显著性水平 , 时拒绝原假设,回归系数通过显著性检验; 时接受原假设,回归系数没有通过显著性检验。 在Eviews中,回归分析后系统直接给出检验统计量(t)值和 伴随概率Prob,检验方法为: 若伴随概率小于给定的显著性水平,拒绝原假设,回归系数 通过显著性检验; 若伴随概率小于等于给定的显著性水平,接受原假设,回归 系数没有通过显著性检验,模型需要调整。
例:对例1、例1中所构建的模型,进行各回归 系数的显著性检验,取显著性水平为0.05。 例1中,回归系数均能通过显著性检验。 例2中,除资本k的系数外,其余回归系数 (包括截距)均不能通过显著性性检验,模型需要调整。
三、回归系数的区间估计 有时人们关心回归系数在一定置信度下的置信区间,这比系 数的点估计更有价值。如何进行区间估计?在一元线性回归模型 中 这样,从数理统计知识,对选定的置信度 ,参数的 置信区间为 在多元回归模型中,有
例:给定置信度为95%,给出例4中参数 的置信区间 解 置信区间为
第四节 回归模型的统计检验 一、拟合优度检验 如果模型适当,回归直线与样本的拟合程度应较好,拟合 优度检验就是对拟合程度的一种检验。 1 . 平方和分解公式 总平方和 = 回归平方和 + 残差平方和 (TSS) (ESS) (RSS)
显然,回归平方和占总平方和的比例越大,回归直 线与样本的拟合度越好,可用以下系数(可决系数) 度量拟合度 2. 可决系数 显然,回归平方和占总平方和的比例越大,回归直 线与样本的拟合度越好,可用以下系数(可决系数) 度量拟合度 可决系数取值落在[0 1],越接近1,样本与回归直 线拟合越好;越接近0,样本与回归直线拟合越差。 参数估计后,Eviews给出可决系数的值(R- squared)。例4中,这个值为0.9827,样本与模型的拟 合程度较好。
3. 可决系数与相关系数的关系 考虑一元回归模型,相关系数是x与y线性相关程度的度量, 相关系数越强, x与y就越接近于线性相依关系,线性回归模型 与样本的拟合程度就越好。
修正的可决系数 在模型中增加解释变量数一般会提高可决系数, 在多元回归模型中,为消除因增加不必要的解释变量 对可决系数的影响,通采用修正后的可决系数来检验 回归直线与样本的拟合程度。 参数估计后,Eviews给出修正的可决系数的值 (Adjusted R-squared)。例2中,可决系数与修正的可 决系数的值分别为0.996085、0995181。 修正的可决系数总是小于可决系数。
二、回归方程的显著性检验 1. 回归模型的F检验 在多元回归模型中,除对回归系数作显著性检验外,还需要 对回归方程本身进行显著性检验,即对下面原假设进行检验, 不能通过此项F检验的模型是无意义的。 此项检验的检验统计量为 因此可对原假设进行F检验。 参数估计后,Eviews给出对模型的F检验统计量值,以及对 应的相伴概率。
2 . F统计量、可决系数、修正可决系数的关系
系数与模型的统计检验 对一元回归模型,需进行系数的显著性检验、模 型的拟合优度检验,这些检验都能通过的模型是适当 模型。 对多元回归模型,需要进行系数的显著性检验、 模型的修正的拟合优度检验、模型的F检验,这些检 验都能通过的模型是适当的,若某些系数的显著性检 验不能通过,模型需要调整;若F检验不能通过,模 型没有意义。
例:对例2模型的调整 在例2的回归结果中,模型的F检验可以通过、修正 的拟合优度较高,但某些系数的显著性检验通不过,说 明模型整体有价值,但需要调整,通常做法是首先剔除 最不显著的变量,建立模型: 参数估计与统计检验的结果附后,调整后的模型的系数 均能通过显著性检验、模型的F检验和拟合优度检验较 好。 于是我国国有独立核算企业的生产函数为
第五节 回归预测 回归模型的主要应用之一是预测,即利用解释变 量的预期值对应变量的取值作预测。预测的前提条件 是经济结构在样本期与预测期无多大变化,回归模型 描述的解释变量与应变量的关系(经济结构)在预测期依 然成立。 回归预测包括点预测与区间预测,前者用一个值、 后者用一个区间(置信区间)对应变量作预测。
一、点预测 1 . (条件)平均值的点预测 给定解释变量的值的条件下,对应变量的平均取值进行预测。 样本回归函数是总体回归函数 的估计,给定解释变量取值后,平均值的点预测为 2. 个别值的点预测 给定解释变量值的条件下,对应变量的取值进行预测。由于 而对残差的预测为0,因此对个别值的预测为
二、区间预测 1. 平均值的置信区间
个别值的置信区间
由于平均值估计量的标准差 小于个别值估计量 的标准差 ,平均值估计的精度大于个别值估计的精度。 同样在区间估计中,在相同的置信水平下,平均 3. 平均值估计与个别值估计的精度比较 由于平均值估计量的标准差 小于个别值估计量 的标准差 ,平均值估计的精度大于个别值估计的精度。 同样在区间估计中,在相同的置信水平下,平均 值的置信区间长度要小于个别值的置信区间长度。
例3: 研究某省城镇居民消费支出与可支配收入之间的关系。 由经济理论可知,收入是影响居民消费支出的主要因素, 消费支出y随收入x的增加而增加,但支出增加的幅度小于收入 增加的幅度。若忽略其他因素对居民消费支出的影响,可建立 线性回归模型 该省城镇居民1978—1998年的数据由sjk23给出,试估计模型参 数,并对模型进行经济意义与统计检验。 如果预测1999年该省城镇居民的可支配收入为5500元,试 估计1999年该省城镇居民消费支出的平均值的点估计与置信区间 (置信水平为0.05)。
回归分析与检验: 输入命令:range 1978 1998, ls y c x,回归分析结果见下页。 模型可以通过经济意义检验、统计检验,模型拟合程度较高。 平均值的点预测: 输入命令:expand 1978 1999,forecast 1999 1999, 得到平均值的点估计为4680。 平均值的置信区间: 在x的数据框中 view / Descriptive stats / Histogram and stats 现在:
第六节 非线性回归模型 前面讨论的线性回归模型的形式为:模型中解释变量与应 变量的关系是线性关系,应变量与模型参数的关系也是线性关 系,但在实际中,许多经济变量之间的关系为非线性关系,如 C-D生产函数的形式为: 本节讨论当经济变量之间为非线性关系时,如何通过变量的适 当变化来构造线性回归模型。
一、可线性化模型 在对经济变量间的关系建立计量经济模型时,有些模型从 本身看解释变量与应变量之间的关系不是线性关系,但通过适 当变换后,可将其转化为线性回归模型,这类模型称为可线性 化的模型。 倒数变换模型(双曲函数模型) 可以通过倒数变换,将模型转化为回归模型,如在上两例 中,分别令
双对数模型(幂函数模型) 若对C-D生产函数两边取对数,则就可建立计量经济模型 这样模型称为双对数模型,双对数模型也可以通过变量变换方 式转化为线性回归模型。如上例可转化为
例: 试利用C-D生产函数对我国国有独立核算企业的生产函数 建模,数据在sjk22。 解: 建立线性回归模型 Eviews估计方 法如下: * 建立工作文件,引入数据库 * 生成新变量 ,方法为 Quick / Generate Series,在窗口中逐个输入新变量的表示式, 完成新变量的建立。 * 对新变量进行回归分析,得到结果见下页,因此模型为
3.半对数模型: 多项式模型: 5. 一些其他模型 二、不可线性化的模型 有些模型不能通过类似以上的方法转化为线性回归模型,这 些模型称为不可线性化的模型,对这类模型的估计问题已超出 本课程教学大纲范围。
本章复习要点: * 理解回归与相关的关系; * 总体回归函数与样本回归函数的实质与联系; * 线性回归模型的基本假设及其意义; * 普通最小二乘估计及其数值性质与统计性质; * 各模型参数的估计量及估计量的分布; * 对模型参数的显著性检验的方法及意义; * 对模型的拟合优度检验、F检验的方法及意义; * 参数的点估计与区间估计; * 平均值、个别值的点预测与置信区间; * 可转化为线性回归模型的非线性模型的转化方法; * 运用Eviews进行回归分析的具体操作。