计量经济学 第三章 多元线性回归模型
引子: 中国汽车的保有量会达到1.4亿辆吗 ? 中国经济的快速发展,使居民收入不断增加,数以百万 计的中国人开始得以实现拥有汽车的梦想,中国也成为世界 上成长最快的汽车市场。 中国交通部副部长在中国交通可持续发展论坛上做出预 测 :“2020年,中国的民用汽车保有量将比2003年的数字 增长6倍,达到1.4亿辆左右”。 是什么因素导致中国汽车数量的增长? 影响中国汽车行业发展的因素并不是单一的,经济增长、 消费趋势、市场行情、业界心态、能源价格、道路发展、内 外环境,都会使中国汽车行业面临机遇和挑战。
怎样分析多种因素的影响? 分析中国汽车行业未来的趋势,应具体分析这样一些问题: 中国汽车市场发展的状况如何?(用销售量观测) 影响中国汽车销量的主要因素是什么? (如收入、价格、费用、道路状况、能源、政策环境等) 各种因素对汽车销量影响的性质怎样?(正、负) 各种因素影响汽车销量的具体数量关系是什么? 所得到的数量结论是否可靠? 中国汽车行业今后的发展前景怎样?应当如何制定汽车的 产业政策? 很明显,只用一个解释变量已很难分析汽车产业的发展, 还需要寻求有更多个解释变量情况的回归分析方法。
第三章 多元线性回归模型 本章主要讨论: ●多元线性回归模型及古典假定 ●多元线性回归模型的估计 ●多元线性回归模型的检验 ●多元线性回归模型的预测
第一节 多元线性回归模型及古典假定 本节基本内容: 一、多元线性回归模型的意义 二、多元线性回归模型的矩阵表示 三、多元线性回归中的基本假定
一、多元线性回归模型的意义 例如:有两个解释变量的电力消费模型 其中: 为各地区电力消费量; 为各地区国内生产总值(GDP); 其中: 为各地区电力消费量; 为各地区国内生产总值(GDP); 为各地区电力价格变动。 模型中参数的意义是什么呢?
多元线性回归模型的一般形式 一般形式:对于有 个解释变量的线性回归模型 模型中参数 是偏回归系数,样本容量 为 一般形式:对于有 个解释变量的线性回归模型 模型中参数 是偏回归系数,样本容量 为 偏回归系数:控制其它解释量不变的条件下,第 个解释变量的单位变动对应变量平均值的影响。
多元线性回归 指对各个回归系数而言是“线性”的,对变量则可是线性的,也可是非线性的 例如:生产函数 取自然对数
多元总体回归函数 的总体条件均值表示为多个解释变量的函数 总体回归函数也可表示为:
多元样本回归函数 的样本条件均值表示为多个解释变量的函数 或 其中 回归剩余(残差):
二、多元线性回归模型的矩阵表示 个解释变量的多元线性回归模型的 个观测 样本,可表示为
用矩阵表示
总体回归函数 或 样本回归函数 或 其中: 都是有 个元素的列向量 是有 个元素的列向量 是第一列为1的 阶解释变量 数据矩阵 (截距项可视为解释变量 取值为1)
三、多元线性回归中的基本假定 假定1:零均值假定 或 假定2和假定3:同方差和无自相关假定 假定4:随机扰动项与解释变量不相关
假定5:无多重共线性假定 (多元中) 假定各解释变量之间不存在线性关系,或各个解释变量观测值之间线性无关。或解释变量观测值矩阵 列满秩( 列)。 即 可逆 假定6:正态性假定
第二节 多元线性回归模型的估计 本节基本内容: ● 普通最小二乘法(OLS) ● OLS估计式的性质 ● OLS估计的分布性质 第二节 多元线性回归模型的估计 本节基本内容: ● 普通最小二乘法(OLS) ● OLS估计式的性质 ● OLS估计的分布性质 ● 随机扰动项方差 的估计 ● 回归系数的区间估计
一、普通最小二乘法(OLS) 最小二乘原则 剩余平方和最小: 求偏导,令其为0:
即 注意到
用矩阵表示 因为样本回归函数为 两边乘 有: 因为 ,则正规方程为:
由正规方程 多元回归中 二元回归中 注意: 和 为 的离差 OLS估计式
二、OLS估计式的性质 OLS估计式 1.线性特征: 是 的线性函数,因 是非随机 或取固定值的矩阵 2.无偏特性:
3. 最小方差特性 在 所有的线性无偏估计中,OLS估计 具有 最小方差 结论:在古典假定下,多元线性回归的 OLS估计式是最佳线性无偏估计式(BLUE)
三、OLS估计的分布性质 基本思想 ● 是随机变量,必须确定其分布性质才可能进行区间估计和假设检验 ● 是随机变量,必须确定其分布性质才可能进行区间估计和假设检验 ● 是服从正态分布的随机变量, 决定了 也是服从正态分布的随机变量 ● 是 的线性函数,决定了 也是服从正态分布的随机变量
的期望 (由无偏性) 的方差和标准误差: 可以证明 的方差-协方差矩阵为 这里是 矩阵 中第 行第 列的元素
四、随机扰动项方差 的估计 多元回归中 的无偏估计为: 或表示为 将 作标准化变换:
因 是未知的,可用 代替 去估计参数 的标 准误差: ● 当为大样本时,用估计的参数标准误差对 作标准化变换,所得Z统计量仍可视为服从正态分布 ●当为小样本时,用估计的参数标准误差对 作标准化变换,所得的t统计量服从t分布:
五、回归系数的区间估计 由于 给定 ,查t分布表的自由度为 的临界值 或: 或表示为:
第三节 多元线性回归模型的检验 本节基本内容: ●多元回归的拟合优度检验 ●回归方程的显著性检验(F检验) 第三节 多元线性回归模型的检验 本节基本内容: ●多元回归的拟合优度检验 ●回归方程的显著性检验(F检验) ●各回归系数的显著性检验(t检验)
一、多元回归的拟合优度检验 多重可决系数:在多元回归模型中,由各个解释变量联合 解释了的 的变差,在 的总变差中占的比重,用 表 示 解释了的 的变差,在 的总变差中占的比重,用 表 示 与简单线性回归中可决系数 的区别只是 不同,多元 回归中 多重可决系数也可表示为
多重可决系数的矩阵表示 特点: 多重可决系数是模型中解释变量个数的不减函数, 这给对比不同模型的多重可决系数带来缺陷,所以 需要修正。
修正的可决系数 思想 自由度 可决系数只涉及变差,没有考虑自由度。如果用自由度去校正所计算的变差,可纠正解释变量个数不同引起的对比困难。 统计量的自由度指可自由变化的样本观测值个数,它等于所用样本观测值的个数减去对观测值的约束个数。
可决系数的修正方法 总变差 自由度为 解释了的变差 自由度为 剩余平方和 自由度为 修正的可决系数为
特点 可决系数 必定非负,但修正的可决系数 可能为负值,这时规定 修正的可决系数 与可决系数 的关系:
二、回归方程显著性检验(F检验) 基本思想 在多元回归中有多个解释变量,需要说明所有解 释变量联合起来对应变量影响的总显著性,或整个 方程总的联合显著性。对方程总显著性检验需要 在方差分析的基础上进行F检验。
总变差 自由度 模型解释了的变差 自由度 剩余变差 自由度 方差分析表 总变差 自由度 模型解释了的变差 自由度 剩余变差 自由度 变差来源 平方和 自由度 方差 归于回归模型 归于剩余 总变差
原假设 备择假设 不全为0 建立统计量(可以证明): 给定显著性水平 ,查F分布表得临界值 并通过样本观测值计算 值 F检验
▼如果 (小概率事件发生了) 则拒绝 ,说明回归模型有显著意义,即所有解释变量联合起来对 有显著影响。 ▼如果 (大概率事件发生了) 则接受 ,说明回归模型没有显著意义,即所有解释变量联合起来对 没有显著影响。
可决系数与F检验 由方差分析可以看出,F检验与可决系数有密切联系,二者 都建立在对应变量变差分解的基础上。F统计量也可通过可 决系数计算: 可看出:当 时, 越大, 值也越大 当 时, 结论:对方程联合显著性检验的F检验,实际上也是对 的显著性检验。
三、各回归系数的显著性检验 (t 检验) 目的: 在多元回归中,分别检验当其他解释变量保持不变时,各个解释变量 对应变量 是否有显著影响。 在多元回归中,分别检验当其他解释变量保持不变时,各个解释变量 对应变量 是否有显著影响。 方法: 原假设 备择假设 统计量为:
t检验的方法 给定显著性水平 ,查自由度为 时t分布表的临界值为 如果 就不拒绝 而拒绝 即认为 所对应的解释变量 对应变量 的影响不显著。
在多元回归中,可分别对每个回归系数逐个地进 行t检验。 注意:在一元回归中F检验与t检验等价,且 但在多元回归中F检验与t检验作用不同。 如果 就拒绝 而不拒绝 即认为 所对应的解释变量 对应变量 的影响 是显著的。 在多元回归中,可分别对每个回归系数逐个地进 行t检验。 注意:在一元回归中F检验与t检验等价,且 但在多元回归中F检验与t检验作用不同。
第四节 多元线性回归模型的预测 本节基本内容: ●应变量平均值预测 ●应变量个别值预测
一、应变量平均值预测 1. 平均值的点预测 将解释变量预测值代入估计的方程: 多元回归时: 或 1. 平均值的点预测 将解释变量预测值代入估计的方程: 多元回归时: 或 注意:预测期的 是第一个元素为1的行向量, 不是矩阵,也不是列向量
基本思想: 由于存在抽样波动,预测的平均值 不一定 等于真实平均值 ,还需要对 作区间估计。 为对 作区间预测,必须确定平均值预测值 的抽样分布。必须找出与 和 都有 关的统计量 。 2. 平均值的区间预测
具体作法 (回顾一元回归) 当 未知 时,只得用 代替, 这时 一元中已知
多元回归时,与 和 都有关的是偏差 从正态分布,可证明 用 代替 ,可构造t统计量
则给定显著性水平 ,查t分布表,得自由度 的临界值 ,则 或
二、应变量个别值预测 基本思想: ● 既是对 平均值的点预测,也是对 个别值的点预测。 基本思想: ● 既是对 平均值的点预测,也是对 个别值的点预测。 ●由于存在随机扰动 的影响, 的平均值并不等于 的个别值 ●为了对 的个别值 作区间预测,需要寻找与预测值 和个别值 有关的统计量,并要明确其概率分布
已知剩余项 是与预测值 和个别值 都有关的 变量,并且已知 服从正态分布,且可证明 当用 代替 时,对 标准化的变 量为: 具体作法
给定显著性水平 ,查 t 分布表得自由度为 的临界值 则 因此,多元回归时 的个别值的置信度 的预 测区间的上下限为:
第五节 案例分析 案例:中国税收增长的分析 提出问题 第五节 案例分析 案例:中国税收增长的分析 提出问题 改革开放以来,随着经济体制改革的深化和经济的快速增长,中国的财政收支状况发生很大变化,为了研究影响中国税收收入增长的主要原因,分析中央和地方税收收入的增长规律,预测中国税收未来的增长趋势,需要建立计量经济模型。
理论分析 影响中国税收收入增长的主要因素可能有: (1)从宏观经济看,经济整体增长是税收增长的基本源泉。 (2)社会经济的发展和社会保障等都对公共财政提出要求,公共财政的需求对当年的税收收入可能会有一定的影响。 (3)物价水平。中国的税制结构以流转税为主,以现行价格计算的GDP和经营者的收入水平都与物价水平有关。 (4)税收政策因素。
建立模型 以各项税收收入Y 作为被解释变量 以GDP表示经济整体增长水平 以财政支出表示公共财政的需求 以商品零售价格指数表示物价水平 税收政策因素较难用数量表示,暂时不予考虑
模型设定为: 其中: — 各项税收收入(亿元) — 国内生产总值(亿元) — 财政支出(亿元) — 商品零售价格指数(%)
数据收集 数据来源: 《中国统计年鉴》 其中: ——各项税收收入(亿元) ——国内生产总值(亿元) ——财政支出(亿元) ——商品零售价格指数(%)
参数估计 假定模型中随机项满足基本假定,可用OLS法估计其参数。具体操作:用EViews软件,估计结果为:
模型估计的结果可表示为 模型检验: 拟合优度:可决系数 较高, 修正的可决系数 也较高, 表明模型拟合较好。 (940.6128) (0.0056) (0.0332) (8.7363) t= (-2.7459) (3.9566) (21.1247) (2.7449) 拟合优度:可决系数 较高, 修正的可决系数 也较高, 表明模型拟合较好。 模型检验:
显著性检验 F检验: 针对 ,取 查自由度为 和 的临界值 。 查自由度为 和 的临界值 。 由于 ,应拒绝 , 说明回归方程显著,即“国内生产总值”、“财政支出”、“商品零售物价指数”等变量联合起来确实对“税收收入”有显著影响。
t检验:给定 ,查t分布表,在自由度为 时临界值为 ,因为 的参数对应的t统计量均大于2.080, 这说明在5%的显著性水平下,斜率系数均显著不为零,表明国内生产总值、财政支出、商品零售价格指数对财政收入分别都有显著影响。
经济意义检验 本模型中 所估计的参数的符号与经济理论分析一致,说明在其他因素不变的情况下,国内生产总值每增加1亿元,平均说来财政收入将增加220.67万元;财政支出每增加1亿元,平均说来财政收入将增加7021.04万元;商品零售物价指数每增加1%,平均说来财政收入将增加23.98541亿元。
第三章 小结 1.多元线性回归模型是将总体回归函数描述为一 个被解释变量与多个解释变量之间线性关系的 模型。 第三章 小结 1.多元线性回归模型是将总体回归函数描述为一 个被解释变量与多个解释变量之间线性关系的 模型。 通常多元线性回归模型可以用矩阵形式表示: 2.多元线性回归模型中对随机扰动项u的假定:零 均值假定、同方差假定、无自相关假定、随机 扰动与解释变量不相关假定、正态性假定、无 多重共线性假定。
3.多元线性回归模型参数的最小二乘估计式及期 望、方差和标准误差: 4.在基本假定满足的条件下,多元线性回归模型 最小二乘估计式是最佳线性无偏估计式。
5. 多元线性回归模型中参数区间估计的方法。 6. 多重可决系数的意义和计算方法: 修正可决系数的作用和方法:
7. F检验是对多元线性回归模型中所有解释变量联 行的。
8. 多元回归分析中,为了分别检验当其它解释变量不变时,各个解释变量是否对被解释变量有显著影响,需要分别对所估计的各个回归系数作t检验。
9.利用多元线性回归模型作被解释变量平均值预 测与个别值预测的方法。 点预测: 平均值: 个别值:
第 三 章 结 束 了! THANKS