计量经济学第二章简单线性回归模型.

Slides:

Advertisements

Similar presentations

当前形势和国际静安建设静安党校王小林. 国际 —— 问题很大、霸权犹在。 1 、国际产业分工的后果经济全球化的双刃剑：新兴产业尚未形成 -- 高失业率老龄化 -- 高福利 -- 高负债权威缺失 -- 民主治理的危机再平衡战略 -- 保护主义抬头。

Advertisements

一、北京水务情况简介二、北京水资源现状三、北京水资源管理措施主要内容北京市行政区域面积 1.6 ４万平方公里，西北部为山区，约占总面积的三分之二，东南部为平原区，约占总面积的三分之一。一、北京水务情况简介.

中国银行河北省分行河北省金融票据协会 2014 年二季度河北省金融票据市场运行情况分析会. 目录全国货币信贷及金融票据市场情况河北省货币信贷及票据市场运行情况 2014 年二季度宏观经济运行概况中国银行河北省分行票据业务发展概况票据市场走势分析及票据业务发展建议.

做好就业和自主创业的准备. 我国目前就业形势根据全国人口普查数据， 2007 年有 1100 万新增劳动力有就业要求。据不久前教育部公布的数据显示， 2008 年全国普通高校毕业生人数预计将达到 420 万人，比 2007 年增加 58 万人，增幅 20.71% 。 2007 年年底 830.

2 你会唱这首歌吗 ? 这首歌反映出我们什么样的情怀？我的中国心河山只在我梦里，祖国已多年未亲近，可是不管怎样也改变不了，我的中国心！洋装虽然穿在身，我心依然是中国心，我的祖先早已把我的一切烙上中国印！长江，长城，黄山，黄河，在我心中重千斤！无论何时无论何地，心中一样亲！流在心里的血，澎湃着中华的声音，就算生.

道德讲堂第一讲放眼改革开放上海市泾南中学杨丽萍第一章：放眼 -- 《邓小平时代》

學習目標 指指出中國地理區的劃分方式 了了解中國七大地理區的區域特色 了了解中國三大經濟地帶的發展特徵 分分析中國區域政策對三大經濟地帶的影響.

长沙经济发展情况介绍与分析长沙市委党校经济学部长沙经济发展研究中心李跃教授. 一、长沙市的基本情况二、 2000 年来长沙经济发展的主要特点三、长沙发展的长板和短板.

解读十八届五中全会精神解读十八届五中全会精神. 党的会议全国代表大会 1 全国代表大会每 5 年召开一次中国共产党第十八次全国代表大会，简称 “ 党的十八大 ” 中央委员会全体会议 2 简称中央全会中国共产党第十八届中央委员会第五次全体会议简称 “ 党的十八届五中全会 ”

公共管理 0701 班.  3 月 1 日，在酝酿了一年之后，《神木县全民免费医疗实施办法 ( 试行 ) 》如期推行。这项被媒体称为 “ 开国内先河 ” 的医疗保障制度推行两个多月以来，让全体神木人民真正体会到了 “ 看得起病 ” 的前所未有的实惠，同时，公众道德风险却又把政府推到了一个.

《关注经济发展》知识复习 1、我国的根本政治制度是？ 2、党领导人民治理国家的基本方略是？它的基本要求是？

坚持党的群众路线 2013年10月.

“积极老龄化”理论视角下的老龄旅游产业发展战略中国旅游研究院黄璜

人口再生产.

学科:思想品德九年级教科版第十六课可持续发展 :控制人口,提高素质单位:覃塘区东龙初中周志宾.

C ①以人为本 ②全面发展 ③协调发展 ④可持续发展 A.①②③ B.①②④ C.①③④ D.②③④ 高考真题回放

煤铁之城枫叶之都山城本溪.

第三节学前教育与社会经济、政治、文化等方面的关系.

——高考政治选择题命题思路分析及备考启示

城投及园区类企业评级方法.

学习十一届全国人大一次会议精神.

2014年 “两会”学习解读 2017/2/28.

常识判断解题技巧主讲：付丁丁.

初中历史中考复习策略.

沈阳职业技术学院.

第一節多樣的自然環境第二節中國的區域劃分第三節三大經濟地帶中國基本資料簡介

2014年高考政治二轮系统复习.

明确党员先进性要求自觉发挥先锋模范作用商贸管理系党总支张志华党课教案.

黑龙江省金融发展现状与趋势分析哈尔滨商业大学金融学院李国义.

2014届高三九月调考质量分析武汉市第19中学雷逸.

对加快转变我国经济发展方式的几点认识乌苏市委党校沈海龙.

严格水资源管理推进节水型社会建设王亚红二○一二年十一月.

第十章伪回归和单位根.

深化文化体制改革推动文化大发展大繁荣 ——学习贯彻党的十七届六中全会精神.

义务教育课程标准实验教科书初中毕业年级中考专题复习

齐鲁大地人杰地灵２０11能力备考 2011年基本能力备考.

第七讲徽州文化生态保护实验区保护与建设.

考纲点击 1.全面建设小康社会的经济目标：小康社会、经济建设的要求。 2.促进国民经济又好又快发展：科学发展观、经济持续协调发展.

大学生就业指导手册规划就业规划人生.

认真学习贯彻习近平总书记系列重要讲话精神，努力实施创新驱动发展战略

读图辨史经济全球化是一把双刃剑给图片、材料出一个标题通用汽车的生产等待领取食物的非洲儿童发展中国家反经济全球化示威

调整经济结构，转变发展方式.

正确履行职责强化安全管理红土乡安全生产办公室谭金.

承前启后，求实创新 ——以科学发展观统领经济社会全局 (2002－2007年) 庆祝中国共产党成立90周年时间：2011年6月

《造福人民的基本经济制度》教案课件河南省漯河市召陵区召陵镇一中　林云飞.

《造福人民的基本经济制度》.

纪念改革开放三十年学习实践科学发展观.

2015新课标试卷考情分析及2016年备考指要清远博爱学校张立勇

宏观调控的目标和手段.

如何看待当前经济形势. 如何看待当前经济形势目录第一章、经济运行仍处于合理区间第二章、结构调整稳中有进第三章、客观看待挑战和困难第四章、下半年仍将保持在合理区间目录第一章、经济运行仍处于合理区间第二章、结构调整稳中有进第三章、客观看待挑战和困难第四章、下半年仍将保持在合理区间.

就业政策与法规主讲人：颜建仁.

收入分配与社会公平.

第一课《文化与社会》第二框：文化与经济、政治政治组：王宏.

子模块1：经济增长及影响因素子模块2：经济波动与经济周期实践子模块3：当前金融危机爆发的原因、过程及应对

第三章人类社会及其发展规律第一节社会基本矛盾及其运动规律第二节社会历史发展的动力第三节人民群众在历史发展中的作用.

一、区域发展战略概念与内容 1、概念:是指对区域整体发展的分析，判断而作出的重大的、具有决定全局意义的谋划。 2、内容：制定战略依据、战略目标、战略方针、战略重点、战略措施等，既有总体的、又有行业的、空间的。

目标及学习重点第四章是全课程最基本的分析，了解总量指标和相对指标的概念、分类及表现形式。掌握各种统计指标的计算方法和应用。原则。

一元线性回归（二）.

计量经济学第三章多元线性回归模型.

计量经济学第九章时间序列计量经济模型.

拟合优度（或称判定系数、决定系数）目的：企图构造一个不含单位，可以相互进行比较，而且能直观判断拟合优劣的指标。拟合优度的定义：

全面建设小康社会的经济目标.

高中 E 形象數位果子科技有限公司程建嘉.

第二章经典线性回归模型：双变量线性回归模型

Multiple Regression: Estimation and Hypothesis Testing

数据挖掘 DATA MINING 刘鹏张燕总主编王朝霞主编施建强杨慧娟陈建彪副主编

安徽财经大学计量经济学 Econometrics 经济学院马成文

Presentation transcript:

计量经济学第二章简单线性回归模型

引子:中国旅游业总收入将超过3000亿美元吗？未来我国旅游需求将快速增长，根据中国政府所制定的远景目标，到2020年，中国入境旅游人数将达到2.1亿人次；国际旅游外汇收入580亿美元，国内旅游收入2500亿美元。到2020年，中国旅游业总收入将超过3000亿美元，相当于国内生产总值的8%至11%。（来源：《2008年中国旅行社发展研究咨询报告》）（参考现状：第一产业占GDP的15%，建筑业占GDP 的7%） ●什么决定性因素能使中国旅游业总收入超过3000亿美元? ●旅游业的发展与这种决定性因素的数量关系究竟是什么？ ●怎样具体测定旅游业发展与这种决定性因素的数量关系?

需要研究经济变量之间数量关系的方法显然，对旅游起决定性影响作用的是“中国居民的收入水平”以及“入境旅游人数”等因素。 “旅游业总收入”（Y）与“居民平均收入”（X1）或者“入境旅游人数”（X2）有怎样的数量关系呢？能否用某种线性或非线性关系式 Y= f ( X ) 去表现这种数量关系呢? 具体该怎样去表现和计量呢? 为了不使问题复杂化, 我们先在某些标准的(古典的)假定条件下，用最简单的模型，对最简单的变量间数量关系加以讨论

一、相关分析与回归分析 1、相关分析第一节回归分析与回归函数变量性质：都是随机变量且关系对等。分析方法：图表法和相关系数。第一节回归分析与回归函数一、相关分析与回归分析 1、相关分析变量性质：都是随机变量且关系对等。分析方法：图表法和相关系数。分析目的：判定变量之间相关的方向和关系的密切程度。

其中： -----X 的方差 -----Y的方差相关关系度量： X和Y的总体线性相关系数：其中： -----X 的方差 -----Y的方差 -----X和Y的协方差

相关系数较为简单, 也可以在一定程度上测定变量间的数量关系,但是对于具体研究变量间的数量规律性还有局限性。如果只知道 X 和 Y 的样本观测值，则X和Y的样本线性相关系数为：其中：和分别是变量X和Y的样本观测值，和分别是变量 X 和Y 样本值的平均值注意: 是随抽样而变动的随机变量。相关系数较为简单, 也可以在一定程度上测定变量间的数量关系,但是对于具体研究变量间的数量规律性还有局限性。

对相关系数的正确理解和使用 ● 线性相关系数只反映变量间的线性相关程度，不能说明非线性相关关系 ● X和Y 都是相互对称的随机变量， ● 线性相关系数只反映变量间的线性相关程度，不能说明非线性相关关系 ● 样本相关系数是总体相关系数的样本估计值，由于抽样波动，样本相关系数是随抽样而变动的随机变量，其统计显著性还有待检验

2、回归分析回归的古典意义：高尔顿遗传学的回归概念回归的现代意义：回归的目的（实质）：一个被解释变量对若干个 ( 父母身高与子女身高的关系) 子女的身高有向人的平均身高"回归"的趋势回归的现代意义：一个被解释变量对若干个解释变量依存关系的研究回归的目的（实质）：由解释变量去估计被解释变量的平均值

明确几个概念（为深刻理解“回归”） ●被解释变量Y的条件分布和条件概率：当解释变量X取某固定值时（条件），Y 的值不确定，Y的不同取值会形成一定的分布，这是 Y 的条件分布。 X取某固定值时，Y 取不同值的概率称为条件概率。 ●被解释变量 Y 的条件期望：对于 X 的每一个取值，对 Y 所形成的分布确定其期望或均值，称为 Y 的条件期望或条件均值，用表示。注意:Y的条件期望是随X的变动而变动的 Y X

回归函数分为：总体回归函数和样本回归函数 ●回归线：对于每一个X的取值，都有Y的条件期望与之对应，代表Y的条件期望的点的轨迹形成的直线或曲线称为回归线。 ●回归函数：被解释变量Y 的条件期望随解释变量X的变化而有规律的变化，如果把Y的条件期望表现为 X 的某种函数，这个函数称为回归函数。回归函数分为：总体回归函数和样本回归函数 Y X

二、总体回归函数（PRF）举例: 假如已知由100个家庭构成的总体的数据 (单位:元) 每月家庭可支配收入 X 2000 举例: 假如已知由100个家庭构成的总体的数据 (单位:元) 每月家庭可支配收入 X 2000 2500 3000 3500 4000 4500 5000 5500 6000 6500 1312 1530 1631 1843 2037 2277 2469 2924 3515 3521 1340 1619 1726 1974 2210 2388 2889 3338 3721 3954 1400 1713 1786 2006 2325 2526 3090 3650 3865 4108 每 1548 1750 1835 2265 2419 2681 3156 3802 4026 4345 月 1688 1814 1885 2367 2522 2887 3300 4087 4165 4812 家 1738 1985 1943 2485 2665 3050 3321 4298 4380 庭 1800 2041 2515 2799 3189 3654 4312 4580 消 1902 2186 2078 2689 3353 3842 4413 费 2200 2179 2713 2913 3534 4074 支 2312 2298 2898 3038 3710 出 2316 2923 3167 3834 Y 2387 3053 3310 2498 3187 3510 3286 1591 1915 2092 2586 2754 3039 3396 3853 4036 4148

消费支出的条件期望与收入关系的图形对于本例的总体，家庭消费支出的条件期望与家庭收入基本是线性关系, 可以把家庭消费支出的条件均值表示为家庭收入的线性函数：

1. 总体回归函数的概念前提：假如已知所研究的经济现象的总体的被解释变量Y 和解释变量X的每个观测值（通常这是不可能的！），那 1. 总体回归函数的概念前提：假如已知所研究的经济现象的总体的被解释变量Y 和解释变量X的每个观测值（通常这是不可能的！），那么，可以计算出总体被解释变量Y的条件期望，并将其表现为解释变量X的某种函数这个函数称为总体回归函数（PRF）本质:总体回归函数实际上表现的是特定总体中被解释变量随解释变量的变动而变动的某种规律性。计量经济学的根本目的是要探寻变量间数量关系的规律,也就要努力去寻求总体回归函数。

2.总体回归函数的表现形式 ●条件期望表现形式例如Y的条件期望是解释变量X的线性函数，可表示为： ●个别值表现形式（随机设定形式）是分布在的周围，若令各个与条件期望的偏差为，显然是个随机变量则有 PRF

3.如何理解总体回归函数 ●作为总体运行的客观规律，总体回归函数是客观存在的，但在实际的经济研究中总体回归函数通常是未知的，只能根据经济理论和实践经验去设定。计量经济学研究中“计量”的根本目的就是要寻求总体回归函数。 ●我们所设定的计量模型实际就是在设定总体回归函数的具体形式。 ●总体回归函数中 Y 与 X 的关系可以是线性的，也可以是非线性的。

“线性”的判断计量经济学中,线性回归模型的“线性” 有两种解释： ◆就变量而言是线性的 ——Y的条件期望（均值）是X的线性函数 ◆就参数而言是线性的 ——Y的条件期望（均值）是参数β的线性函数例如：对变量、参数均为“线性” 对参数“线性”，对变量”非线性” 对变量“线性”，对参数”非线性” 注意：在计量经济学中，线性回归模型主要指就参数而言是“线性”的,因为只要对参数而言是线性的,都可以用类似的方法去估计其参数，都可以归于线性回归。

三、随机扰动项 ◆概念 ◆性质是其期望为 0 有一定分布的随机变量重要性：随机扰动项的性质决定着计量经济分析结的值与其条件期望在总体回归函数中，各个的值与其条件期望的偏差有很重要的意义。若只有的影响，与不应有偏差。若偏差存在，说明还有其他影响因素。实际代表了排除在模型以外的所有因素对 Y 的影响。 ◆性质是其期望为 0 有一定分布的随机变量重要性：随机扰动项的性质决定着计量经济分析结果的性质和计量经济方法的选择

引入随机扰动项的原因 ● 是未知影响因素的代表(理论的模糊性) ● 是无法取得数据的已知影响因素的代表(数据欠缺) 引入随机扰动项的原因 ● 是未知影响因素的代表(理论的模糊性) ● 是无法取得数据的已知影响因素的代表(数据欠缺) ● 是众多细小影响因素的综合代表(非系统性影响) ● 模型可能存在设定误差(变量、函数形式的设定） ● 模型中变量可能存在观测误差(变量数据不符合实际) ● 变量可能有内在随机性(人类经济行为的内在随机性)

四、样本回归函数（SRF）样本回归线：样本观测值条件均值的轨迹，称为样本回归线。样本回归函数：如果把被解释变量Y的样本条件均值对于X的一定值，取得Y的样本观测值，可计算其条件均值，样本观测值条件均值的轨迹，称为样本回归线。样本回归函数：如果把被解释变量Y的样本条件均值表示为解释变量X的某种函数，这个函数称为样本回归函数（SRF） Y SRF X

样本回归函数的函数形式样本回归函数如果为线性函数，可表示为条件均值形式：其中：是与相对应的 Y 的样本条件均值和分别是样本回归函数的参数个别值（实际值）形式：被解释变量Y的实际观测值不完全等于样本条件均值，二者之差用表示，称为剩余项或残差项：则或

样本回归函数的特点 ●样本回归线随抽样波动而变化: 每次抽样都能获得一个样本，就可以拟合一条样本回归线，（SRF不唯一) ●样本回归函数的函数形式应与设定的总体回归函数的函数形式一致。 ●样本回归线只是样本条件均值的轨迹，还不是总体回归线，它至多只是未知的总体回归线的近似表现。 Y SRF1 SRF2 X

样本回归函数与总体回归函数的关系 A X SRF PRF

对样本回归的理解对比：总体回归函数样本回归函数如果能够通过某种方式获得和的数值，显然: ● 和是对总体回归函数参数和的估计对比：总体回归函数样本回归函数如果能够通过某种方式获得和的数值，显然: ● 和是对总体回归函数参数和的估计 ● 是对总体条件期望的估计 ● 在概念上类似总体回归函数中的，可视为对的估计。

计量经济分析的目标是寻求总体回归函数。即用样本回归函数SRF去估计总体回归函数PRF。回归分析的目的目的：计量经济分析的目标是寻求总体回归函数。即用样本回归函数SRF去估计总体回归函数PRF。由于样本对总体总是存在代表性误差，SRF 总会过高或过低估计PRF。要解决的问题：寻求一种规则和方法，使其得到的SRF的参数和尽可能“接近”总体回归函数中的参数和的真实值。这样的“规则和方法”有多种，如矩估计、极大似然估计、最小二乘估计等。其中最常用的是最小二乘法。

第二节简单线性回归模型的最小二乘估计用样本去估计总体回归函数，总要使用特定的方法，而任何估计参数的方法都需要有一定的前提条件——假定条件一、简单线性回归的基本假定为什么要作基本假定？ ●只有具备一定的假定条件，所作出的估计才具有良好的统计性质。 ●模型中有随机扰动项，估计的参数是随机变量，显然参数估计值的分布与扰动项的分布有关，只有对随机扰动的分布作出假定，才能比较方便地确定所估计参数的分布性质，也才可能进行假设检验和区间估计等统计推断。假定分为：◆对模型和变量的假定◆对随机扰动项的假定

1.对模型和变量的假定例如对于 ●假定模型设定是正确的（变量和模型无设定误差） ●假定解释变量X在重复抽样中取固定值。 ●假定解释变量X是非随机的，或者虽然X是随机的，但与扰动项u是不相关的。(从变量X角度看是外生的) 注意: 解释变量非随机在自然科学的实验研究中相对容易满足，经济领域中变量的观测是被动不可控的， X非随机的假定并不一定都满足。

2.对随机扰动项u的假定在给定X的条件下，的条件期望为零假定2：同方差假定: 在给定X的条件下，的条件方差为某个常数假定1：零均值假定: 在给定X的条件下，　的条件期望为零假定2：同方差假定: 在给定X的条件下，　的条件方差为某个常数 Y X

假定4：解释变量是非随机的，或者虽然是随机的但与扰动项不相关 (从随机扰动角度看) 假定3：无自相关假定: 随机扰动项的逐次值互不相关假定4：解释变量是非随机的，或者虽然是随机的但与扰动项不相关 (从随机扰动角度看)

假定5：对随机扰动项分布的正态性假定，即假定服从均值为零、方差为的正态分布（说明：正态性假定并不影响对参数的点估计，所以有时不列入基本假定，但这对确定所估计参数的分布性质是需要的。且根据中心极限定理，当样本容量趋于无穷大时，的分布会趋近于正态分布。所以正态性假定有合理性）

在对的基本假定下 Y 的分布性质假定1：零均值假定由于其中的和是非随机的，是随机变量，因此其中的和是非随机的，是随机变量，因此 Y是随机变量，的分布性质决定了的分布性质。对的一些假定可以等价地表示为对的假定：假定1：零均值假定假定2：同方差假定假定3：无自相关假定假定5：正态性假定

二、普通最小二乘法（OLS）（Ｏrdinary Least Squares) ●对于，不同的估计方法可以得到不同的样本回归参数和，所估计的也就不同。 ●理想的估计结果应使估计的与真实的的差(即剩余 )总的来说越小越好 ●因可正可负，总有，所以可以取最小，即在观测值Y和X确定时，的大小决定于和。要解决的问题:：如何寻求能使最小的和。

2. 正规方程和估计量取偏导数并令其为0，可得正规方程用克莱姆法则求解得以观测值表现的OLS估计量：即或整理得

为表达得更简洁，或者用离差形式的OLS估计量：容易证明由正规方程：注意：其中：本课程中:大写的和均表示观测值；小写的和均表示观测值的离差而且由样本回归函数可用离差形式写为

3. OLS回归线的数学性质 ●OLS回归线通过样本均值 ●估计值的均值等于实际观测值的均值 (由OLS第一个正规方程直接得到) ●剩余项的均值为零 ●OLS回归线通过样本均值 ●估计值的均值等于实际观测值的均值 (由OLS第一个正规方程直接得到) (由OLS正规方程两边同除n得到)

●被解释变量估计值与剩余项不相关由OLS正规方程有: ●解释变量与剩余项不相关

4. OLS估计量的统计性质面临的问题: 参数估计值参数真实值 ●参数无法直接观测，只能通过样本去估计。样本的获得存面临的问题: 参数估计值参数真实值对参数估计式的优劣需要有评价的标准为什么呢? ●参数无法直接观测，只能通过样本去估计。样本的获得存在抽样波动，不同样本的估计结果不一致。 ●估计参数的方法有多种，不同方法的估计结果可能不相同，通过样本估计参数时，估计方法及所确定的估计量不一定完备，不一定能得到理想的总体参数估计值。对各种估计方法优劣的比较与选择需要有评价标准。估计准则的基本要求：参数估计值应"尽可能地接近"总体参数真实值”。什么是“尽可能地接近” 原则呢？用统计语言表述就是: 无偏性、有效性、一致性等

(1) 无偏性前提：重复抽样中估计方法固定、样本数不变、由重复抽样得到的观测值,可得一系列参数估计值 , 的分布称为的抽样分布，其密度函数记为概念: 如果，则称是参数的无偏估计量，如果，则称是有偏的估计，其偏倚为（见下页图）

概率密度估计值偏倚

(2)有效性前提：样本相同、用不同的方法估计参数，可以找到若干个不同的无偏估计式目标: 努力寻求其抽样分布具有最小方差的估计量目标: 努力寻求其抽样分布具有最小方差的估计量（见下页图）既是无偏的同时又具有最小方差特性的估计量，称为最佳（有效）估计量。

概率密度估计值

3、渐近性质（大样本性质）思想:当样本容量较小时，有时很难找到方差最小的无偏估计，需要考虑样本扩大后的性质（估计方法不变，样本数逐步增大）一致性：当样本容量 n 趋于无穷大时，如果估计式依概率收敛于总体参数的真实值，就称这个估计式是的一致估计式。即或（渐近无偏估计式是当样本容量变得足够大时其偏倚趋于零的估计式） (见下页图) 渐近有效性：当样本容量 n 趋于无穷大时，在所有的一致估计式中，具有最小的渐近方差。

概率密度估计值图 4

4. 分析OLS估计量的统计性质 ● 由OLS估计式可以看出都由可观测的样本值和唯一表示。 ● 因存在抽样波动，OLS估计是随机变量先明确几点: ● 由OLS估计式可以看出都由可观测的样本值和唯一表示。 ● 因存在抽样波动，OLS估计是随机变量 ● OLS估计式是点估计量

OLS估计式的统计性质——高斯定理 1、线性特征是Y的线性函数 2、无偏特性可以证明（证明见教材P38） 2、无偏特性可以证明（证明见教材P38）（注意: 无偏性的证明中用到了基本假定中零均值等假定）

3、最小方差特性 (有效性) （证明见教材P68附录2·1）可以证明：在所有的线性无偏估计中，OLS估计具有最小方差（注意:最小方差性的证明中用到了基本假定中的同方差、无自相关等假定）结论（高斯定理）：在古典假定条件下，OLS估计量是最佳线性无偏估计量（BLUE）

第三节拟合优度的度量概念：样本回归线是对样本数据的一种拟合。 ●不同的模型（不同函数形式) 可拟合出不同的样本回归线第三节拟合优度的度量概念：样本回归线是对样本数据的一种拟合。 ●不同的模型（不同函数形式) 可拟合出不同的样本回归线 ●相同的模型用不同方法去估计参数，也可以拟合出不同的回归线拟合的回归线与样本观测值总是有偏离。样本回归线对样本观测数据拟合的优劣程度，可称为拟合优度。如何度量拟合优度呢？拟合优度的度量建立在对 Y 的总变差分解的基础上

一、总变差的分解（TSS）（ESS）（RSS）总变差（TSS）：被解释变量Y的观测值与其平均值的离差平将上式两边平方加总，可证得（提示：交叉项）（TSS）（ESS）（RSS）或者表示为总变差（TSS）：被解释变量Y的观测值与其平均值的离差平方和（总平方和）(说明 Y 的总变动程度）解释了的变差（ESS）：被解释变量Y的估计值与其平均值的离差平方和（回归平方和）剩余平方和（RSS）：被解释变量观测值与估计值之差的平方和（未解释的平方和）

变差分解的图示(以某一个观测值为例) Y X

二、可决系数定义：回归平方和（解释了的变差ESS）在总变或以TSS同除总变差等式两边：或表示: 或

可决系数的作用可决系数越大，说明在总变差中由模型作出了解释的部分占的比重越大，模型拟合优度越好。反之可决系数越小，说明模型对样本观测值的拟合程度越差。可决系数的特点： ●可决系数取值范围： ●随抽样波动，样本可决系数是随抽样而变动的随机变量 ●可决系数是非负的统计量

可决系数与相关系数的关系联系：数值上可决系数是相关系数的平方

可决系数相关系数区别：是就模型而言是就两个变量而言说明解释变量对被解释说明两变量线性依存程度变量的解释程度可决系数相关系数是就模型而言是就两个变量而言说明解释变量对被解释说明两变量线性依存程度变量的解释程度度量不对称的因果关系度量对称的相关关系取值 0≦ ≦1 取值 -1≦r≦1 有非负性可正可负

OLS 估计只是用样本估计的结果，是否可靠？第四节回归系数的区间估计和假设检验为什么要作区间估计？运用OLS法可以估计出参数的一个估计值，但OLS估计只是通过样本得到的点估计，它不一定等于真实参数，还需要寻求真实参数的可能范围，并说明其可靠性。为什么要作假设检验？ OLS 估计只是用样本估计的结果，是否可靠？是否抽样的偶然结果呢？还有待统计检验。区间估计和假设检验都是建立在确定参数估计值概率分布性质的基础上。

是随机变量，必须确定其分布性质才可能进行区间估计和假设检验一、OLS估计的分布性质基本思想是随机变量，必须确定其分布性质才可能进行区间估计和假设检验怎样确定的分布性质呢? 是服从正态分布的随机变量，决定了也是服从正态分布的随机变量；是的线性函数，决定了也服从正态分布正态正态正态只要确定的期望和方差，即可确定的分布性质线性特征（线性估计的重要性)

的期望和方差 ● 的期望： (已证明是无偏估计） ● 的方差和标准误差 (证明见P39、P40) (标准误差是方差的平方根) ● 的期望： (已证明是无偏估计） ● 的方差和标准误差 (证明见P39、P40) (标准误差是方差的平方根) 注意：以上各式中均未知，但是个常数，其余均是已知的样本观测值，这时和都不是随机变量。

对随机扰动项方差的估计基本思想：注意区别：是未知的确定的常数；是由样本信息估计的，是个随机变量是的方差，而不能直接观测，只能从由样本得到的去获得有关的某些信息，去对作出估计。可以证明（见附录2.2)其无偏估计为 (这里的n-2为自由度, 即可自由变化的样本观测值个数) 注意区别：是未知的确定的常数；是由样本信息估计的，是个随机变量对随机扰动项方差的估计

二、回归系数的区间估计基本思想：能说明这种估计的可靠性和精确性。如果能找到包含真实参数对参数作出的点估计是随机变量，虽然是无偏估计，但还不能说明这种估计的可靠性和精确性。如果能找到包含真实参数的一个范围，并确定这样的范围包含参数真实值的可靠程度，将是对真实参数更深刻的认识。方法：如果在确定参数估计式概率分布性质的基础上，可找到两个正数δ和，能使得这样的区间包含真实的概率为，即这样的区间称为所估计参数的置信区间。讨论：“如果已经得出了的特定估计值,并确定了某个置信区间，这说明真实参数落入这个区间的概率为1-α ”。这种说法对吗 ?

方法：用无偏估计去代替未知的，由于样本容量较小，“标准化变量” t （统计量）不再服从正态分布，而服从 t 分布。这时可用 t 分布去建立参数估计的置信区间。选定α，查 t 分布表得显著性水平为，自由度为n-2的临界值 (n-2) ，则有即

设定模型: 估计参数： Y X 例1:研究某市城镇居民人均鲜蛋需求量Y(公斤)与人均可支配收入X(元,1980年不变价计)的关系 1995-2005年样本数据: 估计参数：年份 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 Y 14.4 14.7 17.0 16.3 18.0 18.5 18.2 19.3 17.1 X 847.3 821.0 884.2 903.7 984.1 1035.3 1200.9 1289.8 1432.9 1539.0 1633.6

计算可决系数例1:由前面的估计结果可计算出由数据Y 可计算出: 则估计结果:

估计：给定查df=n-2=9的t分布临界值参数区间估计: 若给定查df=9的t分布临界值则若给定则若给定则

三、回归系数的假设检验目的：简单线性回归中，检验X对Y是否真有显著影响基本概念回顾: 临界值与概率、大概率事件与小概率事件相对于显著性水平的临界值为: （单侧）或（双侧）计算的统计量为: （小概率事件）（大概率事件）统计量 t 62

回归系数的检验方法确立假设：原假设为备择假设为 (本质：检验是否为0，即检验是否对Y有显著影响) 则：

▼如果或者 ▼如果给定 , 查 t 分布表得则拒绝原假设而不拒绝备择假设 xi 对y有显著影响； ▼如果或者则拒绝原假设而不拒绝备择假设 xi 对y有显著影响； ▼如果则不拒绝原假设 xi 对y没有显著影响；

用 P 值判断参数的显著性假设检验的 p 值： p 值是基于既定的样本数据所计算的统计量，拒绝原假设的最低显著性水平。相对于显著性水平的临界值: 或计算的统计量: 与相对应 P 与 P 相对应注意： t检验是比较和 P值检验是比较和 p 统计量 t

用 P 值判断参数显著性的方法方法：将给定的显著性水平与 p 值比较：规则：当时，P值越小，越能拒绝原假设 ►若　　　值，必有，则在显著性水平　下拒绝原假设，即认为Ｘ对 Y 有显著影响 ►若　　　值，必有，则在显著性水平　下不拒绝原假设　　　　，即认为Ｘ对 Y 没有显著影响规则：当时，P值越小，越能拒绝原假设

举例：对例1参数的显著性检验用P值检验: （需要确定与对应的P值）给定查df=9的 t分布临界值计算统计量判断:因拒绝判断:因拒绝说明显著不为0， X对Y 确有显著影响用P值检验: （需要确定与对应的P值）由，df=9，查 t 分布表知道P<0.0005(t= 4.781时 ) 因t=5.00时的P值 < 0.0005（t=4.781) << 则在显著性水平下更应拒绝原假设即认为Ｘ对 Y 有显著影响

第五节回归模型预测一、回归分析结果的报告第五节回归模型预测一、回归分析结果的报告经过模型的估计、检验，得到一系列重要的数据，为了简明、清晰、规范地表述这些数据，计量经济学通常采用以下规范化的方式：例如：回归结果为 = 24·4545 + 0·5091 （6·4138）（0·0357）标准误差SE t = (3·8128) (14·2605) t 统计量 = 0·9621 df = 8 可决系数和自由度 F = 202·87 DW = 2.3 F 统计量 DW统计量

二、被解释变量平均值预测 1. 基本思想经估计的计量经济模型可用于: 经济结构分析经济预测政策评价验证理论 1. 基本思想经估计的计量经济模型可用于: 经济结构分析经济预测政策评价验证理论 ●运用计量经济模型作预测：指利用所估计的样本回归函数作预测工具，用解释变量的已知值或预测值，对预测期或样本以外的被解释变量的数值作出定量的估计。 ●计量经济预测是一种条件预测：条件：◆模型设定的关系式不变 ◆所估计的参数不变 ◆ 解释变量在预测期的取值已作出预测

预测值、平均值、个别值的相互关系 Y 是对真实平均值的点估计,也是对个别值的点估计点预测值真实平均值个别值

点预测: 2 、Y 平均值的点预测方法：用样本估计的总体参数值所计算的Y的估计值直接作为Y的预测值将解释变量预测值直接代入估计的方程这样计算的是一个点估计值

3、Y平均值的区间预测基本思想： ●预测的目标值是真实平均值，由于存在抽样波动，预测的平均值不一定等于真实平均值，还测的平均值不一定等于真实平均值，还需要对作区间估计 ●为对Y作区间预测，必须确定平均值点预测值的抽样分布 ● 必须找出点预测值与预测目标值的关系，即找出与二者都有关的统计量

具体作法（从的分布分析）服从正态分布(为什么?) ，将其标准化, 当未知时，只得用代替，这时有已知可以证明具体作法（从的分布分析）已知可以证明服从正态分布(为什么?) ，将其标准化, （较复杂不具体证明）当未知时，只得用代替，这时有

构建平均值的预测区间显然这样的 t 统计量与和都有关。给定显著性水平α，查 t 分布表，得自由度n－2的临界值，则有即界值，则有即 Y平均值的置信度为的预测区间为

三、被解释变量个别值预测基本思想： ● 既是对Y平均值的点预测，也是对Y个别值的点预测。

具体作法：已知剩余项是与预测值及个别值都有关的变量，并且已知服从正态分布，且可证明当用代替时，对标准化的变量 t 为已知剩余项是与预测值及个别值都有关的变量，并且已知服从正态分布，且可证明当用代替时，对标准化的变量 t 为（较复杂不具体证明）

构建个别值的预测区间给定显著性水平，查 t 分布表得自由度为N—2 的临界值，则有因此，一元回归时Y的个别值的置信度为的预测区间的临界值，则有因此，一元回归时Y的个别值的置信度为的预测区间上下限为

被解释变量Y区间预测的特点预测区间 Y个别值的预测值与真实个别值的差异,不仅受抽样波动影响，而且还受随机扰动项的影响

（2）平均值和个别值预测区间都不是常数，是随的变化而变化的，当时，预测区间最小。（2）平均值和个别值预测区间都不是常数，是随的变化而变化的，当时，预测区间最小。（3）预测区间上下限与样本容量有关，当样本容量n→∞时,个别值的预测区间只决定于随机扰动的方差。预测区间

各种预测值的关系 SRF Y平均值的预测区间 Y的个别值的预测区间

第六节案例分析案例:中国全体居民的消费水平与经济发展数量关系的分析第六节案例分析案例:中国全体居民的消费水平与经济发展数量关系的分析提出问题：改革开放以来，随着中国经济的快速发展，人民生活水平不断提高，居民的消费水平也在不断增长。研究中国全体居民的消费水平与经济发展的数量关系，对于探寻居民消费增长的规律性，预测居民消费的发展趋势有重要意义。理论分析：影响居民人均消费水平的因素有多种，但从理论和经验分析，最主要的影响因素应是经济发展水平。从理论上说经济发展水平越高，居民消费越多。

变量选择：被解释变量选择能代表城乡所有居民消费的 “全体居民人均年消费水平”(元/人)；解释变量选择表现经济增长水平的“人均国民生产总值（人均GDP）”（元/人）研究范围：1978年至2007年中国“全体居民人均年消费水平”与“人均国内生产总值（人均GDP）” 的时间序列数据。

数据：1978年-2007年中国居民人均消费水平和人均GDP 年份全体居民消费水平(元)Y 人均GDP(元)X 1978 184 381 1979 208 419 1980 238 463 1981 264 492 1982 288 528 1983 316 583 1984 361 695 1985 446 858 1986 497 963 1987 565 1112 1988 714 1366 1989 788 1519 1990 833 1644 1991 932 1893 1992 1116 2311

年份全体居民消费水平(元)Y 人均GDP(元)X 1993 1393 2998 1994 1833 4044 1995 2355 5046 1996 2789 5846 1997 3002 6420 1998 3159 6796 1999 3346 7159 2000 3632 7858 2001 3869 8622 2002 4106 9398 2003 4411 10542 2004 4925 12336 2005 5463 14053 2006 6138 16165 2007 7081 18934

模型设定: 从散点图可以看出居民消费水平 (Y)和人均GDP (X)大体呈现为线性关系。为分析中国居民消费

估计参数假定模型中随机扰动满足基本假定，可用OLS法。具体操作：使用EViews 软件，估计结果是：

用规范的形式将参数估计和检验的结果写为：（55.64114）(0.007743) t=(4.031457) (49.90815) F=2490.823 n=30 87

模型检验 1. 可决系数：模型整体上拟合好。 2. 系数显著性检验：给定，查 t 分布表， 1. 可决系数：模型整体上拟合好。 2. 系数显著性检验：给定，查 t 分布表，在自由度为时临界值为因为应拒绝 3. 用P值检验 >> p=0.0000 表明，人均GDP对居民消费水平确有显著影响。模型检验应拒绝

4. 经济意义检验：估计的解释变量的系数为0·3864，说明人均GDP每增加1元，人均年消费支出平均将增加0·3864 元。这符合经济理论的界定。

经济预测点预测：如果2008年人均GDP将比2007年增长16.2%将达到，22001元/人，利用所估计的模型可预测2008年居民可能达到的年消费水平。 (元) 区间预测: 平均值区间预测上下限：已知: 90

平均值区间预测区间预测由X和Y的描述统计结果即是说：当2008年 =22001元时，居民人均消费水平平均值置信度95%的预测区间为（8445.38，9006.96）元。 91

个别值区间预测: 即是说：当2008年 =22001元时，居民人均消费水平个别值置信度95%的预测区间为（8200.66，即是说：当2008年 =22001元时，居民人均消费水平个别值置信度95%的预测区间为（8200.66， 9251.68）元。 92

本章小结 1、变量间的关系分为函数关系与相关关系。相关系数是对变量间线性相关程度的度量。 2、现代意义的回归是一个被解释变量对若干个解释变量依存关系的研究，回归的实质是由解释变量去估计被解释变量的平均值。 3、总体回归函数（PRF）是将总体被解释变量Y的条件均值表现为解释变量X的某种函数。样本回归函数（SRF）是将被解释变量Y的样本条件均值表示为解释变量X的某种函数。总体回归函数与样本回归函数的区别与联系。

4、随机扰动项是被解释变量实际值与条件均值的偏差，代表排除在模型以外的所有因素对Y的影响。 5、简单线性回归的基本假定：对模型和变量的假定、对随机扰动项u的假定（零均值假定、同方差假定、无自相关假定、随机扰动与解释变量不相关假定、正态性假定） 6、普通最小二乘法（OLS）估计参数的基本思想及估计量；OLS 估计量的分布性质及期望、方差和标准误差；OLS估计式是最佳线性无偏估计量。

7、简单线性回归模型极大似然估计的思想和方法。 8、对回归系数区间估计的思想和方法。 9、拟合优度是样本回归线对样本观测数据拟合的优劣程度，可决系数是在总变差分解基础上确定的。可决系数的计算方法、特点与作用。 10、对回归系数假设检验的基本思想。对回归系数t检验的思想与方法；用P值判断参数的显著性。

11、被解释变量平均值预测与个别值预测的关系，被解释变量平均值的点预测和区间预测的方法，被解释变量个别值区间预测的方法。 12、运用EViews软件实现对简单线性回归模型的估计和检验。

第二章结束了！ THANKS 97