面板数据回归.

Slides:



Advertisements
Similar presentations
老百姓学中医. 有病靠医生? 治病靠医保? 健康靠什么? 世界卫生组织: “ 世界上三分之二的病人不是死于疾病, 而是死于无知。 ” 19 岁大男孩发高烧连续 11 天打吊瓶后出现肾衰竭 篮球、洗澡、冷饮、夜里发烧、打吊瓶、指标  西医:病毒、肾功能衰竭、换肾  中医:风寒、热铁锅浇凉水、驱寒补肾.
Advertisements

教师成绩录入步骤 1. 登录教务系统 2. 进入教师成绩管理界面 3. 选择相应的教学班,点击 “ 课程成绩录 入 ” 进入成绩录入界面 4. 点击 “ 设置 ” 按钮设置 “ 成绩分项 ” 5. 录入成绩, “ 保存成绩 ” 按钮可以保存成 绩但不提交(提交后不能再修改成绩) 6. “ 提交成绩 ”
国家现代测绘基准体系基础设施建设成果资料汇交与归档培训 (第 1 期)第一部分:总体要求 二〇一二年十二月.
贫血病人的护理 第六章 血液及造血系统疾病病人的护理. 复习回顾 缺铁性贫血病人的护理 第六章 血液及造血系统疾病病人的护理.
7.2 图示化记忆 记忆的概述 图示化记忆 联想记忆法 奇特联想记忆法 用手记忆.
第一章 餐饮服务程序 学习目的: 掌握餐饮服务四个基本环节的内容 正确表述和运用各种餐饮形式的服务程序 熟悉并利用所学知识灵活机动地为不同需求的 客人提供服务.
信阳师范学院计算机系 1 第七章网络应用技术 (一) 信阳师范学院计算机系 网络应用的地位和作用 7.2 域名系统 DNS 7.3 远程登录 Telnet 7.4 文件传输 FTP 7.5 电子邮件 7.6 万维网 WWW 第七章网络应用技术.
年輕駕駛交通工具 考上駕照的 18 歲, 正好是高中畢業, 離家工作、上大學 的時候。 年輕人對新環境的 好奇及生疏,以及 尚未養成良好駕駛 習慣,造成意外的 產生。
温州地区特产.
第6章 网络应用基础 主讲:.
智慧城.
窦娥冤 关汉卿 感天动地 元·关汉卿.
园林制图相关知识.
第五章 主张超尘绝俗的 佛家.
2013年优质固定收益类产品分析 哈尔滨道东大直街证券营业部.
证券投资学 华南理工大学经济与贸易学院 朱晖.
陋室铭 商丘六中课题组 施舒姗.
高考地理复习应注意的问题 构建知识网络 培养读图技能 掌握答题规律.
九十二年度第二次 會計作業實務座談會 主辦單位:會計室.
知其不可而为之.
小学五年级语文第三、四单元复习 华南师大附小五年级.
性理釋疑(1—30題) 後學 阮章輝 學講.
校园信息管理系统 河北科技大学网络中心 2000/4/10.
中国画家协会理事、安徽省美术家协会会员、 工艺美术师、黄山市邮协常务理事余承平主讲
第二课 扬起自信的风帆 我能“行”.
“寓言是个魔袋,袋子很小,却能从里面取出很多东西来,甚至能取出比袋子大得多的东西来。”
石家庄迅步网络科技有限公司 联系人:张会耀 电话:
宏心报国,沐祖国阳光,应卧薪尝胆,苦心吞吴。 志向高远,浴名校雨露,当破釜沉舟,背水一战。
徵收苗栗市福全段147、1588及文心段10、11地號等4筆土地之
江西 6、下列关于名著的表述,不正确的一项是
广州市档案局监督指导处 王 琳 二○一六年三月
第五部分 特色专题 专题四 文学常识备考集萃.
讲 义 大家好!根据局领导的指示,在局会计科和各业务科室的安排下,我给各位简要介绍支付中心的工作职能和集中支付的业务流程。这样使我们之间沟通更融洽,便于我们为预算单位提供更优质的服务。 下面我主要从三方面介绍集中支付业务,一是网上支付系统,二是集中支付业务流程及规定等,
推行使用散装预拌砂浆 全面贯彻落实禁现政策
揭秘 庄家 股市中的 为什么你的股票一买就跌,一卖就涨? 为什么出了利好,股价反而下跌? 为什么有的股票一直涨停?
第五冊 第九課 李 家 寶 朱天心.
贴近教学 服务师生 方便老师.
中国人民公安大学经费管理办法(试行) 第一章总则 第四条:“一支笔” “一支笔”--仅指单位主要负责人。负责对本 单位的经费进行审核审批。
小儿营养不良 第四篇第二章第二节小儿营养不良.
2016年莱芜市乡村医生在岗培训 启动会.
统计学Statistics 主讲人:商学院 刘后平 教授
单元 SD 5 菜鸟学飞 附件二 想学飞的职场菜鸟.
海关特殊监管区域整合优化情况介绍 加贸司 杨旭 二零一四年九月十一日.
同学们,开始上课了,让我们伴随着乐曲,走进这节课吧!
§3.2 数据资料与拟合模型.
普希金. 普希金 检查预习 瞬息( ) 幽寂( ) 延绵( ) 萋萋( ) 忧郁( ) 伫立( ) 涉足( ) 向往( ) 尴尬( ) shùn 瞬息( ) 幽寂( ) 延绵( ) 萋萋( ) 忧郁( ) 伫立( ) 涉足( ) 向往(
乳猪断奶后拉稀,掉膘与教槽料.
屈原列传 志洁行廉,爱国忠君真气节; 辞微旨远,经天纬地大诗篇。 旨远辞高,同风雅并体; 行廉志洁,与日月同光。
咏 柳 南昌凤凰城上海外国语学校 马金根.
敬业与乐业.
题型复习.
林黛玉进贾府 曹雪芹.
数学 九年级上、下册合订 新课标(ZJ).
一元线性回归(二).
宸卿小学 司徒红珠.
时间序列回归.
工具变量回归.
小壁虎借尾巴.
人(大人)(人口)(人手) 个(个人)(三个)(个子zi ) 手(小手)(双手)(手工) 大(大人)(大山)(大火)
Chapter 1 計量經濟學的本質與經濟資料.
中華大學 資訊工程學系 報告人:資訊工程學系 許慶賢 系主任.
南宁翰林华府 ——地中海风格与现代住宅的融合.
微信商城系统操作说明 色卡会智能门店.
第 四 章 迴歸分析應注意之事項.
大綱 一.受試者之禮券/禮品所得稅規範 二.範例介紹 三.自主管理 四.財務室提醒.
导入新课 在上一堂课我们曾随着郦道元一起畅游三峡,领略了它的雄奇险拔、清幽秀色。其实,莽莽神州,高山大岳,千流百川,那神奇如画的风光无不让人心动神摇,今天我们再学习陶弘景的《答谢中书书》,共同欣赏一幅清丽的山水画,品味一首流动的山水诗。
安徽财经大学 计量经济学 Econometrics 经济学院 马成文
「同根同心」- 交流計劃 廣州及珠三角經濟發展兩天考察團 2016
《戰國策·趙威后問齊使》.
Section 2-2: 4 (6), 7, 12 (14), 13, 18 (16), 21, 25, 28, 30, 36, 46, 48, 50, 54a Section 3-1: 4 (2), 5, 10, 15, 20, 29, 32 Section 4-1: 3, 7, 8,
Presentation transcript:

面板数据回归

时间序列数据或截面数据都是一维数据。例如时间序列数据是变量按时间得到的数据;截面数据是变量在截面空间上的数据。面板数据是同时在时间和截面上取得的二维数据。所以,面板数据(panel data)也称时间序列截面数据(time series and cross section data)或混合数据(pool data)。

面板数据,简言之是时间序列和截面数据的混合。严格地讲是指对一组个体(如居民、国家、公司等) 连续观察多期得到的资料。所以很多时候我们也称其为“追踪资料”。近年来,由于面板数据资料的获得变得相对容易,使其应用范围也不断扩大。

1996-2002年中国15个省级地区的居民家庭人均消费数据(不变价格) (例一) 地区人均消费 1996 1997 1998 1999 2000 2001 2002 CP-AH(安徽) 3282.466 3646.150 3777.410 3989.581 4203.555 4495.174 4784.364 CP-BJ(北京) 5133.978 6203.048 6807.451 7453.757 8206.271 8654.433 10473.12 CP-FJ(福建) 4011.775 4853.441 5197.041 5314.521 5522.762 6094.336 6665.005 CP-HB(河北) 3197.339 3868.319 3896.778 4104.281 4361.555 4457.463 5120.485 CP-HLJ(黑龙江) 2904.687 3077.989 3289.990 3596.839 3890.580 4159.087 4493.535 CP-JL(吉林) 2833.321 3286.432 3477.560 3736.408 4077.961 4281.560 4998.874 CP-JS(江苏) 3712.260 4457.788 4918.944 5076.910 5317.862 5488.829 6091.331 CP-JX(江西) 2714.124 3136.873 3234.465 3531.775 3612.722 3914.080 4544.775 CP-LN(辽宁) 3237.275 3608.060 3918.167 4046.582 4360.420 4654.420 5402.063 CP-NMG(内蒙古) 2572.342 2901.722 3127.633 3475.942 3877.345 4170.596 4850.180 CP-SD(山东) 3440.684 3930.574 4168.974 4546.878 5011.976 5159.538 5635.770 CP-SH(上海) 6193.333 6634.183 6866.410 8125.803 8651.893 9336.100 10411.94 CP-SX(山西) 2813.336 3131.629 3314.097 3507.008 3793.908 4131.273 4787.561 CP-TJ(天津) 4293.220 5047.672 5498.503 5916.613 6145.622 6904.368 7220.843 CP-ZJ(浙江) 5342.234 6002.082 6236.640 6600.749 6950.713 7968.327 8792.210

面板数据的格式(例二) company year invest mvalue 1 1951 755.9 4833 1952 891.2 4924.9 1953 1304.4 6241.7 1954 1486.7 5593.6 2 588.2 2289.5 645.5 2159.4 641 2031.3 459.3 2115.5 3 135.2 1819.4 157.3 2079.7 179.5 2371.6 189.6 2759.9

当描述截面数据时,我们用下标表示个体,如Yi表示第i个个体的变量Y。当描述面板数据时,我们需要其他符号来同时表示个体和时期。为此我们采用双下标而不是单下标,其中第一个下标i表示个体,第二个下标t表示观测时间。 于是Yit表示n个个体中第i个个体在T期中的第t个时期内变量Y的观测值。

面板数据用双下标变量表示。例如 Yit, i = 1, 2, …, N; t = 1, 2, …, T N表示面板数据中含有N个个体。T表示时间序列的最大长度。 对于样本点来说:

Stata中面板数据的表示 company year invest mvalue 1 1951 755.9 4833 1952 891.2 4924.9 1953 1304.4 6241.7 1954 1486.7 5593.6 2 588.2 2289.5 645.5 2159.4 641 2031.3 459.3 2115.5 3 135.2 1819.4 157.3 2079.7 179.5 2371.6 189.6 2759.9

短面板和长面板 如果面板数据 T 较小,而n 较大,这种面板数据被称为“短面板”(short panel)。(大n小T)如fatality.dta 反之,如果T 较大,而n 较小,则被称为“长面板”(long panel)。 (大T小n)如Grunfeld.dta

静态面板和动态面板 在面板模型中,如果解释变量包含被解释变量的滞后值,则称为“动态面板”(dynamic panel);   反之,则称为“静态面板”(static panel)。我们仅关注静态面板。

平衡面板和非平衡面板 如果在面板数据中,每个时期在样本中的个体完全一样,则称为“平衡面板”(balanced panel);   反之,则称为“非平衡面板”(unbalanced panel)。我们主要关注平衡面板。

在stata中,首先使用xtset命令指定个体特征和时间特征,然后可以用xtdes命令显示面板数据的结构。 use fatality,clear xtset state year xtdes use nlswork,clear xtset idcode year

面板数据的优势 (1)可以解决遗漏变量问题:遗漏变量偏差是一个普遍存在的问题。虽然可以用工具变量法解决,但有效的工具变量常常很难找。遗漏变量常常是由于不可观测的个体差异或“异质性”(heterogeneity)所造成,如果这种个体差异“不随时间而改变”(time invariant),则面板数据提供了解决遗漏变量问题的又一利器。 (2)提供更多个体动态行为的信息:由于面板数据同时有截面与时间两个维度,有时它可以解决单独的截面数据或时间序列数据所不能解决的问题。

比如,如何区分规模效应与技术进步对企业生产效率的影响。在截面数据中,由于没有时间维度,故无法观测到技术进步。然而,对于单个企业的时间序列数据来说,我们无法区分其生产效率的提高究竟有多少是由于规模扩大,有多少是由于技术进步。 (3)样本容量较大:由于同时有截面维度与时间维度,通常面板数据的样本容量更大,可以提高估计的精确度。

面板数据的建模方法主要有三种: 混合回归模型 固定效应回归模型 随机效应回归模型

实例:交通事故死亡人数和酒精税

由此我们就能得出增加啤酒税收会导致更多的交通事故死亡人数吗?不一定,这是因为这些回归中可能存在着巨大的遗漏变量偏差。

影响死亡率的因素有很多,包括: 1。州内驾驶的汽车质量; 2。高速公路的维修情况是否良好; 3。大部分驾驶的路程是在乡下还是市内; 4。路上的汽车密度; 5。社会文化能否接受酒后驾车等。 这些因素都有可能与酒精税有关。 若相关,则会导致遗漏变量偏差。一种解决这些导致遗漏变量偏差潜在根源的方法是收集这些变量的数据,并把它们加入到上式中。不幸的是,我们很难或不可能度量诸如酒后驾车的文化接受度等变量。

解决方法:固定效应OLS回归 具有两个时期的面板数据:“前后”比较 特别注意:Zi不随时间变化

第二个式子减第一个式子,得: 结论: 两期的变化(差分)表示的回归消除了随时间不变的不可观测变量Zi的效应。换言之,分析Y和X的变化可以控制随时间不变的变量,于是就消除了这种产生遗漏变量偏差的来源。

当数据是在两个不同年份里观测得到的时候,这种“前后”分析很有效。但我们的数据集中包含7个不同年份里的观测值,即当T>2时不能直接应用这种“前后”比较方法。为了分析该面板数据集中的所有观测值,我们使用固定效应回归方法。

面板数据模型 对于特定的个体i而言,Zi 表示那些不随时间改变的影响因素,如个人的消费习惯、国家的社会制度、地区的特征、性别等,一般称其为“个体效应” (individual effects)。

混合回归模型

混合回归直接利用reg命令即可。 需要注意的是,如果个体异质性的截距项不相同,混合回归的结果会是有偏的,甚至可能符号相反。 下面的例子假设n个个体的截距不同。

固定效应模型的估计算法 “个休中心化”OLS算法或者组内离差估计法

固定效应模型:LSDV法

LSDV估计法又称为虚拟变量法。 基本思想:固定效应模型实质上就是在传统的线性回归模型中加入 N-1 个虚拟变量,使得每个截面都有自己的截距项。 由于固定效应模型假设存在着“个体效应”,每个个体都有其单独的截距项。这就相当于在原方程中引入n−1个虚拟变量(如果省略常数项,则引入n个虚拟变量)来代表不同的个体,获得每个个体的截据项。

如何理解个体效应、个体截距项的不同以及虚拟变量的引入? 我们用一份模拟的数据来分析: use example,clear xtset company year xtdes 1。 画出散点图和拟合线,并建立OLS回归方程。 2。加入虚拟变量,并重新画出建立OLS回归方程。

gen d1=0 gen d2=0 gen d3=0 replace d1=1 if id==1 replace d2=1 if id==2 replace d3=1 if id==3 reg y x d1 d2

reg y x

固定效应模型的stata实现 组内离差估计法 use fatality,clear xtset state year xtdes xtline FatalityRate 固定效应模型: xtreg FatalityRate beertax,fe

回归结果解读 1。三个R2哪个重要? 2。固定效应为什么有两个F检验? 3。corr(u_i, Xb) 的含义。 4。 sigma_u、sigma_e、rho的含义。

1。因为固定效应模型是组内估计量(离差),因此,只有within是一个真正意义上的R2,其他两个是组间相关系数的平方。 首先注意:结果中的u_i不表示残差,而是表示个体效应。 1。因为固定效应模型是组内估计量(离差),因此,只有within是一个真正意义上的R2,其他两个是组间相关系数的平方。 2。右侧的F统计量表示除常数项外其他解释变量的联合显著性。最后一个F检验,原假设所有U_i=0,即不存在个体效应,不必使用固定效应模型。

3。corr(u_i, Xb) 个体效应与解释变量的相关系数,相关系数为0或者接近于0,可以使用随机效应模型;相关系数不为0,需要使用固定效应模型。 4。 sigma_u:表示个体效应的标准差 sigma_e:表示干扰项的标准差 rho:rho = sigma_u^2 / (sigma_u^2 + sigma_e^2) 个体效应的波动占整个波动的比例。

LSDV法:显示每个个体截距的方法: 方法1 tab state,gen(dum) reg FatalityRate beertax dum*,nocons 方法2 drop dum1 reg FatalityRate beertax dum* 方法3 xi: reg FatalityRate beertax i.state

时间固定效应回归 个体固定效应模型解决了不随时间而变(time invariant)但随个体而异的遗漏变量问题。   但还可能存在不随个体而变(individual invariant),但随时间而变(time varying)的遗漏变量问题。 和个体固定效应能控制不随时问变化但个体间不同的变量一样,时间固定效应能控制个体间相同但随时间变化的变量。 比如,企业经营的宏观经济环境。 再比如:由于新车安全性能的提高是发生在全国范围内的。因此它们能够减少所有州的交通死亡事故。故把汽车安全性能视为随时间变化但对所有州都相同的遗漏变量是合理的。

加入用St表示的汽车安全性能的效应后,得以下方程:其中St是只随时间改变,不随个体改变的变量,称为时间固定效应。 对于此方程,可使用LSDV法来估计,即对每个时期定义一个虚拟变量,然后把T-1个时间虚拟变量包括在回归方程中(未包括的时间虚拟变量即为基期):

双向固定效应 如果方程既考虑了个体固定效应,又考虑了时间固定效应,可以称为“双向固定效应”(Two-way FE)。 此时,可以分别加入个体虚拟变量和时间虚拟变量,并可通过检验这些虚拟变量的联合显著性来判断是否应使用双向固定效应模型。

在上述例子中加入时间固定效应。 实际上添加了t-1个时间虚拟变量。主要反映随着时间变化的一些特征。 use fatality,clear tab year,gen(yr) edit drop yr1 reg FatalityRate beertax yr* 几乎所有时间虚拟变量均不显著,说明本例子的时间固定效应不明显。

在交通死亡人数中的应用 上述形式中包含了啤洒税,47个州二元变量(州固定效应),6个年二元变量(时间固定效应)和截距项,所以这个模型的解释变量个数多达55个,这将带来大量的自由度的损失。比较参数发现加入时间效应后啤酒税的系数由-0.66变为-0.64,可见加入时间效应对结果影响不大。

随机效应模型 对于面板数据而言,除了我们前面讲的混合回归和固定效应模型以外,还存在另外一种模型形式:随机效应模型。 为了区别固定效应模型和随机效应模型,随机效应模型的方程可写为: 模型貌似和固定效应模型一样,但不同的是:在随机效应模型中,ui不再作为个体效应,而是作为随机误差项的一部分。随机误差项分成两部分,一部分是不随时间变化的误差项 ui,另一部分是随时间变化的误差项εit ,即:

因此:随机效应模型的最重要的条件是: 这样才能保证OLS是无偏的,在固定效应模型中没有上述要求,这也成为判别到底使用哪种模型的重要标准。

关于随机效应模型: 1。随机效应模型将固定效应模型的个体效应归入到随机误差项中,因此更加灵活。 2。固定效应模型通过组内离差的方法消除掉不随时间改变的变量,这一方面保证了模型的无偏性,另一方面模型无法估计不随时间改变的变量之影响,这在随机效应模型中可以实现。 3。回归的结果是随机效应模型的所有的个体具有相同的截距项,个体的差异主要反应在随机干扰项的设定上。

4。由于上述特性,随机效应模型比固定效应模型结果更加有效,同时,条件更加苛刻。 随机效应模型必须满足下列条件:其中,个体效应 u与解释变量X和Z 均不相关。 一般在固定效应模型中,它们是相关的。

随机效应模型: xtreg FatalityRate beertax ,re 回归结果解读。 与固定效应模型的结果比较。

3。固定效应还是随机效应? Hausman检验 基本思想:如果 , Fe 和 Re 都是一致的,但Re更有效。 如果 , Fe 仍然一致,但Re是有偏的。 因此 原假设: 即应该采用随机效应。 备则假设 应该采用固定效应。

xtreg FatalityRate beertax ,fe est store fix1 xtreg FatalityRate beertax ,re est store random1 hausman fix1 random1 hausman fix1 random1,sigmamore 本题拒绝原假设,即应该用固定效应模型。 多数实证研究都采用固定效应模型或双向固定效应模型

一个完整的例子 use grunfeld,clear xtset company year xtdes xtline invest xtline invest,overlay

1. 混合回归 直接使用命令: reg invest mvalue kstock,vce(cluster company) 选择项“vce(cluster id)”表示以变量id作为聚类变量来计算聚类稳健的标准误,解决面板数据的组间自相关。

2. 固定效应模型(“个休中心化”OLS算法或者组内离差估计法) xtreg invest mvalue kstock ,fe 3. LSDV估计法(显示每个个体截距) tab company , gen(dum) reg invest mvalue kstock dum*,nocons 或者: drop dum1 reg invest mvalue kstock dum* xi:reg invest mvalue kstock i.company

4. 时间固定效应模型 tab year,gen(yr) edit drop yr1 reg invest mvalue kstock yr* 大部分时间虚拟变量显著,说明随着时间的变动,invest有不断变动的趋势。 5. 随机效应模型 xtreg invest mvalue kstock ,re

模型选择 6。固定效应模型还是混合回归? wald检验:直接观测F值。 7。随机效应还是混合回归? B-P检验:先用随机效应回归,然后运行xttest0。 8。固定效应还是随机效应? Hausman检验

xtreg invest mvalue kstock ,fe est store fixed xtreg invest mvalue kstock ,re est store random hausman fixed random 本题接受原假设,即应该用随机效应。