面板数据回归.

Slides:

Advertisements

Similar presentations

老百姓学中医. 有病靠医生？治病靠医保？健康靠什么？世界卫生组织： “ 世界上三分之二的病人不是死于疾病，而是死于无知。 ” 19 岁大男孩发高烧连续 11 天打吊瓶后出现肾衰竭篮球、洗澡、冷饮、夜里发烧、打吊瓶、指标  西医：病毒、肾功能衰竭、换肾  中医：风寒、热铁锅浇凉水、驱寒补肾.

Advertisements

教师成绩录入步骤 1. 登录教务系统 2. 进入教师成绩管理界面 3. 选择相应的教学班，点击 “ 课程成绩录入 ” 进入成绩录入界面 4. 点击 “ 设置 ” 按钮设置 “ 成绩分项 ” 5. 录入成绩， “ 保存成绩 ” 按钮可以保存成绩但不提交（提交后不能再修改成绩） 6. “ 提交成绩 ”

国家现代测绘基准体系基础设施建设成果资料汇交与归档培训（第 1 期）第一部分：总体要求二〇一二年十二月.

贫血病人的护理第六章血液及造血系统疾病病人的护理. 复习回顾缺铁性贫血病人的护理第六章血液及造血系统疾病病人的护理.

7.2 图示化记忆记忆的概述图示化记忆联想记忆法奇特联想记忆法用手记忆.

第一章餐饮服务程序学习目的：掌握餐饮服务四个基本环节的内容正确表述和运用各种餐饮形式的服务程序熟悉并利用所学知识灵活机动地为不同需求的客人提供服务.

信阳师范学院计算机系 1 第七章网络应用技术（一）信阳师范学院计算机系网络应用的地位和作用 7.2 域名系统 DNS 7.3 远程登录 Telnet 7.4 文件传输 FTP 7.5 电子邮件 7.6 万维网 WWW 第七章网络应用技术.

年輕駕駛交通工具考上駕照的 18 歲，正好是高中畢業，離家工作、上大學的時候。年輕人對新環境的好奇及生疏，以及尚未養成良好駕駛習慣，造成意外的產生。

温州地区特产.

第6章网络应用基础主讲：.

窦娥冤关汉卿感天动地元·关汉卿.

园林制图相关知识.

第五章主张超尘绝俗的佛家.

2013年优质固定收益类产品分析哈尔滨道东大直街证券营业部.

证券投资学华南理工大学经济与贸易学院朱晖.

陋室铭商丘六中课题组施舒姗.

高考地理复习应注意的问题构建知识网络培养读图技能掌握答题规律.

九十二年度第二次會計作業實務座談會主辦單位：會計室.

知其不可而为之.

小学五年级语文第三、四单元复习华南师大附小五年级.

性理釋疑（1—30題）後學阮章輝學講.

校园信息管理系统河北科技大学网络中心 2000/4/10.

中国画家协会理事、安徽省美术家协会会员、工艺美术师、黄山市邮协常务理事余承平主讲

第二课扬起自信的风帆我能“行”.

“寓言是个魔袋，袋子很小，却能从里面取出很多东西来，甚至能取出比袋子大得多的东西来。”

石家庄迅步网络科技有限公司联系人：张会耀电话：

宏心报国，沐祖国阳光，应卧薪尝胆，苦心吞吴。志向高远，浴名校雨露，当破釜沉舟，背水一战。

徵收苗栗市福全段147、1588及文心段10、11地號等4筆土地之

江西 6、下列关于名著的表述，不正确的一项是

广州市档案局监督指导处王琳二○一六年三月

第五部分　特色专题专题四　文学常识备考集萃.

讲义大家好！根据局领导的指示，在局会计科和各业务科室的安排下，我给各位简要介绍支付中心的工作职能和集中支付的业务流程。这样使我们之间沟通更融洽，便于我们为预算单位提供更优质的服务。下面我主要从三方面介绍集中支付业务，一是网上支付系统，二是集中支付业务流程及规定等，

推行使用散装预拌砂浆全面贯彻落实禁现政策

揭秘庄家股市中的为什么你的股票一买就跌，一卖就涨? 为什么出了利好，股价反而下跌？为什么有的股票一直涨停？

第五冊第九課李家寶朱天心.

贴近教学服务师生方便老师.

中国人民公安大学经费管理办法（试行）第一章总则第四条：“一支笔” “一支笔”--仅指单位主要负责人。负责对本单位的经费进行审核审批。

小儿营养不良第四篇第二章第二节小儿营养不良.

2016年莱芜市乡村医生在岗培训启动会.

统计学Statistics 主讲人：商学院刘后平教授

单元 SD 5 菜鸟学飞附件二想学飞的职场菜鸟.

海关特殊监管区域整合优化情况介绍加贸司杨旭二零一四年九月十一日.

同学们，开始上课了，让我们伴随着乐曲，走进这节课吧！

§3.2 数据资料与拟合模型.

普希金. 普希金检查预习瞬息（）幽寂（）延绵（）萋萋（）忧郁（）伫立（）涉足（）向往（）尴尬（） shùn 瞬息（）幽寂（）延绵（）萋萋（）忧郁（）伫立（）涉足（）向往（

乳猪断奶后拉稀，掉膘与教槽料.

屈原列传志洁行廉，爱国忠君真气节；辞微旨远，经天纬地大诗篇。旨远辞高，同风雅并体；行廉志洁，与日月同光。

咏柳南昌凤凰城上海外国语学校马金根.

敬业与乐业.

林黛玉进贾府曹雪芹.

数学九年级上、下册合订新课标（ZJ）.

一元线性回归（二）.

宸卿小学司徒红珠.

时间序列回归.

工具变量回归.

小壁虎借尾巴.

人（大人）（人口）（人手）个（个人）（三个）（个子zi ）手（小手）（双手）（手工）大（大人）（大山）（大火）

Chapter 1 計量經濟學的本質與經濟資料.

中華大學資訊工程學系報告人：資訊工程學系許慶賢系主任.

南宁翰林华府 ——地中海风格与现代住宅的融合.

微信商城系统操作说明色卡会智能门店.

第四章迴歸分析應注意之事項.

大綱一.受試者之禮券/禮品所得稅規範二.範例介紹三.自主管理四.財務室提醒.

导入新课在上一堂课我们曾随着郦道元一起畅游三峡，领略了它的雄奇险拔、清幽秀色。其实，莽莽神州，高山大岳，千流百川，那神奇如画的风光无不让人心动神摇，今天我们再学习陶弘景的《答谢中书书》，共同欣赏一幅清丽的山水画，品味一首流动的山水诗。

安徽财经大学计量经济学 Econometrics 经济学院马成文

「同根同心」- 交流計劃廣州及珠三角經濟發展兩天考察團 2016

《戰國策·趙威后問齊使》.

Section 2-2: 4 (6), 7, 12 (14), 13, 18 (16), 21, 25, 28, 30, 36, 46, 48, 50, 54a Section 3-1: 4 (2), 5, 10, 15, 20, 29, 32 Section 4-1: 3, 7, 8,

Presentation transcript:

面板数据回归

时间序列数据或截面数据都是一维数据。例如时间序列数据是变量按时间得到的数据；截面数据是变量在截面空间上的数据。面板数据是同时在时间和截面上取得的二维数据。所以，面板数据（panel data）也称时间序列截面数据（time series and cross section data）或混合数据（pool data）。

面板数据，简言之是时间序列和截面数据的混合。严格地讲是指对一组个体(如居民、国家、公司等) 连续观察多期得到的资料。所以很多时候我们也称其为“追踪资料”。近年来，由于面板数据资料的获得变得相对容易，使其应用范围也不断扩大。

1996-2002年中国15个省级地区的居民家庭人均消费数据（不变价格）（例一）地区人均消费 1996 1997 1998 1999 2000 2001 2002 CP-AH（安徽） 3282.466 3646.150 3777.410 3989.581 4203.555 4495.174 4784.364 CP-BJ（北京） 5133.978 6203.048 6807.451 7453.757 8206.271 8654.433 10473.12 CP-FJ（福建） 4011.775 4853.441 5197.041 5314.521 5522.762 6094.336 6665.005 CP-HB（河北） 3197.339 3868.319 3896.778 4104.281 4361.555 4457.463 5120.485 CP-HLJ（黑龙江） 2904.687 3077.989 3289.990 3596.839 3890.580 4159.087 4493.535 CP-JL（吉林） 2833.321 3286.432 3477.560 3736.408 4077.961 4281.560 4998.874 CP-JS（江苏） 3712.260 4457.788 4918.944 5076.910 5317.862 5488.829 6091.331 CP-JX（江西） 2714.124 3136.873 3234.465 3531.775 3612.722 3914.080 4544.775 CP-LN（辽宁） 3237.275 3608.060 3918.167 4046.582 4360.420 4654.420 5402.063 CP-NMG（内蒙古） 2572.342 2901.722 3127.633 3475.942 3877.345 4170.596 4850.180 CP-SD（山东） 3440.684 3930.574 4168.974 4546.878 5011.976 5159.538 5635.770 CP-SH（上海） 6193.333 6634.183 6866.410 8125.803 8651.893 9336.100 10411.94 CP-SX（山西） 2813.336 3131.629 3314.097 3507.008 3793.908 4131.273 4787.561 CP-TJ（天津） 4293.220 5047.672 5498.503 5916.613 6145.622 6904.368 7220.843 CP-ZJ（浙江） 5342.234 6002.082 6236.640 6600.749 6950.713 7968.327 8792.210

面板数据的格式（例二） company year invest mvalue 1 1951 755.9 4833 1952 891.2 4924.9 1953 1304.4 6241.7 1954 1486.7 5593.6 2 588.2 2289.5 645.5 2159.4 641 2031.3 459.3 2115.5 3 135.2 1819.4 157.3 2079.7 179.5 2371.6 189.6 2759.9

当描述截面数据时，我们用下标表示个体，如Yi表示第i个个体的变量Y。当描述面板数据时，我们需要其他符号来同时表示个体和时期。为此我们采用双下标而不是单下标，其中第一个下标i表示个体，第二个下标t表示观测时间。于是Yit表示n个个体中第i个个体在T期中的第t个时期内变量Y的观测值。

面板数据用双下标变量表示。例如 Yit, i = 1, 2, …, N； t = 1, 2, …, T N表示面板数据中含有N个个体。T表示时间序列的最大长度。对于样本点来说：

Stata中面板数据的表示 company year invest mvalue 1 1951 755.9 4833 1952 891.2 4924.9 1953 1304.4 6241.7 1954 1486.7 5593.6 2 588.2 2289.5 645.5 2159.4 641 2031.3 459.3 2115.5 3 135.2 1819.4 157.3 2079.7 179.5 2371.6 189.6 2759.9

短面板和长面板如果面板数据 T 较小，而n 较大，这种面板数据被称为“短面板”（short panel）。（大n小T）如fatality.dta 反之，如果T 较大，而n 较小，则被称为“长面板”（long panel）。（大T小n）如Grunfeld.dta

静态面板和动态面板在面板模型中，如果解释变量包含被解释变量的滞后值，则称为“动态面板”(dynamic panel)；反之，则称为“静态面板”(static panel)。我们仅关注静态面板。

平衡面板和非平衡面板如果在面板数据中，每个时期在样本中的个体完全一样，则称为“平衡面板”(balanced panel)；反之，则称为“非平衡面板”(unbalanced panel)。我们主要关注平衡面板。

在stata中，首先使用xtset命令指定个体特征和时间特征，然后可以用xtdes命令显示面板数据的结构。 use fatality,clear xtset state year xtdes use nlswork,clear xtset idcode year

面板数据的优势（1）可以解决遗漏变量问题：遗漏变量偏差是一个普遍存在的问题。虽然可以用工具变量法解决，但有效的工具变量常常很难找。遗漏变量常常是由于不可观测的个体差异或“异质性”（heterogeneity）所造成，如果这种个体差异“不随时间而改变”（time invariant），则面板数据提供了解决遗漏变量问题的又一利器。（2）提供更多个体动态行为的信息：由于面板数据同时有截面与时间两个维度，有时它可以解决单独的截面数据或时间序列数据所不能解决的问题。

比如，如何区分规模效应与技术进步对企业生产效率的影响。在截面数据中，由于没有时间维度，故无法观测到技术进步。然而，对于单个企业的时间序列数据来说，我们无法区分其生产效率的提高究竟有多少是由于规模扩大，有多少是由于技术进步。（3）样本容量较大：由于同时有截面维度与时间维度，通常面板数据的样本容量更大，可以提高估计的精确度。

面板数据的建模方法主要有三种：混合回归模型固定效应回归模型随机效应回归模型

实例:交通事故死亡人数和酒精税

由此我们就能得出增加啤酒税收会导致更多的交通事故死亡人数吗？不一定，这是因为这些回归中可能存在着巨大的遗漏变量偏差。

影响死亡率的因素有很多，包括： 1。州内驾驶的汽车质量； 2。高速公路的维修情况是否良好； 3。大部分驾驶的路程是在乡下还是市内； 4。路上的汽车密度； 5。社会文化能否接受酒后驾车等。这些因素都有可能与酒精税有关。若相关，则会导致遗漏变量偏差。一种解决这些导致遗漏变量偏差潜在根源的方法是收集这些变量的数据，并把它们加入到上式中。不幸的是，我们很难或不可能度量诸如酒后驾车的文化接受度等变量。

解决方法：固定效应OLS回归具有两个时期的面板数据：“前后”比较特别注意：Zi不随时间变化

第二个式子减第一个式子，得：结论：两期的变化（差分）表示的回归消除了随时间不变的不可观测变量Zi的效应。换言之，分析Y和X的变化可以控制随时间不变的变量，于是就消除了这种产生遗漏变量偏差的来源。

当数据是在两个不同年份里观测得到的时候，这种“前后”分析很有效。但我们的数据集中包含7个不同年份里的观测值，即当T>2时不能直接应用这种“前后”比较方法。为了分析该面板数据集中的所有观测值，我们使用固定效应回归方法。

面板数据模型对于特定的个体i而言，Zi 表示那些不随时间改变的影响因素，如个人的消费习惯、国家的社会制度、地区的特征、性别等，一般称其为“个体效应” (individual effects)。

混合回归模型

混合回归直接利用reg命令即可。需要注意的是，如果个体异质性的截距项不相同，混合回归的结果会是有偏的，甚至可能符号相反。下面的例子假设n个个体的截距不同。

固定效应模型的估计算法 “个休中心化”OLS算法或者组内离差估计法

固定效应模型：LSDV法

LSDV估计法又称为虚拟变量法。基本思想：固定效应模型实质上就是在传统的线性回归模型中加入 N-1 个虚拟变量，使得每个截面都有自己的截距项。由于固定效应模型假设存在着“个体效应”，每个个体都有其单独的截距项。这就相当于在原方程中引入n−1个虚拟变量（如果省略常数项，则引入n个虚拟变量）来代表不同的个体，获得每个个体的截据项。

如何理解个体效应、个体截距项的不同以及虚拟变量的引入？我们用一份模拟的数据来分析： use example,clear xtset company year xtdes 1。画出散点图和拟合线，并建立OLS回归方程。 2。加入虚拟变量，并重新画出建立OLS回归方程。

gen d1=0 gen d2=0 gen d3=0 replace d1=1 if id==1 replace d2=1 if id==2 replace d3=1 if id==3 reg y x d1 d2

reg y x

固定效应模型的stata实现组内离差估计法 use fatality,clear xtset state year xtdes xtline FatalityRate 固定效应模型： xtreg FatalityRate beertax,fe

回归结果解读 1。三个R2哪个重要？ 2。固定效应为什么有两个F检验？ 3。corr(u_i, Xb) 的含义。 4。 sigma_u、sigma_e、rho的含义。

1。因为固定效应模型是组内估计量（离差），因此，只有within是一个真正意义上的R2，其他两个是组间相关系数的平方。首先注意：结果中的u_i不表示残差，而是表示个体效应。 1。因为固定效应模型是组内估计量（离差），因此，只有within是一个真正意义上的R2，其他两个是组间相关系数的平方。 2。右侧的F统计量表示除常数项外其他解释变量的联合显著性。最后一个F检验，原假设所有U_i=0，即不存在个体效应，不必使用固定效应模型。

3。corr(u_i, Xb) 个体效应与解释变量的相关系数，相关系数为0或者接近于0，可以使用随机效应模型；相关系数不为0，需要使用固定效应模型。 4。 sigma_u：表示个体效应的标准差 sigma_e：表示干扰项的标准差 rho：rho = sigma_u^2 / (sigma_u^2 + sigma_e^2) 个体效应的波动占整个波动的比例。

LSDV法：显示每个个体截距的方法：方法1 tab state,gen(dum) reg FatalityRate beertax dum*,nocons 方法2 drop dum1 reg FatalityRate beertax dum* 方法3 xi: reg FatalityRate beertax i.state

时间固定效应回归个体固定效应模型解决了不随时间而变(time invariant)但随个体而异的遗漏变量问题。但还可能存在不随个体而变(individual invariant)，但随时间而变(time varying)的遗漏变量问题。和个体固定效应能控制不随时问变化但个体间不同的变量一样，时间固定效应能控制个体间相同但随时间变化的变量。比如，企业经营的宏观经济环境。再比如：由于新车安全性能的提高是发生在全国范围内的。因此它们能够减少所有州的交通死亡事故。故把汽车安全性能视为随时间变化但对所有州都相同的遗漏变量是合理的。

加入用St表示的汽车安全性能的效应后，得以下方程：其中St是只随时间改变，不随个体改变的变量，称为时间固定效应。对于此方程，可使用LSDV法来估计，即对每个时期定义一个虚拟变量，然后把T-1个时间虚拟变量包括在回归方程中(未包括的时间虚拟变量即为基期)：

双向固定效应如果方程既考虑了个体固定效应，又考虑了时间固定效应，可以称为“双向固定效应”(Two-way FE)。此时，可以分别加入个体虚拟变量和时间虚拟变量，并可通过检验这些虚拟变量的联合显著性来判断是否应使用双向固定效应模型。

在上述例子中加入时间固定效应。实际上添加了t-1个时间虚拟变量。主要反映随着时间变化的一些特征。 use fatality,clear tab year,gen(yr) edit drop yr1 reg FatalityRate beertax yr* 几乎所有时间虚拟变量均不显著，说明本例子的时间固定效应不明显。

在交通死亡人数中的应用上述形式中包含了啤洒税，47个州二元变量(州固定效应)，6个年二元变量(时间固定效应)和截距项，所以这个模型的解释变量个数多达55个，这将带来大量的自由度的损失。比较参数发现加入时间效应后啤酒税的系数由-0.66变为-0.64，可见加入时间效应对结果影响不大。

随机效应模型对于面板数据而言，除了我们前面讲的混合回归和固定效应模型以外，还存在另外一种模型形式：随机效应模型。为了区别固定效应模型和随机效应模型，随机效应模型的方程可写为：模型貌似和固定效应模型一样，但不同的是：在随机效应模型中，ui不再作为个体效应，而是作为随机误差项的一部分。随机误差项分成两部分，一部分是不随时间变化的误差项 ui，另一部分是随时间变化的误差项εit ，即：

因此：随机效应模型的最重要的条件是：这样才能保证OLS是无偏的，在固定效应模型中没有上述要求，这也成为判别到底使用哪种模型的重要标准。

关于随机效应模型： 1。随机效应模型将固定效应模型的个体效应归入到随机误差项中，因此更加灵活。 2。固定效应模型通过组内离差的方法消除掉不随时间改变的变量，这一方面保证了模型的无偏性，另一方面模型无法估计不随时间改变的变量之影响，这在随机效应模型中可以实现。 3。回归的结果是随机效应模型的所有的个体具有相同的截距项，个体的差异主要反应在随机干扰项的设定上。

4。由于上述特性，随机效应模型比固定效应模型结果更加有效，同时，条件更加苛刻。随机效应模型必须满足下列条件：其中，个体效应 u与解释变量X和Z 均不相关。一般在固定效应模型中，它们是相关的。

随机效应模型： xtreg FatalityRate beertax ,re 回归结果解读。与固定效应模型的结果比较。

3。固定效应还是随机效应？ Hausman检验基本思想：如果 , Fe 和 Re 都是一致的，但Re更有效。如果 , Fe 仍然一致，但Re是有偏的。因此原假设：即应该采用随机效应。备则假设应该采用固定效应。

xtreg FatalityRate beertax ,fe est store fix1 xtreg FatalityRate beertax ,re est store random1 hausman fix1 random1 hausman fix1 random1,sigmamore 本题拒绝原假设，即应该用固定效应模型。多数实证研究都采用固定效应模型或双向固定效应模型

一个完整的例子 use grunfeld,clear xtset company year xtdes xtline invest xtline invest,overlay

1. 混合回归直接使用命令： reg invest mvalue kstock,vce(cluster company) 选择项“vce(cluster id)”表示以变量id作为聚类变量来计算聚类稳健的标准误，解决面板数据的组间自相关。

2. 固定效应模型（“个休中心化”OLS算法或者组内离差估计法） xtreg invest mvalue kstock ,fe 3. LSDV估计法（显示每个个体截距） tab company , gen(dum) reg invest mvalue kstock dum*,nocons 或者： drop dum1 reg invest mvalue kstock dum* xi:reg invest mvalue kstock i.company

4. 时间固定效应模型 tab year,gen(yr) edit drop yr1 reg invest mvalue kstock yr* 大部分时间虚拟变量显著，说明随着时间的变动，invest有不断变动的趋势。 5. 随机效应模型 xtreg invest mvalue kstock ,re

模型选择 6。固定效应模型还是混合回归？ wald检验：直接观测F值。 7。随机效应还是混合回归？ B-P检验：先用随机效应回归，然后运行xttest0。 8。固定效应还是随机效应？ Hausman检验

xtreg invest mvalue kstock ,fe est store fixed xtreg invest mvalue kstock ,re est store random hausman fixed random 本题接受原假设，即应该用随机效应。