Download presentation
Presentation is loading. Please wait.
1
面板数据回归
2
时间序列数据或截面数据都是一维数据。例如时间序列数据是变量按时间得到的数据;截面数据是变量在截面空间上的数据。面板数据是同时在时间和截面上取得的二维数据。所以,面板数据(panel data)也称时间序列截面数据(time series and cross section data)或混合数据(pool data)。
3
面板数据,简言之是时间序列和截面数据的混合。严格地讲是指对一组个体(如居民、国家、公司等) 连续观察多期得到的资料。所以很多时候我们也称其为“追踪资料”。近年来,由于面板数据资料的获得变得相对容易,使其应用范围也不断扩大。
4
1996-2002年中国15个省级地区的居民家庭人均消费数据(不变价格) (例一)
地区人均消费 1996 1997 1998 1999 2000 2001 2002 CP-AH(安徽) CP-BJ(北京) CP-FJ(福建) CP-HB(河北) CP-HLJ(黑龙江) CP-JL(吉林) CP-JS(江苏) CP-JX(江西) CP-LN(辽宁) CP-NMG(内蒙古) CP-SD(山东) CP-SH(上海) CP-SX(山西) CP-TJ(天津) CP-ZJ(浙江)
5
面板数据的格式(例二) company year invest mvalue 1 1951 755.9 4833 1952 891.2
4924.9 1953 1304.4 6241.7 1954 1486.7 5593.6 2 588.2 2289.5 645.5 2159.4 641 2031.3 459.3 2115.5 3 135.2 1819.4 157.3 2079.7 179.5 2371.6 189.6 2759.9
6
当描述截面数据时,我们用下标表示个体,如Yi表示第i个个体的变量Y。当描述面板数据时,我们需要其他符号来同时表示个体和时期。为此我们采用双下标而不是单下标,其中第一个下标i表示个体,第二个下标t表示观测时间。 于是Yit表示n个个体中第i个个体在T期中的第t个时期内变量Y的观测值。
7
面板数据用双下标变量表示。例如 Yit, i = 1, 2, …, N; t = 1, 2, …, T N表示面板数据中含有N个个体。T表示时间序列的最大长度。 对于样本点来说:
8
Stata中面板数据的表示 company year invest mvalue 1 1951 755.9 4833 1952 891.2
4924.9 1953 1304.4 6241.7 1954 1486.7 5593.6 2 588.2 2289.5 645.5 2159.4 641 2031.3 459.3 2115.5 3 135.2 1819.4 157.3 2079.7 179.5 2371.6 189.6 2759.9
9
短面板和长面板 如果面板数据 T 较小,而n 较大,这种面板数据被称为“短面板”(short panel)。(大n小T)如fatality.dta 反之,如果T 较大,而n 较小,则被称为“长面板”(long panel)。 (大T小n)如Grunfeld.dta
10
静态面板和动态面板 在面板模型中,如果解释变量包含被解释变量的滞后值,则称为“动态面板”(dynamic panel);
反之,则称为“静态面板”(static panel)。我们仅关注静态面板。
11
平衡面板和非平衡面板 如果在面板数据中,每个时期在样本中的个体完全一样,则称为“平衡面板”(balanced panel);
反之,则称为“非平衡面板”(unbalanced panel)。我们主要关注平衡面板。
12
在stata中,首先使用xtset命令指定个体特征和时间特征,然后可以用xtdes命令显示面板数据的结构。
use fatality,clear xtset state year xtdes use nlswork,clear xtset idcode year
13
面板数据的优势 (1)可以解决遗漏变量问题:遗漏变量偏差是一个普遍存在的问题。虽然可以用工具变量法解决,但有效的工具变量常常很难找。遗漏变量常常是由于不可观测的个体差异或“异质性”(heterogeneity)所造成,如果这种个体差异“不随时间而改变”(time invariant),则面板数据提供了解决遗漏变量问题的又一利器。 (2)提供更多个体动态行为的信息:由于面板数据同时有截面与时间两个维度,有时它可以解决单独的截面数据或时间序列数据所不能解决的问题。
14
比如,如何区分规模效应与技术进步对企业生产效率的影响。在截面数据中,由于没有时间维度,故无法观测到技术进步。然而,对于单个企业的时间序列数据来说,我们无法区分其生产效率的提高究竟有多少是由于规模扩大,有多少是由于技术进步。 (3)样本容量较大:由于同时有截面维度与时间维度,通常面板数据的样本容量更大,可以提高估计的精确度。
15
面板数据的建模方法主要有三种: 混合回归模型 固定效应回归模型 随机效应回归模型
16
实例:交通事故死亡人数和酒精税
18
由此我们就能得出增加啤酒税收会导致更多的交通事故死亡人数吗?不一定,这是因为这些回归中可能存在着巨大的遗漏变量偏差。
19
影响死亡率的因素有很多,包括: 1。州内驾驶的汽车质量; 2。高速公路的维修情况是否良好; 3。大部分驾驶的路程是在乡下还是市内; 4。路上的汽车密度; 5。社会文化能否接受酒后驾车等。 这些因素都有可能与酒精税有关。 若相关,则会导致遗漏变量偏差。一种解决这些导致遗漏变量偏差潜在根源的方法是收集这些变量的数据,并把它们加入到上式中。不幸的是,我们很难或不可能度量诸如酒后驾车的文化接受度等变量。
20
解决方法:固定效应OLS回归 具有两个时期的面板数据:“前后”比较 特别注意:Zi不随时间变化
21
第二个式子减第一个式子,得: 结论: 两期的变化(差分)表示的回归消除了随时间不变的不可观测变量Zi的效应。换言之,分析Y和X的变化可以控制随时间不变的变量,于是就消除了这种产生遗漏变量偏差的来源。
23
当数据是在两个不同年份里观测得到的时候,这种“前后”分析很有效。但我们的数据集中包含7个不同年份里的观测值,即当T>2时不能直接应用这种“前后”比较方法。为了分析该面板数据集中的所有观测值,我们使用固定效应回归方法。
24
面板数据模型 对于特定的个体i而言,Zi 表示那些不随时间改变的影响因素,如个人的消费习惯、国家的社会制度、地区的特征、性别等,一般称其为“个体效应” (individual effects)。
26
混合回归模型
27
混合回归直接利用reg命令即可。 需要注意的是,如果个体异质性的截距项不相同,混合回归的结果会是有偏的,甚至可能符号相反。 下面的例子假设n个个体的截距不同。
29
固定效应模型的估计算法 “个休中心化”OLS算法或者组内离差估计法
31
固定效应模型:LSDV法
32
LSDV估计法又称为虚拟变量法。 基本思想:固定效应模型实质上就是在传统的线性回归模型中加入 N-1 个虚拟变量,使得每个截面都有自己的截距项。 由于固定效应模型假设存在着“个体效应”,每个个体都有其单独的截距项。这就相当于在原方程中引入n−1个虚拟变量(如果省略常数项,则引入n个虚拟变量)来代表不同的个体,获得每个个体的截据项。
33
如何理解个体效应、个体截距项的不同以及虚拟变量的引入?
我们用一份模拟的数据来分析: use example,clear xtset company year xtdes 1。 画出散点图和拟合线,并建立OLS回归方程。 2。加入虚拟变量,并重新画出建立OLS回归方程。
34
gen d1=0 gen d2=0 gen d3=0 replace d1=1 if id==1 replace d2=1 if id==2 replace d3=1 if id==3 reg y x d1 d2
35
reg y x
37
固定效应模型的stata实现 组内离差估计法 use fatality,clear xtset state year xtdes
xtline FatalityRate 固定效应模型: xtreg FatalityRate beertax,fe
38
回归结果解读 1。三个R2哪个重要? 2。固定效应为什么有两个F检验? 3。corr(u_i, Xb) 的含义。
4。 sigma_u、sigma_e、rho的含义。
39
1。因为固定效应模型是组内估计量(离差),因此,只有within是一个真正意义上的R2,其他两个是组间相关系数的平方。
首先注意:结果中的u_i不表示残差,而是表示个体效应。 1。因为固定效应模型是组内估计量(离差),因此,只有within是一个真正意义上的R2,其他两个是组间相关系数的平方。 2。右侧的F统计量表示除常数项外其他解释变量的联合显著性。最后一个F检验,原假设所有U_i=0,即不存在个体效应,不必使用固定效应模型。
40
3。corr(u_i, Xb) 个体效应与解释变量的相关系数,相关系数为0或者接近于0,可以使用随机效应模型;相关系数不为0,需要使用固定效应模型。
4。 sigma_u:表示个体效应的标准差 sigma_e:表示干扰项的标准差 rho:rho = sigma_u^2 / (sigma_u^2 + sigma_e^2) 个体效应的波动占整个波动的比例。
41
LSDV法:显示每个个体截距的方法: 方法1 tab state,gen(dum) reg FatalityRate beertax dum*,nocons 方法2 drop dum1 reg FatalityRate beertax dum* 方法3 xi: reg FatalityRate beertax i.state
42
时间固定效应回归 个体固定效应模型解决了不随时间而变(time invariant)但随个体而异的遗漏变量问题。
但还可能存在不随个体而变(individual invariant),但随时间而变(time varying)的遗漏变量问题。 和个体固定效应能控制不随时问变化但个体间不同的变量一样,时间固定效应能控制个体间相同但随时间变化的变量。 比如,企业经营的宏观经济环境。 再比如:由于新车安全性能的提高是发生在全国范围内的。因此它们能够减少所有州的交通死亡事故。故把汽车安全性能视为随时间变化但对所有州都相同的遗漏变量是合理的。
43
加入用St表示的汽车安全性能的效应后,得以下方程:其中St是只随时间改变,不随个体改变的变量,称为时间固定效应。
对于此方程,可使用LSDV法来估计,即对每个时期定义一个虚拟变量,然后把T-1个时间虚拟变量包括在回归方程中(未包括的时间虚拟变量即为基期):
44
双向固定效应 如果方程既考虑了个体固定效应,又考虑了时间固定效应,可以称为“双向固定效应”(Two-way FE)。
此时,可以分别加入个体虚拟变量和时间虚拟变量,并可通过检验这些虚拟变量的联合显著性来判断是否应使用双向固定效应模型。
45
在上述例子中加入时间固定效应。 实际上添加了t-1个时间虚拟变量。主要反映随着时间变化的一些特征。 use fatality,clear tab year,gen(yr) edit drop yr1 reg FatalityRate beertax yr* 几乎所有时间虚拟变量均不显著,说明本例子的时间固定效应不明显。
46
在交通死亡人数中的应用 上述形式中包含了啤洒税,47个州二元变量(州固定效应),6个年二元变量(时间固定效应)和截距项,所以这个模型的解释变量个数多达55个,这将带来大量的自由度的损失。比较参数发现加入时间效应后啤酒税的系数由-0.66变为-0.64,可见加入时间效应对结果影响不大。
47
随机效应模型 对于面板数据而言,除了我们前面讲的混合回归和固定效应模型以外,还存在另外一种模型形式:随机效应模型。
为了区别固定效应模型和随机效应模型,随机效应模型的方程可写为: 模型貌似和固定效应模型一样,但不同的是:在随机效应模型中,ui不再作为个体效应,而是作为随机误差项的一部分。随机误差项分成两部分,一部分是不随时间变化的误差项 ui,另一部分是随时间变化的误差项εit ,即:
48
因此:随机效应模型的最重要的条件是: 这样才能保证OLS是无偏的,在固定效应模型中没有上述要求,这也成为判别到底使用哪种模型的重要标准。
49
关于随机效应模型: 1。随机效应模型将固定效应模型的个体效应归入到随机误差项中,因此更加灵活。 2。固定效应模型通过组内离差的方法消除掉不随时间改变的变量,这一方面保证了模型的无偏性,另一方面模型无法估计不随时间改变的变量之影响,这在随机效应模型中可以实现。 3。回归的结果是随机效应模型的所有的个体具有相同的截距项,个体的差异主要反应在随机干扰项的设定上。
50
4。由于上述特性,随机效应模型比固定效应模型结果更加有效,同时,条件更加苛刻。
随机效应模型必须满足下列条件:其中,个体效应 u与解释变量X和Z 均不相关。 一般在固定效应模型中,它们是相关的。
51
随机效应模型: xtreg FatalityRate beertax ,re 回归结果解读。 与固定效应模型的结果比较。
52
3。固定效应还是随机效应? Hausman检验 基本思想:如果 , Fe 和 Re 都是一致的,但Re更有效。 如果 , Fe 仍然一致,但Re是有偏的。 因此 原假设: 即应该采用随机效应。 备则假设 应该采用固定效应。
53
xtreg FatalityRate beertax ,fe
est store fix1 xtreg FatalityRate beertax ,re est store random1 hausman fix1 random1 hausman fix1 random1,sigmamore 本题拒绝原假设,即应该用固定效应模型。 多数实证研究都采用固定效应模型或双向固定效应模型
54
一个完整的例子 use grunfeld,clear xtset company year xtdes xtline invest
xtline invest,overlay
55
1. 混合回归 直接使用命令: reg invest mvalue kstock,vce(cluster company) 选择项“vce(cluster id)”表示以变量id作为聚类变量来计算聚类稳健的标准误,解决面板数据的组间自相关。
56
2. 固定效应模型(“个休中心化”OLS算法或者组内离差估计法)
xtreg invest mvalue kstock ,fe 3. LSDV估计法(显示每个个体截距) tab company , gen(dum) reg invest mvalue kstock dum*,nocons 或者: drop dum1 reg invest mvalue kstock dum* xi:reg invest mvalue kstock i.company
57
4. 时间固定效应模型 tab year,gen(yr) edit drop yr1 reg invest mvalue kstock yr* 大部分时间虚拟变量显著,说明随着时间的变动,invest有不断变动的趋势。 5. 随机效应模型 xtreg invest mvalue kstock ,re
58
模型选择 6。固定效应模型还是混合回归? wald检验:直接观测F值。 7。随机效应还是混合回归?
B-P检验:先用随机效应回归,然后运行xttest0。 8。固定效应还是随机效应? Hausman检验
59
xtreg invest mvalue kstock ,fe
est store fixed xtreg invest mvalue kstock ,re est store random hausman fixed random 本题接受原假设,即应该用随机效应。
Similar presentations