Download presentation
Presentation is loading. Please wait.
1
计量经济学 第八章 虚拟变量回归
2
引子:男女大学生消费真有差异吗? 在对在校学生的消费行为进行的调查中,发现在校生的消费行为呈现多元化的结构。人际交往消费、手机类消费、衣着类消费、化妆品类消费、电脑类消费、旅游类消费占有较大的比例;而食品类消费、学习用品类消费不突显。 显然,男女生在消费上存在差异。为了了解男、女生的消费支出结构差异,应当如何建立模型? 面临的问题:如何把男女生这样的非数量变量引 入方程?
3
问题的一般性描述 在实际建模中,一些定性变量具有不可忽视的重要影响。例如,研究某个企业的销售水平,产业属性(制造业、零售业)、所有制(私营、非私营)、地理位置(东、中、西部)、管理者的素质、不同的收入水平等是值得考虑的重要影响因素,但这些因素共同的特征是定性描述的。 如何对非定量因素进行回归分析? 采用“虚拟变量”对定性变量进行量化一种思路。
4
第八章 虚拟变量回归 本章主要讨论: ●虚拟变量及其作用 ●虚拟变量设定 ●虚拟解释变量的回归 ●虚拟被解释变量的回归(选讲,不包括)
5
第一节 虚拟变量及其作用 一、定义 反映品质指标变化、数值只取0和1的人工变量,用符号D来表示。 城镇居民 农村居民 销售旺季 销售淡季
第一节 虚拟变量及其作用 一、定义 反映品质指标变化、数值只取0和1的人工变量,用符号D来表示。 城镇居民 农村居民 销售旺季 销售淡季 如: 政策紧缩 政策宽松 本科以上学历 本科以下学历 变量的划分应遵循穷举与互斥原则。
6
二、作用 ⑴可以描述和测量定性因素的影响。 ⑵能够正确反映经济变量之间的相互关系,提高模型的精度。 ⑶便于处理异常数据。 即将异常数据作为一个特殊的定性因素 异常时期 正常时期
7
第二节 虚拟变量的设定 一、虚拟变量的引入方式 (1)加法方式 Yi=a+bxi+αDi+εi 等价为:
第二节 虚拟变量的设定 一、虚拟变量的引入方式 (1)加法方式 Yi=a+bxi+αDi+εi 等价为: 当Di =0时:Yi=a+bxi+εi 当Di =1时:Yi=(a+α)+bxi+εi D=0 D=1 a a+α α 以加法方式引入,反映定性因素对截距的影响
8
当Di =1时:Yi=a+(b+β)xi+εi
(2)乘法方式 D=0 D=1 a β Yi=a+bxi+βXDi+εi 其中:XDi=Xi*Di, 上式等价于: 当Di =0时:Yi=a+bxi+εi 当Di =1时:Yi=a+(b+β)xi+εi 以乘法方式引入,可反映定性因素对斜率的影响,系数β描述了定性因素的影响程度。
9
【例】现有1998年我国城镇居民人均收入与彩电每百户拥有量的统计资料。
(3)一般方式 同时用加法与乘法方式引入虚拟变量,然后再利用t检验判断α 、β是否显著的不等于零,进而确定虚拟变量的具体引入方式。 【例】现有1998年我国城镇居民人均收入与彩电每百户拥有量的统计资料。
10
观察相关图 从相关图可以看出,前3个样本点与后5个样本点存在较大差异,因此,可设置虚拟变量反映“收入层次”: 中高收入家庭 低收入家庭
11
将我国城镇居民的彩电需求函数设成: Yi=a+bxi+αDi+βXDi+εi DATA D1 (由于D是EViews软件的保留字,所以将虚拟变量取名为D1;另外,此时也可以用SMPL和GENR命令直接生成D1变量) GENR XD=X*D1 生成变量XD LS Y C X D1 XD 估计需求函数 结果如下图所示:
12
结果表明不同收入家庭对彩电的消费需求,在截距和斜率上都存在着明显差异。
对应的t统计量值 R2的值 调整的R2值 SE的值 我国城镇居民彩电需求函数的估计结果为: 结果表明不同收入家庭对彩电的消费需求,在截距和斜率上都存在着明显差异。
13
低收入家庭: 中高收入家庭: 此例说明了三个问题: ①如何设置和在模型中引入虚拟变量; ②如何测量定性因素(即收入层次)的影响; ③如何区分不同类型的模型(即需求函数)。
14
二、虚拟变量的设置原则 ⑴ 一个因素多个类型 对于有m个不同属性的定性因素,应该设置m-1个虚拟变量来反映该因素的影响。 例如,设公司职员的年薪与工龄和学历有关。学历分成三种:大专以下、本科、研究生。为反映“学历” 的影响,应该设置两个虚拟变量: 本科 其他 研究生 其他
15
而将年薪模型取成(假设以加法方式引入):
Yi=a+bxi+α1D1i+α2D2i +εi 其等价于: Yi=a+bxi+εi 大专以下(D1=D2=0) Yi=(a+α1)+ bxi+εi 本科(D1=1,D2=0) Yi=(a+α2)+ bxi+εi 研究生(D1=0,D2=1) 三类年薪函数的差异情况如下图所示:
16
大专以下 本科 研究生 工龄 年薪 α2 -α1 α1 设置虚拟变量D或增设D3行吗? 研究生 其他 D=
17
(2)多个因素各两种类型 如果有m个定性因素,且每个因素各有两个不同的属性类型,则引入 m 个虚拟变量。 例如,研究居民住房消费函数时,考虑到城乡的差异以及不同收入层次的影响,将消费函数取成: yi=a+bxi+α1D1i+α2D2i +εi 其中y ,x分别是居民住房消费支出和可支配收入,虚拟变量设为:
18
这样可以反映各类居民家庭的住房消费情况:
农村居民 城镇居民 高收入家庭 低收入家庭 这样可以反映各类居民家庭的住房消费情况: 城市低收入家庭 (D1=0,D2=0) 城市高收入家庭 (D1=0,D2=1) 农村低收入家庭 (D1=1,D2=0) 农村高收入家庭 (D1=1,D2=1) 思考:若是多因素、多个属性水平的问题,如何设置?
19
第三节 虚拟变量的特殊应用 一、调整季节波动
第三节 虚拟变量的特殊应用 一、调整季节波动 例如,用季度数据分析某公司利润y与销售收入x之间的相互关系时,为研究四个季度的季节性影响,引入三个虚拟变量(设第1季度为基础类型): 第i+1季度 i=1,2,3 其他季度 利润函数可取为 : Yi=a+bxi+ α1D1i+ α2D2i + α3D3i + εi
20
二、检验模型结构的稳定性 设根据两个样本估计的回归模型分别为: 样本1: Yi=a1+b1xi +εi 样本2: Yi=a2+b2xi +εi 样本2 样本1 设置虚拟变量: 估计模型:Yi=a1+b1xi+(a2-a1)Di+(b2-b1)XDi+εi 其中,XDi=xi*Di。
21
第(1)种情况下模型结构是稳定的,其余情况都表明模型结构不稳定。 利用t检验判断D、XD系数的显著性,得到四种检验结果:
重合回归 (1)a2=a1,b2=b1,两个回归模型没有显著差异。 (2)a2≠a1,b2=b1,两个回归模型之间的差异仅仅表现在截距上。 (3)a2=a1,b2≠b1,两个回归模型的截距相同,但斜率存在显著差异。 (4)a2≠a1,b2≠b1,表明两个回归模型完全不同。 平行回归 汇合回归 相异回归
22
Yi= a+bxi+β(xi-x*)Di+εi 其中,x*是已知的临界水平(分段点)。 这样各段的函数为:
使用虚拟变量能如实描述不同阶段的经济关系,又未减少估计模型时样本容量,保证了估计精度。 三、分段回归 x>x* x<x* 设虚拟变量为: 分段回归模型设置成: Yi= a+bxi+β(xi-x*)Di+εi 其中,x*是已知的临界水平(分段点)。 这样各段的函数为: Yi= a +bxi+εi x<x* Yi= (a-β)+(b+β)xi+εi x>x*
23
四、混合回归 能否将变量的时序数据和横截面数据混合建模 【例】现有我国城镇居民1998年、1999年全年人均消费支出和可支配收入的统计资料。试使用混合样本数据估计我国城镇居民消费函数。 设1998年、1999年我国城镇居民消费函数分别为: 1998年:Yi=a1+b1xi +εi 1999年:Yi=a2+b2xi +εi
24
为比较两年的消费函数是否有显著差异,设置虚拟变量:
1999年 1998年 并且合并两年的数据,估计以下模型: Yi= a1 +b1xi+αDi+βXDi +εi 其中α=a2-a1 ,β=b2-b1。
25
SMPL 1 8 样本期调为1998年 使用EViews软件的估计过程如下: CREATE U 16 建立工作文件 DATA Y X
(输入1998、1999年消费支出和收入的数据,1~8期为1998年资料,9~16期为1999年资料) SMPL 样本期调为1998年 GENR D1= 输入虚拟变量的值 SMPL 样本期调为1999年 GENR D1= 输入虚拟变量的值
26
SMPL 1 16 样本期调至1998~1999年 GENR XD=X*D1 生成XD的值
LS Y C X D1 XD 利用混合样本估计模型 估计结果为: 操作演示 t统计量 R2的值 调整的R2值
27
第四节 案例分析 为了考察改革开放以来中国居民的储蓄存款与收 入的关系是否已发生变化,以城乡居民人民币储 蓄存款年底余额代表居民储蓄( ),以国民总收入GNI代表城乡居民收入,分析居民收入对储蓄存款影响的数量关系,并建立相应的计量经济学模型 。
28
表 国民总收入与居民储蓄存款 单位:亿元 年 份 国民总收入 (GNI) 城乡居民人民币储蓄存款年底余额( ) 城乡居民人民币储蓄存款增加额( ) 城乡居民人民币储蓄存款年底余额 ( ) 城乡居民人民币储蓄存款增额 ( ) 1978 3624.1 210.6 NA 1991 9241.6 2121.8 1979 4038.2 281 70.4 1992 2517.8 1980 4517.8 399.5 118.5 1993 3444.1 1981 4860.3 532.7 124.2 1994 46670 6315.3 1982 5301.8 675.4 151.7 1995 8143.5 1983 5957.4 892.5 217.1 1996 8858.5 数据来源:《中国统计年鉴2004》,中国统计出版社。表中“城乡居民人民币储蓄存款年增加额”为年鉴数值,与用年底余额计算的数值有差异。
29
表8.1 国民总收入与居民储蓄存款 (续) 单位:亿元
表 国民总收入与居民储蓄存款 (续) 单位:亿元 年 份 国民总收入 (GNI) 城乡居民人民币储蓄存款年底余额( ) 城乡居民人民币储蓄存款增加额( ) 年 份 城乡居民人民币储蓄存款年底余额 ( ) 城乡居民人民币储蓄存款增加额( ) 1984 7206.7 1214.7 322.2 1997 7759 1985 8989.1 1622.6 407.9 1998 7615.4 1986 2237.6 615 1999 6253 1987 3073.3 835.7 2000 88254 4976.7 1988 3801.5 728.2 2001 9457.6 1989 5146.9 1374.2 2002 1990 7119.8 1923.4 2003
30
为了研究1978—2003年期间城乡居民储蓄存款随收入的变化规律是否有变化,考证城乡居民储蓄存款、国民总收入随时间的变化情况,如下图所示:
31
从上图中,尚无法得到居民的储蓄行为发生明显改变的详尽信息。若取居民储蓄的增量( ),并作时序图(见左下图):
32
从居民储蓄增量图(上页左图)可以看出,城乡居民的储蓄行为表现出了明显的阶段特征:在1996年和2000年有两个明显的转折点。再从城乡居民储蓄存款增量与国民总收入之间关系的散布图看(见上页右图),也呈现出了相同的阶段性特征。
33
其中: 为了分析居民储蓄行为在1996年前后和2000年前后三个阶段的数量关系,引入虚拟变量 和 。
为了分析居民储蓄行为在1996年前后和2000年前后三个阶段的数量关系,引入虚拟变量 和 。 和 的选择,是以1996、2000年两个转折点作为依据,并设定了如下以加法和乘法两种方式同时引入虚拟变量的的模型: 其中:
34
对上式进行回归后,有:
35
即有: 由于各个系数的t检验均大于2,表明各解释变量的 系数显著地不等于0,居民人民币储蓄存款年增加 额的回归模型分别为:
36
这表明三个时期居民储蓄增加额的回归方程在统计意义上确实是不相同的。1996年以前收入每增加1亿元,居民储蓄存款的平均增加0
这表明三个时期居民储蓄增加额的回归方程在统计意义上确实是不相同的。1996年以前收入每增加1亿元,居民储蓄存款的平均增加0.1445亿元;在2000年以后,则为0.4133亿元,已发生了很大变化。
37
上述模型与城乡居民储蓄存款与国民总收入之间
的散布图是吻合的,与当时中国的实际经济运行 状况也是相符的。 需要指出的是,在上述建模过程中,主要是从教 学的目的出发运用虚拟变量法则,没有考虑通货 膨胀因素。而在实证分析中,储蓄函数还应当考 虑通货膨胀因素。
38
第八章 小 结 1.虚拟变量是人工构造的取值为0和1的作为属性变量代表的变量。
第八章 小 结 1.虚拟变量是人工构造的取值为0和1的作为属性变量代表的变量。 2.虚拟变量个数的设置有一定规则:在有截距项的模型中,若定性因素有 个相互排斥的类型,只能引入 个虚拟变量,否则会陷入所谓“虚拟变量陷阱”,产生完全的多重共线性。
39
3.在计量经济模型中,加入虚拟解释变量的途径有两种基本类型:一是加法类型;二是乘法类型。以加法方式引入虚拟变量改变的是模型的截距;以乘法方式引入虚拟变量改变的是模型的斜率。
4.解释变量只有一个分为两种相互排斥类型的定性变量而无定量变量的回归,称为方差分析模型。
40
5.解释变量包含一个分为两种类型定性变量的回归时,只使用了一个虚拟变量;解释变量包含一个两种以上类型的定性变量的回归时,定性变量有 种类型,依据虚拟变量设置规则引入了 个虚拟变量。
6.解释变量包含两个(或 个)定性变量的回归中,可选用了两个(或 个)虚拟变量去表示,这并不会出现“虚拟变量陷阱”。
41
7.以乘法形式引入虚拟解释变量的主要作用在于:对回归模型结构变化的检验;定性因素间交互作用的影响分析;分段线性回归等。
42
第八章 结 束 了! THANKS
Similar presentations