关于虚拟变量回归模型 教学目的:了解虚拟变量的含义及使用,能够应用软件进行实例模拟。 教学内容: 虚拟变量的基本含义及使用 虚拟变量模型实例分析 选择模型介绍 教学重点:虚拟变量的含义及使用,案例分析。
§6-1 虚拟变量的基本含义及使用 一、虚拟变量的基本含义 二、虚拟变量引入及设置原则
一、虚拟变量的基本含义 许多经济变量是可以定量度量的,如:商品需求量、价格、收入、产量等。 但也有一些影响经济变量的因素无法定量度量,如:职业、性别对收入的影响,战争、自然灾害对GDP的影响,季节对某些产品(如冷饮)销售的影响等等。 为了在模型中能够反映这些因素的影响,并提高模型的精度,需要将它们“量化”。
这种“量化”通常是通过引入“虚拟变量”来完成的。根据这些因素的属性类型,构造只取“0”或“1”的人工变量,通常称为虚拟变量(哑变量,dummy variables),记为D。 例如,反映文化程度的虚拟变量可取为: 1, 本科学历 D= 0, 非本科学历
概念: 同时含有一般解释变量与虚拟变量的模型称为虚拟变量模型或者方差分析(analysis-of variance: ANOVA)模型。 一个以性别为虚拟变量考察企业职工薪金的模型: 其中:Yi为企业职工的薪金,Xi为工龄, Di=1,若是男性,Di=0,若是女性。 协方差分析模型
二、虚拟变量的引入与设置原则 虚拟变量做为解释变量引入模型有两种基本方式:加法方式和乘法方式。 1、加法方式 上述企业职工薪金模型中性别虚拟变量的引入采取了加法方式。 在该模型中,如果仍假定E(i)=0,则 企业女职工的平均薪金为: 企业男职工的平均薪金为:
假定2>0,则两个函数有相同的斜率,但有不同的截距。意即,男女职工平均薪金对教龄的变化率是一样的,但两者的平均薪金水平相差2。 几何意义: 假定2>0,则两个函数有相同的斜率,但有不同的截距。意即,男女职工平均薪金对教龄的变化率是一样的,但两者的平均薪金水平相差2。 可以通过传统的回归检验,对2的统计显著性进行检验,以判断企业男女职工的平均薪金水平是否有显著差异。 2 0
又例:在横截面数据基础上,考虑个人保健支出对个人收入和教育水平的回归。 教育水平考虑三个层次:高中以下, 高中, 大学及其以上 这时需要引入两个虚拟变量: 模型可设定如下:
在E(i)=0 的初始假定下,高中以下、高中、大学及其以上教育水平下个人保健支出的函数: 高中以下: 高中: 大学及其以上: 假定3>2,其几何意义:
还可将多个虚拟变量引入模型中以考察多种“定性”因素的影响。 如在上述职工薪金的例中,再引入代表学历的虚拟变量D2: 本科及以上学历 本科以下学历 职工薪金的回归模型可设计为:
于是,不同性别、不同学历职工的平均薪金分别为: 女职工本科以下学历的平均薪金: 男职工本科以下学历的平均薪金: 女职工本科以上学历的平均薪金: 男职工本科以上学历的平均薪金:
2、乘法方式 加法方式引入虚拟变量,考察:截距的不同, 许多情况下:往往是斜率就有变化,或斜率、截距同时发生变化。 斜率的变化可通过以乘法的方式引入虚拟变量来测度。 例:根据消费理论,消费水平C主要取决于收入水平Y,但在一个较长的时期,人们的消费倾向会发生变化,尤其是在自然灾害、战争等反常年份,消费倾向往往出现变化。这种消费倾向的变化可通过在收入的系数中引入虚拟变量来考察。
这里,虚拟变量D以与X相乘的方式引入了模型中,从而可用来考察消费倾向的变化。 假定E(i)= 0,上述模型所表示的函数可化为: 如,设 消费模型可建立如下: 这里,虚拟变量D以与X相乘的方式引入了模型中,从而可用来考察消费倾向的变化。 假定E(i)= 0,上述模型所表示的函数可化为: 正常年份: 反常年份:
虚拟变量的设置原则 虚拟变量的个数须按以下原则确定: 每一定性变量所需的虚拟变量个数要比该定性变量的类别数少1,即如果有m个定性变量,只在模型中引入m-1个虚拟变量。 例。已知冷饮的销售量Y除受k种定量变量Xk的影响外,还受春、夏、秋、冬四季变化的影响,要考察该四季的影响,只需引入三个虚拟变量即可:
§6-2 虚拟变量模型实例分析 仅包含一个定性变量 包含一个定量变量,一个两分定性变量 包含一个定量变量,一个多分定性变量 §6-2 虚拟变量模型实例分析 仅包含一个定性变量 包含一个定量变量,一个两分定性变量 包含一个定量变量,一个多分定性变量 包含一个定量变量,多个定性变量 包含多个定性变量——季节分析
§6-3 二元选择模型介绍 二元变量模型指因变量取值仅为0或1的情况。 我们可以将其看作是一种选择决策模型,当选择时y=1,未选择时y=0; §6-3 二元选择模型介绍 二元变量模型指因变量取值仅为0或1的情况。 我们可以将其看作是一种选择决策模型,当选择时y=1,未选择时y=0; 我们可以用线性概率模型来研究这种情况,模型可以写作 P(y = 1|x) = b1x1 + … + bKxK j 表示当xj 变化时概率的变化 该方程推断的y 的值表示做出该选择的概率。 面临的问题是,推断的概率值可能在区间[0,1]之外。
二元因变量模型用于评价政策 在评价某项政策计划(或技术应用)产生的影响时,常常可以用虚变量作为模型的因变量,例如: 是否参与某政策计划: 当所分析对象参与该某政策计划时D=1,否则D=0; 是否采纳某种(新)技术 当所分析对象采纳该技术时D=1,否则D=0; 农业劳动力转移 当农户家庭中有劳动力实现转移时D=1,否则D=0。 农户土地流转、借贷行为、政府提价…
回归模型包括: 线性概率模型 PROBIT模型 LOGIT模型 随着软件的不断发展,现在人们已经很少使用线性概率模型。 参考案例分析——WTO谈判国家利益集团的形成
复习与练习 重点概念 实例分析 课后练习题: 10.8 10.11 10.25