Presentation is loading. Please wait.

Presentation is loading. Please wait.

被解释变量为二元分类变量的模型 詹鹏.

Similar presentations


Presentation on theme: "被解释变量为二元分类变量的模型 詹鹏."— Presentation transcript:

1 被解释变量为二元分类变量的模型 詹鹏

2 问题概述 模型介绍:Probit模型和Logit模型 结果解释 STATA操作

3 含虚拟变量的Probit/Logit模型
问题概述 不同类型的数据 与 常用模型 被解释变量 分类变量 连续变量 解释变量 列联表,卡方检验; 含虚拟变量的Probit/Logit模型 含虚拟变量的线性回归模型 Probit/Logit模型 线性回归模型

4 问题概述 被解释变量为0-1二元变量,或多分类变量 例如,“酸儿辣女”成立吗? 再如:家庭特征对高考报考地区的选择?
被解释变量:生男孩or女孩; 解释变量:怀孕期间是否吃了较多酸性食品;怀孕期间是否吃了较多较辣食品。 控制变量:其他可能影响生育的控制变量 再如:家庭特征对高考报考地区的选择? 被解释变量:国外高校、国内大城市、国内一般城市、本地高校 解释变量:家庭特征因素 控制变量:学习成绩、考入地高校情况等

5 问题概述 被解释变量为0-1二元变量,或多分类变量 常见模型形式 线性概率模型 Probit模型 Logit模型

6 模型介绍 被解释变量为0-1二元变量,或多分类变量 线性概率模型 直接把因变量看做概率,最大值为1,最小值为0
用OLS方法估算(与经典回归模型相同) 弊端:被解释变量的拟合值会出现超出[0,1]界限的情况 适用情况:仅仅考虑解释变量对被解释变量平均概率的影响;而且,被解释变量的概率值远离0或1;等等 (相当于,估算不同解释变量取值对被解释变量某水平平均比例的整体影响)

7 模型介绍 被解释变量为0-1二元变量,或多分类变量 Probit模型
直接把因变量的发生概率的逆正态概率作为被解释变量,并认为模型残差服从正态分布 Pr y=1 =Φ 𝛽 0 + 𝛽 1 𝑥 1 + 𝛽 2 𝑥 2 +𝜇 μ~N(0, 𝜎 2 )

8 模型介绍 被解释变量为0-1二元变量,或多分类变量 Logit模型
Pr y=1 =Λ 𝛽 0 + 𝛽 1 𝑥 1 + 𝛽 2 𝑥 2 +𝜇 μ~N(0, 𝜎 2 ) 其中,Λ 𝑍 = exp⁡(𝑍) 1+exp⁡(𝑍)

9 结果解释 Logit模型和Probit模型系数估计值的含义: 并不是边际效应 在解释变量取不同值时,特定解释变量的边际效应不同

10 结果解释 Logit模型和Probit模型系数估计值的含义: 并不是边际效应 因而在解释变量取不同值时,特定解释变量的边际效应不同
Pr y=1 =Φ 𝛽 0 + 𝛽 1 𝑥 1 + 𝛽 2 𝑥 2 +𝜇 Φ −1 Pr y=1 = 𝛽 0 + 𝛽 1 𝑥 1 + 𝛽 2 𝑥 2 +𝜇 𝛽 1 = 𝜕 Φ −1 Pr y=1 𝜕 𝑥 1 ≠ 𝜕Pr y=1 𝜕 𝑥 1 实际上, 𝜕Pr y=1 𝜕 𝑥 1 =𝑔( 𝛽 0 + 𝛽 1 𝑥 1 + 𝛽 2 𝑥 2 ) 𝛽 1 其中, 𝑔( 𝛽 0 + 𝛽 1 𝑥 1 + 𝛽 2 𝑥 2 ) 取决于 𝑥 1 和 𝑥 2 的取值。 因而在解释变量取不同值时,特定解释变量的边际效应不同

11 结果解释 Logit模型和Probit模型系数估计值的含义: 并不是边际效应 因而在解释变量取不同值时,特定解释变量的边际效应不同
a. 特定值边际效应(Marginal effect at representative value, MER) 根据研究目的,可以设定x的特定值(视特殊情况而定) b. 均值边际效应(Marginal effect at the mean, MEM) 对所有自变量都取均值(最常用) c. 平均边际效应(Average marginal effect, AME) 计算所有个体的g的均值(不常用)

12 结果解释 统计检验 系数估计值的检验:一般用“Z检验”取代“T检验”。差别在于统计量的表达式和分布不同,判断方式相似。
模型的检验:由于被解释变量不再是连续型变量,不能计算可决系数 𝑅 2 。 麦克法登(1974)提出了一个伪 𝑅 2 ( Pseudo 𝑅 2 ),基于极大似然值进行判断。(具体参考伍德里奇(2009)第554页,或麦克法登(1974)) 实际上,一般不重视Probit/Logit模型的可决系数,较多地关注它的预测效果。

13 STATA操作 模型估计 边际效应 预测 特定值的边际效应(MER) mfx,at(0 30 9 4 2 0 20 1 2)
probit depvar [indepvars] [if] [in] [weight] [, probit_options] logit depvar [indepvars] [if] [in] [weight] [, options] 边际效应 特定值的边际效应(MER) mfx,at( ) 均值边际效应(MEM) mfx 平均边际效应(AME) margeff 预测 predict yprob, pr

14 案例 “什么因素影响农村居民外出打工决策” “农村居民外出务工与教育收益率数据.dta”中提供了是否外出打工以及其他个体和家庭特征变量。
被解释变量就是“外出打工”(whjob),其值定义为:如果外出打工,则等于1;否则等于0。 显然,这是一个二值变量,就可以应用probit或logit模型来进行分析。

15 案例 “什么因素影响农村居民外出打工决策” 解释变量的选择:

16 案例 “什么因素影响农村居民外出打工决策” 变量名 定义 Male 男性(=1) whpri 是否有私营生产(=1) Age 年龄
discoun 距县城的距离(公里) Edu 受教育年数 whroad 村是否有公路(是=1) Persons 家庭人口数 nchilds 孩子数量 Land 家庭人均耕地面积

17 案例 描述性统计 sum male age edu persons land whpri discoun whroad nchilds

18 案例 模型估计 probit whjob male age edu persons land whpri discoun whroad nchilds

19 案例 边际效应 (仅跟模型估计的命令) mfx,at( ) // 在特定值的边际效应

20 案例 边际效应 (仅跟模型估计的命令) mfx // 所有解释变量取平均值时的边际效应

21 案例 边际效应 (仅跟模型估计的命令) margeff //平均边际效应(AME)

22 案例——期刊文章 [1]. 聂冲与贾生华, 离散选择模型的基本原理及其发展演进评介. 数量经济技术经济研究, 2005(11): 第 页. [2]. 盛来运, 中国农村劳动力外出的影响因素分析. 中国农村观察, 2007(03): 第 页. [3]. 吴卫星与齐天翔, 流动性、生命周期与投资组合相异性——中国投资者行为调查实证分析. 经济研究, 2007(02): 第97-110页. [4]. 屈耀辉与傅元略, 优序融资理论的中国上市公司数据验证——兼对股权融资偏好再检验. 财经研究, 2007(02): 第 页. [5]. 卢向虎, 吕新业与秦富, 农户参加农民专业合作组织意愿的实证分析——基于7省24市(县)农户的调研数据. 农业经济问题, 2008(01): 第26-31页.

23 练习 主题:生女儿幸福还是生儿子幸福? 数据:幸福感——1,幸福;0,其他。 其他指标:不限。 要求:按照研究计划的一般规范进行撰写,包括:
研究背景 研究内容(提出问题;分点列出) 问题分析:研究思路、解释变量的选择及其处理,等 研究方法(模型) 预期结果及其相应的解释


Download ppt "被解释变量为二元分类变量的模型 詹鹏."

Similar presentations


Ads by Google