二元因变量回归.

Slides:



Advertisements
Similar presentations
一、 一阶线性微分方程及其解法 二、 一阶线性微分方程的简单应用 三、 小结及作业 §6.2 一阶线性微分方程.
Advertisements

第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
3.4 空间直线的方程.
非线性时间序列模型 一般非线性时间序列模型介绍 条件异方差模型 上海财经大学 统计与管理学院.
第六章 回归分析.
圆的一般方程 (x-a)2 +(y-b)2=r2 x2+y2+Dx+Ey+F=0 Ax2+Bxy+Cy2+Dx+Ey+ F=0.
第五章 二次型. 第五章 二次型 知识点1---二次型及其矩阵表示 二次型的基本概念 1. 线性变换与合同矩阵 2.
一、能线性化的多元非线性回归 二、多元多项式回归(线性化)
§7.2 二元选择模型 Binary Choice Model
被解释变量为二元分类变量的模型 詹鹏.
10.2 立方根.
6.6 单侧置信限 1、问题的引入 2、基本概念 3、典型例题 4、小结.
预测与决策分析 Forecasting and Decision Analysis
第二章 经典单方程计量经济学模型: 一元线性回归模型
一、原函数与不定积分 二、不定积分的几何意义 三、基本积分公式及积分法则 四、牛顿—莱布尼兹公式 五、小结
第5章 定积分及其应用 基本要求 5.1 定积分的概念与性质 5.2 微积分基本公式 5.3 定积分的换元积分法与分部积分法
主要内容 § 3.1 多维随机变量及联合分布 联合分布函里数 联合分布律 联合概率密度 § 3.2 二维随机变量的边缘分布
不确定度的传递与合成 间接测量结果不确定度的评估
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
2-7、函数的微分 教学要求 教学要点.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
计量经济学 第三章 多元线性回归模型.
Applied Regression Analysis
简单回归模型 过原点回归 简单回归模型的定义 普通最小二乘法的推导 OLS的操作技巧 度量单位和函数形式 OLS估计量的期望值和方差
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
引子: 国内生产总值增加会减少财政收入吗?
Chapter 5 Logit與Probit迴歸. Chapter 5 Logit與Probit迴歸.
计量经济学 第三章 多元线性回归模型.
第二章 回归模型 法、参数的普通最小二乘估计式及相关性质、对模型的经济意 义检验和统计检验,能应用Eviews软件进行最小二乘估计与统
一元线性回归模型 § 1 回归分析概述 § 2 一元线性回归模型的参数估计 § 3 一元线性回归模型的统计检验
第2章 一元线性回归 2 .1 一元线性回归模型 2 .2 参数 的估计 2 .3 最小二乘估计的性质 2 .4 回归方程的显著性检验
第2章 一元线性回归分析 §2.1 :回归分析及回归模型 §2.2 :一元线性模型的参数估计 §2.3 :参数估计值的性质及统计推断
本次课讲授:第二章第十一节,第十二节,第三章第一节, 下次课讲第三章第二节,第三节,第四节; 下次上课时交作业P29—P30
计算机数学基础 主讲老师: 邓辉文.
第十章 方差分析.
第七章 离散因变量和受限因变量模型 通常的经济计量模型都假定因变量是连续的,但是在现实的经济决策中经常面临许多选择问题。人们需要在可供选择的有限多个方案中作出选择,与通常被解释变量是连续变量的假设相反,此时因变量只取有限多个离散的值作为被解释变量建立的计量经济模型,称为离散被解释变量数据计量经济学模型(models.
连续型随机变量及其概率密度 一、概率密度的概念与性质 二、常见连续型随机变量的分布 三、小结.
第七章 参数估计 7.3 参数的区间估计.
第一章 函数与极限.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
抽样和抽样分布 基本计算 Sampling & Sampling distribution
模型分类问题 Presented by 刘婷婷 苏琬琳.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
第4章 Excel电子表格制作软件 4.4 函数(一).
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
一 测定气体分子速率分布的实验 实验装置 金属蒸汽 显示屏 狭缝 接抽气泵.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
第4课时 绝对值.
第三章 两变量线性回归.
学习任务三 偏导数 结合一元函数的导数学习二元函数的偏导数是非常有用的. 要求了解二元函数的偏导数的定义, 掌握二元函数偏导数的计算.
第四节 随机变量函数的概率分布 X 是分布已知的随机变量,g ( · ) 是一个已知 的连续函数,如何求随机变量 Y =g(X ) 的分布?
第一部分:概率 产生随机样本:对分布采样 均匀分布 其他分布 伪随机数 很多统计软件包中都有此工具 如在Matlab中:rand
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
导 言 经济学的基本问题 经济学的基本研究方法 需求和供给.
概率论与数理统计B.
第二节 简单线性回归模型的最小二乘估计 用样本去估计总体回归函数,总要使用特定的方法,而任何估 计参数的方法都需要有一定的前提条件——假定条件 一、简单线性回归的基本假定 为什么要作基本假定? ●只有具备一定的假定条件,所作出的估计才具有良好的统计性质。 ●模型中有随机扰动项,估计的参数是随机变量,显然参数估计值的分布与扰动项的分布有关,只有对随机扰动的分布作出假定,才能比较方便地确定所估计参数的分布性质,也才可能进行假设检验和区间估计等统计推断。
难点:连续变量函数分布与二维连续变量分布
回归分析实验课程 (实验三) 多项式回归和定性变量的处理.
多元线性回归分析.
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
Volterra-Lotka方程 1925年, A. Lotka(美)和V. Volterra(意)给出了第一个两物种间的捕食模型。
第十七讲 密码执行(1).
数学模型实验课(二) 最小二乘法与直线拟合.
§2 自由代数 定义19.7:设X是集合,G是一个T-代数,为X到G的函数,若对每个T-代数A和X到A的函数,都存在唯一的G到A的同态映射,使得=,则称G(更严格的说是(G,))是生成集X上的自由T-代数。X中的元素称为生成元。 A变, 变 变, 也变 对给定的 和A,是唯一的.
Presentation transcript:

二元因变量回归

通常的经济计量模型都假定因变量是连续的,但是在现实的经济决策中经常面临许多选择问题。人们需要在可供选择的有限多个方案中作出选择,与通常被解释变量是连续变量的假设相反,此时因变量只取有限多个离散的值作为被解释变量建立的计量经济模型,称为离散选择模型(discrete choice model, DCM)。

二元选择模型 在离散选择模型中,最简单的情形是在两个可供选择的方案中选择其一,此时被解释变量只取两个值,称为二元选择模型(binary choice model)。 例如:在讨论家庭是否购车的问题中,可将家庭购车的决策用数字1 表示,而将家庭不购车的决策用数字0表示。

如果x作为说明某种具体经济问题的自变量,则应用以前介绍虚拟变量知识就足够了。如果现在考虑某个家庭在一定的条件下是否购车问题时,则表示状态的虚拟变量就不再是自变量,而是作为一个被说明对象的因变量出现在经济模型中。因此,需要对以前讨论虚拟变量的分析方法进行扩展,以便使其能够适应分析类似家庭是否购车的问题。

如果解释变量是离散的(比如,虚拟变量),这并不影响回归。但有时被解释变量是离散的,而非连续的。比如,个体的如下选择行为(人生充满了选择): 二值选择(binary choices):考研或不考研;就业或待业;买房或不买房;买保险或不买保险;贷款申请被批准或拒绝;出国或不出国;回国或不回国。

在离散选择模型中,影响是否购车的因素有哪些? 汽车本身所具有的属性,如价格、型号等; 决策者的收入水平 决策者对车的偏好程度等。 如果我们要研究是否买车与收入之间的关系,即研究具有某一收入水平的个体买车的可能性。因此,二元选择模型的目的是研究具有给定特征的个体作某种而不作另一种选择的概率。

为了深刻地理解二元选择模型,首先从最简单的线性概率模型开始讨论。线性概率模型的回归形式为: 其中:N是样本容量;k是解释变量个数;xj为第j个个体特征的取值。例如,x1表示收入;x2表示汽车的价格;x3表示消费者的偏好等。设 yi 表示取值为0和1的离散型随机变量。ui为相互独立且均值为0的随机扰动项。

现在约定备择对象的0和1两项选择模型中,下标i表示各不同的经济主体,取值0或1的因变量表示经济主体的具体选择结果,而影响经济主体进行选择的自变量。如果选择响应Yes的概率为: 经济主体选择响应No的概率为,

根据经典线性回归,我们知道其总体回归方程是条件期望建立的,这使我们可以构造线性概率模型:

一个例子 被解释变量: 房屋抵押贷款申请是否被拒deny。 1:被拒 0:不被拒 解释变量:种族(是否黑人)black 1:被拒 0:不被拒 解释变量:种族(是否黑人)black 还款收入比 P/I ratio

下画出了数据集中2380个观测值中127个deny对P/I ratio的数据散点图。

由这127个观测值估计出的OLS回归线。同前,这条直线画出了用回归变量还款/收入比表示的deny预测值的函数图。 例如,当P/I ratio=0.3时,deny的预测值大约为0.2。可以理解为P/I ratio=0.3时,被拒的概率为0.2,即如果有许多申请者的P/I ratio=0.3 ,则其中有20%的申请会被拒。

二元选择模型的三种主要类型: 线性概率模型(LPM) Probit模型 Logit模型

线性概率模型

被拒概率的计算: 假设某人的P/I ratio为0.3,计算他的被拒概率: 被拒概率= -0.08+0.604*0.3=0.1012=10.12%

上述方程再增加一个是否为黑人的虚拟变量,则方程变为:

线性概率模型的优点 线性概率模型的优点是,计算方便,且容易得到边际效应(即回归系数)。 直接使用reg命令即可。

线性概率模型的缺点 被解释变量常常超出0-1范围。 当P/I ratio 小于 0.132 时 deny<0 处理方式:发现被解释变量大于1,则取1;被解释变量小于0,则取0。

Probit和Logit回归 Probit和Logit回归是特别为二元因变量设计的非线性回归模型。 由于二元因变量Y的回归建立了Y=1的概率模型,因此采用使预测值落在0到1之间的非线性形式才有意义。 由于累积概率分布函数产生的概率位于0到1之间,因此我们把它们应用到Probit和Logit回归中。其中Logit回归也称为logistic回归。

Probit 回归 Probit模型假定误差项的分布形式为标准正态分布:

累积正态概率分布曲线 Probit模型为

Logit 模型 Logit模型假定模型的误差项服从Logistic分布 Logistic分布函数

逻辑分布的密度函数关于原点对称,期望为0,方差为 (大于标准正态的方差),具有厚尾(fat tails)。   在实践中,Probit与Logit都很常用,二者的估计结果(比如边际效应)也通常很接近。   Logit模型的优势在于,逻辑分布的累积分布函数有解析表达式(而标准正态分布没有),故计算Logit更为方便。

边际效应分析 对于Probit模型来说,其边际效应为: 对于Logit模型,其边际效应为: 其中,

从上式可以看到,Probit和Logit模型中解释变量对Yi取值为1的概率的边际影响不是常数,它会随着解释变量取值的变化而变化。因此:回归结果的系数并不能真正表示其边际效应。 deny=-2+3*P/I ratio+u 当P/I ratio=0.4时,如何计算被拒概率?

例2:利用Probit模型计量出结果为: deny=-2+3*P/I ratio+u 当P/I ratio从0.3变到0.4时,被拒概率的变化?

贷款的例子 当P/I ratio从0.3变到0.4时,被拒概率的变化?

1. 求P/I ratio=0.3的白人申请者的被拒的概率 将 P/I ratio=0.3并且 black=0带入,得概率为 7. 5%。 2.求P/I ratio=0.3的黑人申请者的被拒的概率 将 P/I ratio=0.3并且 black=1带入,得概率为23.3%。 二者之间相差15. 8个百分点。

Logit模型与Probit模型累积分布图和计算方法类似,仅累积分布函数形式不同。

假设利用Logit模型回归的方程为 则P/I ratio=0.3的白人的被拒概率为:

边际效应 由于Probit与Logit所使用的分布函数不同,故其参数估计值并不直接可比。 这也是两种模型的最大的缺点:系数通常无法解释,也无法比较。 这就需要分别计算二者的边际效应,然后进行比较。 由表达式可知,对于非线性模型而言,边际效应通常不是常数,它随着解释向量 而变。 

边际效应 (1) 平均边际效应: (average marginal effect),即分别计算在每个样本观测值上的边际效应,然后进行简单算术平均。  (2) 样本均值处的边际效应 (marginal effect at mean),即计算在X均值 处的边际效应。  (3) 在某代表值处的边际效应 (marginal effect at a representative value)。 传统上,常计算平均边际效应。

Logit模型的几率比

Probit和Logit回归算法 1. 非线性最小二乘估计 2. 最大似然估计 关于拟合优度:如何衡量(非线性)二值模型的拟合优度呢? Stata仍然汇报一个“准R2 ”或者称为 “伪R2 ”(Pseudo R2)。

,判断拟合优度的另一方法是计算“正确预测的百分比”(percent correctly predicted)。   如果发生概率的预测值超过0.5 ,则认为其预测 y=1;  反之,则认为其预测 y=0。   将预测值与实际值(样本数据)进行比较,即可计算正确预测的百分比。

一个综合例子 使用美国妇女就业数据集“womenwork.dta”,估计决定就业的Probit与Logit模型。被解释变量为work=1,就业;work=0,不就业。解释变量为age(年龄), married(婚否), children(子女数),education(教育年限)。

reg work age married children education 2.利用线性概率模型回归 use womenwork,clear 1. 利用线性概率模型回归 reg work age married children education 2.利用线性概率模型回归 logit work age married children education 系数完全不同,无法给与解释。

3. 计算平均边际效应,与线性模型比较 margins,dydx(*) 4. 计算正确预测的百分比 estat class 结果中:敏感性(Sensitivity)指真实值取1而预测准确的概率; 特异性(Specificity)是指真实值取0而预测准确的概率。 默认的门限值为0.5。

5. 查看个体预测信息 predict p1,pr list work p1 in 1/100 对比一下结果,判断有正有误 6 5. 查看个体预测信息 predict p1,pr list work p1 in 1/100 对比一下结果,判断有正有误 6. 受试者操控曲线(Receiver operating characteristic,简称为ROC曲线)是指敏感性与(1-特异性)的散点图,即预测值等于1的准确率与错误率的散点图。 lroc

7。goodness-of-fit 拟合优度检验 estat gof 8. 计算logit模型的几率比 logit work age married children education,or

Probit模型的操作类似 probit work age married children education margins,dydx(*) estat class predict p2,pr list work p2 in 1/100 lroc estat gof