Download presentation
Presentation is loading. Please wait.
Published byYohanes Gunardi Modified 6年之前
1
第七章 离散因变量和受限因变量模型 通常的经济计量模型都假定因变量是连续的,但是在现实的经济决策中经常面临许多选择问题。人们需要在可供选择的有限多个方案中作出选择,与通常被解释变量是连续变量的假设相反,此时因变量只取有限多个离散的值作为被解释变量建立的计量经济模型,称为离散被解释变量数据计量经济学模型(models with discrete dependent variables),或者称为离散选择模型(discrete choice model, DCM)。在实际中,还会经常遇到因变量受到某种限制的情况,这种情况下,取得的样本数据来自总体的一个子集,可能不能完全反映总体。这时需要建立的经济计量模型称为受限因变量模型(limited dependent variable model)。
2
§ 二元选择模型 在离散选择模型中,最简单的情形是在两个可供选择的方案中选择其一,此时被解释变量只取两个值,称为二元选择模型(binary choice model)。在实际生活中,我们经常遇到二元选择问题。例如,在买车与不买车的选择中,买车记为1,不买记为0。是否买车与两类因素有关系:一类是车本身所具有的属性,如价格、型号等;另一类是决策者所具有的属性如收入水平、对车的偏好程度等。如果我们要研究是否买车与收入之间的关系,即研究具有某一收入水平的个体买车的可能性。因此,二元选择模型的目的是研究具有给定特征的个体作某种而不作另一种选择的概率。
3
7.1.1 线性概率模型及二元选择模型的形式 为了深刻地理解二元选择模型,首先从最简单的线性概率模型开始讨论。线性概率模型的回归形式为:
线性概率模型及二元选择模型的形式 为了深刻地理解二元选择模型,首先从最简单的线性概率模型开始讨论。线性概率模型的回归形式为: (7.1.1) 其中:N是样本容量;k是解释变量个数;xj为第j个个体特征的取值。例如,x1表示收入;x2表示汽车的价格;x3表示消费者的偏好等。设 yi 表示取值为0和1的离散型随机变量: 式(7.1.1)中ui为相互独立且均值为0的随机扰动项。
4
令pi = P ( yi =1) ,那么 1 - pi = P ( yi =0) ,于是
(7.1.2) 又因为E(ui ) = 0 ,所以 E(yi ) = xi,xi =(x1i , x2i ,…, xki ), =(1 , 2 ,…, k ),从而有下面的等式: (7.1.3)
5
式(7.1.3)只有当xi 的取值在(0,1)之间时才成立,否则就会产生矛盾,而在实际应用时很可能超出这个范围。因此,线性概率模型常常写成下面的形式:
(7.1.4) 此时就可以把因变量看成是一个概率。 那么扰动项的方差为: (7.1.5) 或 (7.1.6)
6
由此可以看出,误差项具有异方差性。异方差性使得参数估计不再是有效的,修正异方差的一个方法就是使用加权最小二乘估计。但是加权最小二乘法无法保证预测值ŷ在(0,1)之内,这是线性概率模型一个严重的弱点。由于上述问题,我们考虑对线性概率模型进行一些变换,由此得到下面要讨论的模型。 假设有一个未被观察到的潜在变量yi*,它与xi之间具有线性关系,即 (7.1.7) 其中: ui*是扰动项。yi和yi*的关系如下: (7.1.8)
7
yi*大于临界值0时,yi =1;小于等于0时,yi =0。这里把临界值选为0,但事实上只要xi包含有常数项,临界值的选择就是无关的,所以不妨设为0。这样
(7.1.9) 其中:F是ui*的分布函数,要求它是一个连续函数,并且是单调递增的。因此,原始的回归模型可以看成如下的一个回归模型: (7.1.10) 即yi关于它的条件均值的一个回归。
8
分布函数的类型决定了二元选择模型的类型,根据分布函 数F的不同,二元选择模型可以有不同的类型,常用的二元选择 模型如表7.1所示:
表7.1 常用的二元选择模型 ui*对应的分布 分布函数F 相应的二元选择模型 标准正态分布 Probit 模型 逻辑分布 Logit 模型 极值分布 Extreme模型
9
7.1.2 二元选择模型的估计问题 二元选择模型一般采用极大似然估计。似然函数为 (7.1.11) 即 (7.1.12) 对数似然函数为
二元选择模型的估计问题 二元选择模型一般采用极大似然估计。似然函数为 (7.1.11) 即 (7.1.12) 对数似然函数为 (7.1.13)
10
对数似然函数的一阶条件为 (7.1.14) 其中:fi 表示概率密度函数。那么如果已知分布函数和密度函数的表达式及样本值,求解该方程组,就可以得到参数的极大似然估计量。例如,将上述3种分布函数和密度函数代入式(7.1.14)就可以得到3种模型的参数极大似然估计。但是式(7.1.14) 通常是非线性的,需用迭代法进行求解。 二元选择模型中估计的系数不能被解释成对因变量的边际影响,只能从符号上判断。如果为正,表明解释变量越大,因变量取1的概率越大;反之,如果系数为负,表明相应的概率将越小。
11
例7.1 二元选择模型实例 考虑Greene 给出的斯佩克特和马泽欧(1980)的例子,在例子中分析了某种教学方法对成绩的有效性。因变量(GRADE)代表在接受新教学方法后成绩是否改善,如果改善为1,未改善为0。解释变量(PSI)代表是否接受新教学方法,如果接受为1,不接受为0。还有对新教学方法量度的其他解释变量:平均分数(GPA)和测验得分(TUCE),来分析新的教学方法的效果。
12
(1)模型的估计 从Equation Specification对话框中,选择Binary估计方法。在Equation Specification区域中,键入二元因变量的及一列回归项。由于二元变量估计只支持列表形式的设定,所以不能输入公式。然后,从Binary estimation method 的Probit,Logit,Extreme value三种估计方法中选择一种。
13
例7.1的估计输出结果如下:
14
在回归结果中还提供几种似然函数: ① log likelihood是对数似然函数的最大值L(b),b是未知参数 的估计值。 ② Avg. log likelihood 是用观察值的个数N去除以对数似然函数L(b) ,即对数似然函数的平均值。 ③ Restr. Log likelihood是除了常数以外所有系数被限制为0时的极大似然函数L(b) 。 ④ LR统计量检验除了常数以外所有系数都是0的假设,这类似于线性回归模型中的统计量,测试模型整体的显著性。圆括号中的数字表示自由度,它是该测试下约束变量的个数。
15
⑤ Probability(LR stat)是LR检验统计量的P值。在零假设下,LR检验统计量近似服从于自由度等于检验下约束变量的个数的2分布。
⑥ McFadden R-squared是计算似然比率指标,正像它的名字所表示的,它同线性回归模型中的R2是类似的。它具有总是介于0和1之间的性质。
16
利用式(7.1.10),分布函数采用标准正态分布,即Probit模型,例7.1计算结果为
(7.1.15) z = (-2.93) (2.34) (0.62) (2.39) 利用式(7.1.15)的Probit模型的系数,本例按如下公式给出新教学法对学习成绩影响的概率, 当PSI = 0时: (7.1.19) 当PSI = 1时: (7.1.20) 式中测验得分TUCE取均值(21.938),平均分数GPA是按从小到大重新排序后的序列。
17
图7.1 新教学法对学习成绩影响的概率
18
(2) 估计选项 因为我们是用迭代法求极大似然函数的最大值,所以Option选项可以从估计选项中设定估计算法与迭代限制。单击Options按钮,打开对话框如图7.3所示。 图7.3 Options对话框
19
(3)预测 从方程工具栏选择Procs/Forecast(Fitted Probability /Index),然后单击想要预测的对象。既可以计算拟合概率, ,也可以计算指标 的拟合值。 像其他方法一样,可以选择预测样本,显示预测图。如果解释变量向量xt包括二元因变量yt的滞后值,选择Dynamic选项预测,EViews使用拟合值 得到预测值;而选择Static选项,将使用实际的(滞后的)yt-1得到预测值。 对于这种估计方法,无论预测评价还是预测标准误差通常都无法自动计算。后者能够通过使用View/ Covariance
20
通过Procs/Make Reidual Series选项产生下面三种残差类型中的一种类型。
(4)产生残差序列 通过Procs/Make Reidual Series选项产生下面三种残差类型中的一种类型。 表7.6 残差类型 普通残差(Ordinary) 标准化残差(Standardized) 广义残差(Generalized)
21
当因变量不止是两种选择时,就要用到多元选择模型(multiple choice model)。多元离散选择问题普遍存在于经济生活中。例如:
§ 排序选择模型 当因变量不止是两种选择时,就要用到多元选择模型(multiple choice model)。多元离散选择问题普遍存在于经济生活中。例如: (1) 一个人面临多种职业选择,将可供选择的职业排队,用0,1,2,3表示。影响选择的因素有不同职业的收入、发展前景和个人偏好等; (2) 同一种商品,不同的消费者对其偏好不同。例如,十分喜欢、一般喜欢、无所谓、一般厌恶和十分厌恶,分别用0,1,2,3,4表示。而影响消费者偏好的因素有商品的价格、性能、收入及对商品的需求程度等; (3) 一个人选择上班时所采用的方式——自己开车,乘出租车,乘公共汽车,还是骑自行车。
22
与二元选择模型类似,设有一个潜在变量 yi*,是不可观测的,可观测的是 yi ,设 yi 有0,1,2,…,M等M+1个取值。
(7.2.1) 其中:ui*是独立同分布的随机变量,yi 可以通过 yi*按下式得到 (7.2.2)
23
设ui*的分布函数为F(x),可以得到如下的概率
(7.2.3) 和二元选择模型一样,根据分布函数F(x)的不同可以有3种常见的模型:Probit模型、Logit模型和Extreme value模型。仍然采用极大似然方法估计参数,需要指出的是,M个临界值c1, c2, …, cM 事先也是不确定的,所以也作为参数和回归系数一起估计。
24
例7.2 排序模型的实例 在调查执政者的支持率的民意测验中,由于执政者执行了对某一收入阶层有利的政策而使得不同收入的人对其支持不同,所以收入成为决定人们是否支持的因素。通过调查取得了市民收入(INC)与支持与否(Y)的数据,其中如果选民支持则Yi取0,中立取1,不支持取2。我们选取24个样本进行排序选择模型分析。
25
1. 模型的估计 从主菜单中选择Objects/New Object/Equation选项,估计方法选择ORDERED,标准估计对话框将如图7.4所示。在Equation Specification区域,键入排序因变量的名字,其后列出回归项。排序估计也只支持列表形式的设定,不用输入一个明确的方程。然后选择Normal,Logist,Extreme Value三种误差分布中的一种即可。
26
例7.2估计结果如下:
27
2. 常用的两个过程 ① Make Ordered Limit Vector产生一个临界值向量c,此向量被命名为LIMITS01,如果该名称已被使用,则命名为LIMITS02,以此类推。 ② Make Ordered Limit Covariance Matrix产生临界值向量c的估计值的协方差矩阵。命名为VLIMITS01,如果该名称已被使用,则命名为VLIMITS02,以此类推。
28
3. 预测 因为排序选择模型的因变量代表种类或等级数据,所以不能从估计排序模型中直接预测。选择Procs/ Make Model,打开一个包含方程系统的没有标题的模型窗口,单击模型窗口方程栏的Solve按钮。例7.2因变量 y 的拟合线性指标 序列被命名为i_Y_0,拟和值落在第一类中的拟合概率被命名为Y_0_0的序列,落在第二类中的拟合概率命名为Y_1_0的序列中,落在第三类中的拟合概率命名为Y_2_0的序列中,等等。注意对每一个观察值,落在每个种类中的拟合概率相加值为1。
29
4.产生残差序列 选择Proc/Make Residual Series产生广义残差序列,输入一个名字或用默认的名字,然后单击OK按钮。一个排序模型的广义残差由下式给出: (7.5.2) 其中:c0 = - ,cM+1 = 。
30
§7.3 受限因变量模型 现实的经济生活中,有时会遇到这样的问题,因变量是连续的,但是受到某种限制,也就是说所得到的因变量的观测值来源于总体的一个受限制的子集,并不能完全反映总体的实际特征,那么通过这样的样本观测值来推断总体的特征就需要建立受限因变量模型(limited dependent variable models)。本节研究两类受限因变量模型,即审查回归模型(censored regression models)和截断回归模型(truncated regression models)。
31
其中: 是比例系数;y*是潜在变量。被观察的数据 y 与潜在变量 y* 的关系如下:
审查回归模型 1.模型的形式 考虑下面的潜在因变量回归模型 (7.3.1) 其中: 是比例系数;y*是潜在变量。被观察的数据 y 与潜在变量 y* 的关系如下: (7.3.2)
32
换句话说,yi. 的所有负值被定义为0值。我们称这些数据在0处进行了左截取(审查)(left censored)。而不是把观测不到的 yi
换句话说,yi*的所有负值被定义为0值。我们称这些数据在0处进行了左截取(审查)(left censored)。而不是把观测不到的 yi* 的所有负值简单地从样本中除掉。此模型称为规范的审查回归模型,也称为Tobit模型。 更一般地,可以在任意有限点的左边和右边截取(审查),即 (7.3.3) 其中: , 代表截取(审查)点,是常数值。如果没有左截 取(审查)点,可以设为 。如果没有右截取(审查)点, 可以设为 。规范的Tobit模型是具有 和 的 一个特例。
33
与前边介绍的几个模型类似,可以采用极大似然法估计审查回归模型的参数,对数似然函数为
2.审查回归模型的极大似然估计 与前边介绍的几个模型类似,可以采用极大似然法估计审查回归模型的参数,对数似然函数为 (7.3.4) 求式(7.3.4)的最大值即可得参数 , 的估计。这里f , F分别是u的密度函数和分布函数。
34
特别地,对于Tobit模型,设u~N(0,1),这时对数似然函数为
(7.3.5) 式(7.3.5)是由两部分组成的。第一部分对应没有限制的观测值,与经典回归的表达式是相同的;第二部分对应于受限制的观测值。因此,此似然函数是离散分布与连续分布的混合。将似然函数最大化就可以得到参数的极大似然估计。
35
例7.3 审查模型的实例 本例研究已婚妇女工作时间问题,共有50个调查数据,来自于美国国势调查局[U.S.Bureau of the Census(Current Population Survey, 1993)],其中y 表示已婚妇女工作时间, x1~ x4分别表示已婚妇女的未成年子女个数、年龄、受教育的年限和丈夫的收入。只要已婚妇女没有提供工作时间,就将工作时间作零对待,符合审查回归模型的特点。
36
其中:yi 只有在 时才能取得样本观测值, ,为两个常数。
截断回归模型 截断问题,形象地说就是掐头或者去尾。即在很多实际问题中,不能从全部个体中抽取因变量的样本观测值,而只能从大于或小于某个数的范围内抽取样本的观测值,此时需要建立截断因变量模型。例如,在研究与收入有关的问题时,收入作为被解释变量。从理论上讲,收入应该是从零到正无穷,但实际中由于各种客观条件的限制,只能获得处在某个范围内的样本观测值。这就是一个截断问题。截断回归模型的形式如下: (7.3.7) 其中:yi 只有在 时才能取得样本观测值, ,为两个常数。 对于截断回归模型,仍然可以采用极大似然法估计模型的参数,只不过此时极大似然估计的密度函数是条件密度。
37
Specification区域,输入被审 查的因变量的名字及一系列 回归项。审查回归模型的估 计只支持列表形式的设定。
估计审查回归模型 1.模型的估计 打开Equation对话框,从Equation Specification对话框所列估计方法中选择CENSORED估计方法。在Equation Specification区域,输入被审 查的因变量的名字及一系列 回归项。审查回归模型的估 计只支持列表形式的设定。
38
例如,在规范的Tobit模型中,数据在0值左边审查,在0值右边不被审查。这种情况可以被指定为: 左编辑区: 0 右编辑区: [blank]
(1)临界点对所有个体都已知 按照要求在编辑栏的左编辑区(Left)和右编辑区(Right)输入临界点表达式。注意如果在编辑区域留下空白,EViews将假定该种类型的观测值没有被审查。 例如,在规范的Tobit模型中,数据在0值左边审查,在0值右边不被审查。这种情况可以被指定为: 左编辑区: 0 右编辑区: [blank] 而一般的左边和右边审查由下式给出: 左编辑区: 右编辑区: EViews也允许更一般的设定,这时审查点已知,但在观察值之间有所不同。简单地在适当的编辑区域输入包含审查点的序列名字。
39
(2)临界点通过潜在变量产生并且只对被审查的观测值个体已知
在一些情况下,假设临界点对于一些个体( 和 不是对所有的观察值都是可观察到的)是未知的,此时可以通过设置0-1虚拟变量(审查指示变量)来审查数据。EViews提供了另外一种数据审查的方法来适应这种形式。简单地,在估计对话框中选择Field is zero/one indicator of censoring选项,然后在合适的编辑区域输入审查指示变量的序列名。对应于审查指示变量值为1的观察值要进行审查处理,而值为0的观察值不进行审查。
40
例7.3的估计结果如下:
41
2.模型的预测与产生残差 EViews提供了预测因变量期望 E (y | x, , ) 的选项,或预测潜在变量期望 E (y*| x, , ) 的选项。从工具栏选择Forecast打开预测对话框。为了预测因变量的期望,应该选择Expected dependent variable,并输入一个序列名称用于保存输出结果。为了预测潜在变量的期望,单击Index-Expected latent variable,并输入一个序列的名称用于保存输出结果。潜在变量的期望 E (y*| x, , ) 可以从如下关系中得到: (7.5.3) 通过选择Procs/Make Residual Series,并从残差的3种类型中进行一种,可以产生审查模型的残差序列。审查模型的残差也有3种类型,与前述类似。
42
3. 估计截断回归模型 估计一个截断回归模型和估计一个审查模型遵循同样的步骤,从主菜单中选择Quick/Estimate Equation,并在Equation Specification 对话框中,选择CENSORED估计方法。出现估计审查和截断回归模型对话框。在Equation Specification区域键入截断因变量的名称和回归项的列表,并从三种分布中选择一种作为误差项的分布。选择Truncated sample选项估计截断模型。
43
§7.4 计数模型 在实际应用中,我们应该根据要研究的变量的数据类型选择合适的模型。当因变量 y 表示事件发生的数目,是离散的整数,即为计数变量,并且数值较小,取零的个数多,而解释变量多为定性变量时,应该考虑应用计数模型(count models)。例如,一个公司提出申请的专利的数目,以及在一个固定的时间间隔内的失业人员的数目。在计数模型中应用较广泛的为泊松模型。
44
设每个观测值 yi 都来自一个服从参数为m(xi ,) 的泊松分布的总体,
泊松模型的形式与参数估计 设每个观测值 yi 都来自一个服从参数为m(xi ,) 的泊松分布的总体, (7.4.1) 对于泊松模型(poisson model),给定 xi 时 yi 的条件密度是泊松分布: (7.4.2) 由泊松分布的特点, (7.4.3) 参数 的极大似然估计量(MLE)通过最大化如下的对数似然函数来得到: (7.4.4)
45
其中:2 是和参数 一起估计的参数。当数据过度分散时,经常使用负二项式分布,这样条件方差大于条件均值,由于下面的矩条件成立:
负二项式模型的形式与参数估计 对泊松模型的常用替代是使用一个负二项式(negative binomial)分布的似然函数极大化来估计模型的参数。负二项式分布的对数似然函数如下: (7.4.5) 其中:2 是和参数 一起估计的参数。当数据过度分散时,经常使用负二项式分布,这样条件方差大于条件均值,由于下面的矩条件成立: (7.4.6) (7.4.7) 因此, 2 测量了条件方差超过条件均值的程度。
46
7.4.3 准-极大似然估计 如果因变量的分布不能被假定为泊松分布,那么就要在其他分布假定之下执行准-极大似然估计(quasi-maximum likelihood, QML)。即使分布被错误假定,这些准-极大似然估计量也能产生一个条件均值被正确设定的参数的一致估计,即对于这些QML模型,对一致性的要求是条件均值被正确设定。 关于QML估计的进一步的细节参见Gourieroux,Monfort,和Trognon(1984a,1984b)。Wooldridge(1990)介绍了在估计计数模型参数时QML方法的使用。也可参见关于广义线性模型(McCullagh和Nelder,1989)的扩展的相关文献。
47
如果条件均值被正确设定,泊松极大似然估计也是 服从其他分布类型的数据的准-极大似然估计。它将产生 参数 的一致估计量。
1. 泊松准-极大似然估计 如果条件均值被正确设定,泊松极大似然估计也是 服从其他分布类型的数据的准-极大似然估计。它将产生 参数 的一致估计量。
48
和其他QML估计量一样,倘若 m(xi ,) 被正确指定,即使 y 的条件分布不是指数分布,指数分布的准-极大似然估计仍是一致的。
2. 指数准-极大似然估计 指数分布的对数似然函数如下: (7.4.8) 和其他QML估计量一样,倘若 m(xi ,) 被正确指定,即使 y 的条件分布不是指数分布,指数分布的准-极大似然估计仍是一致的。
49
对于固定的 2和正确设定的m(xi ,),即使分布不是正态的,正态分布的对数极大似然函数仍提供了一致的估计。
3. 正态准-极大似然估计 正态分布的似然函数如下: (7.4.9) 对于固定的 2和正确设定的m(xi ,),即使分布不是正态的,正态分布的对数极大似然函数仍提供了一致的估计。
50
4. 负二项式准-极大似然估计 最大化式(7.3.12)所表示的负二项式分布的对数似然函数,对于固定的2,可以得到参数 的准-极大似然估计。倘若m(xi ,)被正确指定,即使 y 的条件分布不服从负二项式分布,这个准-极大似然估计量仍是一致的。
51
例7.4 计数模型的实例 本例研究轮船发生事故的次数与轮船的特征属性、运行时间之间的关系。因变量 y 表示平均每月轮船发生事故数。解释变量是轮船特征属性,包括轮船类型、建造时间、使用时期等。轮船类型有5种,分别用x1~x5表示,4个建造时间,分别用y1~y4表示, z1 , z2表示两个使用时期,da表示运行时间。 本例数据符合计数模型的条件,故采用泊松模型建模。注意到定性数据较多,为防止多重共线性,在引进虚拟变量时,需要人为地去掉一个。例如,轮船类型有5种x1~x5,则去掉x1,而在模型中只用其余4个变量x2~x5,同样4个建造时间y1~y4,在模型中只用其余3个变量y2~y4,两个使用时期在模型中只用z2。模型如下: (7.4.10)
52
估计计数模型 1. 模型的估计 估计一个计数模型,打开Equation对话框,然后在估计方法中选择COUNT作为估计方法。EViews显示计数模型估计对话框(图7.6)。
53
在上面的编辑区域,列出被解释变量和解释变量。必须通过列表形式指定计数模型。模型的形式如方程(7.5.4)所示:
(7.5.4) 在Options标签中,可以根据需要改变缺省估计的运算法则、收敛准则、初始值和计算系数协方差的方法。
54
例7.4的估计结果如下:
55
写成方程如下: z =(-6.41) (-1.29) (-2.26) (-0.46) (1.13) (4.31) (4.28) (1.5) (3.13) (8.87) 轮船类型对事故发生有影响,如类型是x5的系数是正的,会使事故发生的可能增加;建造时间y2~y4的系数基本是递减的,表明建造时间越长,则发生事故的可能越大;使用时期z2也对事故发生产生很大影响,使用时间越长,则发生事故的可能越大;运行时间ln (da) 的系数是0.9,表明运行时间每增加1%,则发生事故数量会增加0.9%,因此对发生事故有显著的影响。
56
2. 模型的预测与产生残差 选择Forecast可以预测因变量 ŷ 和线性指标(xb),b是参数 的估计值,二者的关系为 ŷ = exp(xb)。选择Proc\Make Residual Series,可以产生计数模型的3种类型残差,残差类型参照表7.6。
Similar presentations