计量经济学 第五章 异 方 差 性
引子:更为接近真实的结论是什么? 根据四川省2000年21个地市州医疗机构数与人口数资料,分析医疗机构与人口数量的关系,建立卫生医疗机构数与人口数的回归模型。对模型估计的结果如下: SE =(291.5778) (0.644284) t =(-1.931062) (8.340265) 式中Y表示卫生医疗机构数(个),X表示人口数量(万人)。 ,
然而,这里得出的结论可能是不可靠的,平均说来每增加1万人口可能并不需要增加这样多的医疗机构,所得结论并不符合真实情况。 模型显示的结果和问题: ●人口数量对应参数的标准误差较小 ● t 统计量远大于临界值 ●可决系数和修正的可决系数结果较好 ● F检验结果明显显著 表明该模型的估计效果不错,可以认为人口数量每增加1万人,平均说来医疗机构将增加5.3735个。 然而,这里得出的结论可能是不可靠的,平均说来每增加1万人口可能并不需要增加这样多的医疗机构,所得结论并不符合真实情况。 有什么充分的理由说明这一回归结果不可靠呢? 更为接近真实的结论又是什么呢?
基本假定违背:不满足基本假定的情况。主要 包括: (1)随机误差项序列存在异方差性; (2)随机误差项序列存在序列相关性; (3)解释变量之间存在多重共线性; (4)解释变量是随机变量且与随机误差项相关 (随机解释变量); 此外: (5)模型设定有偏误 (6)解释变量的方差不随样本容量的增而收敛 计量经济检验:对模型基本假定的检验 本章学习:第一类
异方差的概念与类型 异方差性的来源与后果 异方差性的检验 异方差的修正 案例
5.1 异方差的概念与类型 异方差性(heteroscedasticity):回归模型误差项的方差不相同 同方差性(homoscedasticity):回归模型误差项的方差相同
什么是异方差? Yi=0+1Xi+ui Yi:第i个人的工作; Xi:第i个人的受教育年限。 例1:截面资料下研究个人工资与受教育年限的关系 Yi=0+1Xi+ui Yi:第i个人的工作; Xi:第i个人的受教育年限。 一般而言,对于不同的受教育年限,工资的波动不存在明显差别,即满足同方差的
什么是异方差性 同方差性 X:受教育年限 Y:工资 概率密度 Y X
Yi:第i个家庭的储蓄额 Xi:第i个家庭的可支配收入 什么是异方差 例2:截面资料下研究居民家庭的储蓄行为 Yi=0+1Xi+ui Yi:第i个家庭的储蓄额 Xi:第i个家庭的可支配收入 高收入家庭:储蓄的差异较大 低收入家庭:储蓄则更有规律性,差异较小 ui的方差呈现单调递增型变化
什么是异方差性 异方差性 X:收入 Y:储蓄 概率密度 Y X
什么是异方差性 例3 学习模型:人们在学习的过程中,其行为误差随时间而减少。 例如,在给定的一段时间里,打字出错个数与用于打字练习的小时数的关系。随着打字练习小时数的增加,不仅平均打错字数,而且打错个数的方差都有所下降。
什么是异方差性 异方差性 X:时间 Y:打字错误 概率密度 Y X
二、异方差的类型 同方差性假定:i2 = 常数 f(Xi) 异方差时: i2 = f(Xi) 异方差一般可归结为三种类型: (1)单调递增型: i2随X的增大而增大 (2)单调递减型: i2随X的增大而减小 (3)复 杂 型: i2与X的变化呈复杂形式
5.2 异方差性的来源与后果 一、结合异方差的来源分析 随机误差项u,包括 1)回归模型中省略的变量(产生异方差的主要原因); 2)人们的随机行为; 3)建立的数学模型的形式不够完善; 4)经济变量之间的合并误差; 5)测量误差(对异方差也有较大影响)
计量经济学模型一旦出现异方差性,如果仍采用OLS估计模型参数,会产生下列不良后果: 二、异方差的后果 计量经济学模型一旦出现异方差性,如果仍采用OLS估计模型参数,会产生下列不良后果: 1、参数估计量仍具有线性无偏性、但非有效 OLS估计量仍然具有线性无偏性,因为在证明线性性、无偏性中没有用到同方差假设;在证明有效性中用到了同方差假设 E(UU’)=2I 因而不具有效性。而且,在大样本情况下,尽管参数估计量具有一致性,但仍然不具有渐近有效性。
2、变量的显著性检验失去意义 变量的显著性检验中,构造了t统计量 其他检验也是如此。
一方面,由于上述后果,使得模型不具有良好的统计性质; 3、模型的预测失效 一方面,由于上述后果,使得模型不具有良好的统计性质; 所以,当模型出现异方差性时,参数OLS估计值的变异程度增大,从而造成对Y的预测误差变大,降低预测精度,预测功能失效。
5.3 异方差性的检验 检验思路: 由于异方差性就是相对于不同的解释变量观测值,随机误差项具有不同的方差。那么: 检验异方差性,也就是检验随机误差项的方差与解释变量观测值之间的相关性及其相关的“形式”。
问题在于用什么来表示随机误差项的方差 一般的处理方法:
几种异方差的检验方法: 1、图示法 (1)用X-Y的散点图进行判断 看是否存在明显的散点扩大、缩小或复杂型趋势(即不在一个固定的带型域中)
看是否形成一斜率为零的直线(带)
2、帕克(Park)检验与戈里瑟(Gleiser)检验 基本思想: 尝试建立方程: 或 选择关于变量X的不同的函数形式,对方程进行估计并进行显著性检验,如果存在某一种函数形式,使得方程显著成立,则说明原模型存在异方差性。
如: 帕克检验常用的函数形式: 或 若在统计上是显著的,表明存在异方差性。 若β在统计上是显著的,表明存在异方差性。
先将样本一分为二,对子样①和子样②分别作回归,然后利用两个子样的残差平方和之比构造统计量进行异方差检验。 3、戈德菲尔德-匡特(Goldfeld-Quandt)检验 G-Q检验以F检验为基础,适用于样本容量较大、异方差递增或递减的情况。 G-Q检验的思想: 先将样本一分为二,对子样①和子样②分别作回归,然后利用两个子样的残差平方和之比构造统计量进行异方差检验。 由于该统计量服从F分布,因此假如存在递增的异方差,则F远大于1;反之就会等于1(同方差)、或小于1(递减方差)。
G-Q检验的步骤: ①将n对样本观察值(Xi,Yi)按观察值Xi的大小排队 ②将序列中间的c=n/4个观察值除去,并将剩下的观察值划分为较小与较大的相同的两个子样本,每个子样样本容量均为(n-c)/2 ③对每个子样分别进行OLS回归,并计算各自的残差平方和
④在同方差性假定下,构造如下满足F分布的统计量 ⑤给定显著性水平,确定临界值F(v1,v2), 若F> F(v1,v2), 则拒绝同方差性假设,表明存在异方差。 当然,还可根据两个残差平方和对应的子样的顺序判断是递增型异方差还是递减异型方差。
3、怀特(White)检验 然后做如下辅助回归 可以证明,在同方差假设下: R2为(*)的可决系数,h为(*)式解释变量的个数, 怀特检验不需要排序,且适合任何形式的异方差 怀特检验的基本思想与步骤(以二元为例): 然后做如下辅助回归 (*) 可以证明,在同方差假设下: R2为(*)的可决系数,h为(*)式解释变量的个数, 表示渐近服从某分布。
当然,在多元回归中,由于辅助回归方程中可能有太多解释变量,从而使自由度减少,有时可去掉交叉项。 注意: 辅助回归仍是检验与解释变量可能的组合的显著性,因此,辅助回归方程中还可引入解释变量的更高次方。 如果存在异方差性,则表明确与解释变量的某种组合有显著的相关性,这时往往显示出有较高的可决系数以及某一参数的t检验值较大。 当然,在多元回归中,由于辅助回归方程中可能有太多解释变量,从而使自由度减少,有时可去掉交叉项。
4、斯皮尔曼(Spearman)等级相关检验 适用于变量不能用具体值的情况 斯皮尔曼等级相关检验的步骤: (1)
5.4 异方差的修正 模型检验出存在异方差性,由于其不良后果,故此需要消除,常用的办法: 一、对模型进行变换 例如,如果对一多元模型,经检验知:
新模型中,存在 此模型满足同方差性,可用OLS法估计。
加权最小二乘法的基本思想: 二、加权最小二乘法 我们自然考虑权重采用方差的倒数即:Wi=1/i2 普通最小二乘法:使残差平方和最小,不同点的残差平方权重相同,这在同方差下合理,因为不同点相对于回归直线的离散程度相同;而在异方差的情况下,方差大的点离散程度大,其在回归直线的位置就不那么准确,故此因不太重视这些点,在残差平方和中对较小的残差平方ei2赋予较大的权数,对较大的残差平方ei2赋予较小的权数,这就是加权最小二乘法 我们自然考虑权重采用方差的倒数即:Wi=1/i2
下面通过例子来说明WLS如何小异方差的影响
三、广义最小二乘法 一般情况下: 对于模型 Y=X+U 存在 即存在异方差性。
W是一对称正定矩阵,存在一可逆矩阵D使得 W=DD’ 用D-1左乘 Y=X+U 两边,得到一个新的模型: 该模型具有同方差性。因为
这就是原模型 Y=X+U 的广义最小二乘估计量,是无偏、有效的估计量(因为只存在异方差,故其也是加权最小二乘估计量)。 这里权矩阵为D-1,它来自于原模型残差项U的方差-协方差矩阵2W 。
从前面的推导过程看,它来自于原模型残差项U的方差-协方差矩阵。因此 如何得到2W ? 从前面的推导过程看,它来自于原模型残差项U的方差-协方差矩阵。因此 仍对原模型进行OLS估计,得到随机误差项的近似估计量 ,以此构成权矩阵的估计量,即 这时可直接以 作为权矩阵。
注意: 在实际操作中人们通常采用如下的经验方法: 不对原模型进行异方差性检验,而是直接选择加权最小二乘法,尤其是采用截面数据作样本时。 如果确实存在异方差,则被有效地消除了; 如果不存在异方差性,则加权最小二乘法等价于普通最小二乘法
5.5 案例分析(课本,结合Eviews) 研究个人储蓄Y与可支配收入X之间的关系 0、准备工作 (1)首先要建立工作文件(Integer date) 命令:create u 1 31 (2) 然后输入数据 命令:data Y X
(3)用OLS估计方程 命令:LS Y C X Dependent Variable: Y Method: Least Squares Date: 11/18/05 Time: 11:11 Sample: 1 31 Included observations: 31 Variable Coefficient Std. Error t-Statistic Prob. C -700.4110 116.6679 -6.003458 0.0000 X 0.087831 0.004827 18.19575 0.0000 R-squared 0.919464 Mean dependent var 1266.452 Adjusted R-squared 0.916686 S.D. dependent var 846.7570 S.E. of regression 244.4088 Akaike info criterion 13.89790 Sum squared resid 1732334. Schwarz criterion 13.99042 Log likelihood -213.4175 F-statistic 331.0852 Durbin-Watson stat 1.089829 Prob(F-statistic) 0.000000
1、方法一:图示法 X和Y的散点图(scat x y) Y
GENR e2=resid^2 Scat X e2
2、spearman等级相关检验 Sort X data X dd1 GENR e1=abs(resid) Sort e1 Data e1 dd2 genr r=1-6*@sum((dd2-dd1)^2)/(31^3-31) genr Z=r*@sqrt(30)
3、 G-Q检验 Sort X Smpl 1 11 Ls y c x(记下第一个残差平方和:150867.9) Smpl 20 31 966997.0) 计算F,查表作出判断
4、White检验 方程窗口 View—〉resdual test —〉white heteroskedasicity(no cross terms ) white heteroskedasicity(cross terms )
5、WLS估计 Smpl 1 31 这里用残差绝对值的倒数作为权重 Genr WW=1/ abs(resid) Ls(W=WW) Y C X
第 五 章 结 束 了! THANKS