孙坚强 Ph.D. of Finance jqsunmath@gmail.com 计量经济学 Econometrics 孙坚强 Ph.D. of Finance jqsunmath@gmail.com
模型前提假设不成立: 异方差
异方差的定义 异方差的后果 异方差的诊断 异方差的处理 案例分析
9.1 异方差的定义 同方差:扰动项的条件方差相同。 同方差意味着:等同的分散程度。
异方差:扰动项的条件方差各异,不再等于相同的一个常数。 随着收入增级,平均储蓄增加。 平均上来说,高收入家庭有更高的储蓄,但储蓄的变异更大。
产生异方差的背景 以下的理由可能是存在异方差的原因: 1、误差学习(边错边改)模型,学习时间越长,误差越小。 例如:打字错误与打字练习小时的关系
2.解释变量值越高,被解释变量有更多的变异源。 如收入与储蓄的关系,随着收入增长,高收入家庭有更多的储蓄方式可以选择。 高盈利企业的红利政策和利润政策比低盈利企业更灵活更多样化。
3.数据收集、处理技术的改进,减少了扰动项的方差。 如采用更先进的收集方法、登记方法、处理方法等。
4.异方差可能因为数据异常值而产生
5. 模型设定错误所导致 如忽略了某重要的解释变量,扰动项ui代表了没有显式进入模型的影响因素,因此,扰动项的随机方差将因这一被忽略的变量的变化而变化。 特别是被忽略的变量与模型的解释变量有同方向或反方向的变化趋势。
6.异方差可能源于某个或某些回归元的分布偏态(skewness)。 如,收入、财富和教育等经济变量。 处于顶端的少数部分人拥有大部分的收入和财富。
7. 截面数据中总体各单位的差异。 注意:截面数据比时间序列数据更容易产生异方差。 如同时点的数据,家庭、工厂、地区有大、中、小之分,收入有高、中、低之分。 越高的截面水平,变异源可能越多。 如:
9.2 异方差的后果 1、对回归系数的无偏性和一致性不影响 考虑简单回归分析: 暂且不管异方差,OLS估计量为: 估计量的线性、无偏性不受影响。 因为只需用到:
2、估计量不再是有效的,方差不再最小。 暂且不对异方差处理,OLS估计量的方差: 显然与同方差下的方差不同:
加权的最小二乘回归(WLS) WLS是GLS(广义最小二乘回归法)的一种 扰动项的方差si越小,说明Xi对应的Yi更加紧密的围绕均值线,更有利于估计PRF。 直觉上,这类数据更应值得关注,值得赋予更高的重视度(权重) 以简单回归分析,WLS程序如下:
初始模型为: 简单代数处理,等价于 假设各个扰动项方差 已知,设定权重为 对初始方程变换:
改写为: 这个变换的意义在于:
上述变换之后,满足OLS经典模型的假设,即可根据普通的OLS进行估计,得到最优的线性无偏估计(BLUE), 和 WLS是GLS的一种。
WLS估计量为: 最小化:
注意: 当存在异方差,忽略异常而坚持进行常规OLS回归,估计量不再最优,其方差可能被高估或低估,根据该方差所构建的置信区间、t检验、F检验等统计量不再可靠。 所做的统计推断可能存在严重的偏误。
9.3 异方差的诊断 扰动项的方差往往未知 因此,OLS回归的残差 成为异方差诊断的主要代理变量 诊断方法包括:
非正式方法:图解法 Step 1, 忽略异方差,做OLS回归分析 Step 2, 做OLS残差平方关于回归方程(整体解释部分)的散点图 以表11.1,平均工薪关于平均生产力回归为例。在Eviews实现
正式的方法 1、Park 检验 Park提出 是解释变量Xi的某个函数,从而把图解法公式化。 R. E. Park, “Estimation with Heteroscedastic Error Terms,’’ Econometrica, vol. 34, no. 4, October 1966, p. 888. Park提出 是解释变量Xi的某个函数,从而把图解法公式化。
Park建议的函数形式为: 或 是随机扰动项。
因为 通常是未知的,Park建议用 做为替代变量,并做如下回归: 如果b统计上显著,则表明数据存在异方差,如果不显著,则可接受同方差的假设。 以表11.1为例
用OLS取得残差后,用残差的绝对值 关于被认为与 密切相关的X变量做回归。 2. Glejser 检验 H. Glejser, “A New Test for Heteroscedasticity,’’ Journal of the American Statistical Association, vol. 64, 1969, pp. 316–323. 思想类似Park检验 用OLS取得残差后,用残差的绝对值 关于被认为与 密切相关的X变量做回归。
Glejser建议的函数形式为:
Glejser检验,前四个模型对于大样本的异方差,一般能给出满意的结果。 以11.1为例
3. Goldfeld-Quandt 检验 Goldfeld and Quandt, op. cit., Chap. 3. 这一广泛使用的方法,适用于异方差 与回归模型中解释变量之一有正向关系的模型。
以简单回归分析说明: 假设 的正向关系为: 如果上式设定合理,则X值越大, 值越大。
Goldfeld-Quandt 检验步骤:
如果 大于临界值水平,拒绝同方差的假设。 C通常是样本容量的1/4
例子:
P值=0.014
如果包含交叉项,同时还是模型设定偏误的检验。 4. White检验 H. White, “A Heteroscedasticity Consistent Covariance Matrix Estimator and a Direct Test of Heteroscedasticity,’’ Econometrica, vol. 48, 1980, pp. 817–818. 异方差检验的另一广泛使用的方法。 如果不包含交叉项,纯粹异方差的检验, 如果包含交叉项,同时还是模型设定偏误的检验。
White检验步骤: 以如下三变量回归模型为例:
例子:美国18个产业群体的R&D支出,销售额和利润 数据:表格11.5
回归结果: White检验 P值 0.074
9.4 异方差的处理 (一)方差已知,直接进行WLS 权重:
例:
WLS: 对比:
(二)方差未知,判断扰动项方差的函数形式(根据图解法和Glejser),选取合适的权重变换,再WLS分析 例如以下几种形式:
1、误差方差正比于解释变量平方
权重选择:
2、扰动项方差正比于解释变量:
权重选择:
3、扰动项正比于因变量均值平方
权重: 理论变换, 实际变换:
4、对模型进行对数变换 作用:缩小变化尺度,弹性估计 所有上述方法都必须小心使用。可能引起其它模型估计问题。
9.5 案例分析 一、问题的提出 为了给制定医疗机构的规划提供依据,分析比较医疗机构与人口数量的关系,建立卫生医疗机构数与人口数的回归模型。 假定医疗机构数与人口数之间满足线性约束,则理论模型设定为
9.5 案例分析 二、实证模型构建 假定医疗机构数与人口数之间满足线性约束,则理论模型设定为 其中Y表示卫生医疗机构数,X表示人口数。
由2001年《四川统计年鉴》得到如下数据。
三、模型检验 1、OLS回归结果 参数估计值可能不合理 2、异方差检验 (1)图形法 (2)Goldfeld-Quanadt检验 排序,去掉中间5个,计算F值 scalar f=ols2.@SSR/OLS1.@SSR P值:scalar pf=@FDIST(f,8,8)
(3)White检验 P值:scalar nrp=@CHISQ(18.07481,2) 存在异方差
四、异方差修正 采用WLS方法 三种可能的权重: Eveiws 结果显示第二种权重较好。
五、模型分析 可以看出运用加权小二乘法消除了异方差性后,参数的t检验均显著,可决系数大幅提高,F检验也显著,并说明人口数量每增加1万人,平均说来将增加2.953个卫生医疗机构。 虽然这个模型可能还存在某些其他需要进一步解决的问题,但这一估计结果或许比引子中的结论更为接近真实情况。