第五章 比率估计与回归估计 (ratio estimator and regression estimator)
本章要点 本章讨论了简单随机抽样和分层随机抽样下比率估计量和回归估计量的构造及性质。要求: ①掌握总体比率、比率估计量及回归估计量的概念。 ②了解比率估计量、回归估计量的偏倚、方差及方差的估计量。 ③掌握应用比率估计量及回归估计量的条件。
第一节 问题的提出 在许多实际问题中常常涉及两个调查变量(指标)Y 和X 。对于包含个抽样单元的总体除了对总体信息进行估计外,常常要估计总体比率R。总体比率在形式上总是表现为两个变量总值或均值之比。 在涉及两个变量的抽样调查中,有两种情况需要应用比率估计量。一种情况是利用双变量样本对总体比率进行估计需应用比率估计量,此时两个变量均为调查变量。另一种情况是一个变量为调查变量,另一个变量表现为与调查变量有密切关系的辅助变量,在对调查变量总体总值、总体均值等目标量进行估计时,利用已知的辅助变量信息构造比率估计量可以改进估计的精度。 基于这种考虑利用已知的辅助变量信息构造比率估计量就可使估计精度加以改进。
第二节 比率估计 一、比率估计量 设对有两个调查变量Y 和X 的总体进行简单随机抽样 ,分别以y,x表示样本总值 ,以 表示样本均值,以 第二节 比率估计 一、比率估计量 设对有两个调查变量Y 和X 的总体进行简单随机抽样 ,分别以y,x表示样本总值 ,以 表示样本均值,以 为样本比率 ,用 作为总体比率R的估计称为的比率估计 。 比率估计量除了使用调查变量样本信息外,还要使用辅助变量总体信息与样本信息,而且是非线性估计量。这类估计量称为复杂估计量。由于比率估计量使用信息比简单估计量多,因而有可能比简单估计量有更高的精度。同时由于比率估计量是非线性估计量,因而对其性质研究比对简单估计量要复杂得多。
二、比率估计量的偏倚与均方误差 比率估计量是有偏估计量,但当样本量增大时其偏倚将趋于零 。 理论上可以证明, 分别为 的近似无偏估计量,而且对于比率估计量,其方差主要取决于 与 之间的差异,当 时,估计量方差将很小。换言之,比率估计量将有很高的精度。这告诉我们,只有当两个变量大致成正比例关系时,应用比率估计量才能使估计精度有较大改进。
估计量方差
其中
其中
对于一般的n,比率估计量呈右偏分布,只有当n>30, <0.1, <0.1这些条件同时满足时才能直接用正态分布构造置信区间。R的置信区间为 三、 比率估计量方差的估计与置信区间 对于一般的n,比率估计量呈右偏分布,只有当n>30, <0.1, <0.1这些条件同时满足时才能直接用正态分布构造置信区间。R的置信区间为 [ ] 其中 是标准正态分布的上α/2分位点,0<α<1。类似可得 、Y的置信区间。
例5.2 在某地区抽取由33个住户组成的简单随机样本,对每户调查两个指标: xi——第 i户人口数, 例5.2 在某地区抽取由33个住户组成的简单随机样本,对每户调查两个指标: xi——第 i户人口数, yi——第 i户一天用于食品支出的费用, 经计算得 试估计该地区平均每人一天用于食品的支出,并求其置信水平95%的置信区间。
解
例5.3 某系统有56个企业,去年全系统总产值86436万元。为估计今年总产值,当年年底在所辖全部企业中随机抽取12个企业进行调查得如下资料,其中xi, yi分别为去年和当年产值。 表5.3 12个企业两年产值 企业 1 2 3 4 5 6 7 8 9 10 11 12 xi 764 1642 957 1324 2131 1176 1618 1532 834 1432 1728 1214 yi 853 1835 1028 1512 2286 1354 1826 1721 958 1648 1904 1534 试估计今年总产值,并给出标准差的估计。
解
四、 比率估计量优于简单估计量的条件 定量分析计算表明,并非任何情况下比率估计量都优于简单估计量,只有当调查变量与辅助变量有较高的正相关性时比率估计量才能使估计精度有较大提高。若 CY≈CX,则只需当ρ> 0.5 时比率估计量就比简单估计量精度高。
五、多元比率估计 对于调查变量Y ,若有p个具有正相关性的辅助变量 X1、X2、…、Xp 则可构造多元比率估计。 设 是 的基于第k个辅助变量的比率估计,则 的多元比率估计量为: 其中y、x1、x2、…、xp 是相应变量的样本总值, 是辅助变量总体均值,Wk 是适当选取的权,满足 。 利用拉格朗日乘数法可计算得 此时最小方差为
例5.4 为精确地估计某地区皮棉总产量,在该地区301个村庄中简单随机抽取18个村庄,在调查皮棉产量yi的同时记录了皮棉种植面积x1i和良种比例x2i。该地区皮棉种植总面积为x1=7450公顷,采用良种的平均比例为x2=40.10(%)。对调查数据经过计算得如下结果: y = 13.7967, x1=24.43899, x2=38.4444 sy2=35.4858, sx12=74.6789187, sx22=174.9671 syx1=42.26267, syx2=46.5118, (1—f)/n=0.052232 现利用种植面积和良种比例为辅助变量对皮棉产量进行比率估计。
解 先考虑一元比率估计
再考虑二元比率估计 由此可见,二元比率估计比两个一元比率估计精度都高,这是由于它使用了更多的正相关性辅助信息的缘故。
六、乘积估计 当辅助变量X 与调查变量Y 呈负相关关系时,不能应用比率估计而应改用乘积估计 乘积估计优于简单估计的条件是 ρ<-CX / (2CY) 此时 < 在实际问题中与调查变量呈负相关的变量很少见,因此乘积估计应用极为有限。
第三节 回归估计(regression estimator) 一、定义 在简单随机抽样下,总体均值 和总体总值Y的线性回归估计量(linear regression estimator)定义为: 其中 , 分别为调查变量、辅助变量的样本均值, 是辅助变量的总体均值,β 称为回归系数。
成年标准体重计算公式 公式一 〔身高(cm)-100〕×0.9=标准体重(kg) 公式二 男性:身高(cm)-105=标准体重(kg)
军事科学院还推出一计算中国人理想体重的方法: 北方人理想体重 =(身高cm-150)×0.6+50(kg) 南方人理想体重 =(身高cm-150)×0.6+48(kg)
二、β为设定常数情形 设 β 是设定常数,取β=β0 ,则回归估计量 是 的无偏估计量。 其方差为 当 时, 达最小值:
三、 β取样本回归系数情形 若β需根据样本确定,一个合理的选择是取β为样本 回归系数: 此时 的回归估计量 为一复杂估计量,不再具有无偏性。 此时 的回归估计量 为一复杂估计量,不再具有无偏性。 但当样本量充分大时,可近似地认为是无偏估计。 此时
四、回归估计与比率估计及简单估计的大样本比较 对于大的样本量,总有 这就是说在大样本下回归估计总是优于简单估计,仅在 ρ=0时两者效果相同。 的充分必要条件为 这等价于 因此除非Y 关于X 的总体回归系数B=R,否则回归估计总是优于比率估计,仅在B=R时两者效果相同。
例5. 5 某地区有规模以下工业企业127个,共有固定资产价值6794 例5.5 某地区有规模以下工业企业127个,共有固定资产价值6794.5万元,从中随机抽取20个企业调查工业产值及固定资产价值,资料如表5-4所示。试估计该地区规模以下工业总产值及其标准差。 表5-4 企业固定资产价值及工业产值 固定资产价值 工业产值 35 43 50 40 55 58 38 45 47 42 32.0 40.2 47.5 41.5 51.0 53.4 33.8 42.8 45.6 40.8 70 62 52 63 64 53 54 56 45.5 65.0 56.0 55.0 57.0 54.2 56.5 48.2 49.8 49.2
解 由调查资料直观上可以看出,工业产值与固定资产价值有线性相关关系,故可采用回归估计量对工业产值进行估计。计算得 解 由调查资料直观上可以看出,工业产值与固定资产价值有线性相关关系,故可采用回归估计量对工业产值进行估计。计算得 =53.5 =51.75 =48.25 =1681.75 =1287.19 = =0.83 =1394.85 则 =48.25-(51.75-53.5)=49.70 = =0.304935905 =0.55
若采用简单估计,规模以下工业总产值的估计为 故该地区规模以下工业总产值的回归估计为 =N =127×49.70=6311.9(万元) 其标准差的估计为 =N =127×0.55=69.85(万元) 若采用简单估计,规模以下工业总产值的估计为 =N =127×48.25=6127.75(万元) 其标准差的估计为 =214.55(万元)
若采用比率估计,规模以下工业总产值的估计为 可见回归估计的精度比简单估计和比率估计都高。 = ×6794.5=6334.97(万元) 其标准差的估计为 = =72.78(万元) 可见回归估计的精度比简单估计和比率估计都高。
(一)分别比率估计(separate ratio estimator) 第四节 分层比率估计与分层回归估计 一、分别比率估计与联合比率估计 (一)分别比率估计(separate ratio estimator) 设 、 是第h层的样本均值, 和 分别为第h层调查指标均值 和总值 的比率估计, 和 分别是第h层辅助指标均值和总值,称 为 与 Y 的分别比率估计。
(二)联合比率估计(combined ratio estimator) 利用分层随机样本首先可以给出两个变量总体均值 和 的分层样本估计量 记 则 和 称为 与 的联合比率估计。
方差近似值分别为 其中R为总体比率。
二 分别回归估计与联合回归估计 (一)分别回归估计(separate linear regression estimator) 二 分别回归估计与联合回归估计 (一)分别回归估计(separate linear regression estimator) 在分层随机抽样下,总体均值 和总体总值 的分别回归估计为 = 其中 是第h层调查变量均值 的回归估计。
当各层回归系数βh 取设定值时,它们是无偏估计, = 它在 (h=1,2,…,L) 时达到极小值:
(二)联合回归估计(combined linear regression estimator)
三、各种估计量的比较 对分层随机抽样在有辅助变量可利用时,为提高估计精度可以采用分别比率估计、联合比率估计、分别回归估计、联合回归估计等多种形式的估计量,因此自然存在一个问题,即如何对这些估计量进行比较。 由以上各种估计量的构造可以知道,分别比率估计和分别回归估计必须使用总体各层的辅助变量均值 或总值 Xh 的信息,而联合比率估计和联合回归估计不要求使用总体各层的辅助变量信息,只要求使用总体的辅助变量均值 或总值X的信息,分别估计量比联合估计量对总体信息的使用更详细一些,因此,当各层样本量 nh 都比较大时,分别比率估计精度比联合比率估计高,分别回归估计精度比联合回归估计高。 但是各层样本量 nh 较小时,分别比率估计、分别回归估计将有较大偏倚,从而均方误差比较大。此时如果总样本量比较大,则采用联合比率估计、联合回归估计更好一些。
例5.6 某县有300个村,小麦播种面积为23434亩。全部村子按地势分为平原、丘陵和山区三种类型,各按10%的抽样比抽样,调查亩产量,经整理得到下表结果
相邻两年产量之间存在较高的正相关性,因此对今年平均亩产进行估计时以去年产量为辅助变量构造分层比率估计和分层回归估计是适宜的,此处f1=f2=f3=0.1。 (1) 分别比率估计
(2) 联合比率估计
(3) 分别回归估计
(4) 联合回归估计 以上结果表明不论是比率估计还是回归估计,总有分别估计量优于联合估计量;不论是分别估计量还是联合估计量,总有回归估计优于比率估计。
课堂练习 1.比率估计是一种估计的方法而不是抽样的方式,对吗?为什么?请说明。 2.某地区对本地100家化肥生产企业的尿素产量进行调查,去年的总产量为2135吨,抽取10个企业调查今年的产量,得到平均产量25吨,这些企业去年的平均产量为22吨。试估计今年该地区化肥总产量。