第三节 参数估计 参数估计就是用样本统计量来推算总体参数,有点估计和区间估计两种方法。 一、参数估计的理论基础 第三节 参数估计 参数估计就是用样本统计量来推算总体参数,有点估计和区间估计两种方法。 一、参数估计的理论基础 按正态分布理论对参数进行估计。 正态分布的主要特征有: 1.以总体平均数为中心两侧呈对称分布,即样本平均数大于或小于总体平均数的概率完全相等,就是说样本平均数的正离差与负离差出现的可能性完全相等。
2.样本平均数越接近总体平均数,其出现的可能性越大;反之样本平均数越远离总体平均数,其出现的可能性越小。这种可能性数学上称为概率F(t),也就是可靠性。与概率对应的数值称为概率度,即抽样误差扩大的倍数,用字母t表示。概率F(t)与概率度t 的对应函数关系如图4-2所示。
-3t -2t -1t 0 1t 2t 3t 68.27% 95.45% 99.73% F(t) 图4-2 正态分布概率图
图4-2显示样本平均数与总体平均数的平均误差不超过1μ的概率为0. 6827,不超过2μ的概率为0. 9545,不超过3μ的概率为0 图4-2显示样本平均数与总体平均数的平均误差不超过1μ的概率为0.6827,不超过2μ的概率为0.9545,不超过3μ的概率为0.9973。即: 当t =1时,F(t) = 0.6827 当t =2时,F(t) = 0.9545 当t =3时,F(t) = 0.9973 概率度t与概率F(t)的对应关系是:概率F(t)越大,则概率度t值越大,估计的可靠性越高,样本统计量与总体参数之间正负离差的变动范围也越大。对于t每取一个值,概率保证程度F(t)有一个唯一确定的值与之对应。因此人们制定«正态分布概率表»(见书后附页)供大家查找。
二、抽样极限误差 (一)抽样极限误差的概念 用样本统计量估计总体参数会产生抽样误差,两者完全相等的情况几乎是不可能的。抽样极限误差就是指样本统计量和总体参数之间抽样误差的可能范围。由于总体参数是唯一确定的值,而样本统计量是(随机)变量,样本统计量围绕总体参数上下变动,它与总体参数产生正离差称为范围上限,产生负离差称为下限,因此我们将样本统计量变动的上限和下限与总体参数构成的区间范围称为抽样极限误差或允许误差,用“∆”表示。
(二)极限误差的计算 在正态分布下,抽样极限误差是t倍的抽样误差,它们之间的数量关系为: 抽样极限误差 = 概率度×抽样误差; 用字母表示: ∆ = t·μ 这一公式是计算抽样极限误差的基本公式。
(三)平均数的抽样极限误差的计算 1.重复抽样 2.不重复抽样 例,对20000头牛随机抽取1000头调查结果:平均体重 =225千克,标准差Sx = 15千克,概率为0.9545,(查表t =2)求抽样极限误差。
(四)成数抽样极限误差的计算 1.重复抽样 2.不重复抽样 例,对10000件产品随机抽取600件进行检测,发现废品48件,在概率为0.9545(查表t =2)条件下求成数抽样极限误差。
三、总体参数的抽样估计 总体参数的抽样估计有点估计和区间估计两种方式: (一)点估计 点估计也称定值估计,它是直接用样本平均数代替总体平均数或样本成数代替总体成数。用字母表示为: ; p≈P。点估计不认为 ,而是认为 在点估计值 的附近。 1.总体平均数的点估计 例如,对一批电子元件随机抽取100件作使用寿命检验,检验结果见表4-4,要求对该批元件使用寿命做出点估计。
据此,估计该批元件平均使用寿命约为1055.5小时。 使用寿命(小时) 组中值x 元件数(件)f 900以下 875 1 900~950 表4-4 某批电子元件抽样资料 据此,估计该批元件平均使用寿命约为1055.5小时。 使用寿命(小时) 组中值x 元件数(件)f 900以下 875 1 900~950 925 2 950~1000 975 6 1000~1050 1025 35 1050~1100 1075 43 1100~1150 1125 9 1150~1200 1175 3 1200以上 1225 合 计 — 100
2.总体成数点估计 例 仍按上例资料,规定使用寿命为1000小时及以上者为合格品,则该批元件合格率约为:p = 91/100 = 0.91即91%。 3.总体方差的点估计 仍用上例资料估计总体方差约为: 再如,某市随机抽取4000名居民,调查收视晚间新闻节目的观众有1600名,则全市居民晚间新闻节目收视率约为: 1600/4000 = 0.4(即40%) 4.总体总量的直接推算法 用样本平均数乘以单位数可得总体总量。 例如,从1000棵树苗中随机抽取100棵,成活率为96%,则1000棵树苗中约为1000×96% = 960棵成活。
(二)区间估计 1.区间估计的概念 区间估计是在一定概率论保证下用样本统计量和抽样误差估计总体参数可能范围的推断方法。 区间估计在用样本统计量估计总体参数时,用某一个区间范围的数值作为总体参数的估计值,并说明总体参数落在这一区间的可能性(概率)有多大,统计称这一区间为置信区间。置信区间两端点数值称为置信上限和置信下限。总体参数落在置信区间内的概率称为可靠程度。区间估计就是根据样本统计量确定置信区间和可靠程度。
2.区间估计的步骤 (1)抽取样本,计算样本平均数和标准差,计算抽样误差。 (2)根据给定概率查找概率度。 (3)根据概率度和抽样误差,计算极限误差。 (4)根据样本平均数和极限误差确定置信区间的上、下限。
例:某元件厂从10000只中随机抽取100只检测使用寿命规定寿命在950小时以上者为合格品,检测结果见表4-5。 表4-5 100件产品检测数据 在概率0.92(t =1.75)保证程度下估计平均使用寿命和合格品率。 使用寿命 (小时) 组中值x 元件数f 950以下 900 3 2700 -157 73947 950~1050 1000 41 41000 -57 133209 1050~1150 1100 52 57200 43 96148 1150以上 1200 4 4800 143 81796 合 计 — 100 105700 385100
(一)平均数的估计 1.平均寿命 2.标准差 3.不重复抽样误差 4.极限误差 概率度0.92与表中0.9199最接近,可用t =1.75。 5.区间估计 或 即1046.2025~1067.7975小时之间,其概率保证为92%。
(二)成数的估计 1.合格率 2.标准差 3.抽样误差 4.极限误差 5.区间估计 0.97-0.02975≤P ≤0.97+0.02975 即合格率在:94.025%~99.975%之间,概率保证为92%。
四、样本容量的确定 确定样本容量是制定抽样调查方案中的一个非常重要的问题。这是因为样本容量的大小直接影响到抽样估计效果。如果样本容量太小,就会降低样本对总体的代表性,从而降低抽样估计效果;样本过大必然增加人、财、物力的消耗,增加调查成本。 不同的抽样调查组织形式,其样本容量的确定有不同的方法,这里仅以简单随机抽样样本容量的确定为例进行说明。
1.被研究总体标志变异程度。即总体标准差σ,σ越大样本容量越大; σ越小样本容量越小。 (一)影响样本容量的因素 1.被研究总体标志变异程度。即总体标准差σ,σ越大样本容量越大; σ越小样本容量越小。 2.允许误差(极限误差)∆大小。∆值大样本容量小; ∆值小样本容量大。 3.概率度t的大小。t值大,把握程度高,样本容量大; t值小,把握程度低,样本容量小。 4.抽取样本单位方法。重复抽样样本容量大于不重复抽样。 5.抽样组织形式。抽样组织形式不同样本容量也不同。
(二)简单随机抽样样本容量的计算 样本容量n的确定是由抽样极限误差公式变化而来的,分为重复抽样和不重复抽样两种方法。 1.重复抽样样本容量n的确定 (1)平均数的样本容量 由 得 则 例:某县农户经济调查,已知农户人均月收入标准差 为30元,把握程度为0.9545,允许误差 为5元,计算样本容量。 (2)成数样本容量 例:已知产品合格率为0.97,允许误差(∆p)为0.015(查表t=1.96),要求把握程度为0.95,计算样本容量。
则 2.不重复抽样样本容量计算 (1)平均数的样本容量 例,在上例中已知总体为1000户计算不重复抽样样本容量。 若总体为2000户则样本容量为: (2)成数的样本容量 在实际工作中,由于抽样比例 一般很小,不重复抽样一 般也可用重复抽样公式计算样本容量。
本节小结: (一)统计量是由样本计算的,它可用来估计总体参数。 (二)参数估计的重要问题是概率度,它表明估计值对真值有多大的可靠程度。 (三)总体参数的置信区间可以通过以总体均值 (或成数P )为中心的正态曲线面积中读出(查正态概率分布表)。这只能对大样本适用(n =100)。