§8.2.3 区间估计 区间估计的具体做法是,构造两个统计量 及 且 ,用区间 来估计未知参数 的可能取值范围,要求 落在区间 的概率尽可能的大。通常,我们事先给定一个很小的数 按概率 估计总体参数 可能落入区间 的概率。 称为置信度或置信水平, 称为检验水平(估计不成功的概率),区间 称为置信度为 的置信区间。
一、正态总体数学期望的区间估计 1.标准差 已知时,均值 的区间估计 对于正态分布总体(对其他分布的总体,当容量 1.标准差 已知时,均值 的区间估计 对于正态分布总体(对其他分布的总体,当容量 30时,可近似看成正态分布)如果已知总体标准差为 ,样本均值为 ,则在置信度 下总体均值 的置信区间为 (8.16) 其中: 为样本容量, 为标准正态分布的双侧 分位点,即
在置信区间中, 为点估计值。置信区间实际上是以 为中心,以 为半径的区间。我们将 称为边际误差。
案例8. 3 CJW公司是一家专营体育设备和器材的邮购公司. 为了跟踪服务质量,CJW每个月选取100位顾客的邮购订单组成简单随机样本 案例8.3 CJW公司是一家专营体育设备和器材的邮购公司.为了跟踪服务质量,CJW每个月选取100位顾客的邮购订单组成简单随机样本.每位顾客对公司的服务水平在0(最差等级)到100(最好等级)间打分,然后计算样本平均值. 根据以往的资料显示,每个月顾客满意得分的平均值都在变动,但满意得分的样本标准差趋于稳定的数值20附近.所以我们假定总体标准差为20.又最近一次顾客对CJW满意程度的平均值为82.试求置信度为95%的总体均值的置信区间。
解: 样本容量大于30,近似按正态分布处理。总体方差 ,样本均值 。置信度为 ,则 。通过查正态分布表得 ,代入公式(10.1)得置信度为95%时,顾客满意度的边际误差为 ,所以置信区间为 即 。即有95%的把握认为顾客的满意分数落在区间 内。
案例8.4 在一批包装商品中,抽取100个小包装袋,已知样本的质量平均数是21克,总体标准差为6克,在置信度为95%的要求下,计算置信区间。 解: 计算平均误差: 置信区间的上限是: 置信区间的下限是: 即这批小包装的质量平均在22.18至19.82之间,可信度为95 %。
2.标准差 未知时,均值 的区间估计 对于正态分布总体(对其它分布的总体,当样本容量 30时,可近似看成正态分布)如果已知样 本均值为 ,但总体标准差 为未知,则总体均值 在置信度 下的置信区间为 (8.17) 其中, 为自由度为 的 分布的双 侧 分位点, 为样本容量, 为样本标准差即 。
(8.17)式说明,总体标准差 为未知时,总体均值的置信区间为以 为中心,以 为边际误差的区间。
案例8. 5 斯切尔公司对培训企业维修工的计算机辅助程序感兴趣 案例8.5 斯切尔公司对培训企业维修工的计算机辅助程序感兴趣.为了了解这种计算机辅助程序能缩短多少培训时间,需要评估这种程序在95%置信水平下培训时间平均值的置信区间。已知培训时间总体是正态分布,管理者对15名维修工进行了测试,所得培训时间如表8-2所示,试估计95%置信水平下总体均值的置信区间。 返回案例8.10 表8-2 15名维修工的培训天数 维修工编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 培训天数 52 44 55 45 59 50 54 62 46 58 60 63
已知总体是正态分布,但总体方差 未知,应用(8.17)式进行计算,首先计算样本均值和样本方差. 解: 已知总体是正态分布,但总体方差 未知,应用(8.17)式进行计算,首先计算样本均值和样本方差. 置信水平为95%,则 ,自由度为 , 查表得 所以边际误差 :
因而由(8.17)式在应用辅助程序后该公司培训维修工时间在95%置信度下的置信区间为 即:
案例8.6 表8-3列出了选取36名投保人组成的简单随机样本的年龄数据。在90%置信水平下,求总体年龄均值的置信区间。 表8-3 投保人样本的年龄
解: 总体分布未知,但样本量为 ,大于30。近似看成正态分布处理。由于总体的方差未知,所以应用(8.17)式来求总体的置信区间 从表8-3中通过计算可得,样本均值为39.5岁,这是总体均值的点估计。 另可算得样本标准差 : 在置信度为90%时:
所以在90%的置信度下,总体年龄均值的置信区间为, 即:
案例8.7 《纽约时报1988年年鉴》公布了各行业每人每周的平均工作收入。在服务行业,假如由36名服务业人士组成的样本的个人周收入均值为369美元,样本标准差为50美元。计算服务业人士周收入总体均值的95%置信区间。 解: 总体分布未知,样本容量 ,可近似为正态分布抽样。由于总体方差未知,应用(8.17)式处理。 置信度为95%, , 自由度
所以服务业人士总体均值的95%置信区间为 即(352.0825,385.9175).
二、正态总体方差的区间估计 对于未知方差的正态分布总体,因统计量 所以对给定的置信度 ,由 分布有 成立,即有 成立。
故 的 置信区间为 而均方差 的 置信区间为
案例8.8 计算案例8.7中服务业人士总体标准差的95%置信区间。 解: 由案例8.7已知样本容量 ,样本标准差 ,置信度 ,查表得 将以上数据代入(8.19)式得总体标准差的95%置信区间为(44.5542,65.2225).
三、总体比率的区间估计(大样本) 引例8.3在案例8.5中,我们对斯切尔公司职工培训时间的均值进行了区间估计。为了从多角度评估该项目,需进一步对培训质量进行评估,对45人的样本进行了测试, 结果有36人通过了考核。本次测试的通过率为80%。但再进行测试时,通过率可能就不一定正好是80%,可能是其它的数据。那么总体通过测试的比率该在什么范围内呢? 我们可以通过样本比率 在一定置信度下确定总体比率 的置信区间。
可以证明,样本比率 是总体比率 的无偏估计,并且在大样本(样本容量>=30)的情形下 的分布近似服从正态分布。在置信水平 下,用样本比率 估计总体比率 产生的边际误差为: 所以总体比率的置信区间为 其中 为标准正态分布的双侧 分位点。
案例8.9 接着讨论引例8.3中斯切尔公司的培训质量,已知45培训维修工中有36人通过了考试。在95%的置信水平下求总体培训合格比率的置信区间。 解: 由于样本容量 ,近似将抽样分布看成正态分布,样本比率 . 置信水平为0.95,所以 , 由(8.20)式,总体培训合格率的置信区间为 ,即(0.68,0.92)
四、正态总体在对均值的区间估计中所需的样本容量 在对方差已知的正态分布总体均值进行区间估计时,边际误差为 两个未知变量 和样本容量 共同确定了边际误差。一旦确定了置信水平 ,也就确定了 。此时影响边际误差的唯一因素就是样本容量 。如果对边际误差水平(用 表示)有约定,则需要的样本容量 也就唯一确定了。 和样本容量 共同确定了边际误差。一旦确定了置信水平 ,也就确定了 。此时影响边际误差的唯一因素就是样本容量 。如果对边际误差水平(用 表示)有约定,则需要的样本容量 也就唯一确定了。
样本容量 的公式推导如下: 令 代表希望的边际误差 解出样本容量 的表达式 在给定的置信水平下,该样本容量满足所希望的边际误差。
案例8.10在案例8.5所述斯切尔公司的培训安排中,计划总体标准差为 。如果希望的边际误差为2天,置信度为95%,样本容量应该为多大? 解: 由题意知 : 则 。查表得 , 代入(8.21)式有: 所以,应该抽取至少45个样本。
注意:公式(8.21)要求总体标准差 是已知的。当 未知时。通常用样本标准差 代替总体标准差。 案例8.11在《华尔街日报》的纽约股票交易所(New York Stock Exchange)版面上,给出了每支股票52周以来每股最高价、最低价、分红率、价格/ 收益(P/E)比率、日成交量、日最高价、日最低价、收盘价等信息。每支股票的P/E比率由公司最近四个季度公布的每股收益除价格得到。在一次大样本的抽查中,样本方差(the Wall Street Joural, 1998.3.19)。假定我们要求对纽约股票交易列示的所有股票P/E比率的总体均值进行估计,要求95%置信度下的边际误差,则样本容量应包含多少支股票?
解: 由于是大样本抽样,可将总体视为正态分布。总体标准差未知,用样本标准差代替,即 。置信度 则 ,通过查表得 ,代入(8.21)式有: 所以按要求,样本容量应包含26支股票。
五、正态总体在对总体比率的区间估计中所需的样本容量 现在考虑在给定边际误差时,应选用的多大的样本容量来估计总体比率。前面已知用样本比率 估计总体比率估计的边际误差 解得 (8.22) 其中, 是事先给定的边际误差。 为标准正态分布的双侧 分位点。
案例8.12 仍回到斯切尔公司的案例8.5中去,我们要对培训项目测验的总体比率进行估计。在测试中的45名维修工中有36名通过了测试,如果斯切尔公司的生产主管在95%置信水平和边际误差为0.10的条件下对总体比率进行区间估计。那么你建议抽取多少样本?
对总体比率评估的样本量的确定应用(8.22)式, 已知样本比率为 ,希望的边际误差为 ,置信度为95%,查表得 解: 由(8.22)式,样本容量: 样本量为整数,所以应取62个样本.
随堂练习 在95%置信度下未知总体方差时总体均值的置信区间为: 解: 1、某厂生产一种零件所需工时服从正态分布,现加工一批零件16个,平均用时为2.5小时,它们的标准差为0.12小时.计算在95%置信度下,总体均值的置信区间为多少;总体标准差的置信区间为多少? 在95%置信度下未知总体方差时总体均值的置信区间为: 解:
总体标准差 的置信区间为:
2、设某地居民每户每月粮食平均需要量又服从正态分布,随机抽取10户,需要量(单位:公斤)为: 45,38,50.47,44,33,42,40,39,40, 已知该地有1500户居民.为保证至少有95%的把握能满足居民的需求,粮店每月最少应进多少粮食? 解: 设 则: 总体均值 的置信度0.95的置信区间为:
为保证至少有95%的把握能满足居民的需求,粮店每月最少应进45.3 1500=67950公斤.
3、某厂生产一批金届材料,其抗弯强度服从正态分布.今从这 批金属材料中随机抽取11个试件,测得它们的抗弯强度为(单位:公斤): 42.5, 42.7, 43.0, 42.3, 43.4, 44.5,44.0, 43.8, 44.1, 43.9, 43.7、 求:(1)平均抗弯强度 的置信度0.95的置信区间; (2)抗弯强度标准差 的置信度0.90的置信区间 解: (1)经计算 查表得: 平均抗弯强度 的置信度0.95的置信区间为:
(2) 正态分布总体的标准差的置信度 的置信区间为: