第5章 统计推断 内容 目标 抽样分布 参数估计 假设检验 掌握几个常用统计量的抽样分布、估计量的优良性 掌握参数的点估计、区间估计 掌握单个正态总体参数的假设检验 了解两个正态总体、总体比率的假设检验 熟练运用Minitab进行区间估计、假设检验
5.1 抽样分布 1.样本均值 的分布 统计量的分布称为抽样分布。常用来评价估计量的好坏,在求参数的置信区间和统计推断中具有重要的作用。 5.1 抽样分布 统计量的分布称为抽样分布。常用来评价估计量的好坏,在求参数的置信区间和统计推断中具有重要的作用。 1.样本均值 的分布 定理 设 是来自某个总体 的一个样本。 (1)若总体 为正态分布 ,则样本均值 的分布也为正态分布 (2)若总体 分布未知,只要其均值 与方差 存在,则在样本量 较大时,样本均值近似服从正态分布,即
将样本均值 标准化,则有 统计量及其分布 设标准正态分布的分布函数为 定义 满足 的数 叫做标准正态分布的上侧 临界值。 满足 将样本均值 标准化,则有 统计量及其分布 设标准正态分布的分布函数为 定义 满足 的数 叫做标准正态分布的上侧 临界值。 满足 的数 叫做标准正态分布的双侧 临界值。
临界值示意图 常用标准正态分布临界值
例5.1 太平上称量重量为 的物品,每次称量结果独立同服从正态分布 ,若以 表示 次称量的均值,为使 例5.1 太平上称量重量为 的物品,每次称量结果独立同服从正态分布 ,若以 表示 次称量的均值,为使 成立,试问最少称量几次? 解 因为 ,所以 ,则 即有 ,查表得, ,于是 解得 ,最少称16次。
2. 分布 定义 设随机变量 相互独立,且都服从标准正态分布 ,则称 服从自由度为 的 分布,记为 2. 分布 定义 设随机变量 相互独立,且都服从标准正态分布 ,则称 服从自由度为 的 分布,记为 为自由度,表示上式右端所包含的独立变量的个数。 定理 设总体 , 为取自 的一个样本, 与 为该样本的均值与方差,则有
分布的密度曲线图 分布是不对称的偏态分布,只在第一象限取值,当 时, 分布的极限分布为正态分布。
3. 分布 定义 设随机变量 ,随机变量 , 且 与 相互独立,则称 服从自由度为 的 分布,记为 3. 分布 定义 设随机变量 ,随机变量 , 且 与 相互独立,则称 服从自由度为 的 分布,记为 定理 设总体 , 为取自 的一个样本, 与 为该样本的均值与方差,则有
分布的密度曲线图
4. 分布 定义 设随机变量 , 且 与 相互独立,则称随机变量 服从自由度为 的 分布,记为 定理 设 与 是两个相互独立的正态 4. 分布 定义 设随机变量 , 且 与 相互独立,则称随机变量 服从自由度为 的 分布,记为 定理 设 与 是两个相互独立的正态 总体,又设 和 分别是来自两个总体的 相互独立样本, 分别是它们的样本方差,则
分布的密度曲线图
5.2 参数估计 1.参数的点估计 参数的点估计就是要构造样本统计量 去估计 ,称 为 的点估计量。 5.2 参数估计 参数估计是统计推断的基本问题,包括点估计和区间估计两种类型 1.参数的点估计 参数的点估计就是要构造样本统计量 去估计 ,称 为 的点估计量。 同一个估计量,当样本取不同值时,其估计值往往不同,在不引起混淆的情况下,估计量和估计值统称为估计。 参数点估计的方法主要有矩估计法、最大似然估计法和最小二乘法等。 矩是统计学中以均值为基础定义的数字特征。常见的均值就是一阶原点矩,方差是二阶中心矩。
例5.2 从同一批次的阿司匹林片中随机抽取10片,测定其溶解50%所需时间 ,结果如下(单位:分钟) 例5.2 从同一批次的阿司匹林片中随机抽取10片,测定其溶解50%所需时间 ,结果如下(单位:分钟) 5.3 3.6 5.1 6.6 4.9 6.5 5.2 3.7 5.4 5.0 试求该批次阿司匹林片溶解50%所需时间 的均值和方差估计值。 解 由10片阿司匹林片溶解50%所求时间数据 得 故该批次阿司匹林片 的均值 的矩估计值是5.13,方差 的矩估计值是0.956。
2.估计量的评价 估计量 与真值 的差别如何评价? 无偏性和有效性 无偏性——设 是未知参数 的估计量,如果 则称 是 的无偏估计量。 估计量 与真值 的差别如何评价? 无偏性和有效性 无偏性——设 是未知参数 的估计量,如果 则称 是 的无偏估计量。 有效性——设 和 都是参数 的无偏估计量,若 则称 比 有效。
3.参数的区间估计 如何估计参数所在的范围以及这个范围包含参数的可靠程度呢? 参数的区间估计——就是用区间形式估计出未知参数θ所在范围,以及该区间参数θ真值的概率,同时解决参数估计的精度和可靠度问题。 定义 设 是总体 的一个未知参数,如果对于给定的 ,能找到两个值 和 ,使得 则称区间 为 的置信度为 的置信区间。 点 分别称为置信下限、置信上限, 称为显著性水平。
4.单个正态总体参数 的区间估计 标准正态分布参数的置信区间 参数 统计量 置信区间 已知 条件 未知
例5.3 某车间用一台包装机包装葡萄糖,设包装机包装的糖重服从方差为 正态分布。现从某天生产的葡萄糖中随机抽取9袋,测得糖重(单位:kg)为 0.497 0.508 0.518 .524 0.494 0.511 0.513 0.519 0.515 试求葡萄糖重均值 的点估计值和95%的置信区间。 解 由于葡萄糖重 ,则所求均值 的点估计值为 对于 ,则有 ,查表得 则所求均值95%的置信区间为 所以包装机包装葡萄糖重的均值 的95%置信区间为
利用Minitab求总体均值的置信区间 演示例5.3 例5.4 某商店为了解居民对某种商品的需要 (单位:kg),调查了100户家庭,设每户需要量服从方差为9的正态分布,由100户算出样本均值是10,试求居民对该产品需求均值 的99%置信区间。 例5.5 设对某制药企业15名质量管理人员进行统计软件的培训,所用培训时间如下(单位:天): 52 44 55 44 45 59 50 54 62 46 54 58 60 62 63 若培训每个员工所需培训时间服从正态分布,求该分布均值 的点估计和95%置信区间。 例5.6 对某地144名健康男子血清胆固醇进行测定,所得数据的样本均值为 ,样本标准差为 ,试求该地区健康男子血清胆固醇的95%置信区间。
利用Minitab求总体方差 的置信区间 例5.7 某剂型药物正常的生产过程中,含碳量服从正态分布。今从某日生产的产品中任意抽取5件,测得含碳量为 1.32 1.55 1.36 1.40 1.44 试求药物含碳量方差 的置信度为95%的置信区间。 利用Minitab求两个总体总体均值差 的置信区间 例5.8 设有甲、乙两种零件可以彼此代用,但甲零件比乙零件制造简单且造价低。经过试验获得抗压强度数据(单位:kg/cm2)为 甲 88 87 82 90 91 乙 89 89 90 84 88 已知甲、乙两种零件的抗压强度分别服从正态分布,且方差不等。为考虑性价比,求甲乙零件抗压强度差 的估计。( )
例5.9 对某矿矽肺为0期的50名工人和10名肺癌病人进行X光拍片,并从X光片上测量其值 ( 为肺门横径的右侧距离,单位:cm)。结果矽肺为0期的工人的 均值为4.32,标准差为0.56;肺癌病人的 均值为6.21,标准差为1.79。经推断知矽肺为0期的工人与肺癌病人的 方差不等,试估计两个群体 的均值之差。( ) 利用Minitab求总体率 的置信区间 总体率是指具有某种特征的个体占总体中全部个体的比率。 用样本率作为总体率的点估计,区间估计分为单比率的估计和双比率差的估计 例5.10 从湖中随机抓出400条鱼,在其身上做下记号,放入湖中。24小时后从湖中随机捕捉300条,其中20条有记号,问估计湖中有多少条鱼?( ) 例5.11 为了检验广告效果,在某地先调查123人,愿意购买的某商品的有23人;连续广告3个月后(使全体居民知道广告),调查110人,愿意购买某商品的有25人。试估计广告效果。( )
5.3 假设检验 1.假设检验问题 假设检验是利用从样本中所获得的信息对总体进行统计推断。 5.3 假设检验 假设检验是利用从样本中所获得的信息对总体进行统计推断。 1.假设检验问题 假设检验是根据原资料作出一个总体参数是否等于某一个数值的假设,然后利用样本资料,采用一定的统计方法计算出有关检验的统计量,依据一定的概率原则,以较小的风险来判断估计数值与总体数值是否存在显著差异,是否应当接受原假设选择的一种检验方法。 例5-11 设某药厂一台自动打片机打制的药片重量服从正态分布 ,按规定每片药片的标准重量为 。由以往经验知其标准差 保持不变。某天为检查打片机工作是否正常,随机抽取该机所打制的药片25片称重,得其平均片重 ,问该天打片机工作是否正常?( )
该天打片机工作是否正常,取决于样本平均数 与 有无实质性的差异。两种情形: 一是没有实质性差异,即 与 的差数纯属偶然因素所致; 二是可能有实质性差异,即 与 之间的差异不能用偶然因素来解释,应认为是因机器的缘故。 哪种情况需要利用样本的信息进行检验判断,即利用样本提供的信息来判断统计假设 是否成立。 在假设检验中,常把被检验的假设叫做原假设,用 表示,把所考察的问题的对立面叫做对立假设或备择假设,记为 。 例如,例5-11中的原假设为 ;对立假设为 。
2.假设检验的基本思想和方法 假设检验的基本思想——概率性质的反证法。 假设检验的基本思想——概率性质的反证法。 为了检验假设 是否正确,先确定这个假设 正确,看由此能推出什么结果。如果导致一个不合理现象的出现,则表明“假设 正确”是错误的,即原假设 不正确,由此拒绝原假设 ;如果没有导致不合理现象出现,则没有充分理由否定原假设 ,判定原假设 成立。 概率性质的反证法的依据——小概率事件原理 小概率事件(即概率很小的事件)在一次试验中几乎是不可能发生的。 一般将概率 和 视为小概率。概率越小标志概率性质反证法的推理水平越高,故称 为显著性水平,它是概率密度函数曲线两端或一端的面积。
由此可知检验分为双侧检验和单侧检验两种类型 以正态分布密度曲线为例 由此可知检验分为双侧检验和单侧检验两种类型
以标准正态分布参数均值的检验为例 双侧检验 单侧检验 左侧检验 右侧检验
假设检验的一般步骤 (1)建立原假设 和备择假设 ; (2)确定检验统计量及其分布,并由给定样本值计算检验 统计量的值; (1)建立原假设 和备择假设 ; (2)确定检验统计量及其分布,并由给定样本值计算检验 统计量的值; (3)根据显著性水平 ,确定拒绝域; (4)作出统计判断,若统计量的值落在拒绝域内,则拒绝原假设 ,接受备择假设 ;否则,就接受原假设 。并对原问题给出相应结论。 可以利用统计软件Minitab进行假设检验 它是通过计算值 ( 值是当原假设为真时所得到的样本观察结果或更极端结果出现的概率),若 值小于显著性水平 则接受备择假设 ,否则接受原假设 。
案例 某药厂用自动包装机包装的葡萄糖重量服从正态分布N(μ,σ2),按规定的标准重量为500克,由以往标准知总体方差σ2=6 解:应检验原假设 ;备择假设 由题中条件计算得 则检验统计量的观察值为 由 ,查标准正态分布临界值表得 由于 ,所以接受原假设 ,即认为该日自动包装机包装的葡萄糖平均重量还是500克。
假设检验的两类错误 犯两类错误的概率: P{拒绝H0|H0为真}= P{第一类错误}= P{接受H0|H0不真}= P{第二类错误}= 检验结论 实际情况 H0为真 H0为假 接受H0 正确 第二类错误 (取伪) 拒绝H0 第一类错误 (拒真) 犯两类错误的概率: P{拒绝H0|H0为真}= P{第一类错误}= P{接受H0|H0不真}= P{第二类错误}= 显著性水平 为犯第一类错误的概率.
两类错误所造成的后果常常是不一样的。例如,要求检验某种新药是否提高疗效,作假设 :该药未提高疗效,则第一类错误是把未提高疗效的新药误认为提高了疗效,倘若推广使用该新药,则对病人不利;而第二类错误则把疗效确有提高的新药误认为与原药相当,不予推广使用,当然也会带来损失。最理想的是所做的检验使犯两类错误的概率都很小,但实际上减少其中一个,另一个往往就会增大。要它们同时减小,只有增加样本容量,即增加试验次数,但这会导致人力、物力的耗费。所以,实际工作中要根据两类错误可能造成的损失和抽样耗费等统筹考虑。通常是限制犯第一类错误的概率 ,然后适当确定样本的容量使犯第二类错误的概率 尽可能地小。
5.4 单个正态总体参数的假设检验 σ2已知 单样本Z检验 正态总体均值的检验 σ2未知 单样本t检验 正态总体方差的检验 单方差检验
例5.12 某厂生产的猪肉罐头规定每听500g,由历史数据知每听罐头重量服从正态分布,标准差是2。某天抽样中测得5听罐头重量是501,507,498,502,504。 那么该天罐头的单听罐头重量均值是否符合标准?( ) 例5-11 设某药厂一台自动打片机打制的药片重量服从正态分布 ,按规定每片药片的标准重量为 。由以往经验知其标准差 保持不变。某天为检查打片机工作是否正常,随机抽取该机所打制的药片25片称重,得其平均片重 ,问该天打片机工作是否正常?( ) 例5.13 某药品的有效期规定为3年(1095天)。为延长有效期而改进配方后,从专业知识上有把握认为有效期的总体均值不会缩短,但是否确有延长不得而知。从新生产的一批产品中随机抽出5件样品进行储存试验,测得有效期(天)分别为:1050 1100 1150 1250 1280 假定该药的有效期服从正态分布 ,试问该药的平均有效期是否比规定的3年有所延长?( )
例5.14 某药厂生产复合维生素,要求每50g维生素中含铁2400mg,现从某次生产过程中随机抽取5份试样,测得含铁量(mg/50g),分别为 2372 2409 2395 2399 2411 如果维生素中含铁量服从正态分布,问这批产品的平均含铁量是否合格? 例5.15 某实验室用紫外可见光光度法测定钯含量(%),根据长期经验知,在正常情况下此催化剂中钯含量服从标准差 的正态分布 ,分光光度计进行检修后,用它测定同样的钯催化剂测得的钯含量(%)分别为 3.73 3.59 3.61 3.63 3.16 3.44 试问仪器经过检修后稳定性是否有了显著变化?( )
补充:根据长期正常生产的资料可知,某药厂生产的利巴韦林药片重量服从正态分布,其方差为0 补充:根据长期正常生产的资料可知,某药厂生产的利巴韦林药片重量服从正态分布,其方差为0.25,现从某日生产的药片中随机抽取20片,测得样本方差为0.43。试问该日生产的利巴韦林药片的重量波动与平时有无显著差异?( )
5.5 两个正态总体参数的假设检验 两个正态总体均值的检验 双样本 t 检验 两个正态总体方差的检验 双方差检验
例5.16 用24只豚鼠均分成两组作支管灌流试验,记录流速如下(滴数/分): 对照组 46 30 38 48 60 46 26 58 46 48 44 48 用药组 54 46 50 52 52 58 64 56 54 54 58 36 假设豚鼠灌流试验的流速服从正态分布,试检验这两组灌流试验流速方差是否有显著差异?( ) 例5.17 为考察甲、乙两批药品中某种成分的含量(%),现分别从这两批药品中各抽取9个样品进行测定,测得其样本均值和样本方差分别为 , 和 , 。假设它们都服从正态分布,试检验甲、乙两批药品中该种成分含量及其波动是否有显著差异?( ) 例5.18 上例中,试检验甲、乙两批药品中该种成分含量及其波动是否有显著差异?
5.6 总体比率检验 单总体比率的检验 单比率检验 双总体比率的检验 双比率检验
运用Minitab对正态总体参数进行统计分析的路径 任务 对话框 单个正态总体,已知方差分析均值 从“统计>基本统计量>单样本z”进入“单样本z”对话框 单个正态总体,未知方差分析均值 从“统计>基本统计量>单样本t”进入“单样本t”对话框 分析单个正态总体的方差 从“统计>基本统计量>单方差”进入“单方差”对话框 两个正态总体,方差未知但相等,分析均值之差 从“统计>基本统计量>双样本t”进入“双样本t”对话框 两个正态总体,方差未知不相等,分析均值之差 分析单总体比率 从“统计>基本统计量>单比率”进入“单比率”对话框 分析两个总体比率差 从“统计>基本统计量>双比率”进入“双比率”对话框