Download presentation
Presentation is loading. Please wait.
1
统 计 学 (第三版) 2008 作者 贾俊平 统计学
2
不象其他科学,统计从来不打算使 自己完美无缺,统计意味着你永远 不需要确定无疑。 —— Gudmund R.Iversen
统计名言 不象其他科学,统计从来不打算使 自己完美无缺,统计意味着你永远 不需要确定无疑。 —— Gudmund R.Iversen 2008年8月
3
5.1 参数估计的基本原理 5.2 一个总体参数的区间估计 5.3 两个总体参数的区间估计 5.4 样本量的确定
第 5 章 参数估计 5.1 参数估计的基本原理 5.2 一个总体参数的区间估计 5.3 两个总体参数的区间估计 5.4 样本量的确定
4
学习目标 参数估计的基本原理 点估计与区间估计 评价估计量优良性的标准 一个总体参数的区间估计方法 两个总体参数的区间估计方法
样本量的确定方法 2008年8月
5
参数估计在统计方法中的地位 参数估计 假设检验 统计方法 描述统计 推断统计 2008年8月
6
大学生每周上网花多少时间? 为了解学生每周上网花费的时间,中国人民大学公共管理学院的4名本科生对全校部分本科生做了问卷调查。调查的对象为中国人民大学在校本科生,调查内容包括上网时间、途径、支出、目的、关心的校园网内容,以及学生对收费的态度,包括收费方式、价格等 问卷调查由调查员直接到宿舍发放并当场回收。对四个年级中每年级各发60份问卷,其中男、女生各30份。共收回有效问卷共200份。其中有关上网时间方面的数据经整理如下表所示 2008年8月
7
大学生每周上网花多少时间? 回答类别 人数(人) 频率(%) 3小时以下 32 16 3~6小时 35 17.5 6~9小时 33 16.5
9~12小时 29 14.5 12小时以上 71 35.5 合计 200 100 平均上网时间为8.58小时,标准差为0.69小时。全校学生每周的平均上网时间是多少?每周上网时间在12小时以上的学生比例是多少?你做出估计的理论依据是什么? 2008年8月
8
第 5 章 参数估计 5.1 参数估计的基本原理 点估计与区间估计 评价估计量的标准
9
5.1 参数估计的一般问题 点估计与区间估计
10
估计量与估计值 (estimator & estimated value)
参数估计(parameter estimation)就是用样本统计量去估计总体的参数 估计量:用于估计总体参数的统计量的名称 如样本均值,样本比例,样本方差等 例如: 样本均值就是总体均值 的一个估计量 参数用 表示,估计量用 表示 估计值:估计参数时计算出来的统计量的具体值 如果样本均值 x =80,则80就是 的估计值 2008年8月
11
点估计 (point estimate) 用样本的估计量的某个取值直接作为总体参数的估计值 无法给出估计值接近总体参数程度的信息
例如:用样本均值直接作为总体均值的估计;用两个样本均值之差直接作为总体均值之差的估计 无法给出估计值接近总体参数程度的信息 由于样本是随机的,抽出一个具体的样本得到的估计值很可能不同于总体真值 一个点估计量的可靠性是由它的抽样标准误差来衡量的,这表明一个具体的点估计值无法给出估计的可靠性的度量 2008年8月
12
区间估计 (interval estimate)
在点估计的基础上,给出总体参数估计的一个估计区间,该区间由样本统计量加减估计误差而得到 根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量 比如,某班级平均分数在75~85之间,置信水平是95% 置信区间 置信下限 置信上限 样本统计量 (点估计) 2008年8月
13
区间估计的图示 x 90%的样本 95% 的样本 99% 的样本 - 2.58x +2.58x -1.96 x
2008年8月 33
14
置信水平 (confidence level)
将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例,也称置信度 表示为 (1 - 为是总体参数未在区间内的比例 常用的置信水平值有 99%, 95%, 90% 相应的 为0.01,0.05,0.10 2008年8月
15
置信区间的表述 (confidence interval)
由样本估计量构造出的总体参数在一定置信水平下的估计区间 统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间 如果用某种方法构造的所有区间中有95%的区间包含总体参数的真值,5%的区间不包含总体参数的真值,那么,用该方法构造的区间称为置信水平为95%的置信区间。同样,其他置信水平的区间也可以用类似的方式进行表述 2008年8月
16
置信区间的表述 (confidence interval)
总体参数的真值是固定的,而用样本构造的区间则是不固定的,因此置信区间是一个随机区间,它会因样本的不同而变化,而且不是所有的区间都包含总体参数 实际估计时往往只抽取一个样本,此时所构造的是与该样本相联系的一定置信水平(比如95%)下的置信区间。我们只能希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个 2008年8月
17
置信区间的表述 (confidence interval)
当抽取了一个具体的样本,用该样本所构造的区间是一个特定的常数区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值,因为它可能是包含总体均值的区间中的一个,也可能是未包含总体均值的那一个 一个特定的区间总是“包含”或“绝对不包含”参数的真值,不存在“以多大的概率包含总体参数”的问题 置信水平只是告诉我们在多次估计得到的区间中大概有多少个区间包含了参数的真值,而不是针对所抽取的这个样本所构建的区间而言的 2008年8月
18
从均值为185的总体中抽出n=10的20个样本构造出的20个置信区间
置信区间的表述 (95%的置信区间) 我没有抓住参数! 点估计值 从均值为185的总体中抽出n=10的20个样本构造出的20个置信区间 2008年8月
19
置信区间的表述 (confidence interval)
使用一个较大的置信水平会得到一个比较宽的置信区间,而使用一个较大的样本则会得到一个较准确(较窄)的区间。直观地说,较宽的区间会有更大的可能性包含参数 但实际应用中,过宽的区间往往没有实际意义 比如,天气预报说“在一年内会下一场雨”,虽然这很有把握,但有什么意义呢?另一方面,要求过于准确(过窄)的区间同样不一定有意义,因为过窄的区间虽然看上去很准确,但把握性就会降低,除非无限制增加样本量,而现实中样本量总是有限的 区间估计总是要给结论留点儿余地 2008年8月
20
5.1 参数估计的一般问题 评价估计量的标准
21
无偏性 (unbiasedness) 无偏性:估计量抽样分布的数学期望等于被 估计的总体参数 B A P( ) 无偏 有偏 2008年8月
An estimator is a random variable used to estimate a population parameter (characteristic). Unbiasedness An estimator is unbiased if the mean of its sampling distribution is equal to the population parameter. Efficiency The efficiency of an unbiased estimator is measured by the variance of its sampling distribution. If two estimators, with the same sample size, are both unbiased, then the one with the smaller variance has greater relative efficiency. Consistency An estimator is a consistent estimator of a population parameter if the larger the sample size, the more likely it is that the estimate will come close to the parameter. 2008年8月
22
有效性 (efficiency) 有效性:对同一总体参数的两个无偏点估计 量,有更小标准差的估计量更有效 B A P( ) 的抽样分布
An estimator is a random variable used to estimate a population parameter (characteristic). Unbiasedness An estimator is unbiased if the mean of its sampling distribution is equal to the population parameter. Efficiency The efficiency of an unbiased estimator is measured by the variance of its sampling distribution. If two estimators, with the same sample size, are both unbiased, then the one with the smaller variance has greater relative efficiency. Consistency An estimator is a consistent estimator of a population parameter if the larger the sample size, the more likely it is that the estimate will come close to the parameter. 2008年8月
23
一致性 (consistency) 一致性:随着样本量的增大,估计量的 值越来越接近被估计的总体参数 B A P( ) 较大的样本量
An estimator is a random variable used to estimate a population parameter (characteristic). Unbiasedness An estimator is unbiased if the mean of its sampling distribution is equal to the population parameter. Efficiency The efficiency of an unbiased estimator is measured by the variance of its sampling distribution. If two estimators, with the same sample size, are both unbiased, then the one with the smaller variance has greater relative efficiency. Consistency An estimator is a consistent estimator of a population parameter if the larger the sample size, the more likely it is that the estimate will come close to the parameter. P( ) B 较小的样本量 A 2008年8月
24
第 5 章 参数估计 5.2 一个总体参数的区间估计 5.2.1 总体均值的区间估计 5.2.2 总体比例的区间估计
第 5 章 参数估计 5.2 一个总体参数的区间估计 总体均值的区间估计 总体比例的区间估计 总体方差的区间估计
25
5.2 一个总体参数估计的区间估计 总体均值的区间估计
26
一个总体参数的区间估计 总体参数 符号表示 样本统计量 均值 比例 方差 2008年8月 14
27
总体均值区间的一般表达式 总体均值的置信区间是由样本均值加减估计误差得到的
估计误差由两部分组成:一是点估计量的标准误差,它取决于样本统计量的抽样分布。二是估计时所要的求置信水平为时,统计量分布两侧面积为的分位数值,它取决于事先所要求的可靠程度 总体均值在置信水平下的置信区间可一般性地表达为 样本均值±分位数值×样本均值的标准误差 2008年8月
28
总体均值的区间估计 (大样本的估计) 1. 假定条件 使用正态分布统计量 z 总体均值 在1- 置信水平下的置信区间为
1. 假定条件 总体服从正态分布,且方差(2) 已知 如果不是正态分布,可由正态分布来近似 (n 30) 使用正态分布统计量 z 总体均值 在1- 置信水平下的置信区间为 2008年8月
29
总体均值的区间估计 (大样本的估计) 【例】一家保险公司收集到由36个投保人组成的随机样本,得到每个投保人的年龄(单位:周岁)数据如下表。试建立投保人年龄90%的置信区间 36个投保人年龄的数据 23 35 39 27 36 44 42 46 43 31 33 53 45 54 47 24 34 28 40 49 38 48 50 32 2008年8月
30
总体均值的区间估计 (大样本的估计) 解:已知n=36, 1- = 90%,z/2=1.645。根据样本数据计算得: ,
总体均值的区间估计 (大样本的估计) 解:已知n=36, 1- = 90%,z/2=1.645。根据样本数据计算得: , 总体均值在1- 置信水平下的置信区间为 投保人平均年龄的置信区间为37.37岁~41.63岁 2008年8月
31
总体均值的区间估计 (小样本的估计) 1. 假定条件 使用 t 分布统计量 总体均值 在1-置信水平下的置信区间为
1. 假定条件 总体服从正态分布,但方差(2) 未知 小样本 (n < 30) 使用 t 分布统计量 总体均值 在1-置信水平下的置信区间为 2008年8月
32
总体均值的区间估计 (小样本的估计) 【 例 】一家食品生产企业以生产袋装食品为主,为对产量质量进行监测,企业质检部门经常要进行抽检,以分析每袋重量是否符合要求。现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分布,且总体标准差为10克。试估计该批产品平均重量的置信区间,置信水平为95% 25袋食品的重量 112.5 101.0 103.0 102.0 100.5 102.6 107.5 95.0 108.8 115.6 100.0 123.5 101.6 102.2 116.6 95.4 97.8 108.6 105.0 136.8 102.8 101.5 98.4 93.3 2008年8月
33
总体均值的区间估计 (小样本的估计) 解:已知X~N(,102),n=25, 1- = 95%,z/2=1.96。根据样本数据计算得: 。由于是正态总体,且方差已知。总体均值在1-置信水平下的置信区间为 该食品平均重量的置信区间为101.44g~109.28g 2008年8月
34
总体均值的区间估计 (小样本的估计) 【例】已知某种灯泡的寿命服从正态分布,现从一批灯泡中随机抽取16只,测得其使用寿命(单位:h)如下。建立该批灯泡平均使用寿命95%的置信区间 16灯泡使用寿命的数据 1510 1520 1480 1500 1450 1490 1530 1460 1470 2008年8月
35
总体均值的区间估计 (小样本的估计) 解:已知X~N(,2),n=16, 1- = 95%,t/2=2.131
根据样本数据计算得: , 总体均值在1-置信水平下的置信区间为 该种灯泡平均使用寿命的置信区间为1476.8h~1503.2h 2008年8月
36
5.2 一个总体参数估计的区间估计 总体比例的区间估计
37
总体比例的区间估计 (传统方法) 样本比例±分位数值×样本比例的标准误差 1. 假定条件 使用正态分布统计量 z
1. 假定条件 总体服从二项分布 可以由正态分布来近似 np(成功次数)和n(1-p)(失败次数)均应该大于10 使用正态分布统计量 z 3. 总体比例在1-置信水平下的置信区间为 样本比例±分位数值×样本比例的标准误差 2008年8月
38
总体比例的区间估计 (例题分析—传统方法)
解:已知 n=100,p=65% , 1- = 95%,z/2=1.96 【例】某城市想要估计下岗职工中女性所占的比例,随机地抽取了100名下岗职工,其中65人为女性职工。试以95%的置信水平估计该城市下岗职工中女性比例的置信区间 该城市下岗职工中女性比例的置信区间为55.65%~74.35% 2008年8月
39
一个总体比例的区间估计 (现代方法) 按照传统方法计算出来的置信水平为(1-)的置信区间能够覆盖总体真实比例的概率小于(1-),既是大样本也是如此,更不可能应用于小样本 根据经验法则:传统方法要求np(成功次数)和n(1-p)(失败次数)均应该大于10(也有些书上说大于5) 对于非常大的样本,传统方法和现代方法的结果几乎相同,但对于小样本或中等样本现代方法更适用 2008年8月
40
一个总体比例的区间估计 (现代方法) 通过修正试验次数n(样本量)和试验成功的比例P(样本比例)改进置信区间
将试验次数n加上4,即用 代替n;将试验成功的次数x加上2,即用 代替p 对于任意大小的样本都可以使用该方法计算置信区间 只是在样本较小时,偶尔会有区间下限小于0或区间上限大于1的情况发生。此时可用0代替小于0的下限,用1代替大于1的上限 2008年8月
41
一个总体比例的区间估计 (现代方法) 设总体服从二项分布,即X~(n,p),x为n次独立伯努利试验成功的次数,P为成功的概率 定义 和
定义 和 总体比例在1- 置信水平下的置信区间 该区间也称为Agresti-Coull区间(由Alan Agresti和Brent Coull给出,以其姓氏命名) 如果下限小于0则用0代替;如果上限大于1则用1代替 2008年8月
42
一个总体比例的区间估计 (现代方法) 解: 【例】某城市想要估计下岗职工中女性所占的比例,随机地抽取了100名下岗职工,其中65人为女性职工。试以95%的置信水平估计该城市下岗职工中女性比例的置信区间 该城市下岗职工中女性比例的置信区间为47.72%~79.12% 2008年8月
43
5.2 一个总体参数估计的区间估计 总体方差的区间估计
44
总体方差的区间估计 1. 估计一个总体的方差或标准差 2. 假设总体服从正态分布 总体方差 2 的点估计量为s2,且
1. 估计一个总体的方差或标准差 2. 假设总体服从正态分布 总体方差 2 的点估计量为s2,且 4. 总体方差在1- 置信水平下的置信区间为 2008年8月
45
总体方差的区间估计 (图示) 2 21- 2 总体方差的 1- 的置信区间 自由度为n-1的2
In this diagram, do the populations have equal or unequal variances? Unequal. 2008年8月 38
46
总体方差的区间估计 (例题分析) 【例】一家食品生产企业以生产袋装食品为主,现从某天生产的一批食品中随机抽取了25袋,测得每袋重量如下表所示。已知产品重量的分布服从正态分布。以95%的置信水平建立该种食品重量方差的置信区间 25袋食品的重量 112.5 101.0 103.0 102.0 100.5 102.6 107.5 95.0 108.8 115.6 100.0 123.5 101.6 102.2 116.6 95.4 97.8 108.6 105.0 136.8 102.8 101.5 98.4 93.3 2008年8月
47
总体方差的区间估计 (例题分析) 解:已知n=25,1-=95% ,根据样本数据计算得 s2 =93.21
2置信度为95%的置信区间为 该企业生产的食品总体重量标准差的的置信区 间为7.54g~13.43g 2008年8月 90
48
一个总体参数的区间估计 (小结) In this diagram, do the populations have equal or unequal variances? Unequal. 2008年8月 38
49
第 5 章 参数估计 5.3 两个总体参数的区间估计 5.3.1 两个总体均值之差的区间估计 5.3.2 两个总体比例之差的区间估计
第 5 章 参数估计 5.3 两个总体参数的区间估计 两个总体均值之差的区间估计 两个总体比例之差的区间估计 两个总体方差比的区间估计
50
两个总体参数的区间估计 总体参数 符号表示 样本统计量 均值差 比例差 方差比 2008年8月 14
51
5.3 两个总体参数估计的区间估计 两个总体均值之差的区间估计
52
(x1-x2 )±分位数值× (x1-x2 )±的标准误差
均值之差区间的一般表达式 两个总体均值的置信区间是由两个样本均值之差加减估计误差得到的 估计误差由两部分组成:一是点估计量的标准误差,它取决于样本统计量的抽样分布。二是估计时所要的求置信水平为时,统计量分布两侧面积为的分位数值,它取决于事先所要求的可靠程度 两个总体均值之差(1-2)在置信水平下的置信区间可一般性地表达为 (x1-x2 )±分位数值× (x1-x2 )±的标准误差 2008年8月
53
两个总体均值之差的估计 (独立大样本) 1. 假定条件 使用正态分布统计量 z 两个总体都服从正态分布,12、 22已知
1. 假定条件 两个总体都服从正态分布,12、 22已知 若不是正态分布, 可以用正态分布来近似(n130和n230) 两个样本是独立的随机样本 使用正态分布统计量 z 2008年8月
54
两个总体均值之差的估计 (独立大样本) 1. 12, 22已知时,两个总体均值之差1-2在1- 置信水平下的置信区间为
1. 12, 22已知时,两个总体均值之差1-2在1- 置信水平下的置信区间为 12、 22未知时,两个总体均值之差1-2在1- 置信水平下的置信区间为 2008年8月
55
两个总体均值之差的估计 (独立大样本) English
【例】某地区教育管理部门想估计两所中学的学生高考时的英语平均分数之差,为此在两所中学独立抽取两个随机样本,有关数据如右表 。建立两所中学高考英语平均分数之差95%的置信区间 两个样本的有关数据 中学1 中学2 n1=46 n1=33 S1=5.8 S2=7.2 English 2008年8月
56
两个总体均值之差的估计 (独立大样本) 解: 两个总体均值之差在1-置信水平下的置信区间为 两所中学高考英语平均分数之差的置信区间为
5.03分~10.97分 2008年8月 90
57
两个总体均值之差的估计 (独立小样本: 12= 22 )
两个总体均值之差的估计 (独立小样本: 12= 22 ) 1. 假定条件 两个总体都服从正态分布 两个总体方差未知但相等:12=22 两个独立的小样本(n1<30和n2<30) 总体方差的合并估计量 估计量x1-x2的抽样标准差 2008年8月
58
两个总体均值之差的估计 (独立小样本: 12= 22 )
两个总体均值之差的估计 (独立小样本: 12= 22 ) 两个样本均值之差的标准化 两个总体均值之差1-2在1- 置信水平下的置信区间为 2008年8月
59
两个总体均值之差的估计 (独立小样本: 12= 22 )
两个总体均值之差的估计 (独立小样本: 12= 22 ) 【例】为估计两种方法组装产品所需时间的差异,分别对两种不同的组装方法各随机安排12名工人,每个工人组装一件产品所需的时间(单位:min)下如表。假定两种方法组装产品的时间服从正态分布,且方差相等。试以95%的置信水平建立两种方法组装产品所需平均时间差值的置信区间 两个方法组装产品所需的时间 方法1 方法2 28.3 36.0 27.6 31.7 30.1 37.2 22.2 26.0 29.0 38.5 31.0 32.0 37.6 34.4 33.8 31.2 32.1 28.0 20.0 33.4 28.8 30.0 30.2 26.5 2008年8月
60
两个总体均值之差的估计 (独立小样本: 12= 22 )
两个总体均值之差的估计 (独立小样本: 12= 22 ) 解: 根据样本数据计算得 合并估计量为 两种方法组装产品所需平均时间之差的置信区间为 0.14分钟~7.26分钟 2008年8月 90
61
两个总体均值之差的估计 (独立小样本: 12 22 )
两个总体均值之差的估计 (独立小样本: 12 22 ) 1. 假定条件 两个总体都服从正态分布 两个总体方差未知且不相等:1222 两个独立的小样本(n1<30和n2<30) 使用统计量 2008年8月
62
两个总体均值之差的估计 (独立小样本: 12 22 )
两个总体均值之差的估计 (独立小样本: 12 22 ) 两个总体均值之差1-2在1- 置信水平下的置信区间为 自由度 2008年8月
63
两个总体均值之差的估计 (独立小样本: 12 22 )
两个总体均值之差的估计 (独立小样本: 12 22 ) 【例】沿用前例。假定第一种方法随机安排12名工人,第二种方法随机安排8名工人,即n1=12,n2=8 ,所得的有关数据如表。假定两种方法组装产品的时间服从正态分布,且方差不相等。以95%的置信水平建立两种方法组装产品所需平均时间差值的置信区间 两个方法组装产品所需的时间 方法1 方法2 28.3 36.0 27.6 31.7 30.1 37.2 22.2 26.5 29.0 38.5 31.0 37.6 34.4 33.8 32.1 28.0 20.0 28.8 30.0 30.2 2008年8月
64
两个总体均值之差的估计 (独立小样本: 12 22 )
两个总体均值之差的估计 (独立小样本: 12 22 ) 解: 根据样本数据计算得 自由度为 两种方法组装产品所需平均时间之差的置信区间为 0.192分钟~9.058分钟 2008年8月 90
65
两个总体均值之差的估计 (匹配大样本) 假定条件 两个总体均值之差d =1-2在1- 置信水平下的置信区间为
两个匹配的大样本(n1 30和n2 30) 两个总体各观察值的配对差服从正态分布 两个总体均值之差d =1-2在1- 置信水平下的置信区间为 d ±分位数值×d 的标准误差 2008年8月
66
两个总体均值之差的估计 (匹配小样本) 假定条件 两个总体均值之差d=1-2在1- 置信水平下的置信区间为
两个匹配的小样本(n1< 30和n2 < 30) 两个总体各观察值的配对差服从正态分布 两个总体均值之差d=1-2在1- 置信水平下的置信区间为 2008年8月
67
两个总体均值之差的估计 (匹配小样本) STATISTICS
【例】由10名学生组成一个随机样本,让他们分别采用A和B两套试卷进行测试,结果如下表 。试建立两种试卷分数之差d=1-2 95%的置信区间 10名学生两套试卷的得分 学生编号 试卷A 试卷B 差值d 1 78 71 7 2 63 44 19 3 72 61 11 4 89 84 5 6 91 74 17 49 51 -2 68 55 13 8 76 60 16 9 85 77 10 39 STATISTICS 2008年8月
68
两个总体均值之差的估计 (匹配小样本) 两套试卷分数之差的正态概率图 2008年8月
69
两个总体均值之差的估计 (匹配小样本) 解: 根据样本数据计算得 两种试卷所产生的分数之差的置信区间为6.33分 ~15.67分
2008年8月 90
70
5.3 两个总体参数估计的区间估计 两个总体比例之差的区间估计
71
(p1- p2)±分位数值×(p1- p2)的标准误差
两个总体比例之差的区间估计 (传统方法) 1. 假定条件 两个总体服从二项分布 可以用正态分布来近似 两个样本是独立的 n1p1和n1(1-p1), n2p2和n2(1-p2),均应该大于10 2. 两个总体比例之差1- 2在1- 置信水平下的置信区间为 (p1- p2)±分位数值×(p1- p2)的标准误差 2008年8月
72
两个总体比例之差的估计 (例题分析—传统方法)
【例】在某个电视节目的收视率调查中,农村随机调查了400人,有32%的人收看了该节目;城市随机调查了500人,有45%的人收看了该节目。试以95%的置信水平估计城市与农村收视率差别的置信区间 2008年8月
73
两个总体比例之差的估计 (例题分析—传统方法)
两个总体比例之差的估计 (例题分析—传统方法) 解: 已知 n1=500 ,n2=400, p1=45%, p2=32%, 1- =95%, z/2=1.96 1- 2置信度为95%的置信区间为 城市与农村收视率差值的置信区间为6.68%~19.32% 2008年8月 90
74
两个总体比例之差的区间估计 (现代方法) 通过修正试验次数n1、 n2(样本量)和试验成功的比例P1、 P2(样本比例)改进置信区间
将试验次数n1和n1各加上2,即用 代n1, 代替n2;将试验成功的次数x1和x1各加上1,即用 代替p1,用 代替p2 对于任意大小的样本都可以使用该方法计算置信区间 2008年8月
75
两个总体比例之差的区间估计 (现代方法) 设两总体都服从二项分布,即X1~(n1,p1), X2~(n2,p2) 。x1为n1次独立伯努利试验成功的次数,P1位成功的概率概率,x2 为n2次独立伯努利试验成功的次数,P2为成功的概率 定义 , ; , 1-2在1- 置信水平下的置信区间 该区间也称为Agresti-Caffo区间(由Alan Agresti和Brian Caffo给出,以其姓氏命名) 如果下限小于-1则用-1代替;如果上限大于1则用1代替 2008年8月
76
5.3 两个总体参数估计的区间估计 两个总体方差比的区间估计
77
两个总体方差比的区间估计 1. 比较两个总体的方差比 用两个样本的方差比来判断 总体方差比在1-置信水平下的置信区间为
1. 比较两个总体的方差比 用两个样本的方差比来判断 如果S12/ S22接近于1,说明两个总体方差很接近 如果S12/ S22远离1,说明两个总体方差之间存在差异 总体方差比在1-置信水平下的置信区间为 2008年8月
78
两个总体方差比的区间估计 (图示) F F1- F 总体方差比的 1-的置信区间 方差比置信区间示意图 2008年8月
In this diagram, do the populations have equal or unequal variances? Unequal. 2008年8月 38
79
两个总体方差比的区间估计 (例题分析) 【例】为了研究男女学生在生活费支出(单位:元)上的差异,在某大学各随机抽取25名男学生和25名女学生,得到下面的结果 男学生: 女学生: 试以90%置信水平估计男女学生生活费支出方差比的置信区间 2008年8月
80
两个总体方差比的区间估计 (例题分析) 解:根据自由度 n1=25-1=24 ,n2=25-1=24,查得 F/2(24)=1.98, F1-/2(24)=1/1.98=0.505 12 /22置信度为90%的置信区间为 男女学生生活费支出方差比的置信区间为0.47~1.84 2008年8月 90
81
两个总体参数的区间估计 (小结) In this diagram, do the populations have equal or unequal variances? Unequal. 2008年8月 38
82
第 5 章 参数估计 5.4 样本量的确定 估计总体均值时样本量的确定 估计总体比例时样本量的确定
83
6.4 样本量的确定 估计总体均值时样本量的确定
84
估计一个总体均值时样本量的确定 估计总体均值时样本量n为
样本量n与总体方差 2、边际误差E、可靠性系数Z或t之间的关系为 与总体方差成正比 与边际误差的平方成反比 与可靠性系数成正比 样本量的圆整法则:当计算出的样本量不是整数时,将小数点后面的数值一律进位成整数,如24.68取25,24.32也取25等等 其中: 2008年8月
85
估计一个总体均值时样本量的确定 (例题分析)
估计一个总体均值时样本量的确定 (例题分析) 【例】拥有工商管理学士学位的大学毕业生年薪的标准差大约为2000元,假定想要估计年薪95%的置信区间,希望边际误差为400元,应抽取多大的样本量? 2008年8月
86
估计一个总体均值时样本量的确定 (例题分析)
估计一个总体均值时样本量的确定 (例题分析) 解: 已知 =2000,E=400, 1-=95%, z/2=1.96 应抽取的样本量为 即应抽取97人作为样本 2008年8月 90
87
估计两个总体均值之差时 样本量的确定 设n1和n2为来自两个总体的样本,并假定n1=n2 根据均值之差的区间估计公式可得两个样本的容量n为
其中: 2008年8月
88
估计两个总体均值之差时样本量的确定 (例题分析)
估计两个总体均值之差时样本量的确定 (例题分析) 【例】一所中学的教务处想要估计试验班和普通班考试成绩平均分数差值的置信区间。要求置信水平为95%,预先估计两个班考试分数的方差分别为:试验班12=90 ,普通班 22=120 。如果要求估计的误差范围(边际误差)不超过5分,在两个班应分别抽取多少名学生进行调查? English 2008年8月
89
估计两个总体均值之差时样本量的确定 (例题分析)
估计两个总体均值之差时样本量的确定 (例题分析) 解: 已知12=90,22=120,E=5, 1-=95%, z/2=1.96 即应抽取33人作为样本 2008年8月
90
6.4 样本量的确定 估计总体比例时样本量的确定
91
估计一个总体比例时样本量的确定 根据比例区间估计公式可得样本量n为 E的取值一般小于0.1 未知时,可取使方差达到最大的值0.5 其中:
2008年8月
92
估计总体比例时样本量的确定 (例题分析) 解:已知=90%,=0.05, z/2=1.96,E=5% 【例】根据以往的生产统计,某种产品的合格率约为90%,现要求边际误差为5%,在求95%的置信区间时,应抽取多少个产品作为样本? 应抽取的样本量为 应抽取139个产品作为样本 2008年8月
93
估计两个总体比例之差时 样本量的确定 设n1和n2为来自两个总体的样本,并假定n1=n2 根据比例之差的区间估计公式可得两个样本的容量n为
其中: 2008年8月
94
估计两个总体比例之差时样本量的确定 (例题分析)
估计两个总体比例之差时样本量的确定 (例题分析) 【例】一家瓶装饮料制造商想要估计顾客对一种新型饮料认知的广告效果。他在广告前和广告后分别从市场营销区各抽选一个消费者随机样本,并询问这些消费者是否听说过这种新型饮料。这位制造商想以10%的误差范围和95%的置信水平估计广告前后知道该新型饮料消费者的比例之差,他抽取的两个样本分别应包括多少人?(假定两个样本量相等) 2008年8月
95
估计两个总体比例之差时样本量的确定 (例题分析)
估计两个总体比例之差时样本量的确定 (例题分析) 解: E=10%, 1-=95%,z/2=1.96,由于没有的信息,用0.5代替 即应抽取193位消费者作为样本 2008年8月
96
本章小结 参数估计的基本原理 一个总体参数的区间估计 两个总体参数的区间估计 样本量的确定 2008年8月
97
结 束 THANKS
Similar presentations