Download presentation
Presentation is loading. Please wait.
1
统计学原理(第五讲) 罗洪群
2
教学目的与要求: 抽样估计是抽样调查的继续,它提供了一套利用抽样资料来估计总体数量特征的方法。通过本章的学习,要理解和掌握抽样估计的概念、特点,抽样误差的含义、计算方法,抽样估计的置信度,推断总体参数的方法,能结合实际资料进行抽样估计。
3
本 章 主 要 内 容 抽样推断的一般问题 抽样误差 抽样估计的方法 抽样组织设计
4
抽样推断是按随机原则从全部研究对象中抽取部分单位进行观察,并根据样本的实际数据对总体的数量特征作出具有一定可靠程度的估计和判断。
第一节 抽样推断的一般问题 一、抽样推断的概念和特点 抽样推断是按随机原则从全部研究对象中抽取部分单位进行观察,并根据样本的实际数据对总体的数量特征作出具有一定可靠程度的估计和判断。 概 念 它是由部分推断整体的一种认识方法。 抽样推断建立在随机取样的基础上。 特 点 抽样推断运用概率估计的方法。 抽样推断的误差可以事先计算并加以控制。
5
二、抽样推断的内容 参数估计 参数估计是依据所获得的样本观察资料,对所研究现象总体的水平、结构、规模等数量特征进行估计。 假设检验 假设检验是利用样本的实际资料来检验事先对总体某些数量特征所作的假设是否可信的一种统计分析方法。
6
三、有关抽样的基本概念 (一)总 体 和 样 本 又称全及总体。指所要认识的 研究对象全体。总体单位总数用“N” 表示。 总体: 样本: 又称子样。是从全及总体中随机抽取出来,作为代表这一总体的那部分单位组成的集合体。样本单位总数用“n”表示。
7
参 数 ∑X N ∑XF ∑F X= 2 Σ(X-X) σ = N 2 Σ(X-X)F σ = ΣF N1 N 2 σ = P(1-P)
(二)参 数 和 统 计 量 X= ∑X N 参 数 反映总体数量特征的全及指标。 总体平均数 X= ∑XF ∑F 研究总体中 的数量标志 Σ(X-X) N 2 σ = 总体方差 Σ(X-X)F ΣF 2 σ = 参数 P = N1 N 总体成数 研究总体中 的品质标志 成数方差 σ 2 = P(1-P) (只有两种表现)
8
统 计 量 ∑x x = n ∑xf x = ∑f n p = 根据样本数据计算的综合指标。 样本平均数 研究数 量标志 样本标准差
样本成数 研究品 质标志 成数标准差
9
(三)样本容量和样本个数 (四)重复抽样和不重复抽样 n 一个样本包含的单位数。用 “n”表示。 一般要求 n ≥30 样本容量:
样本个数: 从一个全及总体中可能抽取的样本数目。 (四)重复抽样和不重复抽样 又称回置抽样。 重复抽样: n N 可能组成的样本数目: 又称不回置抽样。 不重复抽样: 可能组成的样本数目: N(N-1)(N-2)……(N-n+1)
10
n N 例如:从A、B、C、D四个单位中,抽出两个单位构成 一个样本,问可能组成的样本数目是多少? A A AB AC AD 重复抽样 B
BB BC BD N = 42 =16 (个样本) C A CB CC CD D A DB DC DD N(N-1)(N-2)……. 不重复抽样 4×3 = 12(个样本)
11
由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构,而引起抽样指标和全及指标之间的绝对离差。
第二节 抽 样 误 差 一、抽样误差的含义 由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构,而引起抽样指标和全及指标之间的绝对离差。
12
二、影响抽样误差大小的因素 1、总体各单位标志值的差异程度 2、样本的单位数 3、抽样方法 4、抽样调查的组织形式
13
抽样平均误差是抽样平均数或抽样成数的标准差,反映了抽样指标与总体指标的平均误差程度。
三、抽样平均误差 抽样平均误差是抽样平均数或抽样成数的标准差,反映了抽样指标与总体指标的平均误差程度。
14
现在,采用重复抽样从中抽出两个,组成一个样本。可能组成的样本数目:25个。
假设总体包含1、2、3、4、5,五个数字。 则:总体平均数为 x = = 3 5 现在,采用重复抽样从中抽出两个,组成一个样本。可能组成的样本数目:25个。 3+5 如: 1+3 1+4 2+4 = 4 =2.5 =3 =2 2 2 2 2
15
多数样本指标与总体指标都有误差,误差有大、有小,有正、有负,抽样平均误差就是将所有的误差综合起来,再求其平均数,所以抽样平均误差是反映抽样误差一般水平的指标。
16
抽 样 平 均 误 差 的 计 算 公 式 抽样平均数 的平均误差 抽样成数 平均误差 (以上两个公式实际上就是第四章讲的标准差。
但反映的是样本指标与总体指标的平均离差程度) 实际上,利用上述两个公式是计算不出抽样平均误差的。 想一想,为什么?
17
(教材P180例题) 抽样平均数平均误差的计算方法 采用重复抽样: 此公式说明,抽样平均误差与总体标准差成正比,
与样本容量成反比。(当总体标准差未知时,可 用样本标准差代替) (教材P180例题) 通过例题可说明以下几点: ①样本平均数的平均数等于总体平均数。 ②抽样平均数的标准差仅为总体标准差的 ③可通过调整样本单位数来控制抽样平均误差。
18
例题:假定抽样单位数增加 2 倍、0.5 倍时,抽样平均误差怎样变化? 解:抽样单位数增加 2 倍,即为原来的 3 倍 则: 即:当样本单位数增加2倍时,抽样平均误差为原来的0.577倍。 抽样单位数增加 0.5倍,即为原来的 1.5倍 则: 即:当样本单位数增加0.5倍时,抽样平均误差为原来的0.8165倍。
19
采用不重复抽样: 公式表明:抽样平均误差不仅与总体变异程度、 样本容量有关,而且与总体单位数的多少有关。 随机抽选某校学生100人,调查他们的体 重。得到他们的平均体重为58公斤,标 准差为10公斤。问抽样推断的平均误差 是多少? 例题一: 例题二: 某厂生产一种新型灯泡共2000只,随机 抽出400只作耐用时间试验,测试结果 平均使用寿命为4800小时,样本标准差 为300小时,求抽样推断的平均误差?
20
已知: n=100 x=58 σ=10 例题一解: 则: 即:当根据样本学生的平均体重估计全部学生的平均 体重时,抽样平均误差为1公斤。 例题二解: 已知: N=2000 n=400 σ=300 x=4800 则: 计算结果表明:根据部分产品推断全部产品的平均使用寿命 时,采用不重复抽样比重复抽样的平均误差要小。
21
抽样成数平均误差的计算方法 某校随机抽选400名学生,发现戴眼镜的学 采用重复抽样: 采用不重复抽样:
生有80人。根据样本资料推断全部学生中戴 眼镜的学生所占比重时,抽样误差为多大? 例题三: 例题四: 一批食品罐头共60000桶,随机抽查300桶 ,发现有6桶不合格,求合格品率的抽样平 均误差?
22
例 题 三 解: 已知: 则:样本成数 即:根据样本资料推断全部学生中戴眼镜的学 生所占的比重时,推断的平均误差为2%。
23
例 题 四 解: 已知: 则:样本合格率 计算结果表明:不重复抽样的平均误差小于重复抽样,但是“N”的数值越大,则两种方法计算的抽样平均误差就越接近。
24
= Δ p │p - P│ p -Δ ≤P≤ p+Δ 四、抽 样 极 限 误 差 抽样极限误差指在进行抽样估计时,根据研究
对象的变异程度和分析任务的要求所确定的样 本指标与总体指标之间可允许的最大误差范围。 含义: 它等于样本指标可允许变动的上限 或下限与总体指标之差的绝对值。 计算方法: 抽样平均数极限误差: ≤ ≤ = Δ p │p - P│ 抽样成数极限误差: p -Δ ≤P≤ p+Δ
25
含 义 Δ μ Δ = t μ 五、抽样误差的概率度 t = 抽样误差的概率度是测量抽样估计可靠 程度的一个参数。用符号“ t ”表示。
含 义 t = Δ μ 公式表示: (t 是极限误差与抽样平均误差的比值) Δ = t μ 上式可变形为: (极限误差是 t 倍的抽样平均误差)
26
第三节 抽样估计的方法 一、总体参数的点估计 总体参数点估计的特点:P188 无偏性 总体参数优良估计的标准 一致性 有效性
第三节 抽样估计的方法 一、总体参数的点估计 总体参数点估计的特点:P188 无偏性 总体参数优良估计的标准 一致性 有效性 二、总体参数的区间估计 总体参数区间估计的特点:P195 估计值 抽样误差范围 区间估计三要素 抽样估计的置信度
27
抽样估计的置信度就是表明抽样指标和总体指标的误差不超过一定范围的概率保证程度(教材P191)
什 么 是 抽 样 估 计 的 置 信 度? 抽样估计的置信度就是表明抽样指标和总体指标的误差不超过一定范围的概率保证程度(教材P191) 符号表示: P( x - X ≤Δ ) x (教材P192例题)
28
理论已经证明,在大样本的情况下,抽样平均数的分布接近于正态分布,分布特点是:抽样平均数以总体平均数为中心,两边完全对称分布,即抽样平均数的正误差与负误差的可能性是完全相等的。且抽样平均数愈接近总体平均数,出现的可能性愈大,概率愈大;反之,抽样平均数愈离开总体平均数,出现的可能性愈小,概率愈小,趋于0。(见下图)
29
由此可知,误差范围愈大,抽样估计的置信度愈高,但抽样估计 的精确度愈低;反之,误差范围愈小,则抽样估计的置信度
正 态 概 率 分 布 图 数理统计已经证明,抽样 误差的概率就是概率度的 函数,二者对应的函数 关系已编成“正态分布 概率表”。 因为扩大或缩小以后 的平均误差,就是极 限误差: Δ=tμ 68.27% 所以,抽样平均误 差的系数就是概 率度t。 (P485) 95.45% x-2μ x-1μ X x+1μ x+2μ 由此可知,误差范围愈大,抽样估计的置信度愈高,但抽样估计 的精确度愈低;反之,误差范围愈小,则抽样估计的置信度 愈低,但抽样估计的精确度愈高。
30
三、总体参数区间估计的方法 (一)根据给定的抽样误差范围,求概率保证程度 分析步骤: 1、抽取样本,计算抽样指标。 2、根据给定的极限误差范围估 计总体参数的上限和下限。 3、计算概率度。 4、查表求出概率F(t),并对 总体参数作出区间估计。 (例题:教材P197和P198)
31
(二)根据给定的概率F(t),推算抽样极限误差的可能范围
分 析 步 骤: 1、抽取样本,计算样本指标。 2、根据给定的F(t)查表求得概率度 t 。 3、根据概率度和抽样平均误差计算极限误差。 4、计算被估计值的上、下限,对总体参数作出区间估计。 (例题:教材P199)
32
某农场进行小麦产量抽样调查,小麦播种总面积为1万亩,采用不重复简单随机抽样,从中抽选了100亩作为样本进行实割实测,测得样本平均亩产400斤,方差144斤。
例 题 一: (1)以95.45%的可靠性推断该农场小麦平均亩产可能在多少斤之间?若概率保证程度不变,要求抽样允许误差不超过1斤,问至少应抽多少亩作为样本?
33
例题一解题过程: 已知:N= n=100 1、计算抽样平均误差 问题一解: 2、计算抽样极限误差 3、计算总体平均数的置信区间 上限: 下限: 即:以95.45%的可靠性估计该农场小麦平均亩产量在397.62斤至402.38斤之间.
34
问题二解: 已知: 则样本单位数: 即:当 至少应抽544.6亩作为样本。
35
例 题 二: 某纱厂某时期内生产了10万个单位的纱,按纯随机抽样方式抽取2000个单位检验,检验结果合格率为95%,废品率为5%,试以95%的把握程度,估计全部纱合格品率的区间范围及合格品数量的区间范围? 已知: 区间下限: 区间上限:
36
例 题 三: 为调查农民生活状况,在某地区5000户农民中,按不重复简单随机抽样法,抽取400户进行调查,得知这400户中拥有彩色电视机的农户为87户。 要求计算: 1、以95%的把握程度估计该地区全部农户中拥有彩色电视机的农户在多大比例之间? 2、若要求抽样允许误差不超过0.02,其它条件不变,问应抽多少户作为样本?
37
例 题 三 的 问 题 一 解: 已知:N=5000 N=400 1、计算样本成数: 2、计算抽样平均误差:
38
上限: 下限: 3、计算抽样极限误差: 即:以95%的把握程度估计该地区农户中拥有彩电的农户在 4、计算总体P的置信区间:
17.87%至25.63%之间。 上限: 4、计算总体P的置信区间: 下限:
39
例 题 三 的 问 题 二 解: 当 其他条件不变时:
40
第四节 抽样组织设计 一、简单随机抽样 按随机原则直接从总体N个单位中 抽取 n 个单位作为样本。 1、含义: 2、样本单位数的计算方法:
第四节 抽样组织设计 一、简单随机抽样 按随机原则直接从总体N个单位中 抽取 n 个单位作为样本。 1、含义: 2、样本单位数的计算方法: 通过抽样极限误差公式计算必要的样本单位数。 抽样平均数 抽样成数 重复抽样: 不重复抽样:
41
二、类型抽样 先对总体各单位按主要标志加以分组,然后再从各组中按随机的原则抽选一定单位构成样本。 三、等距抽样 先按某一标志对总体各单位进行排队,然后依一定顺序和间隔来抽取样本单位的一种组织形式。 四、整群抽样 将总体各单位划分成许多群,然后从其中随机抽取部分群,对中选群的所有单位进行全面调查的抽样组织形式。
42
本章作业
43
一.判断题 1、从全部总体单位中按照随机原则抽取部分单位组成样本,只可能组成一个样本。( ) ×
44
2、 在抽样推断中,全及指标值是确定的、唯一的,而样本指标值是一个随机变量。( )
√
45
3、抽样成数的特点是:样本成数越大,则抽样平均误差越大。( )
×
46
4、 抽样平均误差总是小于抽样极限误差。( )
×
47
5、在其它条件不变的情况下,提高抽样估计的可靠程度,则降低了抽样估计的精确程度。( )
√
48
6、从全部总体单位中抽取部分单位构成样本,在样本变量相同的情况下,重复抽样构成的样本个数大于不重复抽样构成的样本个数。( )
√
49
7、抽样平均误差反映抽样误差的一般水平,每次抽样的误差可能大于抽样平均误差,也可能小于抽样平均误差。( )
√
50
8、在抽样推断中,抽样误差的概率度越大,则抽样极限误差就越大于抽样平均误差。( )
√
51
9、抽样估计的优良标准有三个: 无偏性、可靠性和一致性。( )
×
52
10、样本单位数的多少与总体各单位标志值的变异程度成反比,与抽样极限误差范围的大小成正比。( )
×
53
11、抽样推断的目的是,通过对部分单位的调查,来取得样本的各项指标。( )
×
54
12、用来测量估计可靠程度的指标是抽样误差的概率度。
( ) √
55
13、总体参数区间估计必须具备三个要素即:估计值、抽样误差范围和抽样误差的概率度。( )
×
56
二.单项选择题部分 1:抽样平均误差是( A )。 A、抽增指标的标准差 B、总体参数的标准差 C、样本变量的函数 D、总体变量的函数
57
2、抽样调查所必须遵循的基本原则是( B )。
A、准确性原则 B、随机性原则 C、可靠性原则 D、灵活性原则
58
3、在简单随机重复抽样条件下,当抽样平均误差缩小为原来的1/2时,则样本单位数为原来的( C )。
A、2倍 B、3倍 C、4倍 D、1/4倍
59
4、按随机原则直接从总体N个单位中抽取n个单位作为样本,这种抽样组织形式是( A )。
B、类型抽样 C、等距抽样 D、整群抽样
60
5、事先将总体各单位按某一标志排列,然后依排列顺序和按相同的间隔来抽选调查单位的抽样称为( C )
A、简单随机抽样 B、类型抽样 C、等距抽样 D、整群抽样
61
6、在一定的抽样平均误差条件下( A )。 A、扩大极限误差范围,可以提高推断的可靠程度 B、扩大极限误差范围,会降低推断的可靠程度 C、缩小极限误差范围,可以提高推断的可靠程度 D、缩小极限误差范围,不改变推断的可靠程度
62
8、反映样本指标与总体指标之间的平均误差程度的指标是( C )。
A、平均数离差 B、概率度 C、抽样平均误差 D、抽样极限误差
63
9、以抽样指标估计总体指标要求抽样指标值的平均数等于被估计的总体指标值本身,这一标准称为( A )。
B、一致性 C、有效性 D、准确性
64
10、在其它条件不变的情况下,提高估计的概率保证程度,其估计的精确程度( B )。
A、随之扩大 B、随之缩小 C、保持不变 D、无法确定
65
11、对某种连续生产的产品进行质量检验,要求每隔一小时抽出10分钟的产品进行检验,这种抽查方式是( D)。
A、简单随机抽样 B、类型抽样 C、等距抽样 D、整群抽样
66
12、抽样误差是指(C )。 A、调查中所产生的登记性误差 B、调查中所产生的系统性误差 C、随机的代表性误差 D、计算过程中产生的误差
67
14、为了了解某工厂职工家庭收支情况,按该厂职工名册依次每50人抽取1 人,对其家庭进行调查,这种调查属于(B )。
A、简单随机抽样 B、等距抽样 C、类型抽样 D、整群抽样
68
15、抽样极限误差和抽样平均误差的数值之间的关系为( A )。
B、抽样极限误差一定大于抽样平均误差 C、抽样极限误差一定小于抽样平均误差 D、抽样极限误差一定等于抽样平均误差
69
三.多项选择题 1、抽样推断的特点是(ABCE ) A、由推算认识总体的一种认识方法 B、按随机原则抽取样板单位 C、运用概率估计的方法 D、可以计算,但不能控制抽样误差 E、可以计算并控制抽样误差
70
2、抽样估计中的抽样误差(ACE ) A、是不可避免要产生的 B、是可以通过改进调查方式来消除的 C、是可以事先计算出来的 D、只能在调查结束后才能计算的 E、其大小是可能控制的
71
3、从总体中抽取样本单位的具体方法有(BC )
A、简单随机抽样 B、重复抽样 C、不重复抽样 D、等距抽样 E、非概率抽样
72
4、抽样推断中,样本容量的多少取决于(ABCE )
A、总体标准差的大小 B、允许误差的大小 C、抽样估计的把握程度 D、总体参数的大小 E、抽样方法和组织形式
73
5、总体参数区间估计必须具备的三个要素是 (BDBDE) A、样本单位数 B、样本指标 C、全及指标 D、抽样误差范围 E、抽样估计的置信度
74
6、用抽样指标估计总体指标,所谓优良估计的标准有
(BCD) A、客观性 B、无偏性 C、一致性 D、有效性 E、优良性
75
7、在抽样平均误差一定的条件下(AD ) A、扩大极限误差,可以提高推断的可靠程度 B、缩小极限误差,可以提高推断的可靠程度 C、扩大极限误差,只能降低推断的可靠程度 D、缩小极限误差,只能降低推断的可靠程度 E、扩大或缩小极限误差与推断的可靠程度无关
76
四.填空题部分 1、抽样推断的主要内容有(参数估计 )和(假设检验)两个方面。
77
2、总体是非标志(0, 1)分布的平均数为(成数P ),其方差为( P(1-P)或PQ )。
78
3、从全及总体中随机抽取样本的办法有(重复抽样 )和(不重复抽样 )两种。
79
4、重复抽样平均误差的大小与(样本单位数 )成反比例关系,又与(标准差)成正比例关系。
80
5、抽样极限误差等于(抽样平均误差 )与(概率度)的乘积。
81
6、总体参数估计有(点估计 )和(区间估计)两种方法。
82
7、抽样误差范围决定估计的(准确性 ),而概率保证程度决定估计的(可靠性 )。
83
问答题: 1、统计抽样推断具有哪些特点? 2、抽样推断中,参数和统计量之间有何区别? 3、什么是抽样误差?影响其大小的因素主要有哪些?
84
六.计算题部分 1、对一批成品按重复抽样方法抽选100件,其中废品4件,当概率为95.45%(t=2)时,可否认为这批产品的废品率不超过6%?
85
2、某乡有5000农户,按随机原则重复抽取100户调查,得平均每户年纯收入12000元,标准差2000元。
要求: (1)以95%的概率(t=1.96)估计全乡平均每户年纯收入的区间。 (2)以同样概率估计全乡农户年纯收入总额的区间范围。
86
3.某企业生产一种新的电子元件,用简单随机重复抽样方法抽取100只作耐用时间试验,测试结果,平均寿命6000小时,标准差300小时,试在95.45%(t=2)概率保证下,估计这种新电子元件平均寿命区间。
87
4、从某年级学生中按简单随机抽样方式抽取50名学生,对邓小平理论课的考试成绩进行检查,得知其平均分数为75.6分,样本标准差10分,试以95.45%的概率保证程度推断全年级学生考试成绩的区间范围。如果其它条件不变,将允许误差缩小一半,应抽取多少名学生?
Similar presentations