Download presentation
Presentation is loading. Please wait.
1
乌鲁木齐市高级中学 杨帆 2.2 用样本估计总体 2.2.1 用样本的频率分布估计总体分布 第一课时
2
乌鲁木齐市高级中学 杨帆 问题提出 1. 随机抽样有哪几种基本的抽样方法? 2. 随机抽样是收集数据的方法,如何通 过样本数据所包含的信息,估计总体的 基本特征,即用样本估计总体,是我们 需要进一步学习的内容. 简单随机抽样、系统抽样、分层抽样.
3
乌鲁木齐市高级中学 杨帆 3. 高一某班有 50 名学生,在数学必修 ②结业考试后随机抽取 10 名,其考试成 绩如下: 82 , 75 , 61 , 93 , 62 , 55 , 70 , 68 , 85 , 78. 如果要求我们根据上述抽样数据,估 计该班对数学模块②的总体学习水平, 就需要有相应的数学方法作为理论指导, 本节课我们将学习用样本的频率分布估 计总体分布.
4
乌鲁木齐市高级中学 杨帆
5
知识探究(一):频率分布表 【问题】 我国是世界上严重缺水的国家 之一,城市缺水问题较为突出,某市政 府为了节约生活用水,计划在本市试行 居民生活用水定额管理,即确定一个居 民月用水量标准 a ,用水量不超过 a 的部 分按平价收费,超出 a 的部分按议价收费. 通过抽样调查,获得 100 位居民 2007 年 的月均用水量如下表(单位: t ):
6
乌鲁木齐市高级中学 杨帆 3.1 2.5 2.0 2.0 1.5 1.0 1.6 1.8 1.9 1.6 3.4 2.6 2.2 2.2 1.5 1.2 0.2 0.4 0.3 0.4 3.2 2.7 2.3 2.1 1.6 1.2 3.7 1.5 0.5 3.8 3.3 2.8 2.3 2.2 1.7 1.3 3.6 1.7 0.6 4.1 3.2 2.9 2.4 2.3 1.8 1.4 3.5 1.9 0.8 4.3 3.0 2.9 2.4 2.4 1.9 1.3 1.4 1.8 0.7 2.0 2.5 2.8 2.3 2.3 1.8 1.3 1.3 1.6 0.9 2.3 2.6 2.7 2.4 2.1 1.7 1.4 1.2 1.5 0.5 2.4 2.5 2.6 2.3 2.1 1.6 1.0 1.0 1.7 0.8 2.4 2.8 2.5 2.2 2.0 1.5 1.0 1.2 1.8 0.6 2.2
7
乌鲁木齐市高级中学 杨帆 思考 1 :上述 100 个数据中的最大值和最 小值分别是什么?由此说明样本数据的 变化范围是什么? 思考 2 :样本数据中的最大值和最小值 的差称为极差. 如果将上述 100 个数据 按组距为 0.5 进行分组,那么这些数据 共分为多少组? 0.2 ~ 4.3 ( 4.3-0.2 ) ÷0.5=8.2
8
乌鲁木齐市高级中学 杨帆 思考 3 :以组距为 0.5 进行分组,上述 100 个数据共分为 9 组,各组数据的取值范围 可以如何设定? 思考 4 :如何统计上述 100 个数据在各组 中的频数?如何计算样本数据在各组中 的频率?你能将这些数据用表格反映出 来吗? [0 , 0.5 ), [0.5 , 1 ), [1 , 1.5 ), … , [4 , 4.5].
9
乌鲁木齐市高级中学 杨帆 分 组 频数累计 频数 频率 [0 , 0.5 ) 4 0.04 [0.5 , 1 ) 正 8 0.08 [1 , 1.5 ) 正 正 正 15 0.15 [1.5 , 2 ) 正 正 正 正 22 0.22 [2 , 2.5 ) 正 正 正 正 正 25 0.25 [2.5 , 3 ) 正 正 14 0.14 [3 , 3.5 ) 正 一 6 0.06 [3.5 , 4 ) 4 0.04 [4 , 4.5] 2 0.02 合计 100 1.00
10
乌鲁木齐市高级中学 杨帆 思考 5 :上表称为样本数据的频率分布表, 由此可以推测该市全体居民月均用水量 分布的大致情况,给市政府确定居民月 用水量标准提供参考依据,这里体现了 一种什么统计思想? 用样本的频率分布估计总体分布.
11
乌鲁木齐市高级中学 杨帆 思考 6 :如果市政府希望 85% 左右的居民每 月的用水量不超过标准,根据上述频率分布 表,你对制定居民月用水量标准(即 a 的取 值)有何建议? 88% 的居民月用水量在 3t 以下,可建议取 a=3. 思考 7 :在实际中,取 a=3t 一定能保证 85% 以 上的居民用水不超标吗?哪些环节可能会导 致结论出现偏差? 分组时,组距的大小可能会导致结论出现偏 差,实践中,对统计结论是需要进行评价的.
12
乌鲁木齐市高级中学 杨帆 思考 8 :对样本数据进行分组,其组数 是由哪些因素确定的? 思考 9 :对样本数据进行分组,组距的确定没 有固定的标准,组数太多或太少,都会影响 我们了解数据的分布情况. 数据分组的组数与 样本容量有关,一般样本容量越大,所分组 数越多. 按统计原理,若样本的容量为 n ,分 组数一般在( 1+3.3lgn )附近选取. 当样本容 量不超过 100 时,按照数据的多少,常分成 5 ~ 12 组. 若以 0.1 或 1.5 为组距对上述 100 个样 本数据分组合适吗?
13
乌鲁木齐市高级中学 杨帆 思考 10 :一般地,列出一组样本数据的频率 分布表可以分哪几个步骤进行? 第一步,求极差. (极差 = 样本数据中最大值与最小值的差) 第二步,决定组距与组数. (设 k= 极差 ÷ 组距,若 k 为整数,则组数 =k ,否则,组数 =k+1 ) 第三步,确定分点,将数据分组. 第四步,统计频数,计算频率,制成表格. (频数 = 样本数据落在各小组内的个数, 频率 = 频数 ÷ 样本容量)
14
乌鲁木齐市高级中学 杨帆 知识探究(二):频率分布直方图 思考 1 :为了直观反映样本数据在各组中 的分布情况,我们将上述频率分布表中 的有关信息用下面的图形表示: 月均用水量 /t 频率 组距 0.5 0.4 0.3 0.2 0.1 0.5 1 1.5 2 2.5 3 3.5 4 4.5 O
15
乌鲁木齐市高级中学 杨帆 上图称为频率分布直方图,其中横轴表 示月均用水量,纵轴表示频率 / 组距. 频 率分布直方图中各小长方形的和高度在 数量上有何特点? 月均用水量 /t 频率 组距 0.5 0.4 0.3 0.2 0.1 0.5 1 1.5 2 2.5 3 3.5 4 4.5 O 宽度:组距 高度: 频率 组距
16
乌鲁木齐市高级中学 杨帆 思考 2 :频率分布直方图中各小长方形的 面积表示什么?各小长方形的面积之和 为多少? 月均用水量 /t 频率 组距 0.5 0.4 0.3 0.2 0.1 0.5 1 1.5 2 2.5 3 3.5 4 4.5 O 各小长方形的面积 = 频率 各小长方形的面积之和 =1
17
乌鲁木齐市高级中学 杨帆 思考 3 :频率分布直方图非常直观地表明 了样本数据的分布情况,使我们能够看 到频率分布表中看不太清楚的数据模式, 但原始数据不能在图中表示出来. 你能根 据上述频率分布直方图指出居民月均用 水量的一些数据特点吗? 月均用水量 /t 频率 组距 0.5 0.4 0.3 0.2 0.1 0.5 1 1.5 2 2.5 3 3.5 4 4.5 O
18
乌鲁木齐市高级中学 杨帆 ( 1 )居民月均用水量的分布是 “ 山峰 ” 状的,而且 是 “ 单峰 ” 的; 月均用水量 /t 频率 组距 0.5 0.4 0.3 0.2 0.1 0.5 1 1.5 2 2.5 3 3.5 4 4.5 O ( 2 )大部分居民的月均用水量集中在一个中间值 附近,只有少数居民的月均用水量很多或很少; ( 3 )居民月均用水量的分布有一定的对称性等.
19
乌鲁木齐市高级中学 杨帆 思考 4 :样本数据的频率分布直方图是 根据频率分布表画出来的,一般地,频 率分布直方图的作图步骤如何? 第一步,画平面直角坐标系. 第二步,在横轴上均匀标出各组分点, 在纵轴上标出单位长度. 第三步,以组距为宽,各组的频率与 组距的商为高,分别画出各组对应的 小长方形.
20
乌鲁木齐市高级中学 杨帆 思考 5 :对一组给定的样本数据,频率分 布直方图的外观形状与哪些因素有关? 在居民月均用水量样本中,你能以 1 为组 距画频率分布直方图吗? 与分组数(或组距)及坐标系的单位长 度有关. 月均用水量 /t 频率 组距 0.4 0.3 0.2 0.1 1 2 3 4 5 O
21
乌鲁木齐市高级中学 杨帆 理论迁移 例 某地区为了了解知识分子的年龄结构, 随机抽样 50 名,其年龄分别如下: 42 , 38 , 29 , 36 , 41 , 43 , 54 , 43 , 34 , 44 , 40 , 59 , 39 , 42 , 44 , 50 , 37 , 44 , 45 , 29 , 48 , 45 , 53 , 48 , 37 , 28 , 46 , 50 , 37 , 44 , 42 , 39 , 51 , 52 , 62 , 47 , 59 , 46 , 45 , 67 , 53 , 49 , 65 , 47 , 54 , 63 , 57 , 43 , 46 , 58. (1) 列出样本频率分布表; (2) 画出频率分布直方图; (3) 估计年龄在 32 ~ 52 岁的知识分子所占的比例 约是多少.
22
乌鲁木齐市高级中学 杨帆 (1) 极差为 67-28=39 ,取组距为 5 ,分为 8 组. 分 组 频数 频率 [27 , 32 ) 3 0.06 [32 , 37 ) 3 0.06 [37 , 42 ) 9 0.18 [42 , 47 ) 16 0.32 [47 , 52 ) 7 0.14 [52 , 57 ) 5 0.10 [57 , 62 ) 4 0.08 [62 , 67 ) 3 0.06 合 计 50 1.00 样本频率分布表:
23
乌鲁木齐市高级中学 杨帆 ( 2 )样本频率分布直方图: 年龄 0.06 0.05 0.04 0.03 0.02 0.01 27 32 37 42 47 52 57 62 67 频率 组距 O ( 3 )因为 0.06+0.18+0.32+0.14=0.7 , 故 年龄在 32 ~ 52 岁的知识分子约占 70%.
24
乌鲁木齐市高级中学 杨帆 小结作业 1. 频率分布是指一个样本数据在各个小范围 内所占比例的大小,总体分布是指总体取值 的频率分布规律. 我们通常用样本的频率分 布表或频率分布直方图去估计总体的分布. 2. 频率分布表和频率分布直方图,是对相同 数据的两种不同表达方式. 用紧凑的表格改变 数据的排列方式和构成形式,可展示数据的 分布情况. 通过作图既可以从数据中提取信息, 又可以利用图形传递信息.
25
乌鲁木齐市高级中学 杨帆 3. 样本数据的频率分布表和频率分布直方 图,是通过各小组数据在样本容量中所占 比例大小来表示数据的分布规律,它可以 让我们更清楚的看到整个样本数据的频率 分布情况,并由此估计总体的分布情况. 作业: P71 练习: 1. ( 1 ). P81 习题 2.2A 组: 2.
Similar presentations