乌鲁木齐市高级中学 杨帆 2.2 用样本估计总体 2.2.1 用样本的频率分布估计总体分布 第一课时
乌鲁木齐市高级中学 杨帆 问题提出 1. 随机抽样有哪几种基本的抽样方法? 2. 随机抽样是收集数据的方法,如何通 过样本数据所包含的信息,估计总体的 基本特征,即用样本估计总体,是我们 需要进一步学习的内容. 简单随机抽样、系统抽样、分层抽样.
乌鲁木齐市高级中学 杨帆 3. 高一某班有 50 名学生,在数学必修 ②结业考试后随机抽取 10 名,其考试成 绩如下: 82 , 75 , 61 , 93 , 62 , 55 , 70 , 68 , 85 , 78. 如果要求我们根据上述抽样数据,估 计该班对数学模块②的总体学习水平, 就需要有相应的数学方法作为理论指导, 本节课我们将学习用样本的频率分布估 计总体分布.
乌鲁木齐市高级中学 杨帆
知识探究(一):频率分布表 【问题】 我国是世界上严重缺水的国家 之一,城市缺水问题较为突出,某市政 府为了节约生活用水,计划在本市试行 居民生活用水定额管理,即确定一个居 民月用水量标准 a ,用水量不超过 a 的部 分按平价收费,超出 a 的部分按议价收费. 通过抽样调查,获得 100 位居民 2007 年 的月均用水量如下表(单位: t ):
乌鲁木齐市高级中学 杨帆
乌鲁木齐市高级中学 杨帆 思考 1 :上述 100 个数据中的最大值和最 小值分别是什么?由此说明样本数据的 变化范围是什么? 思考 2 :样本数据中的最大值和最小值 的差称为极差. 如果将上述 100 个数据 按组距为 0.5 进行分组,那么这些数据 共分为多少组? 0.2 ~ 4.3 ( ) ÷0.5=8.2
乌鲁木齐市高级中学 杨帆 思考 3 :以组距为 0.5 进行分组,上述 100 个数据共分为 9 组,各组数据的取值范围 可以如何设定? 思考 4 :如何统计上述 100 个数据在各组 中的频数?如何计算样本数据在各组中 的频率?你能将这些数据用表格反映出 来吗? [0 , 0.5 ), [0.5 , 1 ), [1 , 1.5 ), … , [4 , 4.5].
乌鲁木齐市高级中学 杨帆 分 组 频数累计 频数 频率 [0 , 0.5 ) [0.5 , 1 ) 正 [1 , 1.5 ) 正 正 正 [1.5 , 2 ) 正 正 正 正 [2 , 2.5 ) 正 正 正 正 正 [2.5 , 3 ) 正 正 [3 , 3.5 ) 正 一 [3.5 , 4 ) [4 , 4.5] 合计
乌鲁木齐市高级中学 杨帆 思考 5 :上表称为样本数据的频率分布表, 由此可以推测该市全体居民月均用水量 分布的大致情况,给市政府确定居民月 用水量标准提供参考依据,这里体现了 一种什么统计思想? 用样本的频率分布估计总体分布.
乌鲁木齐市高级中学 杨帆 思考 6 :如果市政府希望 85% 左右的居民每 月的用水量不超过标准,根据上述频率分布 表,你对制定居民月用水量标准(即 a 的取 值)有何建议? 88% 的居民月用水量在 3t 以下,可建议取 a=3. 思考 7 :在实际中,取 a=3t 一定能保证 85% 以 上的居民用水不超标吗?哪些环节可能会导 致结论出现偏差? 分组时,组距的大小可能会导致结论出现偏 差,实践中,对统计结论是需要进行评价的.
乌鲁木齐市高级中学 杨帆 思考 8 :对样本数据进行分组,其组数 是由哪些因素确定的? 思考 9 :对样本数据进行分组,组距的确定没 有固定的标准,组数太多或太少,都会影响 我们了解数据的分布情况. 数据分组的组数与 样本容量有关,一般样本容量越大,所分组 数越多. 按统计原理,若样本的容量为 n ,分 组数一般在( 1+3.3lgn )附近选取. 当样本容 量不超过 100 时,按照数据的多少,常分成 5 ~ 12 组. 若以 0.1 或 1.5 为组距对上述 100 个样 本数据分组合适吗?
乌鲁木齐市高级中学 杨帆 思考 10 :一般地,列出一组样本数据的频率 分布表可以分哪几个步骤进行? 第一步,求极差. (极差 = 样本数据中最大值与最小值的差) 第二步,决定组距与组数. (设 k= 极差 ÷ 组距,若 k 为整数,则组数 =k ,否则,组数 =k+1 ) 第三步,确定分点,将数据分组. 第四步,统计频数,计算频率,制成表格. (频数 = 样本数据落在各小组内的个数, 频率 = 频数 ÷ 样本容量)
乌鲁木齐市高级中学 杨帆 知识探究(二):频率分布直方图 思考 1 :为了直观反映样本数据在各组中 的分布情况,我们将上述频率分布表中 的有关信息用下面的图形表示: 月均用水量 /t 频率 组距 O
乌鲁木齐市高级中学 杨帆 上图称为频率分布直方图,其中横轴表 示月均用水量,纵轴表示频率 / 组距. 频 率分布直方图中各小长方形的和高度在 数量上有何特点? 月均用水量 /t 频率 组距 O 宽度:组距 高度: 频率 组距
乌鲁木齐市高级中学 杨帆 思考 2 :频率分布直方图中各小长方形的 面积表示什么?各小长方形的面积之和 为多少? 月均用水量 /t 频率 组距 O 各小长方形的面积 = 频率 各小长方形的面积之和 =1
乌鲁木齐市高级中学 杨帆 思考 3 :频率分布直方图非常直观地表明 了样本数据的分布情况,使我们能够看 到频率分布表中看不太清楚的数据模式, 但原始数据不能在图中表示出来. 你能根 据上述频率分布直方图指出居民月均用 水量的一些数据特点吗? 月均用水量 /t 频率 组距 O
乌鲁木齐市高级中学 杨帆 ( 1 )居民月均用水量的分布是 “ 山峰 ” 状的,而且 是 “ 单峰 ” 的; 月均用水量 /t 频率 组距 O ( 2 )大部分居民的月均用水量集中在一个中间值 附近,只有少数居民的月均用水量很多或很少; ( 3 )居民月均用水量的分布有一定的对称性等.
乌鲁木齐市高级中学 杨帆 思考 4 :样本数据的频率分布直方图是 根据频率分布表画出来的,一般地,频 率分布直方图的作图步骤如何? 第一步,画平面直角坐标系. 第二步,在横轴上均匀标出各组分点, 在纵轴上标出单位长度. 第三步,以组距为宽,各组的频率与 组距的商为高,分别画出各组对应的 小长方形.
乌鲁木齐市高级中学 杨帆 思考 5 :对一组给定的样本数据,频率分 布直方图的外观形状与哪些因素有关? 在居民月均用水量样本中,你能以 1 为组 距画频率分布直方图吗? 与分组数(或组距)及坐标系的单位长 度有关. 月均用水量 /t 频率 组距 O
乌鲁木齐市高级中学 杨帆 理论迁移 例 某地区为了了解知识分子的年龄结构, 随机抽样 50 名,其年龄分别如下: 42 , 38 , 29 , 36 , 41 , 43 , 54 , 43 , 34 , 44 , 40 , 59 , 39 , 42 , 44 , 50 , 37 , 44 , 45 , 29 , 48 , 45 , 53 , 48 , 37 , 28 , 46 , 50 , 37 , 44 , 42 , 39 , 51 , 52 , 62 , 47 , 59 , 46 , 45 , 67 , 53 , 49 , 65 , 47 , 54 , 63 , 57 , 43 , 46 , 58. (1) 列出样本频率分布表; (2) 画出频率分布直方图; (3) 估计年龄在 32 ~ 52 岁的知识分子所占的比例 约是多少.
乌鲁木齐市高级中学 杨帆 (1) 极差为 67-28=39 ,取组距为 5 ,分为 8 组. 分 组 频数 频率 [27 , 32 ) [32 , 37 ) [37 , 42 ) [42 , 47 ) [47 , 52 ) [52 , 57 ) [57 , 62 ) [62 , 67 ) 合 计 样本频率分布表:
乌鲁木齐市高级中学 杨帆 ( 2 )样本频率分布直方图: 年龄 频率 组距 O ( 3 )因为 =0.7 , 故 年龄在 32 ~ 52 岁的知识分子约占 70%.
乌鲁木齐市高级中学 杨帆 小结作业 1. 频率分布是指一个样本数据在各个小范围 内所占比例的大小,总体分布是指总体取值 的频率分布规律. 我们通常用样本的频率分 布表或频率分布直方图去估计总体的分布. 2. 频率分布表和频率分布直方图,是对相同 数据的两种不同表达方式. 用紧凑的表格改变 数据的排列方式和构成形式,可展示数据的 分布情况. 通过作图既可以从数据中提取信息, 又可以利用图形传递信息.
乌鲁木齐市高级中学 杨帆 3. 样本数据的频率分布表和频率分布直方 图,是通过各小组数据在样本容量中所占 比例大小来表示数据的分布规律,它可以 让我们更清楚的看到整个样本数据的频率 分布情况,并由此估计总体的分布情况. 作业: P71 练习: 1. ( 1 ). P81 习题 2.2A 组: 2.