2.2.1 用样本的频率分布 估计总体分布 1 、用样本去估计总体,是研究统计问题的一个基本思想 2 、前面我们学过的抽样方法有 : 简单随机抽样、系统抽 样、分层抽样。要注意这几种抽样方法的联系与区别。 3 、 初中时我们学习过样本的频率分布,包括频数、 频率的概念,频数分布表和频数分布直方图的制作。
频率分布 样本中所有数据(或数据组)的频数和 样本容量的比,叫做该数据的频率。 频率分布的表示形式有: ①样本频率分布表 ②样本频率分布图 样本频率分布条形图 样本频率分布直方图 ③样本频率分布折线图 所有数据(或数据组)的频数的分布 变化规律叫做样本的频率分布。
1 、抛掷硬币的大量重复试验的结果: 反面向上 正面向上 频率 频数实验结果 样本容量为 频率分布条形图 试验结果 频率 “ 正面向上 ” 记为 0 “ 反面向上 ” 记为 1 频率分布表: 注意: ① 各长方形长条的宽度要相同。 ②相邻长条的间距要适当。 结论:当试验次数 无限增大时,两种试验 结果的频率大致相等。 ③长方形长条的高度 表示取各值的频率。
归纳 1 :当总体中的个体所取的不同数值较少 时,其随机变量是离散型。则样本的频率分布表 示形式有: 试验结果 频率 ( 2 )频率分布条形图 试验结果频数频率 ( 1 )样本频率分布表
例 1. 为检测某种产品的质量,抽取了一个容量为 30 的样本, 检测结果为一级品 5 件,二级品 8 件,三级品 13 件,次品 4 件. (1) 列出样本的频率分布表; (2) 画出表示样本频率分布的条形图; (3) 根据上述结果,估计此种产品为二级品或三级品的概率约 是多少. 解: ( 1 )样本的频率分布表为: 次品 三级品 二级品 一级品 频率频数产品 解: ( 2 )样本频率分布 的条形图为: 一级品 二级品 产品 频率 三级品次品 (3) 此种产品为二级品或三级品的概率约为 0.27 + 0.43 = 0.7 .
知识探究(一):频率分布表 【问题】 我国是世界上严重缺水的国 家之一,城市缺水问题较为突出,某市 政府为了节约生活用水,计划在本市试 行居民生活用水定额管理,即确定一个 居民月用水量标准 a ,用水量不超过 a 的 部分按平价收费,超出 a 的部分按议价 收费. 通过抽样调查,获得 100 位居民 2007 年的月均用水量如下表(单位: t ):
显然:这个例子与前面抛掷硬币的问题是不同的,这 里的总体可以在一个实数区间取值,称为连续型总体。 样本的频率分布表示形式有: 频率分布表 和 频率分布直方图
1. 极差:样本数据中的最大值和最小 值的差称为极差 2. 确定组距,组数:. 如果将上述 100 个数据按组距为 0.5 进行分组, 那么这些数据共分为多少组? 0.2 ~ 4.3 ( ) ÷0.5=8.2
3 将数据分组,决定分点:以组距为 0.5 进行分组,上述 100 个数据共分为 9 组, 各组数据的取值范围可以如何设定? 4 画频率分布表:如何统计上述 100 个数 据在各组中的频数?如何计算样本数据 在各组中的频率?你能将这些数据用表 格反映出来吗? [0 , 0.5 ), [0.5 , 1 ), [1 , 1.5 ), … , [4 , 4.5].
分 组 频数累计 频数 频率 [0 , 0.5 ) [0.5 , 1 ) 正 [1 , 1.5 ) 正 正 正 [1.5 , 2 ) 正 正 正 正 [2 , 2.5 ) 正 正 正 正 正 [2.5 , 3 ) 正 正 [3 , 3.5 ) 正 一 [3.5 , 4 ) [4 , 4.5] 合计
知识探究(二):频率分布直方图 5 画频率分布直方图 为了直观反映样本 数据在各组中的分布情况,我们将上述 频率分布表中的有关信息用下面的图形 表示: 月均用水量 /t 频率 组距 O
上图称为频率分布直方图,其中横轴表 示月均用水量,纵轴表示频率 / 组距. 频 率分布直方图中各小长方形的宽度和高 度在数量上有何特点? 月均用水量 /t 频率 组距 O 宽度:组距 高度: 频率 组距 2 图形的意义
图形的意义:频率分布直方图中各小长 方形的面积表示什么?各小长方形的面 积之和为多少? 各小长方形的面积 = 频率 各小长方形的面积之和 =1 月均用水量 /t 频率 组距 O 宽度:组距 高度: 频率 组距
3 分析例题:频率分布直方图非常直观 地表明了样本数据的分布情况,使我们 能够看到频率分布表中看不太清楚的数 据模式,但原始数据不能在图中表示出 来. 你能根据上述频率分布直方图指出居 民月均用水量的一些数据特点吗? 月均用水量 /t 频率 组距 O
( 1 )居民月均用水量的分布是 “ 山峰 ” 状的,而且 是 “ 单峰 ” 的; ( 2 )大部分居民的月均用水量集中在一个中间值 附近,只有少数居民的月均用水量很多或很少; ( 3 )居民月均用水量的分布有一定的对称性等. 月均用水量 /t 频率 组距 O
思考:对一组给定的样本数据,频率分 布直方图的外观形状与哪些因素有关? 在居民月均用水量样本中,你能以 1 为组 距画频率分布直方图吗? 与分组数(或组距)及坐标系的单位长 度有关. 月均用水量 /t 频率 组距 O
1 、求极差 ( 即一组数据中最大值与最小值的差 ) 知道这组数据的变动范围 =4.1 2 、决定组距与组数(将数据分组) 3 、 将数据分组 (8.2 取整, 分为 9 组 ) 画频率分布直方图的步骤 4 、列出频率分布表.( 填写频率 / 组距一栏 ) 5 、画出频率分布直方图。 组距:指每个小组的两个端点的距离,组距 组数:将数据分组,当数据在 100 个以内时, 按数据多少常分 5-12 组。 小结
频率分布的条形图和频率分布直方图的区别 两者是不同的概念; 横轴:两者表示内容相同 思考: 频率分布条形图和频率分布直方图是两个 相同的概念吗? 有什么区别? 纵轴:两者表示的内容不相同 频率分布条形图的纵轴(长方形的高)表示频率 频率分布直方图的纵轴(长方形的高)表示 频率与组距的比值, 其相应组距上的频率等于该组距上长方形的面积。
理论迁移 例 某地区为了了解知识分子的年龄结构, 随机抽样 50 名,其年龄分别如下: 42 , 38 , 29 , 36 , 41 , 43 , 54 , 43 , 34 , 44 , 40 , 59 , 39 , 42 , 44 , 50 , 37 , 44 , 45 , 29 , 48 , 45 , 53 , 48 , 37 , 28 , 46 , 50 , 37 , 44 , 42 , 39 , 51 , 52 , 62 , 47 , 59 , 46 , 45 , 67 , 53 , 49 , 65 , 47 , 54 , 63 , 57 , 43 , 46 , 58. (1) 列出样本频率分布表; (2) 画出频率分布直方图; (3) 估计年龄在 32 ~ 52 岁的知识分子所占的比例 约是多少.
(1) 极差为 67-28=39 ,取组距为 5 ,分为 8 组. 分 组 频数 频率 [27 , 32 ) [32 , 37 ) [37 , 42 ) [42 , 47 ) [47 , 52 ) [52 , 57 ) [57 , 62 ) [62 , 67 ) 合 计 样本频率分布表:
( 2 )样本频率分布直方图: 年龄 频率 组距 O ( 3 )因为 =0.7 , 故年龄在 32 ~ 52 岁的知识分子约占 70%.
次数 o 频率 / 组距 〖例 2 〗:为了了解高一学生的体能 情况, 某校抽取部分学生进行一分钟 跳绳次数次测试,将所得数据整理 后,画出频率分布直方图 ( 如图 ) ,图 中从左到右各小长方形面积之比为 2 : 4 : 17 : 15 : 9 : 3 ,第二小组频 数为 12. (1) 第二小组的频率是多少?样本容 量是多少? (2) 若次数在 110 以上(含 110 次)为 达标,试估计该学校全体高一学生 的达标率是多少?
频率分布直方图如下: 月均用水量 /t 频率 组距 连接频率分布直方图中 各小长方形上端的中点, 得到频率分布折线图
利用样本频分布对总体分布进行相应估计 ( 2 )样本容量越大,这种估计越精确。 ( 1 )上例的样本容量为 100 ,如果增至 1000 , 其频率分布直方图的情况会有什么变化?假如增 至 呢?
总体密度曲线 频率 组距 月均用 水量 /t a b (图中阴影部分的面积,表示总体在 某个区间 (a, b) 内取值的百分比)。 当样本容量无限增大,分组的组距无限缩小,那么 频率分布折线图就会无限接近一条光滑曲线 —— 总体密 度曲线. 总体密度曲线
用样本分布直方图去估计相应的总体分布时, 一般样本容量越大,频率分布直方图就会无限接 近总体密度曲线,就越精确地反映了总体的分布 规律,即越精确地反映了总体在各个范围内取值 百分比。 总体密度曲线反映了总体在各个范围内取值的 百分比, 精确地反映了总体的分布规律。是研究总 体分布的工具. 总体密度曲线
茎 叶 图茎 叶 图 某赛季甲、乙两名篮球运动员每场比赛得分的 原始记录如下: (1) 甲运动员得分 : 13, 51, 23, 8, 26, 38, 16, 33, 14, 28, 39 (2) 乙运动员得分: 49 , 24 , 12 , 31 , 50 , 31 , 44 , 36 , 15 , 37 , 25 , 36 , 39
甲 乙 注:中间的数字表示得分的十位数字。 旁边的数字分别表示两个人得分的 个位数。
茎叶图 当样本数据较少时,用茎叶 图表示数据的效果较好,它不但 可以保留所有的信息,而且 可以 随时记录,给数据的记录和表示 都方便。
练习:某中学高一( 2 )班甲,乙两 名同学自高中以来每场数学考试成 绩情况如下: 甲的得分: 95 , 81 , 75 , 91 , 86 , 89 , 71 , 65 , 76 , 88 , 94 乙的得分: 83 , 86 , 93 , 99 , 88 , 96 , 98 , 98 , 79 , 85 , 97 画出两人数学成绩茎叶图,请根据 茎叶图对两人的成绩进行比较。
小 结 图形 优点 缺点 频率分布 1 )易表示大量数据 丢失一些 直方图 2 )直观地表明分布地 情况 信息 1 )无信息损失 只能处理样本 茎页图 2 )随时记录方便记录和表示 容量较小数据
课堂小结 表示样本分布的方法: ( 1 )频率分布表 ( 2 )频率分布图(包括直方图和条形图) ( 3 )频率分布折线图 ( 4 )茎叶图
1. 频率分布表 表示样本的分布的方法: 分组个数累计频数频率 频率 / 组距 产品尺寸 (mm) 2. 频率分布直方图 样本频率分布中, 当样本容量无限增 大,组距无限缩小 样本频率分布直方图接近 于一条光滑曲线 —— 总体 密度曲线,反映了总体分 布。 3. 频率分布折线图
1. 总体分布指的是总体取值的频率分布规律, 由于总体分布不易知道,因此我们往往用样本 的频率分布去估计总体的分布。 2. 总体的分布分两种情况:当总体中的个体取 值很少时,用茎叶图估计总体的分布;当总体 中的个体取值较多时,将样本数据恰当分组, 用各组的频率分布描述总体的分布,方法是用 频率分布表或频率分布直方图。 小结