美国历届总统中,就任时年纪最小的是罗斯福, 他于 1901 年就任,当时年仅 42 岁;就任时年纪最大 的是里根,他于 1981 年就任,当时 69 岁,下面按时 间顺序 ( 从 1789 年的华盛顿到 2009 年的奥巴马,共 44 任 ) 给出了历届美国总统就任时的年龄:
57,61,57,57,58,57,61,54,68,51,49,64,50, 48,65,52,56,46,54,49,51,47,55,55,54,42, 51,56,55,51,54,51,60,62,43,55,56,61,52, 69,64,46,54,48
问题 1 :上述 44 个数据中最大值与最小值的差是多少? 提示: 69 - 42 = 27 问题 2 :若将上述数据分成下列几组. [41.5,45.5) , [45.5,49.5) , [49.5,53.5)[53.5,57.5) , [57.5,61.5)[61.5,65.5) , [65.5,69.5) .各组中数据个数是多少? 提示:各组数据的个数为 2,7,8,16,5,4,2.
问题 3 :在直角坐标系中,能否将各组统计的 数据直观地表示出来? 提示:可以
1 .用样本估计总体的两种情况 (1) 用样本的 估计总体分布. (2) 用样本的 估计总体数字特征. 2 .绘制频率分布直方图的步骤 (1) 求极差:即一组数据中 的差. 频率分布 数字特征 最大值与最小值
5 ~ 12 k 左闭右开 闭
分组 频数累计频数频率 合计 样本容量 1 (4) 列频率分布表:一般分四列: 、 、 、 ,最后一行是 ,其中频数合计 应是 ,频率合计应是.
频率 / 组距 各小长方形的面积 1
3 .频率分布折线图和总体密度曲线 (1) 频率分布折线图: 连接频率分布直方图中各小长方形 ,就得到 了频率分布折线图. 上端的中点
(2) 总体密度曲线: 随着样本容量的增加,作图时所分的组数也在增 加,组距减小,相应的频率分布折线图就会越来越 接近于一条 ,统计中称之为总体密度曲线, 它反映了总体在各个范围内取值的百分比. 光滑曲线
甲、乙两个小组各 10 名学生的英语口语测试成绩 ( 单位:分 ) 如下: 甲组: ; 乙组: ;
问题 1 :从甲、乙两组得分情况能否得出甲、乙两 组哪组的成绩更整齐? 提示:能.甲组的成绩更整齐 问题 2 :上述两组数据能否用图形直观地分析? 提示:能
茎叶图的制作步骤 1 .将数据分为 和 两部分. 2 .将最大茎和最小茎之间的数据按 ,写在中间位置. 3 .将各个数据的 写在其茎右 ( 左 ) 侧. 大小次序 排成一列 茎叶 叶
1 .频率分布直方图中,各小长方形面积之和为 1. 从频率分布直方图中,可清楚看到数据分布的形状. 2 .总体密度曲线一般的分布规律是呈中间高,两边 低的山峰形态分布,总体的数据大致呈对称分布,并且 大部分数据都集中在靠近中间的区间内.它反映了总体 在各个范围内取值的百分比,它能给我们提供更加精细 的信息.
3 .茎叶图主要是针对数据不多的样本,它不但可以保 留原始数据,而且可以随时记录,但样本数据较多或数 据位数较多时,不方便使用.
[ 例 1] 调查某校高一年级男生的身高,随机抽取 40 名高三男生,实测身高数据 ( 单位: cm) 如下:
(1) 作出频率分布表: (2) 画出频率分布直方图. [ 思路点拨 ] 找出此组数据的最大值和最小值,确 定分组的组距和组数,列出频数分布表,再由频率 分布表绘制频率分布直方图.
[ 精解详析 ] (1) 最低身高 151 cm ,最高身高 180 cm , 它们的差是 180 - 151 = 29 ,即极差为 29 ; 确定组距为 4 ,组数为 8 ,频率分布表如下:
分组频数频率 [150.5,154.5) [154.5,158.5) [158.5,162.5) [162.5,166.5) [166.5,170.5) [170.5,174.5) [174.5,178.5) [178.5,182.5) 合计
(2) 频率分布直方图如下.
2 .组距和组数的确定没有固定的标准,将数据 分组时,组数力求合适,纵使数据的分布规律能较 清楚地呈现出来,组数太多或太少,都会影响我们 了解数据的分布情况,若样本容量不超过 100 ,按 照数据的多少常分为 5 ~ 12 组,一般样本容量越大, 所分组数越多.
1. 如图所示是一容量为 100 的样本的频 率分布直方图,则由图形中的数据, 样本落在 [15,20] 内的频数为 ( ) A . 20 B . 30 C . 40 D . 50
解析:样本落在 [15,20] 内的频率是 1 - 5(0.04 + 0.1) = 0.3 ,则样本落在 [15,20] 内的频数为 0.3×100 = 30. 答案: B
2 .一个容量为 20 的样本,分组后,组距与频数如下: [10,20] , 2 ; (20,30] , 3 ; (30,40] , 4 ; (40,50] , 5 ; (50,60] , 4 ; (60,70] , 2. 则样本在 [10,50] 上的频率 为 ________ . 答案: 0.7
3 .以下是某篮球运动员在 80 场比赛中的得分情况:
如果将这 80 个数据分为 8 组,能否作出这组数 据的频率分布表?若能,请作出频率分布直 方图和频率分布折线图.
解:由题意可知这 80 个数据中最小值为 4 ,最大 值为 41 ,其差为 37 ,即极差为 37. 故根据题意可取 区间 [3,42] ,将其分为 8 个区间,组距为 5. 这组数 据的频率分布表如下:
分组频数频率 [3,8) [8,13) [13,18) [18,23) [23,28) [28,33) [33,38) [38,43) 合计
频率分布直方图及频率分布折线图如图所示.
[ 例 2] 某良种培育基地正在培养一种小麦新品种 A ,将 其与原有一个优良品种 B 进行对照实验,两种小麦各种 植了 25 亩,所得亩产数数据 ( 单位:千克 ) 如下: 品种 A : 357,359,367,368,375,388,392,399,400,405, 412,414,415,421,423,423,427,430,430,434,443,445,4 45,451,454 品种 B : 363,371,374,383,385,386,391,392,394,394, 395,397,397,400,401,401,403,406,407,410,412,415,4 16,422,430
(1) 画出两组数据的茎叶图; (2) 用茎叶图处理现有的数据,有什么优点? (3) 通过观察茎叶图,对品种 A 与 B 的亩产量用其稳定 性进行比较,写出统计结论. [ 思路点拨 ] 先根据茎叶图的绘制方法绘茎叶图再根 据茎叶图判断亩产量的稳定性.
[ 精解详析 ] (1) 茎叶图如图所示.
(2) 用茎叶图处理现有的数据不但可以看出数据的分布 情况,而且可以看出每组中的具体数据. (3) 通过观察茎叶图,可以发现品种 A 的平均亩产量约 为 千克,品种 B 的平均亩产量为 千克.由此 可知品种 A 的平均亩产量比品种 B 的平均亩产量高,但 品种 A 的亩产量不够稳定,而品种 B 的亩产量比较集中 在平均亩产量附近.
[ 一点通 ] 绘制茎叶图的关键是分清茎和叶,一般地 说数据是两位数时,十位数字为 “ 茎 ” ,个位数字为 “ 叶 ” ; 如果是小数的,通常把整数部分作为 “ 茎 ” ,小数部分作 为 “ 叶 ” ,解题时要根据数据的特点合理选择茎和叶.
4. 如图是 2002 年至 2011 年某省城镇居民 百户家庭人口数的茎叶图.图中左边 的数字从左到右分别表示城镇居民百 户家庭人口数的百位数字和十位数字,右边的数字表 示城镇居民百户家庭人口数的个位数字.从图中可以 得到 2002 年至 2011 年该省城镇居民百户家庭人口数的 中位数为 ( )
A . 304 B . 303 C . 302 D . 306 答案: A
5 .为了调查甲、乙两个网站受欢迎的程度,随 机选取了 14 天,统计上午 8 ∶ 00 ~ 10 ∶ 00 间各 自的点击量,得到如图所示的茎叶图,根据 茎叶图解答下列问题:
(1) 求甲网站点击量的中位数和乙网站点击量的极差; (2) 求甲网站点击量在 [10,40] 间的频数和频率; (3) 请你估计甲、乙两网站哪个更受欢迎?并说明理由.
(3) 观察茎叶图,得甲网站的点击量集中在茎叶图的 下方,而乙网站的点击量集中在茎叶图的上方,从 数据的分布情况来看,甲的平均数大于乙的平均数, 所以甲网站更受欢迎.
[ 例 3] 为了解某校高一年级学生的体能情况,抽取部分 学生进行一分钟跳绳测试,将所得数据整理后,画出频 率分布直方图 ( 如图 ) ,图中从左到右各小长方形的面积之 比为 2 ∶ 4 ∶ 17 ∶ 15 ∶ 9 ∶ 3 ,第二小组的频数为 12.
(1) 第二小组的频率是多少?样本容量是多少? (2) 若次数在 110 以上 ( 含 110) 为达标,则该校全体高 一年级学生的达标率是多少? [ 思路点拨 ] (1) 利用频率值等于对应小长方形面积来 确定. (2) 满足条件的频率之和即为达标率.
[ 一点通 ] 1 .频率分布直方图的性质: (1) 因为小矩形的面积=组距 × 频率 / 组距=频率,所以各 小矩形的面积表示相应各组的频率.这样,频率分布直方图 就以面积的形式反映了数据落在各个小组内的频率大小. (2) 在频率分布直方图中,各小矩形的面积之和等于 1. (3) 频数 / 相应的频率=样本容量.
2 .频率分布直方图反映了样本在各个范围内 取值的可能性,由抽样的代表性利用样本 在某一范围内的频率,可近似地估计总体 在这一范围内的可能性.
6 .某工厂对一批产品进行了抽样检测.如图是根据抽 样检测后的产品净重 ( 单位:克 ) 数据绘制的频率分布 直方图,其中产品净重的范围是 [96,106] ,样本数据 分组为 [96,98) , [98,100) , [100,102) , [102,104) , [104,106] .已知样本中产品净重小于 100 克的个数 是 36 ,则样本中净重大于或等于 98 克并且小于 104 克的产品的个数是 ( )
A . 90 B . 75 C . 60 D . 45
答案: A
7. 已知 200 辆汽车通过某一段公 路时的时速的频率分布直方图 如图所示,时速在 [60,70) 的 汽车大约有 ________ 辆.
解析:由图可知,时速在 [60,70) 的汽车的频率为 0.04×10 = 0.4 , ∴时速在 [60,70) 的汽车大约有 200×0.4 = 80 辆. 答案: 80
方法优点缺点 频率分 布表 在数量表示上 比较确切 不够直观形象,损失了样本 的一些信息,分析数据分布 的总体趋势变化不太方便 1. 几种表示样本分布方法的比较:
方法优点缺点 频率分 布直方 图 能够很容易地表示大量 数据,非常直观地表示 数据分布的形状,使我 们看到在频率分布表中 看不清楚的数据模式 从直方图本身不能得 出原始的数据内容, 把数据表示成直方图 后,原有的数据信息 被抹掉了
方法优点缺点 频率分布 折线图 能反映数据的变化趋势 原有的具体数据信 息被抹掉了 茎叶图 ①由所有样本数据构成,没 有原始信息的损失; ②便于记录和表示; ③能够展示数据的分布情况 只方便记录两组数 据;当样本数据较 多时,茎叶图就显 得不太方便了
3 .用茎叶图可确定数据的中位数观察数据大 致集中在哪个茎,是否关于该茎对称,是否分 布均匀等.