试验的全部结果所构成的区域长度(面积或体积) 专题七 概率与统计、推理与证明 第1讲 概率统计、统计案例 1.随机事件的概率 (1)随机事件的概率范围:0≤P(A)≤1;必然事件的 概率为1;不可能事件的概率为0. (2)古典概型的概率 P(A)= = . (3)几何概型的概率 P(A)= A中所含的基本事件数 基本事件总数 构成事件A的区域长度(面积或体积) 试验的全部结果所构成的区域长度(面积或体积)
2.互斥事件有一个发生的概率P(A∪B)=P(A) +P(B). 3.统计 (1)抽样方法:简单随机抽样、系统抽样、分层 抽样. (2)利用样本频率分布估计总体分布 ①频率分布表和频率分布直方图. ②总体密度曲线. ③茎叶图. (3)用样本的数字特征估计总体的数字特征 ①众数、中位数.
4.变量之间的相关关系 (1)散点图. (2)线性相关性 回归直线方程为
5.统计案例 (1)回归分析的基本思想及其初步应用 ①随机误差;② 称为样本点的中心;③总 偏差平方和;④残差;⑤残差平方和;⑥回归平 方和;⑦残差分析;⑧残差图.
(2)用相关指数可以刻画回归的效果,其计算公式是 (3)独立性检验的基本思想及其初步应用 其中n=a+b+c+d为样本容量. 利用随机变量K2来确定在多大程度上可以认为 “两个分类变量有关系”的方法称为两个分类变量 的独立性检验.
一、 频率分布直方图或频率分布表 例1 某班50名学生在一次百米测试中,成绩全部介于13秒与19秒之间,将测试结果按如下方式分成六组:第一组,成绩大于等于13秒且小于14秒;第二组,成绩大于等于14秒且小于15秒;……第六组,成绩大于等于18秒且小于等于19秒.下图是按上述分 组方法得到的频率分布直方图.设成绩小于17秒的学生人数占全班总人数的百分比为x,成绩大于等于15秒且小于17秒的学生人数为y,则从频率分布直方图中可分析出x和y分别为 ( )
A.0.9,35 B.0.9,45 C.0.1,35 D.0.1,45 解析 P( <17)=1-P(17≤ ≤19) =1-(0.06×1+0.04×1)=0.9, 即x=0.9,y=(0.34+0.36)×1×50=35人. 答案 A 探究提高 在统计中,为了考查一个总体的情况,通常是从总体中抽取一个样本,用样本的有关情况去估计总体的相应情况.这种估计大体分为两类,一类 是用样本频率分布估计总体分布,另一类是用样本的某种数字特征(例如平均数、方差等)去估计总体的相应数字特征.
变式训练1 (2009·湖北文, 15)下图是样本容量为200的 频率分布直方图如图所示.根 据样本的频率分布直方图估计, 样本数据落在[6,10)内的频数 为 .数据落在[2,10)内的概率约为 . 解析 由于组距为4,因此在[6,10)之间的频率为0.08×4=0.32,其频数为0.32×200=64. 落在[2,10)之间的概率为(0.02+0.08)×4=0.4. 64 0.4
二、 众数、中位数、平均数、标准差 例2 右图是根据《山东统计年鉴2007》 中的资料作成的1997年至2006年我省城 镇居民百户家庭人口数的茎叶图.图中左 边的数字从左到右分别表示城镇居民百户家庭人口数的百位数字和十位数字,右边的数字表示城镇居民百户家庭人口数的个位数字.从图中可以得到1997年至2006年我省城镇居民百户家庭人口数的平均数为 ( ) A.304.6 B.303.6 C.302.6 D.301.6
思维启迪 本题可以先根据茎叶图读出各个数据,然后根据平均数公式求解. 解析 =303.6. 答案 B 探究提高 (1)本题考查了茎叶图的识图问题和平均数 的计算,其中从茎叶图中读出数据是关键,为此,首先要弄清“茎”和“叶”分别代表什么. (2)要熟练掌握众数、中位数、平均数、方差、标准差的计算方法.
变式训练2 “毒奶粉”事件引起了社会 对食品安全的高度重视,各级政府加 强了对食品安全的检查力度.某市工商 质检局抽派甲、乙两个食品质量检查 组到管辖区域内的商店进行食品质量检查.右图表 示甲、乙两个检查组每天检查到的食品品种数的 茎叶图,则甲、乙两个检查组每天检查到的食品 种数的中位数的和是 ( ) A.56 B.57 C.58 D.59 解析 根据中位数的定义知,甲的中位数为32,乙的中位数为25,故中位数的和为57. B
三、 古典概型、几何概型 例3 某初级中学共有学生2 000名,各年级男、女生人数如下表: 初一年级 初二年级 初三年级 女生 373 x y 男生 377 370 z 已知在全校学生中随机抽取1名,抽到初二年级女生的概率是0.19. (1)求x的值; (2)现用分层抽样的方法在全校抽取48名学生,问应在初三年级抽取多少名?
(3)已知y≥245,z≥245,求初三年级中女生比男生多的概率. 思维启迪 求初三年级中女生比男生多的概率时,先找出男女生人数分布的所有可能.再找出女生比男生多的人数的所有可能. 解 (1)∵ =0.19 ∴x=380 (2)初三年级人数为 y+z=2 000-(373+377+380+370)=500, 现用分层抽样的方法在全校抽取48名学生,应在初三年级抽取的人数为: ×500=12(名)
(3)设初三年级女生比男生多的事件为A,初三年级女生、男生数记为(y,z), 由(2)知y+z=500,且y,z∈N*, 基本事件空间包含的基本事件有: (245,255)、(246,254)、(247,253)、…、(255,245)共11个, 事件A包含的基本事件有:(251,249)、(252,248)、(253,247)、(254,246)、(255,245)共5个 ∴P(A)= . 探究提高 (1)有关古典概型的概率问题,关键是正确求出基本事件总数和所求事件包含的基本事件总数. (2)对于较复杂的题目要注意正确分类,分类时应不重不漏.
变式训练3 (2009·江苏,5)现有5根竹竿,它们的长度(单位:m)分别为2. 5,2. 6,2. 7,2. 8,2 变式训练3 (2009·江苏,5)现有5根竹竿,它们的长度(单位:m)分别为2.5,2.6,2.7,2.8,2.9,若从中一次随机抽取2根竹竿,由它们的长度恰好相差0.3 m的概率为 . 解析 从5根竹竿中一次随机抽取2根竹竿共有 10种抽取方法,而抽取的两根竹竿长度恰好相差0.3 m的情况有2种.P= =0.2. 0.2
例4 在平面直角坐标系xOy中,设D是横坐标与纵坐标的绝对值均不大于2的点构成的区域,E是到原点的距离不大于1的点构成的区域,向D中随机投一点,则落入E中的概率为 . 思维启迪 本题是几何概型求概率问题,可以先计算出试验的全部结果构成的区域面积和所求事件构成的区域面积,然后根据几何概型的概率公式求解. 解析 如图所示,区域D表示边长为4的正 方形的内部(含边界),区域E表示单位圆 及其内部,因此P= .
探究提高 (1)当试验的结果构成的区域为长度、面积、体积、弧长、夹角等时,应考虑使用几何概型求解; (2)利用几何概型求概率时,关键是试验的全部结果构成的区域和事件发生的区域的寻找,有时需要设出变量,在坐标系中表示所需要的区域. 变式训练4 (2009·山东理,11)在区间[-1,1]上随 机取一个数x,cos 的值介于0到 之间的概率为 ( ) A. B. C. D.
解析 在区间[-1,1]上随机取一个数x,即x∈[-1,1]时,其长度为2,又x∈[-1,1]时,- ≤ ≤ , 当x∈[0,1]时,此时满足cos ∈(0, )的x的取值范围为 即 < < ,∴ <x<1,故x∈[0,1]时满足0<cos < 的长度为1- = .由对称性,当x∈[-1,0]时,满足 0<cos < 的区间长度也是 ,故所求概率为p= . 答案 A
例5 假设关于某设备的使用年限x(年)和所支出 的维修费用y(万元),有如下的统计资料: 若由资料知y与x呈线性相关关系.试求: (1)线性回归方程 (2)估计使用年限为10年时,维修费用是多少? 四、 回归分析 使用年限x(年) 2 3 4 5 6 维修费用y(万元) 2.2 3.8 5.5 6.5 7.0
思维启迪 因为y对x呈线性相关关系,所以可以用一元线性相关的方法解决问题. 解 (1)制表: i 1 2 3 4 5 合计 xi 6 20
探究提高 知道x与y呈线性相关关系,则无需进行相关性检验,否则,应首先进行相关性检验
变式训练5 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据. (1)请画出上表数据的散点图; (2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程 (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? x 3 4 5 6 y 2.5 4.5
(参考数值:3×2.5+4×3+5×4+6×4.5=66.5) 解 (1)散点图如图所示:
试验的全部结果所构成的区域长度(面积或体积) 规律方法总结 1.古典概型与几何概型 古典概型 几何概型 特点 ①有限性 ②等可能性 ①无限性 计算 公式 P(A)= 构成事件A的区域长度(面积或体积) 试验的全部结果所构成的区域长度(面积或体积) A包含的基本事件m个数 总的基本事件n个数
2.互斥事件与对立事件 互斥事件强调两个事件不可能同时发生,即在一次试验中两个互斥事件可以都不发生.两事件是对立事件,则它们一定互斥,且在一次试验中两对立事件有且只有一个发生,反过来,两事件互斥,但不一定对立.故两事件互斥是两事件对立的必要不充分条件,对立事件是特殊的互斥事件.
3.线性回归分析的一般步骤 (1)收集样本数据,设为(xi,yi),i=1,2,…,n. (2)作出散点图,判断散点是否在一条直线附近.(3)如果散点在一条直线附近,利用公式求出 并写出线性回归方程. (4)结合所求的回归方程进行回归分析.
一、选择题 1.某同学同时掷两颗骰子,得到点数分别为a,b,则 椭圆 的离心率e> 的概率是( ) A. B. C. D. 解析 e= a>2b,符合a>2b的情况有:当b=1时,有a=3,4,5,6四种情况: 当b=2时,有a=5,6两种情况,总共有6种情况. 所以概率为 . C
2.(2009·重庆理,6)锅中煮有芝麻馅汤圆6个,花 生馅汤圆5个,豆沙馅汤圆4个,这三种汤圆的外部 特征完全相同.从中任意舀取4个汤圆,则每种汤圆 都至少取到1个的概率为 ( ) A. B. C. D. C
3.甲、乙两名同学在5次体育测试中的成绩统计的茎 叶图如图所示,若甲、乙两人的平均成绩分别是x甲、 x乙,则下列结论正确的是 ( ) A.x甲<x乙;乙比甲成绩稳定 B.x甲>x乙;甲比乙成绩稳定 C.x甲>x乙;乙比甲成绩稳定 D.x甲<x乙;甲比乙成绩稳定 解析 甲同学的成绩为78,77,72,86,92, 乙同学的成绩为78,82,88,91,95, ∴x甲= =81, x乙= =86.8, ∴x甲<x乙,从茎叶图上的分布情况看乙同学的成绩 更集中于平均值附近,这说明了乙比甲成绩更稳定. A
4.从编号为1,2,…,10的10个大小相同的球中任 取4个,则所取4个球的最大号码是6的概率为( ) A. B. C. D. B
5.(2009·宁夏、海南文,3)对变量x,y有观测数 据(xi,yi)(i=1,2,…,10),得散点图(1);对变 量u,v有观测数据(ui,vi)(i=1,2,…,10),得散 点图(2)由这两个散点图可以判断.
A.变量x与y正相关,u与v正相关 B.变量x与y正相关,u与v负相关 C.变量x与y负相关,u与v正相关 D.变量x与y负相关,u与v负相关 解析 图1中的数据随着x的增大而y减小,因此变量x与变量y负相关;图2中的数据随着u的增大,v也增大,因此u与v正相关. 答案 C
二、填空题 6.从某地区15 000位老人中随机抽取500人,其生活 能否自理的情况如下表所示. 性别 人 数 生活能否自理 男 女 能 178 278 不能 23 21 则该地区生活不能自理的老人中男性比女性约多 人.
解析 由表知500人中生活不能自理的男性比女性多2人,所以该地区15 000位老人生活不能自理的男性比女性多2× =60(人). 答案 60 7.某汽车站每天均有3辆开往省城济南的分为上、中、 下等级的客车,某天袁先生准备在该汽车站乘车前 往济南办事,但他不知道客车的车况,也不知道 发车顺序.为了尽可能乘上上等车,他采取如下策 略:先放过一辆,如果第二辆比第一辆好则上第二 辆,否则上第三辆.那么他乘上上等车的概率为 .
解析 共有6种发生顺序:①上、中、下②上、下、中③中、上、下④中、下、上⑤下、中、上⑥下、上、中(其中画横线的表示袁先生所乘的车),所以他乘坐上等车的概率为 . 答案 8.有一容量为n的样本,其频率分布直方图如图所示:
若落在[10,20)中的频数共9个,则样本容量n= . 解析 由题意,得样本数据落在[10,20)中的频率为(0.016+0.020)×5=0.18. 又落在[10,20)中的频数共9个,所以 , 解之得n=50. 50 三、解答题 9.(2009·烟台模拟)甲、乙两位学生参加数学竞赛培训, 现分别从他们在培训期间参加的若干次预赛成绩中随机 抽取8次,记录如下:
甲:82 81 79 78 95 88 93 84 乙:92 95 80 75 83 80 90 85 (1)画出甲、乙两位学生成绩的茎叶图,指出学生乙成绩的中位数,并说明它在乙组数据中的含义; (2)现要从中选派一人参加数学竞赛,从平均状况和方差的角度考虑,你认为派哪位学生参加合适?请说明理由; 解 (1)茎叶图如下:
学生乙成绩的中位数为84,它是这组数据最中间位置的一个数或最中间位置的两个数的平均数,中位数可能在所给数据中,也可能不在所给数据中. (2)派甲参加比较合适,理由如下: (70×2+80×4+90×2+9+8+8+4+2+1+5+3)=85, (70×1+80×4+90×3+5+3+5+2+5)=85,
[(78-85)2+(79-85)2+(81-85)2+(82-85)2+(84-85)2+(88-85)2+(93-85)2+(95-85)2]=35.5. [(75-85)2+(80-85)2+(80-85)2+(83-85)2+(85-85)2+(90-85)2+(92-85)2+(95-85)2]=41. ∵ ,
10.(2009·天津文,18)为了了解某市工厂开展群 众体育活动的情况,拟采用分层抽样的方法从A, B,C三个区中抽取7个工厂进行调查.已知A,B, C区中分别有18,27,18个工厂. (1)求从A,B,C区中应分别抽取的工厂个数; (2)若从抽得的7个工厂中随机地抽取2个进行调查 结果的对比,用列举法计算这2个工厂中至少有1 个来自A区的概率. 解 (1)工厂总数为18+27+18=63,样本容量与 总体中的个体数比为 所以从A,B,C三 个区中应分别抽取的工厂个数为2,3,2.
(2)设A1,A2为在A区中抽得的2个工厂,B1,B2,B3为在B区中抽得的3个工厂,C1,C2为在C区中抽得的2个工厂,在这7个工厂中随机抽取2个,全部可能的结果有(A1,A2),(A1,B1),(A1,B2),(A1,B3),(A1, C1),(A1,C2),(A2,B1),(A2,B2),(A2,B3),(A2,C1), (A2,C2),(B1,B2),(B1,B3)(B1,C1),(B1,C2),(B2, B3),(B2,C1),(B2,C2),(B3,C1),(B3,C2),(C1,C2),共有21种.
随机地抽取的2个工厂至少有1个来自A区的结果(记为事件X)有(A1,A2),(A1,B1),(A1,B2), (A1,B3),(A1,C1),(A1,C2),(A2,B1),(A2,B2),(A2,B3),(A2,C1), (A2,C2)共有11种,所以这2个工厂中至少有1个来自A区的概率为 返回