本幻灯片可在如下网站下载: www.appmath.cn www.应用数学.cn 概率论与数理统计第14讲 本幻灯片可在如下网站下载: www.appmath.cn www.应用数学.cn
第5章 几种重要的分布
本章介绍几种实际应用中常见的分布。在介绍这些分布的应用时,经常需要涉及到一些数值计算,这些计算受到笔者创办的个人网站,应用数学家园网站的在线计算的支持。应用数学家园网站的网址是www.应用数学.中国,或者www.appmath.cn,这个网站不用注册无须登录,进去就算,完全免费,因此在以后工作中凡涉及到概率论方面的计算时都可以来笔者的网站。
在上世纪七十年代以前,因为计算机不普及,所以许多运算都是靠笔算,查表和打算盘。所以古老的概率论教材都是附有各种数值表供大家查用的,而现在互联网普及,许多运算就可以直接在网站进行了,所以本书不再提供这类数表。因此,本章的习题中有一些必须要在应用数学家园网站的在线运算的支持下才能够做,或者在一些流行的办公软件上寻找相应的功能也可以做。
5.1 二项分布
在第1章已经提到了伯努利独立试验概型,假设在同样的环境下将某一试验独立重复地进行了n次,则某个事件A发生的次数可以用一个离散型随机变量X来表示,在第1章中已经得到X的分布率为: 其中p为每次试验事件A发生的概率,q=1-p为每次试验事件A不发生的概率。 由此定义二项分布为:
定义 5.1设X的概率函数由式(5.1)表示,其中0<p<1, q=1-p,称X服从参数为n,p的二项分布,记作X~B(n,p)或X~b(n,p)。 式(5.1)称为二项分布公式或伯努利公式。在这里P{X=k}的值恰好是二项式(px+q)n展开式中xk的系数。这也是二项分布的名称的由来。 因此当X~B(n,p)时,它用单位脉冲函数的手段表示的概率密度函数是:
X~B(n,p),它的分布函数为: 事件A最多出现m次的概率是: 事件A出现次数不小于l不大于m的概率是
除了对于个别特殊的情况,一般而言式(5. 1)到式(5 除了对于个别特殊的情况,一般而言式(5.1)到式(5.5)的计算量往往比较大,例如,假设试验了一百次,则就算是计算一个组合数 运算量都是比较大的。但是现在都可以利用应用数学家园网站的在线计算进行计算,打开此网站,在首页的在线计算栏目中的“概率统计”栏目下找到“二项分布”的选项进行单击,进入二项分布计算网页后选择相应的功能,就可以计算二项分布的分布率表,分布率曲线,分布函数曲线,计算具体的一些概率,等等。
例 5. 1掷某种品牌围棋子试验,假设每一次正面朝上的概率为0. 6,共掷6次,X为正面朝上的次数,求X的分布。 解 由题意知X~B(6,0 例 5.1掷某种品牌围棋子试验,假设每一次正面朝上的概率为0.6,共掷6次,X为正面朝上的次数,求X的分布。 解 由题意知X~B(6,0.6),由应用数学家园在线计算的功能算得X的分布率如表 5‑1所示。 单击“显示曲线”按钮还可以显示分布率曲线如图 5‑1所示。 而单击“分布函数曲线”按钮可以显示分布函数曲线如图 5‑2所示。
对于X~B(n,p),考虑到它是n次试验中事件A发生的次数,则X可以分解为n个相互独立的随机变量Xi的和: X=X1+X2+…+Xn (5.6) 其中Xi是第i次试验中事件A发生的次数,当然不是1就是0,因此Xi服从0-1分布,或者说0-1分布其实是二项分布的一个特例,因此Xi~B(1,p),i=1,2,⋯,n。 在上一章我们已经算出E(Xi)=p, D(Xi)=pq。因此根据数学期望的性质及相互独立的随机变量之和的方差的性质可算出对于X~B(n,p),
X=X1+X2+…+Xn (5.6) Xi~B(1,p),i=1,2,⋯,n。 在上一章我们已经算出E(Xi)=p, D(Xi)=pq。因此根据数学期望的性质及相互独立的随机变量之和的方差的性质可算出对于X~B(n,p), 这是因为 E(X)=E(X1+⋯+Xn)= E(X1)+ ⋯+ E(Xn ) =p+⋯+p=np D(X)=D(X1+⋯+Xn)=D(X1)+ ⋯+D(Xn) =pq+⋯+pq=npq
如果X~B(n1,p), Y~B(n2,p), X,Y相互独立,因为它们的参数p相同,因此X相当于做了n1次试验的事件A发生的次数,而Y相当于又独立地做了n2次试验的事件A发生的次数,则必有X+Y~B(n1+n2,p)。
例 5. 2一个小饭店共有十张饭桌,每一张饭桌都有客人在吃饭。客人在吃饭的过程中,每一瞬间都有0 例 5.2一个小饭店共有十张饭桌,每一张饭桌都有客人在吃饭。客人在吃饭的过程中,每一瞬间都有0.1的机会要求服务,如点菜,买单,倒茶等等,设各个客人要求服务是相互独立的。求每一瞬间需要服务的饭桌数X的分布,E(X),D(X),sX,设每一次一个饭桌只需要一个服务员服务,建议一个合适的服务员数量。
解 根据题意X~B(10,0. 1),n=10, p=0. 1,q=0. 9, 因此 E(X)=np=10×0 解 根据题意X~B(10,0.1),n=10, p=0.1,q=0.9, 因此 E(X)=np=10×0.1=1, D(X)=npq=0.9, 根据三西格玛准则,一个随机变量偏离它的期望三倍的标准差基本上不可能,而这里 可以认为同时要求服务的桌子数不可能是4以上,因此准备4名服务员,大多数情况下不会有桌子要求服务却没有服务员空闲的情况。
在此例中,如果饭店规模扩大导致有一百张饭桌,则这时X~B(100,0 在此例中,如果饭店规模扩大导致有一百张饭桌,则这时X~B(100,0.1),这时E(X)=10, sX算出为3,E(X)+3sX=19,即需要19名服务员就不太可能出现有桌子要求服务却没有服务员空闲的情况。从这个角度看饭店规模越大越能够节省聘请的服务员数,当然规模大了桌子的空置率会大,因此是需要根据当地的需求情况综合考虑的。
5.2 超几何分布
例 5.3袋内有20个球,其中5个红球,15个白球,每次从中任取一个,观察后放回,这称为放回抽样,连续取4次,设这4次中取得红球的次数为X,求X的分布率,E(X),D(X)。 解 根据题意,每次抽球抽到红球的概率0.25,因为是放回抽样所以每次抽球的时候袋内球的情况一样,因此有X~B(4,0.25),利用应用数学家园网站的在线计算功能不难得到X的分布率如表 5‑2所示:
根据二项分布的数学期望和方差的公式,E(X)=np=4×0.25=1, D(X)=npq=4×0.25×0.75=0.75。
例 5.4袋内有20个球,其中5个红球15个白球,与例 5.3不同的是依次从袋内取出4球,每次取出后不放回,这叫不放回抽样,同样设这4次中取得红球的个数为X,求X的分布率。 解 X取0,1,2,3,4这四个值的概率可按下式计算: 计算得出X的分布率如表 5‑3所示
虽然可以根据表 5‑3求出E(X),但是有一个技巧,令Xk服从0-1分布,如果第k次取得红球则Xk=1,否则等于0,则E(Xk)=0 虽然可以根据表 5‑3求出E(X),但是有一个技巧,令Xk服从0-1分布,如果第k次取得红球则Xk=1,否则等于0,则E(Xk)=0.25,k=1,2,3,4。则X=X1+X2+X3+X4, 因此 E(X)=E(X1)+E(X2)+E(X3)+E(X4)=4×0.25=1 从表 5‑3中求得 E(X2)=1×0.4696+4×0.2167+9×0.0310 +16×0.0010=1.6194 D(X2)=E(X2)-[E(X)]2=1.6194-12=0.6194 此例中的X就服从超几何分布,它的基本试验就是无放回抽样。
定义 5.2设N个元素分为两类,有M个属于第一类,其余N-M个属于第二类。从中不放回抽样取n个,令X表示这n个中第一类元素的个数,则X的分布称为超几何分布,其概率函数是:
还可以计算出(这里限于篇幅不计算):
因为第一类元素的个数为M,所以如果只抽一次,抽得第一类元素的概率为 因此如果是放回抽样,X~B(n,p),或
但是在实际应用中,经常遇到的是N的数量很大的情况,在这种情况下,超几何分布通常都可以用二项分布来近似。例如,在十万个人中抽出一千个,观察是不是近视,或者从十万瓶某种牌子的饮料中任抽二十瓶进行检验。这些本来都是不放回抽样,都是属于超几何分布,但是因为N非常大,抽样的个数n和N相比很微小,在这种情况下通常用二项分布来近似超几何分布。
为证明当N趋于无穷的时候超几何分布趋向于二项分布,我们首先证明一个近似表达式,就是当N很大而n不大的时候有: 其实这个近似式当N趋向于无穷的时候它的近似误差趋向于无穷,为什么还说它是近似式呢?这是从相对精度考虑的,就是说,式(5.11)的近似式两端之比的极限是1,即
下面是式(5.12)的证明
因此在式(5.8)中的三个组合我们都用近似公 式(5.11), 这样算得的概率用 表示,即 因此在式(5.8)中的三个组合我们都用近似公 式(5.11), 这样算得的概率用 表示,即
这正好是二项分布 的概率函数,
而且根据式(5.12)可知 而这时 都有上界1,因此必有 这样我们就证明了超几何分布的极限是二项分布。 而且根据式(5.12)可知 而这时 都有上界1,因此必有 这样我们就证明了超几何分布的极限是二项分布。
例 5.5一大批种子的发芽率为90%,今从中任取10粒,求播种后,(1)恰有8粒发芽的概率;(2)不少于8粒发芽的概率。 解 设10粒种子发芽的种子数目为X。因10粒种子是由一大批种子中抽取的,这是一个N很大,n相对于N很小的情况下的超几何分布问题,可用二项分布近似计算,即近似有X~B(10,0.9),因此
5.3 泊松分布
在实际应用中经常遇到有一种服从二项分布的随机变量X~B(n,p)中n即试验次数,非常非常大,而p则特别特别小,导致n这个特别大的数乘上p这个特别小的数之后得到的E(X)=np是不大也不小的适中的数的。
例 5.6设一座县城有100万人口,其中每一个人因为突然的伤病或者怀孕生孩子导致需要住院治疗的概率为万分之一,求每时刻需要住院的人数X的分布,E(X), D(X), sX,及考虑这座县城的医院必须提供多少张床位。 解 100万人口的每一瞬间相当于同时做了100万次试验,而一个人需要住院治疗为事件A,发生概率为万分之一,因此这是一个独立试验概型,每时刻需要住院的人数X~B(106,10-4),
E(X)=np=106×10-4=100(人) D(X)=npq=106×10-4×(1-10-4)≈E(X)=100 因此E(X)+3sx=100+3×10=130(人),即按三西格玛原则,这个县城里的医院如果有130张床位基本上不可能发生有病人需要住院治疗却因为没有床位入不了院的情况。
而市场经济中经常就需要有人有各种服务,且按每一个人算一次试验,则他在每一天需要某种服务,例如马桶堵了需要疏通,需要购买某种产品,需要去某个大饭店大吃一顿,这样这样的概率都是很低的,而人口数又很大,因此都算是n很大p很小的试验。
在这种情况下按二项分布的公式计算也较困难,且人们不太关心n的具体准确程度,人们更关心的是二项分布的均值E(X)=np,因此令l=np,这时二项分布公式(5.1)中的组合 当n很大而k不太大的时候,可以用近似公式(5.11)计算,即
当p十分微小的时候(1-p)-k≈1,因此上式的 (1-p)n-k≈(1-p)n,因此式(5. 14)可进一步近似表示为 而在式(5 当p十分微小的时候(1-p)-k≈1,因此上式的 (1-p)n-k≈(1-p)n,因此式(5.14)可进一步近似表示为 而在式(5.15)中,因为p很微小,所以近似有
将l=np及式(5.16)代入式(5.15)得 由此我们导出一种重要的分布叫泊松分布,定义如下。
定义 5.3如果离散型随机变量X的概率函数是 其中l>0,则称X服从泊松(Poisson)分布,记作X~p(l)。 由幂级数 可知
因为泊松分布可以视为二项分布B(n,p)当n很大,p很微小时的参数l=np时的近似分布,则因为E(X)=np=l, D(X)=npq≈np=l, 其实也容易从式(5.18)严格证明这一点,只是限于篇幅我们不证,因此我们有如下定理。 定理 5.1设离散型随机变量X~p(l), 则
当X服从泊松分布时,按式(5.18)计算X的各种概率相当繁杂,而“应用数学家园”网站提供了对泊松分布的各种有关计算。在首页的“在线计算”功能的“概率统计”部分单击泊松分布选项,就可进入泊松分布的在线计算网页。 请注意在实际应用中因为服从泊松分布的参数l就是均值,而这个均值是从实际的统计根据大数定律获得的。
例 5.7一家大超市在营业高峰期平均每一时刻有一百个顾客要求付帐服务,问需要准备多少台收银机及相应的收银员?
解 一个大城市里几百万人相当于每时刻几百万次试验,以极低的概率在这家超市要求付款服务,因此可假设在营业高峰期的每一时刻要求付款服务的顾客数X服从泊松分布,又因为统计出X的平均值为100人,因此有l=100, X~p(100)。因此E(X)=100(人), sX=10(人),由三西格玛原则, E(X)+3sX=130(人), 因此要求服务的顾客数不大可能超过130人,因此应当准备130台收银机及相应的收银员。而E(X)-3sx=70人,说明不大可能正在服务的收银机小于70台。
作业: 第169页开始 第1,2,3,4,5,7题
2001年考研题数学(一) 十一、(本题满分7分) 设某班车起点站上客人数X服从参数为l(l>0)的泊松分布,每位乘客在中途下车的概率为p(0<p<1),且中途下车与否相互独立. 以Y为中途下车的人数,求: (I) 在发车时有n个乘客的条件下,中途有m人下车的概率; (II)二维随机变量(X,Y)的概率分布。
2001年考研题数学(一) 十一、(本题满分7分) 设某班车起点站上客人数X服从参数为l(l>0)的泊松分布,每位乘客在中途下车的概率为p(0<p<1),且中途下车与否相互独立. 以Y为中途下车的人数,求: (I) 在发车时有n个乘客的条件下,中途有m人下车的概率; (II)二维随机变量(X,Y)的概率分布。 解 (I) 在发车时有n个乘客的条件下,Y为条件随机变量, Y~B(n,p), 则
2001年考研题数学(一) 十一、(本题满分7分) 设某班车起点站上客人数X服从参数为l(l>0)的泊松分布,每位乘客在中途下车的概率为p(0<p<1),且中途下车与否相互独立. 以Y为中途下车的人数,求: (I) 在发车时有n个乘客的条件下,中途有m人下车的概率; (II)二维随机变量(X,Y)的概率分布。 但是(I)给的是条件概率,其实是 而
(II)二维随机变量(X,Y)的概率分布。 因此,根据乘法公式有
2003年考研题 数学(一) 十一、(本题满分10分) 已知甲、乙两箱中装有同种产品,其中甲箱中装有3件合格品和3件次品,乙箱中仅装有3件合格品。从甲箱中任取3件产品装入乙箱后,求 (I) 乙箱中次品件数的数学期望 (II) 从乙箱中任取一件产品是次品的概率.
2003年考研题 数学(一) 十一、(本题满分10分) 已知甲、乙两箱中装有同种产品,其中甲箱中装有3件合格品和3件次品,乙箱中仅装有3件合格品。从甲箱中任取3件产品装入乙箱后,求 (I) 乙箱中次品件数的数学期望 (II) 从乙箱中任取一件产品是次品的概率. 解 (I)乙箱中原来没有次品,因此,在从甲箱中任取3件产品装入乙箱后,次品的件数就是取的3件产品中次品的件数X,它服从超几何分布,因此
2003年考研题 数学(一) 十一、(本题满分10分) 已知甲、乙两箱中装有同种产品,其中甲箱中装有3件合格品和3件次品,乙箱中仅装有3件合格品。从甲箱中任取3件产品装入乙箱后,求 (II) 从乙箱中任取一件产品是次品的概率. (II) 根据全概率公式,以X取值0,1,2,3的事件作为划分,并设B={从乙箱中任取一件产品是次品}, 则