本幻灯片可在如下网站下载: www.appmath.cn www.应用数学.cn 概率论与数理统计第15讲 本幻灯片可在如下网站下载: www.appmath.cn www.应用数学.cn
5.4 指数分布
定义 5.4如果连续型随机变量X的概率密度是 其中l>0, 则称X服从参数为l的指数分布。 如果采用本书定义的in函数,f(x)也可以写为 f(x)=le-lxin(x;0,+) (5.21) 不难得到
图5-3给出了当l=1时的指数分布的概率密度形状。 O f(x) 1 0.5 5 10 图5-3 x
定理 5.2如果随机变量X服从参数为l的指数分布,则有
证 在计算E(X)和E(X2)时要用到定积分的分部积分公式 将指数分布的概率密度代入到数学期望的计算公式有
而 所以 当然就有
指数分布常用来作为各种“寿命”分布的近似。如随机服务中的服务时间、某些消耗性产品(电子元件等)的寿命等等。
例 5.8某元件寿命X服从参数为l(l-1=1000小时)的指数分布。3个这样的元件使用1000小时后,都没有损坏的概率是多少?(假设各元件的寿命相互独立) 解 一个元件使用1000小时后没有损坏的概率为 因各元件寿命相互独立,因此三个元件使用1000小时后都没有损坏的概率就是三个e-1相乘即为e-3≈0.05。
5.5 伽玛分布
前面已经讲到,与概率密度函数成正比的函数称之为准概率密度函数,而从函数曲线的形状来说,准概率密度函数与概率密度函数的是一样的,只不过差一个比例常数。因此准概率密度函数已经完全包含了分布的信息。 本节介绍伽玛分布,也叫G分布,希腊大写字母G念伽玛,所以中文叫伽玛分布。
服从伽玛分布的随机变量是只取正值的,因此在x0时概率密度函数为0。而在x>0的区间准概率密度的形式是xae-lx, 即当看到概率密度的形式是x的某次方乘上e的负指数函数的时候,相应的分布就叫G分布或者伽玛分布了。但是对于概率论经常把参数写成以后表示数字特征方便的形式,因此通常将xa写成xr-1,其中r=a+1,因此服从G分布的概率密度函数具有形式 f(x)=kxr-1e-lx (5.24)
f(x)=kxr-1e-lx (5.24) 它有两个参数r和l,在数学上可以证明当r>0且l>0时,积分 是收敛的,因为它是求式中k的关键,因此进一步将这个积分化简,令t=lx则
积分 中有一个参数为r,每给定一个r值就可以计算出一个积分值,而且这个积分值还不容易给出解析的表达式,正因为如此,所以数学家们就将它视为r的函数,称这个函数为G函数或者伽玛函数,记为G(r)以后就用数值积分的办法来计算这个函数值。即自变量为r的伽玛函数定义为
大家应当习惯这一点,就是数学家发现某个函数不好算就专门定义一个,例如各三角函数也是需要数值算法的,但是现在计算器都支持。在应用数学家园网站的表达式计算,函数绘制曲线及积分中,将伽玛函数表示为gam(x)。
伽玛函数有许多性质,网上都可以搜得到,但是有两个重要性质为(1)G(r+1)=rG(r), (2)对于正整数n,G(n+1)=n!。 证
f(x)=kxr-1e-lx (5.24) 因此我们现在可以得到式(5.24)中的常数k为 因此可以正式定义伽玛分布如下。
定义 5.5如果连续型随机变量X具有概率密度 其中l>0, r>0,则称X服从伽玛分布或G分布,简记作X~G(l,r)。 上面的概率密度函数也可以用in函数表示为
定理 5.3假设X~G(l,r), 则 证 根据式(5.27)有
因此
伽玛分布在概率论、数理统计和随机过程中都有不少应用。 当r=1时,f(x)=le-lxin(x;0,+∞),这就是前面讲过的指数分布。 当r为正整数时, 这就是排队论中常用到的r阶爱尔朗分布。
r阶爱尔朗分布的一个例子:假设一个门诊医生一天看10个病人就可以下班,当然,处理每一个病人的时间有长有短,有的病人可能五分钟就可以打发,而有的病人可能需要仔细检查和处理两个小时,因此他一天的工作时间X就是一个随机变量,X服从10阶爱尔朗分布,如果他平均一天要工作六个小时,即
可反推出 而这时l也恰好就是他平均一个小时接待的病人数,因此他一个小时接诊的病人数是另一个离散型随机变量Y,Y恰好服从参数为l的泊松分布。当然,他每处理一个病人所需要的时间Z当然就是服从一阶爱尔朗分布,也就是指数分布。
象这种现代商业社会中的服务流如电工服务维修服务等等都是常见的。它们都是由一个参数l代表一段时间里的平均服务数,从而导致指数分布,爱尔朗分布和泊松分布,都以这个l为参数,这样的服务过程也是一个随机过程,被称为泊松流,属于随机过程理论的研究分支,已经超出了本书的范围。
当 (n是正整数), 时, 这被称为具有n个自由度的c2分布(简记作c2(n)),它是数理统计中最重要的几个常用统计量的分布之一。
定理 5.4如果随机变量X,Y相互独立,且X~G(l,r1), Y~G(l,r2),则X+Y~G(l,r1+r2),换句话说就是参数l值相同的独立的服从伽玛分布的随机变量的和仍然服从伽玛分布,其l值保持不变而相应的r值相加。 证 在证明中要用到第3章已经证明的两个独立的随机变量X,Y,其概率密度分别为fX(x), fY(y),则Z=X+Y的概率密度fZ(z)的公式按下式计算:
而从准概率密度函数的考虑,我们只需要证明fZ(z)具有 的形式就已经证明了所要的结论,将 代入式(5.31)得:
因为函数in(z-x;0,+∞)在z-x>0时才为1,其他情况为0,即x<z时才为1其他情况为0,因此 及 ,代入前面fZ(z)的表示式可得
在上式中的右端的积分中做一个变元替换 则积分变成 在上式中的右端的积分中做一个变元替换 则积分变成
上式右端的积分值已经和z无关,因此我们根本不关心这个积分值是一个什么常数,只是知道从上面的fZ(z)的表达式中知道fZ(z)是与 上式右端的积分值已经和z无关,因此我们根本不关心这个积分值是一个什么常数,只是知道从上面的fZ(z)的表达式中知道fZ(z)是与 成正比,就已经得出结论 Z~G(l,r1+r2),证毕。
推论 如果随机变量X1,X2,⋯,Xn相互独立且都服从参数l一样的伽玛分布,X1~G(l,r1), X2~G(l,r2), ⋯, Xn~G(l,rn), 则X1+X2+⋯+Xn~G(l,r1+r2+⋯+rn)。
5.6 正态分布
一. 正态分布的随机变量
正态分布是实际应用最广泛的一种分布,可以认为在现实生活中服从正态分布的随机变量,或者至少是近似服从正态分布的随机变量随处可见。其原因在下一章介绍。 对于正态分布的概率密度函数,我们仍然关心的是它的形状,即准概率密度函数。
可以这么认为,所有的具有指数上的二次多项式的概率密度函数,即 就服从正态分布了,而指数上的二次多项式中的常数项c其实是无所谓的,或者可以取任何值,不决定函数曲线的形状,是因为
但是数学家不喜欢上面的表达形式,而更喜欢将指数上的多项式配方后整理成人们能够一眼就看出分布对应的数学期望和方差的形式。上式中的a必须小于0,广义积分 才会收敛。因此将ax2+bx做如下配方:
对于指数上的常数项即上式中的 项不影响曲线的形状可归到前面的常数因子中去,因此对上式的第一项再整理成 对于指数上的常数项即上式中的 项不影响曲线的形状可归到前面的常数因子中去,因此对上式的第一项再整理成
这才是正态分布的指数上数学家们喜欢的形式,这时令 就可将正态分布的指数上表示成 的标准形式。 这才是正态分布的指数上数学家们喜欢的形式,这时令 就可将正态分布的指数上表示成 的标准形式。
在后面我们要证明其中的m和s2恰好就是数学期望和方差。 因此正态分布的概率密度函数可以表示为 但是为了下一步证明m和s2就是数学期望和方差,必须先确定k的值,因此要利用性质
但是正态分布的概率密度函数有一个很大的麻烦在于,已经在数学上严格证明了它的原函数的解析形式不存在。但是,利用一个被称为广义积分的结果,叫泊松积分,我们可以确定k的值。泊松积分是
当然上式的被积函数的原函数不存在,但是可以利用一个技巧,就是令上式的积分值为I,则
上式的二重积分是在全平面进行,因此可以进行极坐标变换,令r和q为每点的模和角,则 由此证得式(5.32)成立。
因此,由于 所以有 下面就给出正态分布的正式的定义。 因此,由于 所以有 下面就给出正态分布的正式的定义。
定义 5.6如果连续型随机变量X的概率密度为 其中m,s为常数,并且s>0,则称X服从正态分布,简记作X~N(m,s2)。
定义 5.7当X~N(0,1)时,称X服从标准正态分布,记标准正态分布的概率密度函数为j(x),它的分布函数为F(x),即
在应用数学家园网站的在线计算功能的绘制曲线部分选择绘制曲线1,进入到相应网页后,在f(x)=一栏输入字符串“(2. p)^(-1/2) 在应用数学家园网站的在线计算功能的绘制曲线部分选择绘制曲线1,进入到相应网页后,在f(x)=一栏输入字符串“(2*p)^(-1/2)*e^(-x^2/2)”然后将自变量下限x1=设为-4, 自变量上限x2=设为4,然后单击“显示曲线”按钮,就可以看到标准正态分布的概率密度函数的曲线形状如图 5‑4所示。
图 5‑4
定理 5. 5设随机变量X~N(0,1),则E(X)=0, D(X)=1。 证 由式(5 定理 5.5设随机变量X~N(0,1),则E(X)=0, D(X)=1。 证 由式(5.33)表示的X的概率密度是偶函数,所以E(X)=0, 则
定理 5. 6设随机变量X~N(m,s2), , 则Y~N(0,1)。 证 因为Y=g(X)=. ,其中 定理 5.6设随机变量X~N(m,s2), , 则Y~N(0,1)。 证 因为Y=g(X)= ,其中 为 单调函数且有反函数h(y)=sy+m, 且h(y)=s, X的概率密度函数fX(x)如式(5.33)所示,则Y的概率密度函数fY(y)为 即Y~N(0,1)。
由定理 5.6的证明过程不难证明,一个服从正态分布的随机变量X的任何线性函数Y=aX+b, (a≠0), 都服从正态分布。
定理 5. 7设随机变量X~N(m,s2), 则E(X)=m, D(X)=s2。 证 由定理 5. 6知. ,再由定理 5. 5知 定理 5.7设随机变量X~N(m,s2), 则E(X)=m, D(X)=s2。 证 由定理 5.6知 ,再由定理 5.5知 ,根据数 学期望和方差的性质即得E(X)=m, D(X)=s2。
在上世纪计算机还没有普及,而正态分布的概率密度函数的积分只能够使用数值计算,而计算正态分布的随机变量落在各个区间的概率是经常需要算到的,因此人们只好将标准正态分布函数制成表格,让人们通过查表获得函数值,且通过查表来获得反函数值,而且印制的标准正态分布函数表为了节约纸张只列出了当x>0时的F(x)的各个数值,如果想要知道x<0时的F(x)的值就需要利用标准正态分布的对称性。
因此当需要计算一个服从正态分布的随机变量落在某个区间的概率时,都是先将其转换成标准正态分布的随机变量,然后查标准正态分布函数表,用这种办法来进行计算。因此直到本教材之前的所有概率论教材毫无例外地都印制有标准正态分布函数表。
但是这种查表技术已经过时,现在许多软件都可以提供对有关正态分布的各种计算。就拿应用数学家园网站来说,其中的在线计算里的概率统计部分的“正态分布”选项,进去后的网页可以计算一般正态分布的分布函数值,反函数值,落在各个区间的概率等等。
例 5.9已知随机变量X~N(0,1),求P{|X|<5}, P{X<2}, P{-2<X<1}, P{X>1.96}。 解 有多种办法计算这些概率,在实用中可以用《应用数学家园》网站中的正态分布网页进行计算,但是在这里介绍用此网站中的一元定积分网页计算,这个网页是用数值积分的办法进行定积分运算的。在被积函数f(x)栏填入“(2*p)^(-1/2)*e^(-x^2/2)”,将x1设为-5,x2设为5,单击“开始积分”按钮,就可得到积分值1,即 P{|X|<5}=1
当然其实是近似等于1,因此已经可以确定|X|>5的概率是极微小可以忽略不计的,这也符合“三到五西格玛原则”这种经验之谈。因此虽然一元定积分功能不能够计算广义积分,在下面的计算中我们都可以将-5和5这两个数视为负无穷和正无穷来计算,在精度上能够满足要求,精度不亚于现有的所有教科书中查表计算的结果。
而设下限x1=-5, 上限x2=2, 可算出 P{X<2}=0 而设下限x1=-5, 上限x2=2, 可算出 P{X<2}=0.97725 再设x1=-2, x2=1, 可算出 P{-2<X<1}=0.81859 设x1=1.96, x2=5, 可算出 P{X>1.96}=0.025
采用定积分的算法不仅可以计算标准正态分布的随机变量的各个有关事件的概率值,不是标准正态分布的随机变量的各个有关概率的计算也是照样使用的。
例 5.10已知随机变量X~N(3, 3), 求P{X<5}, P{-1<X<4}。 解 传统的做法是要将X转换成标准正态分布来进行计算,也是因为传统上计算者没有计算机也无法使用在线计算,只好查表,为了查标准正态函数表这才需要做这种转换。但是现在不需要这么做。
例 5.10已知随机变量X~N(3, 3), 求P{X<5}, P{-1<X<4}。 解因为X~N(3,3)所以均值为3,标准差 , 利用定积分功能,首先在被积函数一栏设定f(x)为字符串“(2*p*3)^(-1/2)*e^(-(x-3)^2/(2*3))”
在计算P{X<5}时,需要设定积分下限为均值3减去5倍的标准差 ,因此设定x1为“3-5 在计算P{X<5}时,需要设定积分下限为均值3减去5倍的标准差 ,因此设定x1为“3-5*3^(1/2)”,设x2为5后单击“开始积分,就得到 P{X<5}=0.8759 而将x1设为-1,x2设为4可算出 P{-1<X<4}=0.7077
用定积分的办法可以算出服从正态分布的随机变量取各个事件的概率,但是,如果是要算反过来的问题,就是已经知道某些事件的概率,需要求出一些边界值,就需要在线计算功能中的正态分布网页的功能了。
例 5. 11已知随机变量X~N(0,1), 试求a使得P{X<a}=0. 1,求b使得P{|X|>b}=0 例 5.11已知随机变量X~N(0,1), 试求a使得P{X<a}=0.1,求b使得P{|X|>b}=0.05,求c使得P{X>c}=0.01。 解 进入正态分布的计算网页,在右上侧的列表中选择“标准正态分布反函数”,在p入框中输入概率0.1,然后单击“开始计算”按钮,就可得a=-1.28155。 再在右上侧列表中选择“标准正态分布双侧分位点”,然后在下方输入概率值0.05,就可算出b=1.96。
例 5. 11已知随机变量X~N(0,1), 试求a使得P{X<a}=0. 1,求b使得P{|X|>b}=0 例 5.11已知随机变量X~N(0,1), 试求a使得P{X<a}=0.1,求b使得P{|X|>b}=0.05,求c使得P{X>c}=0.01。 解 然后再在右上侧列表中选择“标准正态分布上a分位点”,在下方输入概率值0.01,算出c=2.326。 上面算出的这些值都可以反过来用定积分算法或者正态分布的计算网页来验证其正确性。
作业: 第170页开始 第8,9,10,11,12题