3.1 随机事件及其概率 3.2 随机变量及其概率分布 3.3 大数定律与中心极限定理 第 3 章 概率与概率分布 3.1 随机事件及其概率 3.2 随机变量及其概率分布 3.3 大数定律与中心极限定理
学习目标 理解随机事件的概念、了解事件之间的关系 理解概率的三种定义,掌握概率运算的法则 理解随机变量及其概率分布的概念 掌握二项分布、泊松分布和超几何分布的背景、均值和方差及其应用 掌握正态分布的主要特征和应用,了解均匀分布的应用 理解大数定律和中心极限定理的重要意义
一、随机试验与随机事件 二、随机事件的概率 三、概率的运算法则 3.1 随机事件及其概率 一、随机试验与随机事件 二、随机事件的概率 三、概率的运算法则
3.1 随机事件及其概率 一、随机试验与随机事件
必然现象与随机现象 必然现象(确定性现象) 随机现象(偶然现象、不确定现象) 变化结果是事先可以确定的,一定的条件必然导致某一结果 十五的月亮比初十圆! 必然现象与随机现象 必然现象(确定性现象) 变化结果是事先可以确定的,一定的条件必然导致某一结果 这种关系通常可以用公式或定律来表示 随机现象(偶然现象、不确定现象) 在一定条件下可能发生也可能不发生的现象 个别观察的结果完全是偶然的、随机会而定 大量观察的结果会呈现出某种规律性 (随机性中寓含着规律性) ——统计规律性 十五的夜晚能看见月亮?
随机试验 严格意义上的随机试验满足三个条件: 广义的随机试验是指对随机现象的观察(或实验)。 试验可以在系统条件下重复进行; 试验的所有可能结果是明确可知的; 每次试验前不能肯定哪一个结果会出现。 广义的随机试验是指对随机现象的观察(或实验)。 实际应用中多数试验不能同时满足上述条件,常常从广义角度来理解。
随机事件(事件) 随机事件(简称事件) 样本空间(Ω) 基本事件(样本点) 随机试验的每一个可能结果 常用大写英文字母A、B、… …、来表示 不可能再分成为两个或更多事件的事件 样本空间(Ω) 基本事件的全体(全集)
随机事件(续) 复合事件 由某些基本事件组合而成的事件 样本空间中的子集 随机事件的两种特例 必然事件 不可能事件 在一定条件下,每次试验都必然发生的事件 只有样本空间 才是必然事件 不可能事件 在一定条件下,每次试验都必然不会发生的事件 不可能事件是一个空集(Φ)
3.1 随机事件及其概率 二、随机事件的概率 1. 古典概率 2. 统计概率 3. 主观概率 4. 概率的基本性质
随机事件的概率 概率 概率的三种定义,给出了确定随机事件概率的三条途经。 用来度量随机事件发生的可能性大小的数值 必然事件的概率为1,表示为P ( )=1 不可能事件发生的可能性是零,P( )=0 随机事件A的概率介于0和1之间,0<P(A)<1 概率的三种定义,给出了确定随机事件概率的三条途经。
概率的古典定义 古典概型(等可能概型) ——具有以下两特点 每次试验的可能结果有限(即样本空间中基本事件总数有限) 每个试验结果出现的可能性相同 ——它是概率论的发展过程中人们最早研究的对象
概率的古典定义 概率的古典定义 前提:古典概型 定义(公式) 计算古典概率常用到排列组合知识
【例3-1】 设有50件产品,其中有5件次品,现从这50件中任取2件,求抽到的两件产品均为合格品的概率是多少?抽到的两件产品均为次品的概率又是多少? 解:任一件被抽到的机会均等,而且从50件产品中抽出2件相当于从50个元素中取2个进行组合,共有C502种可能,所以这是一个古典概型。
概率的统计定义 当试验次数 n 很大时,事件A发生频率m/n 稳定地在某一常数 p 上下波动,而且这种波动的幅度一般会随着试验次数增加而缩小,则定义 p 为事件A发生的概率 当n相当大时,可用事件发生的频率m/n作为其概率的一个近似值——计算概率的统计方法(频率方法)
例(补充) 根据古典概率定义可算出,抛一枚质地均匀的硬币,出现正面与出现反面的概率都是0.5。历史上有很多人都曾经做过抛硬币试验。 试验者 试验次数 正面出现的频率 蒲丰 4040 0.5069 K.皮尔逊 12000 0.5016 24000 0.5005 罗曼诺夫斯基 80640 0.4979
【例3-2】 某地区几年来新生儿性别的统计资料如下表所示,由此可判断该地区新生儿为男婴的概率是多少? 观察年份 新生儿数(个) 男婴数(个) 男婴比例(%) 2000 1624 827 0.509 2001 1205 622 0.516 2002 1512 774 0.512 2003 1407 715 0.508
3. 主观概率 有些随机事件发生的可能性,既不能通过等可能事件个数来计算,也不能根据大量重复试验的频率来近似 主观概率——依据人们的主观判断而估计的随机事件发生的可能性大小 例如某经理认为新产品畅销的可能性是80% 人们的经验、专业知识、对事件发生的众多条件或影响因素的分析等等,都是确定主观概率的依据
4. 概率的基本性质 非负性: 对任意事件A,有 0 P(A) 1。 规范性: 必然事件的概率为1,即: P()=1 可加性: 若A与B互斥,则:P ( A∪B ) = P ( A ) + P ( B ) 对于多个两两互斥事件A1,A2,…,An,则有: P ( A1∪A2 ∪… ∪An) = P ( A1 ) + P (A2 ) + …+ P (An ) 上述三条基本性质,也称为概率的三条公理。
(补充)关于概率的公理化定义 概率的以上三种定义,各有其特定的应用范围,也存在局限性,都缺乏严密性。 古典定义要求试验的基本事件有限且具有等可能性 统计定义要求试验次数充分大,但试验次数究竟应该取多大、频率与概率有多么接近都没有确切说明 主观概率的确定又具有主观随意性 苏联数学家柯尔莫哥洛夫于1933年提出了概率的公理化定义 ——通过规定应具备的基本性质来定义概率 公理化定义为概率论严谨的逻辑推理打下了坚实的基础。
3.1 随机事件及其概率 三、概率的运算法则 1. 加法公式 2. 乘法公式 3. 全概率公式和贝叶斯公式
1. 加法公式 用于求P(A∪B)——“A发生或B发生”的概率 互斥事件(互不相容事件) 互斥事件的加法公式 不可能同时发生的事件 没有公共样本点 Ω A B 互斥事件的加法公式 P ( A∪B ) = P ( A ) + P ( B ) P ( A1∪A2 ∪… ∪An) = P ( A1 ) + P (A2 ) + …+ P (An )
【例3-3】 设有50件产品,其中有5件次品,现从这50件中任取2件,若问至少抽到一件次品的概率? 解:“至少抽到一件次品”这一事件实质上就是“抽取的2件产品中有一件次品”(记为A)与“抽取的两件产品均为次品”(记为B)这两个事件的和。由于A与B是两个互斥事件,故计算 “至少抽到一件次品”的概率采用公式: P(A∪B) =P(A)+P(B)
互补事件 互补事件 A A 互补事件的概率之和等于1 例如:掷一个骰子,“出现2点”的概率是1/6,则“不出现2点”的概率就是5/6 。 不可能同时发生而又必然有一个会发生的两个事件 互补事件的概率之和等于1 A A 例如:掷一个骰子,“出现2点”的概率是1/6,则“不出现2点”的概率就是5/6 。
相容事件的加法公式 B A P ( A∪B ) = P ( A ) + P ( B ) - P ( AB ) AB 相容事件 两个事件有可能同时发生 没有公共样本点 相容事件的加法公式 (广义加法公式 ) A B Ω 事件的和(并) P ( A∪B ) = P ( A ) + P ( B ) - P ( AB ) A B Ω AB 事件的积(交)AB
【例3-4】 将分别写有0至9这十个号码的小球装入一容器中,反复搅拌之后任意摇出一个小球,观察其号码。试求出现“奇数或大于等于4的数”的概率。 解:所求事件 =奇数(A)+大于等于4的数(B) ={0,1,2,3,…,9},A={1,3,5,7,9},B={4,5,6,7,8,9} 由于等可能性,P(A)=5/10, P(B) =6/10。P(A)+P(B) >1 ,显然P(A∪B)≠ P(A)+P(B) 因为A和B存在共同部分AB={5,7,9},P(AB)=3/10。在P(A)+P(B) 中P(AB) 被重复计算了。 正确计算是: P(A∪B)=5/10+6/10-3/10=8/10=0.8
2. 乘法公式 用于计算两个事件同时发生的概率。 ——也即 “A发生且B发生”的概率 P(AB) 先关注事件是否相互独立
(1)条件概率 条件概率—在某些附加条件下计算的概率 在已知事件B已经发生的条件下A发生的条件概率——P(A|B) 条件概率的一般公式: 其中 P(B) >0
【例3-5】 某公司甲乙两厂生产同种产品。甲厂生产400件,其中一级品为280件;乙厂生产600件,其中一级品有360件。若要从该厂的全部产品中任意抽取一件,试求:①已知抽出产品为一级品的条件下该产品出自甲厂的概率;②已知抽出产品出自甲厂的条件下该产品为一级品的概率。 解:设A=“甲厂产品”,B=“一级品”,则: P(A)=0.4, P(B) =0.64,P(AB)=0.28 ① 所求概率为事件B发生条件下A发生的条件概率 P(A|B)=0.28/0.64 ②所求概率为事件A发生条件下B发生的条件概率 P(B|A)=0.28/0. 4
(1)条件概率(续) P(A|B)=在B发生的所有可能结果中AB发生的概率 Ω AB 一旦事件B已发生
乘法公式的一般形式: P(AB) =P(A)·P(B|A) 或 P(AB) =P(B)·P(A|B) 【例3-6】对例3-1中的问题(从这50件中任取2件产品,可以看成是分两次抽取,每次只抽取一件,不放回抽样) 解:A1=第一次抽到合格品,A2=第二次抽到合格品,A1A2=抽到两件产品均为合格品 P(A1 A2)=P(A1)·P(A2| A1)=
事件的独立性 两个事件独立 独立事件的乘法公式: P(AB) =P(A)·P(B) 一个事件的发生与否并不影响另一个事件发生的概率 P(A|B)=P(A),或 P(B|A)=P(B) 独立事件的乘法公式: P(AB) =P(A)·P(B) 推广到n 个独立事件,有: P(A1…An)=P(A1)P(A2) … P(An)
3. 全概率公式 完备事件组 对任一事件B,它总是与完备事件组A1、 A2、…、An之一同时发生,则有求P(B)的全概率公式: 且P(Ai ) > 0(i=1、2、...、n) 对任一事件B,它总是与完备事件组A1、 A2、…、An之一同时发生,则有求P(B)的全概率公式:
例3-7 假设有一道四选一的选择题,某学生知道正确答案的可能性为2/3,他不知道正确答案时猜对的概率是1/4。试问该生作出作答的概率? 解:设 A=知道正确答案,B=选择正确。 “选择正确”包括: “知道正确答案而选择正确”(即AB) “不知道正确答案但选择正确”(即 ) P(B)=(2/3)×1+(1/3)×(1/4)=3/4
全概率公式——贝叶斯公式 全概率公式的直观意义: 相反,在观察到事件B已经发生的条件下,确定导致B发生的各个原因Ai的概率 (后验概率公式) 每一个Ai的发生都可能导致B出现,每一个Ai 导致B发生的概率为,因此作为结果的事件B发生的概率是各个“原因”Ai 引发的概率的总和 相反,在观察到事件B已经发生的条件下,确定导致B发生的各个原因Ai的概率 ——贝叶斯公式(逆概率公式) (后验概率公式)
贝叶斯公式 若A1、 A2、…、An为完备事件组,则对于任意随机事件B,有: 计算事件Ai在给定B条件下的条件概率公式。 公式中,P(Ai)称为事件Ai的先验概率 P(Ai|B)称为事件Ai的后验概率
一、随机变量的概念 二、随机变量的概率分布 三、随机变量的数字特征 四、常见的离散型概率分布 五、常见的连续型概率分布 3.2 随机变量及其概率分布 一、随机变量的概念 二、随机变量的概率分布 三、随机变量的数字特征 四、常见的离散型概率分布 五、常见的连续型概率分布
3.2 随机变量及其概率分布 一、随机变量的概念
一、随机变量的概念 随机变量——表示随机试验结果的变量 根据取值特点的不同,可分为: 取值是随机的,事先不能确定取哪一个值 一个取值对应随机试验的一个可能结果 用大写字母如X、Y、Z...来表示,具体取值则用相应的小写字母如x、y、z…来表示 根据取值特点的不同,可分为: 离散型随机变量——取值可以一一列举 连续型随机变量——取值不能一一列举
1. 离散型随机变量的概率分布 2. 连续型随机变量的概率密度 3. 分布函数 3.2 随机变量及其概率分布 二、随机变量的概率分布 1. 离散型随机变量的概率分布 2. 连续型随机变量的概率密度 3. 分布函数
1. 离散型随机变量的概率分布 X的概率分布——X的有限个可能取值为xi与其概率 pi(i=1,2,3,…,n)之间的对应关系。 概率分布具有如下两个基本性质: (1) pi≥0,i=1,2,…,n; (2)
离散型概率分布的表示: 概率函数:P(X= xi)= pi 分布列: 分布图 X = xi x1 x2 … xn P(X =xi)=pi pn 0.6 0.3 0 1 2 x P( x ) 图3-5 例3-9的概率分布
2. 连续型随机变量的概率密度 连续型随机变量的概率分布只能表示为: 概率密度函数f (x)的函数值不是概率。 数学函数——概率密度函数f (x)和分布函数F (x) 图 形——概率密度曲线和分布函数曲线 概率密度函数f (x)的函数值不是概率。 连续型随机变量取某个特定值的概率等于0 只能计算随机变量落在一定区间内的概率 ——由x轴以上、概率密度曲线下方面积来表示
概率密度f (x) 的性质 (1) f (x)≥0。概率密度是非负函数。 (2) 所有区域上取值的概率总和为1。 随机变量X在一定区间(a,b)上的概率: f(x) x a b
3. 分布函数 适用于两类随机变量概率分布的描述 分布函数的定义: F(x)=P{X≤x} 离散型随机变量的分布函数 F(x)= f(x) 连续型随机变量的分布函数 分布函数与概率密度
1. 随机变量的数学期望 2. 随机变量的方差和标准差 3. 两个随机变量的协方差和相关系数 3.2 随机变量及其概率分布 三、随机变量的数字特征 1. 随机变量的数学期望 2. 随机变量的方差和标准差 3. 两个随机变量的协方差和相关系数
1. 随机变量的数学期望 又称均值 描述一个随机变量的概率分布的中心位置 离散型随机变量 X的数学期望: 连续型随机变量X 的数学期望: 相当于所有可能取值以概率为权数的平均值 连续型随机变量X 的数学期望:
数学期望的主要数学性质 若k是一常数,则 对于任意两个随机变量X、Y,有 若两个随机变量X、Y相互独立,则 E (k X) =k E(X) E(X+Y)=E(X)+E(Y) 若两个随机变量X、Y相互独立,则 E(XY)=E(X) E(Y)
2. 随机变量的方差 方差是它的各个可能取值偏离其均值的离差平方的均值,记为D(x)或σ2 公式: 离散型随机变量的方差: 连续型随机变量的方差:
方差和标准差(续) 标准差=方差的平方根 方差和标准差都反映随机变量取值的分散程度。 方差的主要数学性质: 它们的值越大,说明离散程度越大,其概率分布曲线越扁平。 方差的主要数学性质: 若k是一常数,则 D(k)=0;D(kX)=k2 D(X) 若两个随机变量X、Y相互独立,则 D(X+Y)=D(X)+D(Y)
【例3-10】 试求优质品件数的数学期望、方差和标准差。 解: xi 1 2 pi 0.1 0.6 0.3 σ =0.6
3.两个随机变量的协方差和相关系数 协方差的定义 如果X,Y独立(不相关),则 Cov(X,Y)=0 即 E(XY)=E(X) E(Y) 协方差受两个变量本身量纲的影响。
相关系数 相关系数ρ具有如下的性质: 相关系数ρ是一个无量纲的值 0≤| ρ| ≤0 当ρ=0,两个变量不相关(不存在线性相关) 当 | ρ|=1,两个变量完全线性相关
3.2 随机变量及其概率分布 四、常见离散型随机变量的概率分布 3.2 随机变量及其概率分布 四、常见离散型随机变量的概率分布 1. 二项分布 2. 泊松分布 3. 超几何分布
1. 二项分布(背景) (背景)——n重贝努里试验: 一次试验只有两种可能结果 用“成功”代表所关心的结果,相反的结果为“失败” 1. 二项分布(背景) (背景)——n重贝努里试验: 一次试验只有两种可能结果 用“成功”代表所关心的结果,相反的结果为“失败” 每次试验中“成功”的概率都是 p n 次试验相互独立。
1. 二项分布 在n重贝努里试验中,“成功”的次数X服从参数为n、p的二项分布,记为 X ~B(n , p) 二项分布的概率函数: 1. 二项分布 在n重贝努里试验中,“成功”的次数X服从参数为n、p的二项分布,记为 X ~B(n , p) 二项分布的概率函数: 二项分布的数学期望和方差: n=1时,二项分布就成了二点分布(0-1分布)
二项分布图形 p=0.5时,二项分布是以均值为中心对称 p≠0.5时,二项分布总是非对称的 随着n无限增大,二项分布趋近于正态分布 二项分布图示
【例3-11】 某单位有4辆汽车,假设每辆车在一年中至多只发生一次损失且损失的概率为0.1。试求在一年内该单位:(1)没有汽车发生损失的概率;(2)有1辆汽车发生损失的概率;(3)发生损失的汽车不超过2辆的概率。 解:每辆汽车是否发生损失相互独立的,且损失的概率相同,因此,据题意,在4辆汽车中发生损失的汽车数X ~B(4,0.1)。
利用Excel计算二项分布概率 进入Excel表格界面,点击任一空白单元格(作为输出单元格) 点击表格界面上的 fx 命令 在 “选择类别”中点击“统计”,在“选择函数”中点击“BINOMDIST” 在Number_s后填入试验成功次数 x (本例为2); 在Trials后填入总试验次数 n (本例为4) ; 在Probability_s后填入成功概率 p (本例为0.1); 在Cumulative后填入0 (或FALSE),表示计算成功次数等于指定值的概率 用EXCEL计算二项分布的概率 “=BINOMDIST(2,4,0.1,0)”
2. 泊松分布 X 服从泊松分布,记为X~P(λ): E(X)=D(X)=λ 当λ 很小时,泊松分布呈偏态,并随着λ增大而趋于对称 当λ为整数时,λ 和(λ-1)是最可能值
泊松分布(应用背景) 通常是作为稀有事件发生次数X的概率分布模型。 服从泊松分布的现象的共同特征 一段时间内某繁忙十字路口发生交通事故的次数 一定时间段内某电话交换台接到的电话呼叫次数… 服从泊松分布的现象的共同特征 在任意两个很小的时间或空间区间内事件发生次数是相互独立的; 各区间内事件发生次数只与区间长度成比例,与区间起点无关; 在一段充分小的区间内事件发生两次或两次以上的概率可以忽略不计
【例3-12】 设某种报刊的每版上错别字个数服从 λ =2的泊松分布。随机翻看一版,求: 解:设X=每版上错别字个数,则所求概率为: (1)没有错别字的概率; (2)至多有5个错别字的概率。 解:设X=每版上错别字个数,则所求概率为: 利用EXCEL计算泊松分布的概率
二项分布的泊松近似 【前提】当n很大而 p又很小时,二项分布可用参数λ=np 的泊松分布近似 【例3-13】一工厂有某种设备80台,配备了3个维修工。假设每台设备的维修只需要一个维修工,设备发生故障是相互独立的,且每台设备发生故障的概率都是0.01。求设备发生故障而不能及时维修的概率是多少? 解:X~B(n=80,p=0.01),由于np=0.8很小,可以用λ=0.8的泊松分布来近似计算其概率:
3. 超几何分布 N个单位的有限总体中有M个单位具有某特征。用不重复抽样方法从总体中抽取n个单位,样本中具有某种特征的单位数X服从超几何分布,记为X~H(n,N,M ) 数学期望和方差: N很大而n相对很小时,趋于二项分布(p=M/N)
五、常见的连续型概率分布 1. 均匀分布 X只在一有限区间 [a,b] 上取值 且概率密度是一个常数 其概率密度为: P(c≤X≤d) X 落在子区间 [c,d ] 内的概率与该子区间的长度成正比,与具体位置无关 f(x) a c d b x
2. 正态分布 X~N (μ、σ 2 ),其概率密度为: 正态分布的均值和标准差 均值 E(X) =μ 方差 D(X)=σ 2
2. 正态曲线 正态曲线的主要特性 关于x = μ对称的钟形曲线 参数μ决定正态曲线的中心位置 参数σ 决定正态曲线的陡峭或扁平程度 以X轴为渐近线,即当x→ ± ∞ 时,f(x) → 0 σ相同而μ不同的正态曲线 2x f(x) μ相同而σ不同的正态曲线 f(x) σ较小 σ较大 x
标准正态分布 μ=0、σ=1的正态分布,记为N (0, 1) 其概率密度φ(x),分布函数 Ф(x) X~N (μ、σ 2 ), 则 : Z~N (0,1 ) 标准化 标准正态曲线 -a 0 a φ(z) z Φ(a) 若 Z~N (0,1 ),则有: P(| Z| ≤ a)=2Ф(a)-1 Ф(-a)=1-Ф(a)
【例3-14】 某厂生产的某种节能灯管的使用寿命服从正态分布,对某批产品测试的结果,平均使用寿命为1050小时,标准差为200小时。试求: (a)使用寿命在500小时以下的灯管占多大比例? (b)使用寿命在850~1450小时的灯管占多大比例? (c)以均值为中心,95%的灯管的使用寿命在什么范围内?
解 X=使用寿命,X~N (1050,2002 ) =1-Ф(2.75)=1-0.99702=0.00298 =Ф(2)-Ф(-1)=0.97725-0.15865=0.8186 95%的灯管寿命在均值左右392(即658~1442)小时
3 σ 原则 |X-μ| > 3σ 的概率很小,因此可认为正态随机变量的取值几乎全部集中在[ μ- 3σ,μ+ 3σ ]区间内 广泛应用: 产品质量控制 判断异常情况 …… 图3-12 常用的正态概率值 (在一般正态分布及标准正态分布中) -3 -2 -1 0 +1 +2 +3 z -3σ -2σ -σ +σ +2σ+3σ x 99.73% 95.45% 68.27%
正态分布最常用、最重要 大千世界中许多常见的随机现象服从或近似服从正态分布 例如,测量误差,同龄人的身高、体重,一批棉纱的抗拉强度,一种设备的使用寿命,农作物的产量… 特点是 “中间多两头少” 由于正态分布特有的数学性质,正态分布在很多统计理论中都占有十分重要的地位 正态分布是许多概率分布的极限分布 统计推断中许多重要的分布(如χ2分布、t分布、F分布)都是在正态分布的基础上推导出来的。
用正态分布近似二项分布 X~B (n,p) ,当n充分大时, X~N (n p,np(1-p)) 【例3-15】假设有一批种子的发芽率为0.7。现有这种种子1000颗,试求其中有720颗以上发芽的概率。 解:设X=发芽种子颗数,X~B(1000,0.7)。近似地 X~N (700,210)。 P(X>720)=P(Z>1.38)=1-P(Z≤1.38) =1-0.9162=0.0838
用正态分布近似二项分布 用正态分布近似二项分布的前提 如果np或np(1-p)小于5,二项分布可以用泊松分布来近似 n很大,
计算正态分布的概率值 方法一:先标准化——查标准正态分布函数值表 方法二:利用Excel来计算(不必标准化) 插入函数fx——选择“统计”-“NORMDIST”,进入“函数参数”对话框中, 在X后填入正态随机变量的取值区间点; 在Mean后填入正态分布的均值; 在Standard_dev后填入正态分布的标准差; 在Cumulative后填入1(或TRUE),表示计算随机变量取值小于等于指定值x的累积概率值。
计算正态分布的概率值 也可在选定的输出单元格中,顺次输入函数名和参数值即可 如输入“=NORMDIST(500,1050,200,1)”,确定后即可得到所求概率值0.0029798。 根据概率值F(X≤x)求随机变量取值的区间点 x,选择函数“NORMINV”。 如输入“=NORMINV(0.0029798,1050,200)”,显示计算结果为500。
3.3 大数定律与中心极限定理 一、大数定律 二、中心极限定理
3.3 大数定律与中心极限定理 一、大数定律 1. 独立同分布大数定律 2. 贝努里大数定律
独立同分布大数定律 大数定律是阐述大量同类随机现象的平均结果的稳定性的一系列定理的总称。 独立同分布大数定律——设X1, X2, …是独立同分布的随机变量序列,且存在有限的数学期望E(Xi)=μ和方差D(Xi )=σ 2(i=1,2,…),则对任意小的正数ε, 有:
大数定律(续) 该大数定律表明:当n充分大时,相互独立且服从同一分布的一系列随机变量取值的算术平均数,与其数学期望μ的偏差任意小的概率接近于1。 该定理给出了平均值具有稳定性的科学描述,从而为使用样本均值去估计总体均值(数学期望)提供了理论依据。
贝努里大数定律 设m是n次独立重复试验中事件A发生的次数,p是每次试验中事件A发生的概率,则对任意的ε> 0,有: 它表明,当重复试验次数n充分大时,事件A发生的频率m/n依概率收敛于事件A发生的概率 阐明了频率具有稳定性,提供了用频率估计概率的理论依据。
1. 独立同分布大数定律 2. 棣莫佛-拉普拉斯中心极限定理 3.3 大数定律与中心极限定理 二、中心极限定理 1. 独立同分布大数定律 2. 棣莫佛-拉普拉斯中心极限定理
独立同分布的中心极限定理 (也称列维一林德伯格定理) 设X1, X2, …是独立同分布的随机变量序列,且存在有限的μ和方差σ2(i=1,2,…),当n→ ∞时, 就趋于正态分布。 或
上述定理表明 可得出如下结论: 独立同分布的随机变量序列不管服从什么分布,其n项总和的分布趋近于正态分布。 该定理为均值的抽样推断奠定了理论基础。
【例3-16】 有一测绘小组对甲乙两地之间的距离采用分段测量的方法进行了测量,将甲乙之间的距离分成为100段。设每段测量值的误差(单位:cm)服从区间(-1,1)上的均匀分布。试问:对甲乙两地之间距离的测量值的总误差绝对值超过10cm的概率是多少? 解:设 Xi=第i段测量误差(i=1,2,…),由于Xi服从均匀分布,E(Xi)=μ=0,D(Xi )=σ2=[1-(-1)]2/12=1/3。根据上述中心极限定理,可得,总误差Y=ΣXi~N(0,100/3)。
棣莫佛-拉普拉斯中心极限定理 设随机变量X服从二项分布B(n,p)的,那么当n→ ∞时,X服从均值为np、方差为 np(1-p) 的正态分布,即: 或: 上述定理表明: n很大,np 和 np(1-p)也都不太小时,二项分布可以用正态分布去近似。
为什么很多随机现象呈正态分布 自然界和社会经济现象中,这类现象很普遍,许许多多的随机变量都可以视为众多独立随机变量之总和。例如: 一个城市的居民生活用电总量是大量相互独立居民户用电量的总和; 炮弹射击的误差,也可以看作是很多因素引起的小误差之总和。 由中心极限定理可知,即使各单个随机变量的分布并不明确,但只要它们存在有限均值和方差,这个众多独立的随机变量之总和的分布就趋近于正态分布。 正态分布也称为常态分布
本章小结 随机现象、随机试验、事件的概念 概率的定义、基本性质和运算法则 随机变量的概念、概率分布的表示 随机变量的主要数字特征 三种常见的离散型概率分布 二项分布、泊松分布和超几何分布 两种连续型概率分布 均匀分布、正态分布的主要特征和应用 大数定律和中心极限定理
常用概率分布及其均值、方差 σ2 μ λ p(1-p) p np(1-p) 正态分布 均匀分布 np 超几何分布 P(λ) 泊松分布 NORMDIST 正态分布 (a+b)/2 均匀分布 np (p=M/N) H(n,N,M ) HYPGEOM-DIST 超几何分布 λ P(λ) POISSON 泊松分布 p(1-p) p B(1,p) 二点分布 np(1-p) B(n,p) BINOMDIST 二项分布 方差 均值 记号 名称