第四章 常用概率分布 韩国君 教授
第一节 正态分布 Normal Distribution
正态分布(normal distribution) 定义 若连续型随机变量x的概率分布密度函数为 其中μ为平均数,σ2为方差,则称随机变量x服从正态分布, 记为x~N(μ,σ2)。相应的概率分布函数为
正态分布 正态分布密度曲线是单峰、对称的悬钟形曲线,对称轴为x=μ; f(x) 在 x =μ 处达 到 极 大 , 极大值 ;
正态分布 正态分布有两个参数,即平均数μ和标准差σ
正态分布 分布密度曲线与横轴所夹的面积为1,
标准正态分布(standard normal distribution) 随机变量u服从标准正态分布,记作u~N(0,1)
标准正态分布 对于任何一个服从正态分布N(μ,σ2)的随机变量x,都可以通过标准化变换 u=(x-μ)/σ u称为标准正态变量或标准正态离差(standard normal deviate)
三、正态分布的概率计算 设u服从标准正态分布,则 u 在[u1,u2 )何内取值的概率为: =Φ(u2)-Φ(u1) 而Φ(u1)与Φ(u2) 可由附表1查得。
标准正态分布 正态分布的对称性可推出下列关系式, 再借助附表1 , 便能很方便地计算有关概率: P(0≤u<u1)=Φ(u1)-0.5 P(u1≤u<u2)=Φ(u2)-Φ(u1)
计算 已知u~N(0,1),试求: (1) P(u<-1.64)=? (2) P (u≥2.58)=? (3) P (|u|≥2.56)=?
计算 查附表1得: (1) P(u<-1.64)=0.05050 (2) P (u≥2.58)=Φ(-2.58)=0.024940 =2Φ(-2.56)=2×0.005234 =0.010468 (4) P (0.34≤u<1.53) =Φ(1.53)-Φ(0.34) =0.93669-0.6331=0.30389
关于标准正态分布,以 下几种概率应当熟记: P(-1≤u<1)=0.6826 P(-2≤u<2)=0.9545 P(-3≤u<3)=0.9973 P(-1.96≤u<1.96)=0.95 P (-2.58≤u<2.58)=0.99
计算 u变量在上述区间以外取值的概率分别为: P(|u|≥1)=2Φ(-1)=1- P(-1≤u<1) =1-0.6826=0.3174 =1-0.9545=0.0455 P(|u|≥3)=1-0.9973=0.0027 P(|u|≥1.96)=1-0.95=0.05 P(|u|≥2.58)=1-0.99=0.01
由表4—2可见,实际频率与理论概率相当接近,说明126头基础母羊体重资料的频率分布接近正态分布,从而可推断基础母羊体重这一随机变量很可能是服从正态分布的
双侧概率和单侧概率 随机变量x落在平均数μ加减不同倍数标准差σ区间之外的概率称为双侧概率(两尾概率),记作α。对应于双侧概率可以求得随机变量x小于μ-kσ或大于μ+kσ的概率,称为单侧概率(一尾概率),记作α/2。例如,x落在(μ-1.96σ,μ+1.96σ)之外的双侧概率为0.05,而单侧概率为0.025。 P(x<μ-1.96σ)=P(x>μ+1.96σ)=0.025
x落在(μ-2.58σ,μ+2.58σ)之外的双侧概率为0.01,而单侧概率 P(x<μ-2.58σ)=P(x>μ+2.58σ)=0.005
卡方分布 Chi-square Distribution 第二节 卡方分布 Chi-square Distribution
定义 如果随机变量zi(i = 1, ..., n)为相互独立,都服从标准正态分布,则定义: , i = 1, ..., n 变量2服从自由度等于n卡方分布(chi – square distribution)。
卡方分布曲线 图4-1 不同自由度下的2分布 图4-2 2分布的上侧和下侧分位数示意图
卡方分布特征 卡方分布于区间[0,+),并且呈反J形的偏斜分布。 卡方分布的偏斜度随自由度的降低而增大,当自由度等于1时,曲线以纵轴为渐近线。 随自由度的增大,卡方分丰曲线渐趋左右对称,当df > 30时,卡方分布已接近正态分布。
第三节 t分布
定义 如果z~N(0,1), 2服从自由度等于n的卡方分布, 则 为自由度为n的t分布 t分布的形状与正态分布相似
t 分布 不同自由度下的t分布 t分布双侧分位数示意图
t 分布密度曲线特点 t分布受自由度的制约,每一个自由度都有一条t分布密度曲线。 与标准正态分布曲线相比,t分布曲线顶部略低,两尾部稍高而平。df越小这种趋势越明显。df越大,t分布越趋近于标准正态分布。当n >30时,t分布与标准正态分布的区别很小;n >100时,t分布基本与标准正态分布相同;n→∞时,t 分布与标准正态分布完全一致。
第四节 F分布
定义
F分布图 (2,6)(6,10)(10,20)
F分布有以下特征 F分布的平均数等于1,取值区间为[0,+)。 F分布曲线的形状仅决定于df1和df2。当df1=1或2时,F分布曲线呈严重倾斜的反向J形,当df13时,转为左偏曲线。
第五节 样本平均数的抽样分布
定义 样本变异性(sampling variability):简单随机样本平均数间存在差别。或抽样误差(sampling error) 样本分布(sampling distribution):指样本的概率分布。
样本平均数的分布 从N个总体中随机抽取样本含量为n的样本,共抽m次,求样本平均数的分布(sample distribution for the mean)。 计算每个样本的平均数 列出每次抽样的平均数,并列出每个平均数的频率 直观观察
例题1 一个骰子掷两次算一次抽样,求所有样本的样本平均数和方差 1 2 3 4 5 6 1,1 1,2 1,3 1,4 1,5 1,6 2,1 2,2 2,3 2,4 2,5 2,6 3,1 3,2 3,3 3,4 3,5 3,6 4,1 4,2 4,3 4,4 4,5 4,6 5,1 5,2 5,3 5,4 5,5 5,6 6,1 6,2 6,3 6,4 6,5 6,6
例题 2 平均数 频率 相对频率 1.0 1 0.028 1.5 2 0.056 2.0 3 0.083 2.5 4 0.111 3.0 5 0.139 3.5 6 0.167 4.0 4.5 5.0 5.5 6.0 总和 36 1.000
样本平均数的分布 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0
定理 情况1. 如果总体服从正态分布,平均数为,方差为2,样本含量为n,则样本为: 正态分布 平均数等于 方差等于 2/n,SQRT( 2/n )称为平均数的标准差(standard error of the mean), 或简称标准误
定理 情况2:当总本不是服从正态分布,平均数为,方差为2,样本含量为n,则样本为: 近似服从正态分布,随样本越大,近似越好。与总体分布的形状有关。一般地,样本数30或者30以上,近似会比较好(中心极限定理, Central Limit Theorem, CLT)。 平均数等于 方差等于 2/n,SQRT( 2/n )为平均数的标准误(standard error of the mean)或标准误
总体 平均数的期望
样本平均数的方差