正态分布
频率和概率概念复习 关于频率和概率: 频率:对于随机事件A,在相同的条件下进行了n次实验,事件A发生的次数为m,比值m/n为频率 ,记为fn(A) 概率:描述某随机事件A发生的可能性大小,记为P(A) 当n时,频率fn(A) 概率 P(A)
扔“硬币”实验 实验者 n m正 f n(正) 德.摩根 2048 1061 0.5181 蒲丰 4040 0.5069 K.皮尔逊 12000 6019 0.5016 24000 12012 0.5005 频率具有波动性,但当n越来越大时,频率趋于某个稳定的常数(概率),所以只要观察单位数充分多,可以将频率作为概率的估计值。
例:在某地区7岁正常发育的男孩中随机抽110个人,测量他们的身高,并以身高观察值(cm)为数据,试刻画7岁男孩身高分布。 通过例子介绍概率密度曲线的意义 例:在某地区7岁正常发育的男孩中随机抽110个人,测量他们的身高,并以身高观察值(cm)为数据,试刻画7岁男孩身高分布。
复习频数分布和频率分布性质 各个组段的频率之和(累计频率)=1
各个直方条的面积之和=各个组段的频率之和=1 频率密度图(纵坐标为频率/组距) 每个直方条的面积=纵坐标×组距=(频率/组距)×组距=频率 各个直方条的面积之和=各个组段的频率之和=1
频率密度图性质 身高<112cm的频率=组段[106,109)和[109,112)的频率之和=[106,112)的直方条面积。 112cm身高<118cm的频率=[112,118)的直方条面积
频率密度图性质(n∞) 现(n110),假定在该地区随机抽了n个7岁男孩并且n∞,则各个组段的频率各自的概率 身高为各个组段的概率=各个组段的直方条面积 各个组段的面积(概率)之和为1
频率密度图性质(n∞) [115,118)的直方条面积(概率)为0.064 [118,121)的直方条面积(概率)为0.073 则身高在[115,121)的概率为 [115,121)的直方条面积= 0.064+0.073= 0.137
频率密度图性质(n∞) 身高在[115,121)的概率为[115,121)的直方条面积=0.409 问题1:能否利用组段的直方条面积计算身高在[115,122)的概率?要采取什么措施才能计算? 问题2:身高在[115,122.5)的概率如何计算啊?
概率密度曲线 当n∞,直方条面积(频率)各自的概率 probability density curve 当n∞,直方条面积(频率)各自的概率 然后组距0时,直方条的宽度0,直方条垂直线,各个直方条顶点间的连线构成一条光滑的曲线,即:概率密度曲线,而曲线下(直方条)的总面积始终为1,身高在区间[a,b]的概率=对应曲线段下的面积(直方条面积) 。
正态分布的概率密度 正态曲线(normal curve):高峰位于中央,两侧逐渐下降并完全对称,曲线两段永远不与横轴相交的钟型曲线。 正态曲线的函数表达式 称为正态分布密度函数:
正态分布的参数 如果变量X的概率密度函数服从上述函数,则称该变量服从正态分布。记做 总体均数(位置参数) :描述正态分布的集中趋势的位置 总体均数(位置参数) :描述正态分布的集中趋势的位置 总体标准差(变异度参数) :描述正态分布离散趋势, 越小,分布越集中,曲线形状越“瘦高”;反之越“矮胖”。 正态曲线的形状由 , 两个参数决定
不同参数的正态分布曲线
不同参数的正态分布曲线
正态分布曲线的特点 始终位于横轴上方 关于 左右对称,正态高峰位于中央 在 处取得该概率密度函数的最大值,在 处有拐点,表现为钟形 关于 左右对称,正态高峰位于中央 在 处取得该概率密度函数的最大值,在 处有拐点,表现为钟形 靠近 处曲线下面积较为集中,两边减少,意味着正态分布变量取值靠近 处的概率较大,两边逐渐减少 正态分布的总体偏度系数和峰度系数均为0
正态分布曲线下面积 正态分布变量X的取值为(-∞,∞) 任意两点x1,x2且(x1x2),X在 (x1, x2)范围内取值的概率P,即正态分布曲线在(x1, x2)下面积 特别: ,则称X服从为标准正态分布 记为N(0,1) 问题:设X~N(120,4.52),求概率P(X=120)
正态分布曲线的对称性质 设X服从 ,则正态曲线在X=处对称,正态曲线(-∞, )处的曲线下面积为0.5, 更一般的情况:概率
正态分布曲线下面积 求概率 相当于正态分布曲线段(a,b)下的面积 例:求 范围内曲线下面积 理论频率(概率) 实际频率 0.90 例:求 范围内曲线下面积 理论频率(概率) 实际频率 0.90 0.8909 0.95 0.9273 0.99 0.9818
正态分布曲线下的特殊位置的面积
标准正态分布N(0,1) 对任意一个正态分布可以进行标准化变换,U变换 变换后的随机变量U服从标准正态分布, 即:U~N(0,1)
标准正态分布曲线下面积 表、图
正态分布的特色点的概率
标准正态分布的概率计算 例2.18:设X服从标准正态分布, 求概率P(-0.3 <X <-1.83) 解:即:求标准正态分布曲线下在 (-1.83,-0.30)范围内的面积
标准正态分布的概率计算 是 又如:设X服从标准正态分布,求概率 P(X>0.3) 解:标准正态分布关于X=0对称,所以 P(X>0.3)=P(X<-0.3)=
正态分布的概率计算 例2.19 例2.1中已得110名7岁男孩身高 (121.94.5),现欲估计该地1995年身高界于 116.7cm 到119.1cm范围内的7岁男童的概率。 解:由该例的频数图可知, 可以认为7岁男孩 身高近似服从正态分布,由于本例样本量较大, 不妨假定:
正态分布的概率计算 作标准化变换: X1=116.7 X2=119.1
正态分布的概率计算(续) 7岁男童的身高界于116.7cm 到119.1cm的概率为 解:用标准化变换,得到u1=-1.16,u2=1.8
正态分布的概率计算(续) 计算概率为
正态分布应用 确定医学参考值范围 医学参考值范围---决大多数正常人的某项指标值范围 统计方法 ”正常”人群:排除了影响所研究指标的疾病和有关因素的同质人群 大多数个体;90%,95%,99%等 统计方法 百分位数法:任何分布的指标 正态分布法:服从正态分布的指标 注意:根据研究背景确定单双侧范围
确定医学参考值范围 例2.21 估计某地健康成年女子的血红蛋白的95%医学参考值范围 具体步骤如下: 根据研究背景确定研究对象的入选标准和排除标准。这类研究一般要求参加体检并且要求除研究指标血红蛋白指标外,其他指标均正常的对象。 根据研究背景,确定血红蛋白过高或过低均属于不正常(双侧范围)。
确定医学参考值范围(续) 血红蛋白检测的容许误差和研究背景容许 误差的范围,确定受检者的样本量。 由于在实际研究中,总体均数和方差均不 知道的,需要用样本资料进行估计,所以 一般至少在100人以上,这样参数估计的 平均误差是资料的离散程度的1/10以下。
确定医学参考值范围(续) 如果受检指标血红蛋白近似服从正态分布,则可以用 确定其95%参考值范围; 如果受检指标血红蛋白近似服从正态分布,则可以用 确定其95%参考值范围; 如果受检指标血红蛋白呈偏态分布,则可以用百分位数P2.5~P97.5确定95%参考值范围,但样本量要充分大。 样本量充分大是相对与指标的变异程度,指标变异大,要求样本量大;指标变异程度小,要求样本量可以相对小一些。
确定医学参考值范围(续) 本例:成年正常女子200人的血清总蛋白含量(近似正态分布),得到均数 =73.5克/升,标准差S=3.9克/升。 由于样本量很大,可以用样本均数和标准差近似总体均数和标准差,按下式计算:
确定医学参考值范围(续) 下限: 上限: 即:该地成年正常女子的95%参考值范围为65.9~81.1( g/L)
确定医学参考值范围(续) 例2.22 估计某地110名健康成年男子第一秒肺通气量的95%参考值范围,已知 =4.2L,s=0.7L. 实现步骤如下: 确定入选标准和排除标准 由于第一秒肺通气量过低才是异常,不存在过高不正常,所以只需考虑过低的异常标准(单侧范围)
确定医学参考值范围(续) 本例:95%参考值范围计算如下: 下限: 即:健康成年男子第一秒肺通气量的95%参考值范围3.05L 依据原始资料,考查资料是否近似服从正态分布,本例假定近似服从正态分布,样本量也较大,采用正态分布方法确定95%参考值范围。 本例:95%参考值范围计算如下: 下限: 即:健康成年男子第一秒肺通气量的95%参考值范围3.05L
确定医学参考值范围小结 正态分布法 百分位数法 双侧 单侧 90 95 99 % 只有 下限 上限 只有下限 只有上限 P5~P95 P10
正态分布应用 估计频数 例2.20 某地婴儿出生平均体重为3200g,标准差为350g,如出生体重低于2500g为低体重儿,估计当年该地低体重儿所占的比例。 求出生体重X<2500的比例 进行标准化变换 P(X<2500)=P(U<-2), 查标准正态表得φ(-2)=0.023,即:估计当年该地低体重儿所占的比例为2.3%。
正态分布应用 质量控制图 原理:如果波动仅由个体差异或随机误差所致,则结果应服从正态分布 为控制实验误差,以 为警戒线,以 为控制线
STATA命令 模拟正态分布 set memory 20m 设Stata内存为20兆 set obs 100000 设模拟数据的样本含量为10万 gen x=invnorm(uniform()) 产生10万个服从标准正态分布的数据(x) gen y= invnorm(uniform())
STATA命令 模拟正态分布 gen z1=x+2*y 产生新的变量z1=x+2y gen z2=x-2*y 产生新的变量z1=x-2y summarize x y z1 z2,d 计算x、y、z1、z2的均数,标准差,方差