正态分布.

Slides:



Advertisements
Similar presentations
第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
Advertisements

2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
2.6 隐函数微分法 第二章 第二章 二、高阶导数 一、隐式定义的函数 三、可微函数的有理幂. 一、隐函数的导数 若由方程 可确定 y 是 x 的函数, 由 表示的函数, 称为显函数. 例如, 可确定显函数 可确定 y 是 x 的函数, 但此隐函数不能显化. 函数为隐函数. 则称此 隐函数求导方法.
全微分 教学目的:全微分的有关概念和意义 教学重点:全微分的计算和应用 教学难点:全微分应用于近似计算.
信号与系统 第三章 傅里叶变换 东北大学 2017/2/27.
复习: :对任意的x∈A,都有x∈B。 集合A与集合B间的关系 A(B) A B :存在x0∈A,但x0∈B。 A B A B.
§3.4 空间直线的方程.
《解析几何》 -Chapter 3 §7 空间两直线的相关位置.
3.4 空间直线的方程.
( Measures of Dispersion )
第四章 概率、正态分布、常用统计分布.
第三章 函数逼近 — 最佳平方逼近.
卫生统计学基本概况和基本概念 赵耐青 复旦大学卫生统计教研室.
第二章 计量资料的统计描述 第一节 频数分布 第二节 集中趋势的描述 第三节 离散趋势的描述 第四节 正态分布 第五节 医学参考值范围的制定.
6.6 单侧置信限 1、问题的引入 2、基本概念 3、典型例题 4、小结.
08-09冬季学期 概率论与数理统计 姜旭峰,胡玉磊.
高二数学 选修 正态分布.
例题 教学目的: 微积分基本公式 教学重点: 牛顿----莱布尼兹公式 教学难点: 变上限积分的性质与应用.
第四章 函数的积分学 第六节 微积分的基本公式 一、变上限定积分 二、微积分的基本公式.
第5章 定积分及其应用 基本要求 5.1 定积分的概念与性质 5.2 微积分基本公式 5.3 定积分的换元积分法与分部积分法
基本概念 资料类型 计量资料:用度量衡的方法测定每个观察单位的某项研究指标量的大小,所得数据为数值变量。
第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 实习2 主讲人 陶育纯 医学统计学方法 实习2 主讲人 陶育纯 流行病与卫生统计学教研室
主要内容 § 3.1 多维随机变量及联合分布 联合分布函里数 联合分布律 联合概率密度 § 3.2 二维随机变量的边缘分布
不确定度的传递与合成 间接测量结果不确定度的评估
第三节 格林公式及其应用(2) 一、曲线积分与路径无关的定义 二、曲线积分与路径无关的条件 三、二元函数的全微分的求积 四、小结.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
2-7、函数的微分 教学要求 教学要点.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
1.2 事件的频率与概率 一、事件的频率 二、概率的公理化体系 1.2 事件的频率与概率.
Introduction To Mean Shift
第5章 §5.3 定积分的积分法 换元积分法 不定积分 分部积分法 换元积分法 定积分 分部积分法.
第6章 统计量及其抽样分布 统计量 关于分布的几个概念 由正态分布导出的几个重要分布 样本均值的分布与中心极限定理 样本比例的抽样分布
复习引入 数据 统计学的核心思想是 根据样本的情况对总体的相应情况作出估计和推断 2.统计学研究问题的步骤
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
计算机数学基础 主讲老师: 邓辉文.
第十章 方差分析.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
常用概率分布 ---Poisson分布.
2.1.2 空间中直线与直线 之间的位置关系.
连续型随机变量及其概率密度 一、概率密度的概念与性质 二、常见连续型随机变量的分布 三、小结.
第七章 参数估计 7.3 参数的区间估计.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
抽样和抽样分布 基本计算 Sampling & Sampling distribution
第二十二章 曲面积分 §1 第一型曲面积分 §2 第二型曲面积分 §3 高斯公式与斯托克斯公式.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
§1体积求法 一、旋转体的体积 二、平行截面面积为已知的立体的体积 三、小结.
第五节 对坐标的曲面积分 一、 对坐标的曲面积分的概念与性质 二、对坐标的曲面积分的计算法 三、两类曲面积分的联系.
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
正切函数的图象和性质 周期函数定义: 一般地,对于函数 (x),如果存在一个非零常数T,使得当x取定义域内的每一个值时,都有
3.1 变化率与导数   3.1.1 变化率问题 3.1.2 导数的概念.
第四章 第四节 函数图形的描绘 一、渐近线 二、图形描绘的步骤 三 、作图举例.
函 数 连 续 的 概 念 淮南职业技术学院.
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
一 测定气体分子速率分布的实验 实验装置 金属蒸汽 显示屏 狭缝 接抽气泵.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
直线和圆的位置关系 ·.
第四节 随机变量函数的概率分布 X 是分布已知的随机变量,g ( · ) 是一个已知 的连续函数,如何求随机变量 Y =g(X ) 的分布?
第一部分:概率 产生随机样本:对分布采样 均匀分布 其他分布 伪随机数 很多统计软件包中都有此工具 如在Matlab中:rand
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
第二章 计量资料的统计描述.
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
卫生统计学基本概况和基本概念 赵耐青 复旦大学卫生统计教研室.
难点:连续变量函数分布与二维连续变量分布
第十五讲 区间估计 本次课讲完区间估计并开始讲授假设检验部分 下次课结束假设检验,并进行全书复习 本次课程后完成作业的后两部分
第三节 函数的微分 3.1 微分的概念 3.2 微分的计算 3.3 微分的应用.
第四节 向量的乘积 一、两向量的数量积 二、两向量的向量积.
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
三角 三角 三角 函数 余弦函数的图象和性质.
Presentation transcript:

正态分布

频率和概率概念复习 关于频率和概率: 频率:对于随机事件A,在相同的条件下进行了n次实验,事件A发生的次数为m,比值m/n为频率 ,记为fn(A) 概率:描述某随机事件A发生的可能性大小,记为P(A) 当n时,频率fn(A) 概率 P(A)

扔“硬币”实验 实验者 n m正 f n(正) 德.摩根 2048 1061 0.5181 蒲丰 4040 0.5069 K.皮尔逊 12000 6019 0.5016 24000 12012 0.5005 频率具有波动性,但当n越来越大时,频率趋于某个稳定的常数(概率),所以只要观察单位数充分多,可以将频率作为概率的估计值。

例:在某地区7岁正常发育的男孩中随机抽110个人,测量他们的身高,并以身高观察值(cm)为数据,试刻画7岁男孩身高分布。 通过例子介绍概率密度曲线的意义 例:在某地区7岁正常发育的男孩中随机抽110个人,测量他们的身高,并以身高观察值(cm)为数据,试刻画7岁男孩身高分布。

复习频数分布和频率分布性质 各个组段的频率之和(累计频率)=1

各个直方条的面积之和=各个组段的频率之和=1 频率密度图(纵坐标为频率/组距) 每个直方条的面积=纵坐标×组距=(频率/组距)×组距=频率 各个直方条的面积之和=各个组段的频率之和=1

频率密度图性质 身高<112cm的频率=组段[106,109)和[109,112)的频率之和=[106,112)的直方条面积。 112cm身高<118cm的频率=[112,118)的直方条面积

频率密度图性质(n∞) 现(n110),假定在该地区随机抽了n个7岁男孩并且n∞,则各个组段的频率各自的概率 身高为各个组段的概率=各个组段的直方条面积 各个组段的面积(概率)之和为1

频率密度图性质(n∞) [115,118)的直方条面积(概率)为0.064 [118,121)的直方条面积(概率)为0.073 则身高在[115,121)的概率为 [115,121)的直方条面积= 0.064+0.073= 0.137

频率密度图性质(n∞) 身高在[115,121)的概率为[115,121)的直方条面积=0.409 问题1:能否利用组段的直方条面积计算身高在[115,122)的概率?要采取什么措施才能计算? 问题2:身高在[115,122.5)的概率如何计算啊?

概率密度曲线 当n∞,直方条面积(频率)各自的概率 probability density curve 当n∞,直方条面积(频率)各自的概率 然后组距0时,直方条的宽度0,直方条垂直线,各个直方条顶点间的连线构成一条光滑的曲线,即:概率密度曲线,而曲线下(直方条)的总面积始终为1,身高在区间[a,b]的概率=对应曲线段下的面积(直方条面积) 。

正态分布的概率密度 正态曲线(normal curve):高峰位于中央,两侧逐渐下降并完全对称,曲线两段永远不与横轴相交的钟型曲线。 正态曲线的函数表达式 称为正态分布密度函数:

正态分布的参数 如果变量X的概率密度函数服从上述函数,则称该变量服从正态分布。记做 总体均数(位置参数) :描述正态分布的集中趋势的位置 总体均数(位置参数) :描述正态分布的集中趋势的位置 总体标准差(变异度参数) :描述正态分布离散趋势, 越小,分布越集中,曲线形状越“瘦高”;反之越“矮胖”。 正态曲线的形状由 , 两个参数决定

不同参数的正态分布曲线

不同参数的正态分布曲线

正态分布曲线的特点 始终位于横轴上方 关于 左右对称,正态高峰位于中央 在 处取得该概率密度函数的最大值,在 处有拐点,表现为钟形 关于 左右对称,正态高峰位于中央 在 处取得该概率密度函数的最大值,在 处有拐点,表现为钟形 靠近 处曲线下面积较为集中,两边减少,意味着正态分布变量取值靠近 处的概率较大,两边逐渐减少 正态分布的总体偏度系数和峰度系数均为0

正态分布曲线下面积 正态分布变量X的取值为(-∞,∞) 任意两点x1,x2且(x1x2),X在 (x1, x2)范围内取值的概率P,即正态分布曲线在(x1, x2)下面积  特别:   ,则称X服从为标准正态分布 记为N(0,1) 问题:设X~N(120,4.52),求概率P(X=120)

正态分布曲线的对称性质 设X服从 ,则正态曲线在X=处对称,正态曲线(-∞, )处的曲线下面积为0.5, 更一般的情况:概率

正态分布曲线下面积 求概率 相当于正态分布曲线段(a,b)下的面积 例:求 范围内曲线下面积 理论频率(概率) 实际频率 0.90 例:求 范围内曲线下面积 理论频率(概率) 实际频率 0.90 0.8909 0.95 0.9273 0.99 0.9818

正态分布曲线下的特殊位置的面积

标准正态分布N(0,1) 对任意一个正态分布可以进行标准化变换,U变换 变换后的随机变量U服从标准正态分布,    即:U~N(0,1)

标准正态分布曲线下面积 表、图

正态分布的特色点的概率

标准正态分布的概率计算 例2.18:设X服从标准正态分布, 求概率P(-0.3 <X <-1.83) 解:即:求标准正态分布曲线下在  (-1.83,-0.30)范围内的面积

标准正态分布的概率计算 是 又如:设X服从标准正态分布,求概率 P(X>0.3) 解:标准正态分布关于X=0对称,所以 P(X>0.3)=P(X<-0.3)=

正态分布的概率计算 例2.19 例2.1中已得110名7岁男孩身高 (121.94.5),现欲估计该地1995年身高界于 116.7cm 到119.1cm范围内的7岁男童的概率。 解:由该例的频数图可知, 可以认为7岁男孩 身高近似服从正态分布,由于本例样本量较大, 不妨假定:

正态分布的概率计算 作标准化变换: X1=116.7 X2=119.1

正态分布的概率计算(续) 7岁男童的身高界于116.7cm 到119.1cm的概率为 解:用标准化变换,得到u1=-1.16,u2=1.8

正态分布的概率计算(续) 计算概率为

正态分布应用 确定医学参考值范围 医学参考值范围---决大多数正常人的某项指标值范围 统计方法 ”正常”人群:排除了影响所研究指标的疾病和有关因素的同质人群 大多数个体;90%,95%,99%等 统计方法 百分位数法:任何分布的指标 正态分布法:服从正态分布的指标 注意:根据研究背景确定单双侧范围

确定医学参考值范围 例2.21 估计某地健康成年女子的血红蛋白的95%医学参考值范围 具体步骤如下: 根据研究背景确定研究对象的入选标准和排除标准。这类研究一般要求参加体检并且要求除研究指标血红蛋白指标外,其他指标均正常的对象。 根据研究背景,确定血红蛋白过高或过低均属于不正常(双侧范围)。

确定医学参考值范围(续) 血红蛋白检测的容许误差和研究背景容许 误差的范围,确定受检者的样本量。 由于在实际研究中,总体均数和方差均不 知道的,需要用样本资料进行估计,所以 一般至少在100人以上,这样参数估计的 平均误差是资料的离散程度的1/10以下。

确定医学参考值范围(续) 如果受检指标血红蛋白近似服从正态分布,则可以用 确定其95%参考值范围; 如果受检指标血红蛋白近似服从正态分布,则可以用 确定其95%参考值范围; 如果受检指标血红蛋白呈偏态分布,则可以用百分位数P2.5~P97.5确定95%参考值范围,但样本量要充分大。 样本量充分大是相对与指标的变异程度,指标变异大,要求样本量大;指标变异程度小,要求样本量可以相对小一些。

确定医学参考值范围(续) 本例:成年正常女子200人的血清总蛋白含量(近似正态分布),得到均数 =73.5克/升,标准差S=3.9克/升。 由于样本量很大,可以用样本均数和标准差近似总体均数和标准差,按下式计算:

确定医学参考值范围(续) 下限: 上限: 即:该地成年正常女子的95%参考值范围为65.9~81.1( g/L)

确定医学参考值范围(续) 例2.22 估计某地110名健康成年男子第一秒肺通气量的95%参考值范围,已知 =4.2L,s=0.7L. 实现步骤如下: 确定入选标准和排除标准 由于第一秒肺通气量过低才是异常,不存在过高不正常,所以只需考虑过低的异常标准(单侧范围)

确定医学参考值范围(续) 本例:95%参考值范围计算如下: 下限: 即:健康成年男子第一秒肺通气量的95%参考值范围3.05L 依据原始资料,考查资料是否近似服从正态分布,本例假定近似服从正态分布,样本量也较大,采用正态分布方法确定95%参考值范围。 本例:95%参考值范围计算如下: 下限: 即:健康成年男子第一秒肺通气量的95%参考值范围3.05L

确定医学参考值范围小结 正态分布法 百分位数法 双侧 单侧 90 95 99 % 只有 下限 上限 只有下限 只有上限 P5~P95 P10

正态分布应用 估计频数 例2.20 某地婴儿出生平均体重为3200g,标准差为350g,如出生体重低于2500g为低体重儿,估计当年该地低体重儿所占的比例。 求出生体重X<2500的比例  进行标准化变换 P(X<2500)=P(U<-2), 查标准正态表得φ(-2)=0.023,即:估计当年该地低体重儿所占的比例为2.3%。

正态分布应用 质量控制图 原理:如果波动仅由个体差异或随机误差所致,则结果应服从正态分布 为控制实验误差,以 为警戒线,以 为控制线

STATA命令 模拟正态分布 set memory 20m 设Stata内存为20兆 set obs 100000 设模拟数据的样本含量为10万 gen x=invnorm(uniform()) 产生10万个服从标准正态分布的数据(x) gen y= invnorm(uniform())

STATA命令 模拟正态分布 gen z1=x+2*y 产生新的变量z1=x+2y gen z2=x-2*y 产生新的变量z1=x-2y summarize x y z1 z2,d 计算x、y、z1、z2的均数,标准差,方差