普通高等教育“十一五”国家级规划教材 卫生(医学)统计学 第三章 正态分布及其应用
第一节、正态分布的概念及特征 一、正态分布图形 两头低,中间高,左右对称,呈钟型的单峰曲线。
正态分布特征 4、正态分布曲线下的面积有一定的分布规律。 1、曲线在横轴上方均数处最高; 2、以均数为中心,左右对称; 3、正态分布有两个参数: 位置参数μ 、形状参数σ 4、正态分布曲线下的面积有一定的分布规律。 正态分布特征
二、正态分布的两个参数 (1)μ-位置参数: 当 σ一定时,μ越大,曲线越向右移动;μ越小,曲线越向左移动。 (2)σ-离散度参数,决定曲线的形态: 当μ一定时, σ越大,表示数据越分散,曲线越“胖”; σ越小,表示数据越集中,曲线越“瘦”。
三、正态曲线下面积分布规律 无论μ σ取什么值,正态曲线与横轴间的面积总等于1 面积总等于1
熟记下列常用的曲线下面积分布规律: 1 2 3 μ±σ的区间占总面积的68.27% μ±1.96σ的区间占总面积的95% μ±2.58σ的区间占总面积的99% 1 2 3
68.27% X-S X+S 95.00% 2.5% 2.5% X-1.96S X+1.96S
第二节 标准正态分布 一、标准正态分布与标准化变换 正态分布是一个分布族。对应于不同的参数μ和σ会产生不同位置不同形状的正态分布。
为了应用方便,令 标准正态分布 u变换 u服从均数为0、标准差为1的正态分布
68.27% -1.0 +1.0 95.00% 2.5% 2.5% -1.96 +1.96
二、标准正态分布表 附表Ⅰ Φ(u) -∞ -3 -2 -1 0 +1 +2 +3 + ∞
(1)当μ,σ和X已知时,先按u变换公式求得u值,再用u值查表; 查表确定标准正态分布曲线下的面积时必须注意: (1)当μ,σ和X已知时,先按u变换公式求得u值,再用u值查表;
当μ,σ和X未知时,用样本均数和样本标准差S代替求u值。
(2)查表时,可以利用标准正态分布的两个特征: a. 曲线下对称于0的区间,面积相等; b. 曲线下横轴上的总面积为100%或1。
欲估计身高界于116.5-119.0cm范围内的7岁男童比例及人数。 例3.3 已知 X=121.95cm, S=4.72cm 欲估计身高界于116.5-119.0cm范围内的7岁男童比例及人数。 求该面积 116.5 119.0
116.5-121.95 u1= = - 1.15 4.72 119.0-121.95 u2= = - 0.63 4.72
欲估计身高界于116.5-119.0cm范围内的7岁男童比例及人数。 例3.3 已知 X=121.95cm, S=4.72cm 欲估计身高界于116.5-119.0cm范围内的7岁男童比例及人数。 求该面积 -1.15 -0.63
Ф(u1) =Ф(-1.15)=0.1251 Ф(u2) =Ф(-0.63)=0.2643 Ф(u2)- Ф(u1) = 0.2643 - 0.1251 =0.1392=13.92% 即身高界于116.5-119.0cm范围内的7岁男童比例为13.92%, 其人数为110×13.92%=15(人)。
第三节 正态分布的应用 一、估计频数分布 二、制定参考值范围 三、质量控制 四、统计处理方法的基础
一、估计频数分布 例3.3 例3.4 (略)
医学参考值范围(亦称为正常值范围)是指正常人的解剖、生理、生化等各种指标的波动范围。它主要用于划分正常与异常的界限。 二、制定参考值范围 (一)医学参考值范围意义: 医学参考值范围(亦称为正常值范围)是指正常人的解剖、生理、生化等各种指标的波动范围。它主要用于划分正常与异常的界限。
(二)医学参考值范围制定的一般原则: 1、抽取足够数量的“正常人”作为调查对象 2、对选定的正常人进行统一而准确的测定 3、考虑是否应按性别、年龄、职业等因素分组确定医学参考值范围 4、确定取单侧还是双侧医学参考值范围 5、选定适当的百分界限 6、选择适当制定方法
(二)医学参考值范围制定的一般原则: 1、抽取足够数量的“正常人”作为调查对象 “正常人”— 不是指任何一点小病都没有的人,而是指排除影响被研究指标的疾病和因素的人。
b.近期无服用损肝的药物(如氯丙嗪,异烟肼) 例如:制定SGPT(谷丙转氨酶)正常值 范围,“正常人” 的条件是: a.无肝、肾、心、脑、肌肉等疾患; b.近期无服用损肝的药物(如氯丙嗪,异烟肼) c.测定前未作剧烈运动。
(2)医学参考值范围制定所需的样本例数一般要求 n>100
(1)测定的方法、仪器、试剂,操作的熟练程度,方法的精确度均要统一; 2、对选定的正常人进行统一而准确的测定: (1)测定的方法、仪器、试剂,操作的熟练程度,方法的精确度均要统一; (2)要尽量与应用医学参考值范围时的实际情况一致。
原则上,组间差别明显,并有实际意义,应分开制定,否则应合并。 3、考虑是否应按性别、年龄、职业等因素分组确定医学参考值范围。 原则上,组间差别明显,并有实际意义,应分开制定,否则应合并。
考察组间差别最简便而有效的方法是: 从频数分布表,直接比较各组的分布范围,高峰位置,分布趋势等是否相近,如相近就合并,如差异明显,就分组。或做两样本均数的假设检验,有差别就分组,无差别就合并。
4、确定取单侧还是双侧医学参考值范围。 (1)白细胞数过高和过低均属于异常,需制定下限(最小值)和上限(最大值),称双侧医学参考值范围。
(2)肺活量只过低为异常,只需制定医学参考值范围的下限; 尿铅只过高为异常,只需制定医学参考值范围的上限;均称单侧医学参考值范围。
正常值范围的意思:绝大多数正常人的某项观察值均在该范围之内。这个绝大多,习惯上指正常人的80%、90%、95%、99%(最常用是95%)。 5、选定适当的百分界限。 正常值范围的意思:绝大多数正常人的某项观察值均在该范围之内。这个绝大多,习惯上指正常人的80%、90%、95%、99%(最常用是95%)。
根据所选定的百分界限,会造成假阳性或/和假阴性。 如何选定百分位数,以平衡假阳性和假阴性: (1)正常人的分布和病人的分布没有 重叠,这是只要求减少假阳性,则取 99%较为理想。
正常人 病人 诊断界值
(2)正常人分布与病人分布有重叠 假阳性(误诊) 假阴性(漏诊) 正常人 病人 诊断界值
a.如需兼顾假阳性和假阴性,取95%较适当; b.如主要目的是减少假阳性(如用于确诊病人或选定科研病例),宁取99%。 c.如主要目的是减少假阴性(如用于初筛搜查病人),宁取80%或90%。
6、选择适当制定方法(见下)。 (三)制定医学参考值范围常用方法:
1、正态分布法 单侧 双侧 95% +1.645S 95% ±1.96S 99% +2.326S 99% ±2.58S (1)适用范围:(近似)正态分布或对数正态分布资料 (2)计算公式: ±uS 单侧 95% ±1.96S 99% ±2.58S 双侧 上限 95% +1.645S 99% +2.326S 下限 95% -1.645S 99% -2.326S
2、百分位数法 (1)适用范围: a.偏态分布资料 b.分布不清资料 c.开口资料
(2)计算公式: 双侧: 单侧: 上限 95% P95 95% P2.5~P97.5 99% P99 99% P0.5~P99.5
二、质量控制 +3S 上控制线 +2S 警戒线 警戒线 -2S 下控制线 -3S
三、正态分布是很多统计方法的理论基础。