第十四章 数值变量的统计描述.

Slides:



Advertisements
Similar presentations
简单迭代法的概念与结论 简单迭代法又称逐次迭代法,基本思想是构造不动点 方程,以求得近似根。即由方程 f(x)=0 变换为 x=  (x), 然后建立迭代格式, 返回下一页 则称迭代格式 收敛, 否则称为发散 上一页.
Advertisements

吉林大学护理学院儿科护理教研室 主讲教师 刘晓丹 教授. 吉林大学护理学院儿科护理教研室 第一节 生长发育概述 一、生长发育规律 一、生长发育规律 二、生长发育的影响因素 二、生长发育的影响因素 第二节 生长发育评估 一、体格生长发育评估 一、体格生长发育评估 二、神经心理发育评估 二、神经心理发育评估.
1 4.5 高斯求积公式 一般理论 求积公式 含有 个待定参数 当 为等距节点时得到的插值求积公式其代数精度至少 为 次. 如果适当选取 有可能使求积公式 具有 次代数精度,这类求积公式称为高斯 (Gauss) 求积公式.
2.5 微分及其应用. 三、可微的条件 一、问题的提出 二、微分的定义 六、微分的形式不变性 四、微分的几何意义 五、微分的求法 八、小结 七、微分在近似计算中的应用.
1 第四章 数值积分与数值微分 — 多重积分 — 数值微分. 2 本讲内容 基本思想 计算方法 二重积分 问题描述 计算方法 数值微分.
洞庭月,衡岳云,巫山雨, 波撼气蒸,揽天下风光,堪 称独步; 崔灏诗,范相记,王勃序, 两楼一阁,数江南文物,各 有千秋。
大象報告 製作:周泓宇圖片:姚勝騰、柯俊安資料:林岑祐. 大象的食物 大象吃青草、樹皮、樹葉等多種不同的食 物。大象用長鼻攀折樹枝、把樹連根拔起, 還把另一些樹的樹皮剝光,讓樹木枯萎。 大象就這樣把森林變為開闊的林地,使燎 原野火易於發生,終於把那個地帶變為無 樹平原。大象喜愛有樹的地方。從前大象.
得獎作品.
专利技术交底书的撰写方法 ——公司知识产权讲座
狗的種類 作者:麥澤洋.
第二章 语言测试的功能与分类 湖南师范大学外国语学院 邓 杰 教授.
自我介紹 班級:運促一甲 學號:D 姓名:張晉輔.
資料分析 ---敘述統計分析.
儿童体格发育及其评价 儿少卫生与妇幼保健学系 苏普玉.
自傳 82410陳信宏.
小学语文常用说明方法 广州市越秀区云山小学 高年级 李晓泓.
人群健康研究的统计方法 预防医学系 指导教师:方亚 电话:
Measures of location and dispersion
4.1 工业的区位选择 一、工业区位因素 二、工业区位因素的变化.
白酒生产工艺 项目三 酒曲生产技术.
愛錢又搞笑的日本警察 兩津勘吉.
青铜器的器型 炊食器: 炊具:鼎、鬲、甗等 食器:豆、簋、敦、盨、簠等 酒器: 饮酒器:爵、角、觚、觯等 温酒器:斝
烟草栽培学 南平农校 杨志和.
牛品种介绍及繁殖技术 张金山 研究员 新疆畜牧科学院畜牧研究所 二0一三年三月.
第十章 树脂类中药.
走进哆啦A梦的生活.
形神兼备,写活人物 ——外貌描写写作指导 丰县华山初级中学 王艳丽.
統計學 郭信霖 許淑卿.
拒绝危险驾驶  安全文明出行 2015全国交通安全日专题课件.
四种命题 班级:C274 指导教师:钟志勤 任课教师:颜小娟.
第三章 资料的统计描述 上一张 下一张 主 页 退 出.
3.1 集中趋势的度量 3.2 离散程度的度量 3.3 偏态与峰态的度量
第一章.
早在公元5世纪的北魏古籍中,就有关于腐乳生产工艺的记载“于豆腐加盐成熟后为腐乳”。
歡迎來認識黃金獵犬 黃金獵犬的神祕小世界.
相對量數與標準分數 Relative Measures and Standard Scores
統計學 授課教師:林志偉 Tel:5021.
卫生监督协管服务 张家口市卫生监督所.
江苏省大丰市农广校.
蔬菜生产技术 茭白栽培.
健康體位講座 如何增進健康體適能 演講者:張書軒 老師 96.09.28.
6.2 常態機率分配 常態機率分配(normal probability distribution)可以說是最重要的連續機率分配。
試算表軟體 II 醫務管理暨醫療資訊學系 陳以德 副教授: 濟世CS 轉
第 3 章 敘述統計:數值方法.
第 5 章 樣本資料的數值分布.
Properties of Continuous probability distributions
第一章 敘述統計學.
第 4 章 分散量數.
本章重點: 一、集中量數的意義和種類 二、算術平均數 三、中位數(中數) 四、眾 數 五、其他集中量數 六、SPSS12.0實務操作
統計量數 集中趨勢量數 離散趨勢量數 相對位置量數 分配形態量數.
敍述統計學 許明宗.
第 3 章 敘述統計II:數值方法 Part A (3.1~3.2).
Review 統 計 方 法 的 順 序 確定目的 蒐集資料 整理資料 分析資料 推論資料 (變量,對象) (方法:普查,抽樣)
第八章 報酬與風險.
导数的应用 ——函数的单调性与极值.
自我介紹 大同國中 湯晴雯.
第七章 调查数据的分析 第一节 数据集中趋势的测定 第二节 数据离散程度的测定 第三节 动态数据的分析 第四节 相关与回归分析.
高中資優計畫物理實驗 --高一上學期(2004) 古煥球(物理館101室) 講解及實驗時間: 星期六下午1:00-4:00 (三小時) 講解室: 物理館019室 實驗室: 綜三館普物實驗室(助教負責) 實驗課本: 清華大學[普通物理實驗課本] + 講義.
Dr. C. Hsieh College of Informatics Kao yuan University
第三章 平均数、标准差与变异系数 第一节 平均数 上一张 下一张 主 页 退 出.
计量资料的统计描述 赵耐青 复旦大学卫生统计教研室.
(四)标准差(standard deviation)
楊志強 博士 統計學 楊志強 博士
第四章 常用概率分布 韩国君 教授.
生物统计学 Biostatistics 第一章 统计数据的收集与整理
13.2 物质波 不确定关系 微观粒子的波粒二象 + ? 德布罗意假设(1924年): 实物粒子具有波粒二象性。 波长 频率
第七章 计量资料的统计分析.
3-3 随机误差的正态分布 一、 频率分布 在相同条件下对某样品中镍的质量分数(%)进行重复测定,得到90个测定值如下:
主講人 陳陸輝 特聘研究員兼主任 政治大學選舉研究中心 美國密西根州立大學博士
抽樣分配.
Presentation transcript:

第十四章 数值变量的统计描述

第十四章 数值变量的统计描述 第一节 数值变量资料的频数分布表与频数分布图 第二节 集中趋势的描述 第三节 离散趋势的描述 第十四章 数值变量的统计描述 第一节 数值变量资料的频数分布表与频数分布图 第二节 集中趋势的描述 第三节 离散趋势的描述 第四节 正态分布和医学参考值范围的估计

常用的描述定量资料分布规律的统计方法 有两类: 统计图表:频数分布表/图 选用适当的统计指标: 集中趋势指标:均数、中位数 离散趋势指标:极差、标准差

一、频数分布表的编制 第一节 数值变量资料的频数分布表与频数分布图 一.频数分布表的编制 例14-1 某巿用随机测量了150名3岁女孩身高(CM)资料如下,试编制频数分布表。

80.1 100.1 97.0 96.7 97.9 100.7 … 82.5 102.6 99.1 96.6 99.3 85.2 84.4 104.8 101.3 98.7 101.5 87.1 87.2 83.5 103.2 101.6 88.4 89.3 84.2 82.3 84.5 87.9 89.4 89.1 86.5 85.0 87.6 90.4 91.3 89.7 87.4 89.8 88.7 90.2 90.5 88.9 88.1 88.2 90.7 93.0 92.4 90.0 88.0 90.1 93.8 92.6 90.8 93.2 94.4 94.7 92.8 90.3 93.6 94.8 92.3 93.3 93.1 95.1

表14-1 某市150名3岁女孩身高的频数分布 组段 f x fx fx2 80~ 1 81 6561 82~ 3 83 249 20667 表14-1 某市150名3岁女孩身高的频数分布 组段 f x fx fx2 80~ 1 81 6561 82~ 3 83 249 20667 84~ 8 85 680 57800 86~ 10 87 870 75690 88~ 19 89 1691 150499 90~ 23 91 2093 190463 92~ 26 93 2418 224874 94~ 24 95 2280 216600 96~ 17 97 1649 159953 98~ 99 990 98010 100~ 6 101 606 61206 102~ 2 103 206 21218 104~106 105 11025 合计 150 - 13918 1294566 2018/11/14 6

二.频数分布的特征 从频数表可以看到频数分布的两个重要的特征 集中趋势(central tendency) 身高值向中央部分(中等水平)集中,以中等水平的身高值者居多,是为集中趋势。 离散趋势(tendency of dispersion) 从中央部分到两侧(身高值从中等水平到较低或较高水平)的频数分布逐渐减少,是为离散趋势。 集中趋势和离散趋势是频数分布的两个重要侧面,从这两方面就可全面的分析所研究的事物。

三.频数分布的类型 频数分布又可分为对称分布和偏态分布 对称分布:集中位置在正中,左右两侧频数分布大体对称 偏态分布:集中位置偏向一侧,频数分布不对称 正偏态分布:集中位置偏向年龄小的一侧 负偏态分布:集中位置偏向年龄大的一侧 不同类型的分布,应采用相应的统计分析方法。

( normal distribution ) 正态分布 ( normal distribution ) 中间高、两边低、左右对称属于对称分布的一种 许多医学资料都属于这种分布,例如人体正常的生理生化指标 正态分布

正偏态分布:峰偏左,尾部向右侧延伸 如:以儿童为主的传染病发病人数的分布 右偏态 正偏态分布 负偏态分布:峰偏右,尾部向左侧延伸 (positive skewed) 负偏态分布 负偏态分布:峰偏右,尾部向左侧延伸 如:以老年人为主的慢性病发病人数的分布 左偏态 (negative skewed)

四、频数分布图 绘制频数分布直方图 坐标轴 直条 累计 直条的宽度:组距 直条的高度:每一组段的频数 横坐标:变量值即研究指标,无需从0开始,以单位尺度划分。 纵坐标:为频数f,必须从0开始(f为每一组段内的人数) 直条 直条的宽度:组距 直条的高度:每一组段的频数 累计

频数分布图 图14-1 某市150名3岁女孩身高的频数分布

第二节 集中趋势的描述 算术均数(arithmetic mean) 几何均数(geometric mean) 中位数和百分位数(median  percentile) 以上统称为平均数(average)常用于描述一组变量值的集中位置,代表其平均水平或是集中位置的特征值。

某公司员工工资,请描述平均水平 1、1800,1900,1900,2000,2000,2000,2000,2100,2100,2200, 平均工资为2000. 2、1800,1900,1900,2000,2000,2000,2000,2100,2100,10000 平均工资为2800,合理吗?

请描述以下资料中变量的平均水平 1、8名某病患者血清抗体滴度为:1:2,1:4,1:8,1:16,1:32,1:64,1:128。 2、某医院收治某癌症患者6人,其生存时间(月)分别为10,8,19,6,20,≥25

一、算术均数 又简称为均数(mean) 定义:是反映一组观察值在数量上的平均水平。 (arithmetic mean) 又简称为均数(mean) 定义:是反映一组观察值在数量上的平均水平。 总体均数用希腊字母  表示,样本均数用 表示 应用: 对称分布,特别是正态分布或近似正态分布的数值变量资料 计算方法: 直接法: 加权法:

一、算术均数 计算方法 直接法:即将所有观察值x1,x2,x3,…,xn直接相加再除以观察值的个数,写成公式 为样本均数, n为变量值个数, Σ表示求和

一、算术均数 例14.2 有10名3岁女孩身高(CM)分别为92.5,82.5,102.6,99.1,96.6,99.3,85.2,89.2,90.6,95.1,求算术均数。

一、算术均数 计算方法 加权法(weighting method) 当资料中相同观察值的个数较多时,可将相同观察值的个数,即频数f,乘以该观察值x,以代替相同观察值逐个相加。 对于频数表资料,用各组段的频数作f,以相应的组中值(class mid-value)作x。组中值=(下限+上限)/ 2 公式 fi为各组段的频数 xi为各组段的组中值

表14-1 某市150名3岁女孩身高的频数分布 组段 f x fx fx2 80~ 1 81 6561 82~ 3 83 249 20667 表14-1 某市150名3岁女孩身高的频数分布 组段 f x fx fx2 80~ 1 81 6561 82~ 3 83 249 20667 84~ 8 85 680 57800 86~ 10 87 870 75690 88~ 19 89 1691 150499 90~ 23 91 2093 190463 92~ 26 93 2418 224874 94~ 24 95 2280 216600 96~ 17 97 1649 159953 98~ 99 990 98010 100~ 6 101 606 61206 102~ 2 103 206 21218 104~106 105 11025 合计 150 - 13918 1294566 2018/11/14 20

一、算术均数 组中值=(下限+上限)/ 2

一、算术均数 f1, f2,…,fk分别为各组段的频数,这里的f起到了“权数”的作用,它权衡了各组中值由于频数不同对均数的影响。即频数多,权数大,作用也大;频数少,权数小,作用也小,故称为加权法。 92.79≈93.27cm 用组中值,加权法计算出的均数是精确值吗?

二、几何均数 (geometric mean) 定义:有些医学资料,如抗体滴度、细菌计数等,其频数分布明显偏态,各观察值之间呈倍数变化(等比关系),此时宜用几何均数反映其平均增减倍数。 应用:等比资料或对数正态分布资料 计算方法: 直接法 加权法

二、几何均数 计算方法: 直接法:直接将n个观察值( x1,x2,x3,…,xn )的乘积开n次 公式 写成对数形式为 几何均数: 变量对数值 的算术均数 的反对数。

二、几何均数 例14-3 设有5人的血清抗体效价为1:10,1:100,1:1000,1:10000,1:100000,求平均抗体效价。 例14-3 设有5人的血清抗体效价为1:10,1:100,1:1000,1:10000,1:100000,求平均抗体效价。 本例先求抗体效价的倒数,再求几何均数 血清抗体的平均效价为1:1000

二、几何均数 计算方法: 加权法:当资料中相同观察值得个数f(即频数)较多时,如频数表资料 写成公式

二、几何均数 注意事项 等比资料,如:抗体的平均滴度、药物的平均效价、卫生事业平均发展速度、人口的几何增长 对数正态分布:是右偏态分布 观察值不能有0,因为0不能去对数,不能与任何其他数呈倍数 关系。 观察值不能同时有正值和负值。若全是负值,计算是可以把负号去掉,得出结果后再加上负号。 同一组资料求得的几何均数小于算术均数。

三、中位数 (median) (一)中位数 X: 5,5, 6, 7, 20, 位次: 1 2 3 4 5 23 6 中位数(M): 6 定义:是将一组观察值从小到大按顺序排列,位次居中的观察值就是中位数。 例: X: 5,5, 6, 7, 20, 位次: 1 2 3 4 5 23 6 中位数(M): 6 6.5

计算方法: 直接由原始数据计算中位数 先将观察值按大小顺序排列,再按下面公式计算: 位次上的观察值

请大家思考下:计算中位数和其他平均数有什么不同? 例14-5 某病患者10人的潜伏期从小到大排列为1,3,8,9,15,19,20,23,25,30,求中位数。 解:n=10 为偶数 特点:仅利用了中间的1~2个数据 请大家思考下:计算中位数和其他平均数有什么不同?

计算方法: 用频数表计算中位数, 按所分组段,由小到大计算累计频数和累计频率。 再按下面公式计算为:

下限值L 上限值U i; fm 中位数M

表14-4 181名食物中毒患者的潜伏期 天数 f 累计频数 累计频率% 0~ 30 16.57 12~ 63 93 51.38 24~ 47 140 77.35 36~ 20 160 88.40 48~ 12 172 95.03 60~ 8 180 99.45 72~84 1 181 100.00

中位数的特征 反映了位次居中的观察值的水平 优点:不受两端特大值和特小值影响 缺点:并非考虑到每个观测值 适用于各种分布类型的资料, 特别适合于:大样本明显偏态分布资料、分布不明的资料、 或者一端/两端无确切数值的资料 3.中位数和算术均数在对称分布的资料中,理论上数值是相 同的

小 结 常用平均数的意义及其应用场合

第三节 离散趋势的描述 平均水平的指标只是描述了一组数据的集中趋势指标,可以作为总体的一个代表值,那么不同组观察值之间是否存在差异?描述差异的指标有哪些呢?差异究竟有多大?如何计算?

例2-11 三组同龄男孩的身高值(cm) 甲组 90 95 100 105 110 乙组 96 98 100 102 104 甲组 90 95 100 105 110 乙组 96 98 100 102 104 丙组 96 99 100 101 104 丙 乙 甲

第三节 离散趋势的描述 描述计量资料数据间离散程度的指标 —变异指标。 常用的指标: 极差 四分位间距 方差 标准差 变异系数。

一、极差 定义:亦称为全距,即一组观察值中最大值与最小值之差 计算方法: R=XMax-XMin 意义: R值越大,表示该组数据的变异越大。 (Range) 定义:亦称为全距,即一组观察值中最大值与最小值之差 计算方法: R=XMax-XMin 意义: R值越大,表示该组数据的变异越大。 优点:计算简单,意义明了。 缺点: 数据利用不全,仅利用了两个极端值,部分信息损失,结果不稳定。

例2-11 三组同龄男孩的身高值(cm) R 甲组 90 95 100 105 110 100 20 乙组 96 98 100 102 104 100 8 丙组 96 99 100 101 104 100 8

二、百分位数 定义:是一种位置指标,用 PX 来表示。 将n个变量值从小到大依次排列,再把它们的位次转换为百分位。对应于X%位次的数值即为第X百分位数。 变量值: 5 5 8 … 89 … 758 位 次: 1 2 3 … 75 … 150 百分位次:0.7% 1.3% 2% … 50% … 100%

计算方法 频数表法 公式如下 Lx:第X百分位数所在组段的下限 ix:第X百分位数所在组段的组距 fx:第X百分位数所在组段的频数 计算方法 频数表法 公式如下 Lx:第X百分位数所在组段的下限 ix:第X百分位数所在组段的组距 fx:第X百分位数所在组段的频数 :第X百分位数所在组段上一组段累计频数

n×25%- 表14-4 181名食物中毒患者的潜伏期 天数 f 累计频数 累计频率% 0~ 30 16.57 12~ 63 93 表14-4 181名食物中毒患者的潜伏期 天数 f 累计频数 累计频率% 0~ 30 16.57 12~ 63 93 51.38 24~ 47 140 77.35 36~ 20 160 88.40 48~ 12 172 95.03 60~ 8 180 99.45 72~84 1 181 100.00 n×25%-

四分位数间距 (inter-quartile range) 四分位数( quartile ):可看作特定的百分位数,第25百分位数P25,表示全部观察值中有25%(四分之一)的观察值比它小,为下四分位数,记做QL ;同理第75百分位数P75为上四分位数,记做记做Qu ; 四分位数间距,简记为Q,第75百分位数与第25百分位数之差。 P75 P25 P50

计算方法:Q= Qu – QL=P75%-P25% 意义: Q值越大,表示该组数据的变异度越大。 优点:1. 四分位数间距包括了全部观察值的一半,因此也可看成是中间一半观察值的极差。 2.四分位数间距作为说明个体差异的指标,比极差稳定。 缺点:未考虑到每个观察值的变异度大。 应用:常用于表示偏态分布资料的变异。

例14-4 Q=QU–QL =34.91-14.90=20.01(h)

第三节 离散趋势的描述 极差仅采用了观察值中的最大值和最小值;而四分位数间距也仅仅采用了上、下四分位数,均没有考虑每个观察值,因此这两项指标不能全面反映资料的离散程度。

三、方差 (variance ) 若要克服以上缺点,就必须全面考虑到每一个观察值。 可用总体中每一个观察值xi与总体均数 ,之差的总和(离均差总和),反映资料的离散程度,但 。 若计算离均差平方和 ,结果就不为0,但受到样本例数多少的影响,为了消除这一影响,就取离均差平方和的均数,该指标简称为方差(variance)。 总体方差用σ2 表示,样本方差用S2表示。

三、方差 公 式 奇怪:为什么样本方差是除以(n-1)呢?

方差 (variance)是全部观察值的离均差平方和的均值。表示一组数据的平均离散情况。 特点: 方差的分子——离均差平方和,是将每一个观察值与均数作差之后平方:反映了全部观察值的离散程度;但同时也将变量值的度量衡单位平方了,变成了(m)2、(kg)2… 唉!这个指标还是不够尽善尽美,继续探索…

四、标准差 方差的单位是原度量衡单位的平方,为了用原单位,就把总体方差开平方,取其正的平方根,这就是总体标准差,用σ表示: 其单位与原变量x的单位相同。

自由度(degrees of freedom)。 自由度是统计学术语,其意义是随机变量能自由取值的个数。如:n个数据如不受任何条件的限制,则n个数据可取任意值,称为有n个自由度。若受到k个条件的限制,就只有(n-k)个自由度了。 如有一个n=4数据样本,受到 =5的条件限制,在自由确定 4,2,5三个数据之后,第四个数据只能是9,否则均数不是5, 推而广之,任何统计量的v=n-限制条件的个数。

例2-13 试计算三组同龄男童的身高的标准差 编号 甲组 乙组 丙组 甲2 乙2 丙2 1 90 96 8100 9216 2 95 98 例2-13 试计算三组同龄男童的身高的标准差 编号 甲组 乙组 丙组 甲2 乙2 丙2 1 90 96 8100 9216 2 95 98 99 9025 9604 9801 3 100 10000 4 105 102 101 11025 10404 10201 5 110 104 12100 10816 合计 500 50250 50040 50034

150名3岁女孩身高的标准差

用 途: 用于对称分布,特别是正态分布资料,反映一组观察值的离散程度。标准差小,数据间的离散程度小,均数的代表性好。 用 途: 用于对称分布,特别是正态分布资料,反映一组观察值的离散程度。标准差小,数据间的离散程度小,均数的代表性好。 结合均值与正态分布规律估计医学参考值范围。 用于计算标准误 用于计算变异系数

五、变异系数 变异系数(coefficient of variation,CV) 应 用 即标准差s与均数 之比用百分数表示,写成公式为 应 用 (1)比较度量衡单位不同的多组资料的变异度 (2)比较均数相差悬殊的多组资料的变异度。

单位:极差、四分位数间距和标准差都是有单位的,其单位与观察值单位相同,而变异系数是相对数,没有单位,更便于资料间的分析比较。

(1)比较度量衡单位不同的多组资料的变异度 例10名小学生,试比较胸围、背肌力变异度何者为大? 均数 标准差 胸围 67.1cm 3.0cm 背肌力 37.0 kg 2.5 kg

例: 结论:随着年龄增加,身高的变异变小。 (2)比较均数相差悬殊的多组资料的变异度。 均数 标准差 2月女婴 56.9cm 2.3cm 5岁女孩 109.2cm 3.1cm

变异指标小结 1.极差较粗,适合于任何分布 2.四分位数间距,也不全面,常用于偏态分布 3.标准差与均数的单位相同,最常用,适合于正态/近似正态分布 4.变异系数主要用于单位不同或均数相差悬殊资料 5.平均指标和变异指标分别反映资料的不同特征, 常配套使用 如 正态分布:均数、标准差; 偏态分布:中位数、四分位数间距

第四节 正态分布和医学参考值范围的估计 (Normal distribution) 正态分布是描述连续型变量值分布的曲线,医学资料许多服从正态分布。

62 图14-2 频数分布与正态分布示意图

一、正态分布的概念和特征 正态分布(normal distribution)又称Gauss分布(Gauss distribution ),是以均数为中心,中间频数分布多,两侧逐渐减少的对称分布, 由于频率的总和等于100%或1,故横轴上曲线下的面积等于100%或1。 f(x) x μ

1.正态分布曲线的数学函数表达式: X为连续随机变量,μ为X值的总体均数,σ2 为总体方差,记为X~N(μ,σ2) 当x确定后,就可由此式求得其密度函数f(x),即纵坐标的高度了,嘿嘿

2.正态分布的特征 (1)正态曲线(normal curve)在横轴上方,且均数所在处最高; (2)正态分布以均数μ 为中心,左右对称; (3)正态分布有两个参数,即均数与标准差(与) 总体均数μ是位置参数:描述正态分布的集中趋势位置。 总体标准差σ是变异度参数:描述正态分布离散趋势,标准差越小,分布越集中,曲线形状越“瘦高”;反之越“矮胖”。 (4)正态分布的面积分布有一定的规律性,总面积=1;

正态分布参数位置变化示意图

正态分布变异度不同变化示意图

(standard normal distribution) 二、标准正态分布 (standard normal distribution) 标准正态离差 正态分布 标准正态分布 u为标准化变量值 标准正态分布概率密度函数,记作N(0,1)。

将正态分布曲线的原点移到的位置,横轴尺度以σ为单位,令μ=0,σ=1,则将正态分布变换为标准正态分布 u→±∞ Φ (u) →0 - 4 3 2 1 u Φ ( ) ∞ +∞

三、正态曲线下面积的分布规律 是正态变量x的累计分布函数,反映正态曲线下, 横轴自-∞到x的面积,即下侧累计面积(概率)

φ(u)表示从-∞到u值范围内X分布面积 标准正态分布曲线下面积 左侧任一区间的面积可以通过对下式积分求得 φ(u)表示从-∞到u值范围内X分布面积

曲线下面积分布规律 -1 1 -1.96 1.96 -2.58 2.58 68.27% 95.00% 99.00% 标准正态曲线 横轴为u值

二 医学参考值范围的估计 (一)基本概念 医学参考值范围(reference ranges)是指绝大多数正常人(或动物)的人体形态、功能和代谢产物等各种生理及生化指标常数。 由于存在个体差异,参考值范围并非为常数,而是在一定范围内波动。 确定医学参考值范围,是常用95%或99%的分布范围作为判定正常和异常的参考标准。

(二)制定医学参考值范围的基本原则 1.抽取样本含量足够大的“正常人” “正常人”:不是机体任何器官、组织的形态及机能都正常的人,而是排除了影响所研究指标的疾病和有关因素的同质人群。 如:指定“谷丙转氨酶”的医学参考值范围 正常人条件:肝、肾、心、脑、肌肉等无器质性疾患;近期无使用损肝药物;测定前未做剧烈运动。 样本量:100例以上

2.对抽取的正常人进行准确而统一的测定,控制测量误差 3.判断是否需要分组制定 4.决定单侧或双侧界值。 5.选择适当的百分界值:习惯用80%、90%、95%、99%。 减少误诊——选择高的,95%或99% 减少漏诊——选择低的,80%或90% 6.根据资料的分布类型选用恰当的方法估计 (a)白细胞数参考值范围 (b)24小时尿糖参考值范围 (c)肺活量参考值范围

医学参考值范围 医学参考值范围的计算方法: 正态分布法 百分位数法 76

1、正态分布法 应用条件:正态分布或近似正态分布资料 计算 双侧100(1-α)%正常值范围: 单侧100(1-α)%正常值范围: 应用条件:正态分布或近似正态分布资料 计算 双侧100(1-α)%正常值范围: 单侧100(1-α)%正常值范围: 双侧95%正常值范围: 单侧95%正常值范围:

例14-14 根据14-2中150名3岁女孩身高资料,估计其95%参考值范围 图14-1 某市150名3岁女孩身高的频数分布

2、百分位数法 适用于偏态分布资料 双侧95%正常值范围: P2.5~P97.5 单侧95%正常值范围: < P95(上限)

例如: 1.确定白细胞总数的95%参考值范围 由于白细胞数过高过低均为异常,故应分别计算P2.5和P97.5 2.确定肺活量的95%参考值范围 由于肺活量只过低为异常,故只计算P5 3.确定尿铅的95%参考值范围 由于尿铅只以过高为异常,应计算P95

小结 1.正态分布是一种很重要的连续型分布,不少的医学现象服从正态分布或近似正态分布,或经变量变换转换为正态分布,可按正态分布规律来处理。它也是许多统计方法的理论基础。 2.正态分布的特征: (1)曲线在横轴上方,均数处最高 (2)以均数为中心,左右对称 (3)确定正态分布的两个参数是均数μ和标准差σ

小结 3.正态分布用N(μ,σ2) 表示,为了应用方便,常对变量x作 变换,使μ=0,σ=1,则正态分布转换为标准正态分布,用N(0,1)表示。 4.正态曲线下面积的分布有一定规律。理论上μ±1σ,μ±1.96σ和μ±2.58σ区间的面积(观察单位数)各占总面积的(总观察单位数)的68.27%,95%和99%,可用来估计医学参考值范围和质量控制等方面。