( Measures of Dispersion )

Slides:



Advertisements
Similar presentations
第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
Advertisements

2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
全微分 教学目的:全微分的有关概念和意义 教学重点:全微分的计算和应用 教学难点:全微分应用于近似计算.
人群健康研究的统计方法 预防医学系 指导教师:方亚 电话:
第三章 单变量综合性描述统计量 宇传华.
第五章 二次型. 第五章 二次型 知识点1---二次型及其矩阵表示 二次型的基本概念 1. 线性变换与合同矩阵 2.
一、能线性化的多元非线性回归 二、多元多项式回归(线性化)
医学统计学 1 主讲人 陶育纯
第三节 平均指标与标志变异指标 一、集中趋势的代表值 ── 平均指标 常用方法有:算术平均数、调和平均数、中位数和众数等。 (一)算术平均数
第三章 函数逼近 — 最佳平方逼近.
PET-CT-SUVmax与鼻咽癌放疗过程中原发灶 径线变化的关系
第二章 计量资料的统计描述 第一节 频数分布 第二节 集中趋势的描述 第三节 离散趋势的描述 第四节 正态分布 第五节 医学参考值范围的制定.
6.6 单侧置信限 1、问题的引入 2、基本概念 3、典型例题 4、小结.
完全随机设计多样本资料秩和检验.
应用统计第1章 以Excel 和SPSS为工具的管理统计 同济大学经济与管理学院 管理科学与工程系 张建同 教授.
4.1 集中趋势的计量 4.2 离中趋势的计量 4.3 数据的分布形状
第三章 平均数、标准差 与变异系数 3.1 平均数: 在数理统计中,平均数是用来反映一组变数的集中趋势,即变数分布的中心位置。常用的度量指标有: 1. 算术平均数 2. 中位数(M) 4. 几何平均数(Mg) 3. 众数(Mo) 5. 调和平均数(H)
3.1 集中趋势的度量 3.2 离散程度的度量 3.3 偏态与峰态的度量
第一章.
数 学 分 析 第九章 定积分 第二节 微积分学基本公式 主讲:师建国.
定积分的换元法 和分部积分法 换元公式 分部积分公式 小结 1/24.
第5章 定积分及其应用 基本要求 5.1 定积分的概念与性质 5.2 微积分基本公式 5.3 定积分的换元积分法与分部积分法
基本概念 资料类型 计量资料:用度量衡的方法测定每个观察单位的某项研究指标量的大小,所得数据为数值变量。
第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 实习2 主讲人 陶育纯 医学统计学方法 实习2 主讲人 陶育纯 流行病与卫生统计学教研室
不确定度的传递与合成 间接测量结果不确定度的评估
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
2-7、函数的微分 教学要求 教学要点.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
第2章 Z变换 Z变换的定义与收敛域 Z反变换 系统的稳定性和H(z) 系统函数.
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
第十四章 数值变量的统计描述.
本次课讲授:第二章第十一节,第十二节,第三章第一节, 下次课讲第三章第二节,第三节,第四节; 下次上课时交作业P29—P30
統計量數 集中趨勢量數 離散趨勢量數 相對位置量數 分配形態量數.
计算机数学基础 主讲老师: 邓辉文.
§2 求导法则 2.1 求导数的四则运算法则 下面分三部分加以证明, 并同时给出相应的推论和例题 .
Review 統 計 方 法 的 順 序 確定目的 蒐集資料 整理資料 分析資料 推論資料 (變量,對象) (方法:普查,抽樣)
第十章 方差分析.
正态分布.
第七章 参数估计 7.3 参数的区间估计.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
抽样和抽样分布 基本计算 Sampling & Sampling distribution
模型分类问题 Presented by 刘婷婷 苏琬琳.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
第五节 对坐标的曲面积分 一、 对坐标的曲面积分的概念与性质 二、对坐标的曲面积分的计算法 三、两类曲面积分的联系.
Dr. C. Hsieh College of Informatics Kao yuan University
Descriptive Statistics
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
第4章 Excel电子表格制作软件 4.4 函数(一).
正切函数的图象和性质 周期函数定义: 一般地,对于函数 (x),如果存在一个非零常数T,使得当x取定义域内的每一个值时,都有
第四章 缺 氧 概念:组织得不到氧气,或不能充分 利用氧气时,组织的代谢、功 能,甚至形态结构都可能发生 异常变化,这一病理过程称为 缺氧。
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
一 测定气体分子速率分布的实验 实验装置 金属蒸汽 显示屏 狭缝 接抽气泵.
第4课时 绝对值.
(四)标准差(standard deviation)
第四节 随机变量函数的概率分布 X 是分布已知的随机变量,g ( · ) 是一个已知 的连续函数,如何求随机变量 Y =g(X ) 的分布?
第一部分:概率 产生随机样本:对分布采样 均匀分布 其他分布 伪随机数 很多统计软件包中都有此工具 如在Matlab中:rand
分数再认识三 真假带分数的练习课.
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
第二章 计量资料的统计描述.
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
正弦、余弦函数的性质 华容一中 伍立华 2017年2月24日.
第三节 随机区组设计的方差分析 随机区组设计资料的总平方和可以分解为三项: (10.10).
第七章 计量资料的统计分析.
第四节 向量的乘积 一、两向量的数量积 二、两向量的向量积.
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
本底对汞原子第一激发能测量的影响 钱振宇
第三节 数量积 向量积 混合积 一、向量的数量积 二、向量的向量积 三、向量的混合积 四、小结 思考题.
Presentation transcript:

( Measures of Dispersion ) 第三章 变异程度的统计描述 ( Measures of Dispersion ) 要求: 掌握:标准差的含义及计算方法;变异系数的计算方法和应用。 熟悉:其他描述离散趋势的常用指标。

离散趋势(dispersion tendency)指标 三组同年龄、同性别儿童的体重(kg) 甲组 26 28 30 32 34 乙组 24 27 30 33 36 丙组 26 29 30 31 34 30

全距表示一群变量值的最大值与最小值之差,反映个体差异的范围,用R表示。全距大,说明变异度大;反之,说明变异度小。 全距(range) 全距表示一群变量值的最大值与最小值之差,反映个体差异的范围,用R表示。全距大,说明变异度大;反之,说明变异度小。 甲组 26 28 30 32 34 乙组 24 27 30 33 36 R=8 R=12

全距(range) 优点 缺点 1.表示变异范围,简单明了、容易使用,如用于说明传染病、食物中毒等的最短、最长潜伏期等; 2.各种分布类型的资料均可用。 缺点 1.不能全面反映资料的离散程度; 2.不稳定,易受极端值的影响,抽样 误差大。

四分位数间距 (quartile interval) 四分位数间距是上四分位数(QU=P75)和下四分位数(QL=P25)之差,用Q表示(QU-QL)。该数值越大,说明变异度越大;反之,说明变异度越小。

某地630名正常女性血清甘油三脂含量(mg/dl) 频数 累计频数 累计频率(%) 0.10~ 27 4.3 0.40~ 169 196 31.1 0.70~ 167 363 57.6 1.00~ 94 457 72.5 1.30~ 81 538 85.4 1.60~ 42 580 92.1 1.90~ 28 608 96.5 2.20~ 14 622 98.7 2.50~ 4 626 99.4 2.80~ 3 629 99.8 3.10~ 1 630 100.0 合计 -

L: 组段的下限; iM: 组距; fx: 频数; fL: Px所在组段之前的累积频数。

四分位数间距 (quartile interval) 优点 缺点 1.与中位数配套,用于偏态分布资料及分布的一端或两端无确切数值的资料; 2.比全距稳定。 缺点 未考虑到每个观察值的变异度。

方差(variance) 自由度=n-限制条件的个数,用ν表示。 (n-1):当 选定时,n个变量值 中能自由变动的变量值的个数。

二、平均差距指标 (一)平均偏差(Mean Difference) 如对于例3.1: 甲患者: 乙患者: 特点:直观 , 易理解;但由于用了绝对值,不便于数学处理,实际中很少使用。

(二)离均差平方和(Sum of Square,SS) 为了克服平均偏差的缺点,可以不通过取绝对值,而是通过取平方来避免正负抵消,即使用离均差平方和,其计算公式为 SS 通常作为一个中间统计量使用。

(三)方差 (Variance) 方差是将离均差平方和再取平均,即 注意:对于样本资料,分母用的是n-1,称为自由度(degree of freedom,df )。 方差的特点:便于数学上的处理,但由于有平方,度量衡发生变化,不便于实际应用。

方差(variance) 优点 缺点 方差越大,资料的离散程度越 大(全面考虑了每个观察值); 不受观察值个数的影响。 一些资料不适用于以平方表示。

(四)标准差 (Standard Deviation) 将方差取平方根,还原成与原始观察值单位相同的变异量度即为标准差: 例如对于例3.1经计算有 甲患者: 同理乙患者:

直接法 标准差 例 三组同年龄、同性别儿童的体重(kg) 甲组 26 28 30 32 34 乙组 24 27 30 33 36 甲组 26 28 30 32 34 乙组 24 27 30 33 36 丙组 26 29 30 31 34

加权法 标准差

14岁女孩身高平均值与标准差(cm)加权法计算用表 频数(fi) 组中值(X) f i Xi f i Xi2 124~ 2 126 252 31752 128~ 3 130 390 50700 132~ 11 134 1474 197516 136~ 22 138 3036 418968 140~ 39 142 5538 786396 144~ 27 146 3942 575532 148~ 16 150 2400 360000 152~ 5 154 770 118580 156~ 158 474 74892 160~164 162 324 52488 合计 130(Σ fi) 18600 (Σf i Xi) 2666824 (Σf i Xi2)

标准差应用 1.表示观察值分布的离散程度。均数相近、度量单位相同的条件下,S越大,观察值的变异程度越大,均数的代表性越差。 2. 结合均数计算CV。 3.结合均数描述正态分布资料的分布特征和估计医学参考值范围 4. 结合样本含量计算标准误。

(五)变异系数(Coefficient of Variation ) 主要用于对均数相差较大或单位不同的几组观察值的变异程度进行比较。 例3.3 测得某地成年人舒张压均数为77.5mmHg,标准差为10.7mmHg;收缩压均数为122.9mmHg,标准差为17.1mmHg。试比较舒张压和收缩压的变异程度。

Coefficient of variation (CV) 变异系数 Coefficient of variation (CV) 应用 1.表示数据分布的相对离散程度 2.比较均数相差悬殊的两组或多组资料的离散程度 3.比较度量衡单位不同的两组或多组 资料的变异程度

某地20岁男子160人,身高均数为166. 06cm,标准差为4. 95cm;体重均数为53. 72kg,标准差为4 某地20岁男子160人,身高均数为166.06cm,标准差为4.95cm;体重均数为53.72kg,标准差为4.96kg。比较身高与体重的变异程度。 20岁男子体重的变异程度比身高的 变异程度大。

某地不同年龄女童的身高(cm)资料如下表所示 。试比较不同年龄身高的变异程度。 某地不同年龄女童身高的变异程度 年龄组   人数 均数 标准差 CV(%) 1~2月  100 56.3 2.1 3.7 5~6月 120 66.5 2.2 3.3 3~3.5岁 300 96.1 3.1 3.2 5~5.5岁 400 107.8 3.3 3.1

小结 全距与四分位数间距:后者较稳定,但均不能综合反映各观察值的变异程度。 标准差:最为常用,对正态分布尤为重要 变异系数:可用于多组资料间度量衡单位 不同或均数相差悬殊时作变异度的比较。 以上指标都是数值越小,说明观察值 的变异度越小,均数的代表性越好。 平均指标和变异指标常配套使用 如 正态分布:均数、标准差; 偏态分布:中位数、四分位间距

练习: 某市1974年为了解该地居民发汞的基础水平, 为汞污染的环境监测积累资料,调查了留住该市一年以上, 无明显肝、肾疾病,无汞作业接触史的居民238人的发汞含量(μmol/kg)如下: 发汞值 1.5~ 3.5~ 5.5~ 7.5~ 9.5~ 11.5~ 13.5~ 15.5~ 17.5~ 19.5~ 人数 20 66 60 48 18 16 6 1 3 用何种指标说明本资料的集中位置和变异程度较好?并计算之。

某检验师测定了10名正常成年钢铁工人的血红蛋白值(g/dl)和红细胞数(万/mm3)如下,试比较这两个检测项目的结果哪个变异性大? 14.7 15.2 15.5 15.8 16.0 血细胞数(万/mm3) 510 515 517 518 520 522 524 525 528 530

238名正常人发汞值(μg/g)的频数表 发汞值 频数 累计频数 累计频率(%) 0.3~ 20 8.4 0.7~ 66 86 36.1 1.1~ 60 146 61.3 1.5~ 48 194 81.5 1.9~ 18 212 89.1 2.3~ 16 228 95.8 2.7~ 6 234 98.3 3.1~ 1 235 98.7 3.5~ 3.9~4.3 3 238 100.0

正态分布和医学参考值范围 要求: 掌握:正态分布及其特征,正态曲线下面积分布的规律。 熟悉:医学参考值范围,参考值范围估计的步骤,参考值范围估计的正态分布法和百分位数法。标准正态分布。 了解:参考值范围估计的对数正态分布法。

一、正态分布(Normal Distribution) 正态分布曲线: 高峰位于中央,两侧逐渐下降、低平,左右完全对称、两端不与横轴相交的钟型曲线。 正态分布: 以均数为中心,中间多,两侧呈对称性逐渐减少的钟型分布。 图3-1 某地成年男子红细胞数的分布逐渐接近正态分布示意图

正态分布的密度函数f(x)为: 由上式可见,正态分布的图形由  和  所决定, X~N(  , 2)

主要特征: 1.以 为中心的对称分布 2.钟型曲线 3.曲线下面积分布有规律 4.两个参数决定位置和变异 图3-3 三种不同均值的正态分布 1.以 为中心的对称分布 2.钟型曲线 3.曲线下面积分布有规律 4.两个参数决定位置和变异 图3-2 正态分布曲线下的面积 图3-3 三种不同均值的正态分布 图3-4 三种不同标准差的正态分布

正态曲线下的面积F(x)的计算:

二、标准正态分布 (Standard Normal Distribution) 或标准正态离差 u变换的特点:若X服从正态分布,则u服从 标准正态分布 标准正态分布:指均数为0、标准差 为1的正态分布,记为N(0,1)

表中曲线下面积为 - ~ u 的面积;即 P (  u) 可以利用标准正态分布表求出与原始变量X 有关的概率值。

1. 标准正态分布:求曲线下(u1,u2)范围 内的面积。 u ≤0:①查表,分别求从-∞到u2与 从-∞到u1的面积; ② 两者之差为所求面积。 u1 u2 u1 u2

例:u1= - 1.50,u2= - 0.31 则(-1.50,- 0.31)范围内的面积

(2) u >0:利用正态分布的对称性求曲线 下从-∞到u范围的面积。 例:从-∞ 到u=1.76范围内的面积。 -1.76 0.0392 0.0392 1-0.0392=0.9608

2. 非标准正态分布:求曲线下任意(x1,x2)范围内的面积。

先作标准正态变换; 再查标准正态分布表求得面积。 例:已知110名7岁男童身高 。现欲估计该地身高界于116.5cm到119.0cm范围内7岁男童比 例及110名7岁男童中身高界于此值范 围内的人数。

(1) 标准正态分布变换: (2) 查表得:

110×13.92%=15 (3) 求D: 估计该地身高界于116.5~119.0cm范围内的7岁男童比例为13.92%;

思考题: 该地80%的男孩身高集中的范围?

三、正态分布的应用 1. 估计频数分布 例:出生体重低于2500g为低体重儿。 若由某项研究得某地婴儿出生体重均数为 1. 估计频数分布 例:出生体重低于2500g为低体重儿。 若由某项研究得某地婴儿出生体重均数为 3200g,标准差为350g,估计该地当年低 体重儿所占的比例。 查表 ,即从-∞到 2500的比例为2.28%,故估计该地 当年低体重儿所占的比例为2.28%。

2. 制定医学参考值范围 (Reference Value Range) 3. 质量控制 为了控制实验中的误差,实验室的质量控制中,常以 作为上、下警戒限;以 作为上、下控制限。 (2s和3s是1.96s与2.58s的近似值)。 4. 统计处理方法的基础

μ +3 σ μ +2 σ μ + σ μ μ - σ μ -2 σ μ -3 σ

(Reference Value Range) 第三节 医学参考值范围 (Reference Value Range) 一、基本概念 通常指正常人(排除了对所研究指标有影响的疾病和有关因素的特定人群)的解剖、生理、生化、免疫及组织代谢产物的含量等各种数据的波动范围。主要目的:用于临床疾病诊断。最常用的是95%参考值范围。 确定95%参考值范围示意图

二、医学参考值范围的制定方法 (一)选择足够数量的正常人作为参照样本 选择参照样本必须要考虑可能影响所要制定参考值范围指标的各种疾病及干扰因素,将这些人排除在外。例如在制定血清谷-丙转氨酶活性正常值时,选取正常人的条件为肝、肾、心、脑、肌肉等无器质性疾患,近期无特殊用药史等。同时可能需要考虑性别、年龄、民族、地理位置等因素。样本含量一般要较大,如n>120。

(二)对选定的参照样本进行准确的测定 为保证原始数据可靠,要严格控制检测误差,包括分析仪器的灵敏度、试剂的纯度、操作技术及标准的掌握等,同时必须对测量条件做出统一的规定和说明,如临床化验参考值范围的制定,应对收集样本时的环境和生理条件(温度、季节、体育活动强度、饮食、妊娠等),收集、转运和储藏样品的方法及时间有明确的规定。

(三)决定取单侧范围还是双侧范围值 有些指标如白细胞数过高或过低均属异常(a) ,故其参考值范围需要分别确定下限和上限,称作双侧。有些指标如24小时尿糖含量仅在过高(b)、肺活量仅在过低时为异常(c),只需确定其上限或下限,称作单侧参考值范围。 (a)白细胞数参考值范围 (b)24小时尿糖参考值范围 (c)肺活量参考值范围

(四)选择适当的百分范围 参考值的百分范围应根据资料的性质和研究目的选择,它与诊断阈值有确定的关系。百分范围的不同将导致不同的假阳性率和假阴性率。 若主要目的为减少假阳性(如确诊病人)→大 减少假阴性(如初筛病人)→小 图3-6 正常人和病人数据分布重叠

(五)估计参考值范围的界限 参考值范围估计主要有百分位数法和正态分布法。 表3-2 参考值范围所对应的百分位数 百分范围(%) 单 侧 表3-2 参考值范围所对应的百分位数 百分范围(%) 单 侧 双 侧 下限 上限 95 P5 P95 P2.5 P97.5 99 P1 P99 P0.5 P99.5 表3-3 参考值范围所对应的正态分布区间 百分范围(%) 单 侧 双 侧 下限 上限 95 99

例3. 4 若已算得某地正常成年男子红细胞数的均数为4. 78×1012/L,标准差为0 例3.4 若已算得某地正常成年男子红细胞数的均数为4.78×1012/L,标准差为0.38×1012/L,试估计该地成年男子红细胞数的95%参考值范围。 例3.5 见第二章表2-4资料。为该地区50岁~60岁女性高血脂诊断与治疗提供参考依据,试估计血清甘油三脂含量的95%单侧参考值范围。 下限: 上限: 即95%单侧参考值范围为小于2.098mmol/L。

对数正态分布法 适用于对数正态分布资料 双侧上界 双侧下界 单侧上界 单侧下界

例:某市调查了200例正常成人血铅含量,估计该市成人血铅含量95%医学参考值范围。 单侧上界

小 结 1.描述一组观察值,除需要表示其平均水平外,还要说明它的离散或变异的情况。 小 结 1.描述一组观察值,除需要表示其平均水平外,还要说明它的离散或变异的情况。 2.衡量变异程度大小的指标有多种: 极差、四分位数间距、方差、标准差和变异系数。其中应用最多的是标准差和变异系数。 3.标准差与均数结合能够完整地描述一个正态分布。对任何参数的正态分布,都可以通过一个简单的变量变换化成标准正态分布。利用正态分布可以很容易地确定其数值出现在任意指定范围内的概率。

4.医学参考值范围指“正常参照人群”的解剖、生理、生化、免疫及组织代谢产物的含量等各种数据的波动范围。主要用作划分正常人与异常人的界线。 5.医学参考值范围的制定需要按照一定步骤进行。实际中最好结合正常人和病人的数据分布特点,权衡假阳性和假阴性的比例,选择一个适当的百分范围,最常用的百分界限是95%。 6.参考值范围估计的方法有多种,其中最基本的有百分位数法和正态分布法。正态法的优点是结果较稳定,但对资料要求严格;百分位数法适合于任何分布类型的资料,但要求大样本。