第二章 计量资料的统计描述 第一节 频数分布 第二节 集中趋势的描述 第三节 离散趋势的描述 第四节 正态分布 第五节 医学参考值范围的制定
第一节 频数分布 一、频数分布表(frequency table)
例2-1 测得130名健康成年男子脉搏资料(次/分)如下,试编制频数表和观察频数分布情况。 75 76 72 69 66 57 68 71 73 82 80 67 64 74 58 70 60 77 65 62 79 78 61 81 63 84
频数表的编制步骤 (1)求极差(range):即最大值与最小值之差,又称为全距。R=84 – 57 =27(次/分) 27/10=2.7 ≈3 (3) 列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值。56~ 59~ …… 80~ 83~85 (4) 划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。
表2-1 130名健康成年男子脉搏(次/分)的频数分布表 表2-1 130名健康成年男子脉搏(次/分)的频数分布表 N=∑f
二、频数分布图
三、频数表和频数分布图用途 (1)对称分布 :若各组段的频数以中心位置左右两侧大体对称,就认为该资料是对称分布 1.描述频数分布的类型 (对称分布、偏态分布) (1)对称分布 :若各组段的频数以中心位置左右两侧大体对称,就认为该资料是对称分布
是否为对称分布?
是否为对称分布?
(2)偏态分布 : 1)右偏态分布(正偏态分布):右侧的组段数多于左侧的组段数,频数向右侧拖尾。
表2-2 115名正常成年女子血清转氨酶(mmol/L)含量分布
2)左偏态分布(负偏态分布): 左侧的组段数多于右侧的组段数,频数向左侧拖尾。
表2-3 101名正常人的血清肌红蛋白含量分布
2.描述频数分布的特征 表2-1数据的频数分布特征: ①数据变异(离散)的范围在57~84 (次/分 ) ②数据集中(平均)的组段在68~73 (次/分)之间,尤以组段的人数71~(次/分)最多。且上下组段的频数分布基本对称。
3.便于发现一些特大或特小的可疑值 4.便于进一步做统计分析和处理
第二节 集中趋势的描述 统计上使用平均数(average)这一指标体系来描述一组变量值的集中位置或平均水平。 算术均数(均数)(mean) 第二节 集中趋势的描述 统计上使用平均数(average)这一指标体系来描述一组变量值的集中位置或平均水平。 常用的平均数有: 算术均数(均数)(mean) 几何均数(geometric mean) 中位数 (median)与百分位数(percentile) 众数(mode)
一、算术均数 算术均数:简称均数(mean) 可用于反映一组呈对称分布的变量值在数量上的平均水平或者说是集中位置的特征值。
1、计算方法 (1)直接计算法 公式 : 举例:试计算4,4,4,6,6,8,8,8,10的均数?
例2-1 测得130健康成年男子脉搏资料(次/分)如下,试编制频数表和观察频数分布情况。 75 76 72 69 66 57 68 71 73 82 80 67 64 74 58 70 60 77 65 62 79 78 61 81 63 84
(2)加权法(利用频数表): 公式 : k:频数表的组段数, f :频数, X:组中值。
表2-2 130名健康成年男子脉搏(次/分)的频数分布表 表2-2 130名健康成年男子脉搏(次/分)的频数分布表 ∑fX2 N=∑f ∑fX
均数适用于对称分布,特别是正态分布资料。 2、应用 均数适用于对称分布,特别是正态分布资料。
二、 几何均数(geometric mean) 可用于反映一组经对数转换后呈对称分布或正态分布的变量值在数量上的平均水平。
几何均数(geometric mean) 几何均数:变量对数值的算术均数的反对数。 其他对数(如自然对数)变换获得相同的几何均数
例2-5 有8份血清的抗体效价分别为1:5, 1:10, 1:20, 1:40, 1:80, 1:160,1:320,1:640,求平均抗体效价。 平均抗体效价为: 1:57
(2)加权法 公式:
例2-6 69例类风湿关节炎(RA)患者血清EBV-VCA-lgG抗体滴度的分布见表2-4第(1)、(2)栏,求其平均抗体滴度。
适用于成等比数列的资料,特别是服从对数正态分布资料。 2、应用: 适用于成等比数列的资料,特别是服从对数正态分布资料。
三、 中位数与百分位数 平均存活天数? (一)中位数(median) 是将每个变量值从小到大排列,位置居于中间的那个变量值。 三、 中位数与百分位数 11个大鼠存活天数: 4,10,7,50,3,15,2,9,13,>60,>60 平均存活天数? (一)中位数(median) 是将每个变量值从小到大排列,位置居于中间的那个变量值。
计算 公式: n为奇数时 n为偶数时
例2-3 9名中学生甲型肝炎的潜伏期分别为12,13,14, 14, 15, 15, 15, 17, 19天,求其中位数。 例2-3 9名中学生甲型肝炎的潜伏期分别为12,13,14, 14, 15, 15, 15, 17, 19天,求其中位数。
频数表资料的中位数 i; fm 下限值L 中位数M 上限值U
例2-1频数表中位数的计算 中位数=71+3x[(130x50%-59)/26] =71.69 N=∑f
应用 1、各种分布类型的资料 2、特别适合大样本偏态分布资料或者一端或两端无确切数值的资料。
(二)百分位数(percentile) 百分位数示意图
1.直接计算法 设有n个原始数据从小到大排列,第X 百分位数的计算公式为: 当 为带有小数位时: 当 为 整数时: Trunc()取整函数
例 对某医院细菌性痢疾治愈者的住院天数统计,120名患者的住院天数从小到大排列如下,试求第5百分位数和第99百分位数。 例 对某医院细菌性痢疾治愈者的住院天数统计,120名患者的住院天数从小到大排列如下,试求第5百分位数和第99百分位数。 患 者: 住院天数: (1)n=120, ,为整数:
患 者: 住院天数: (2) ,带有小数, 故取整 trunc(118.8)= 118
2.频数表法 公式:
当 时,公式(2-9)即为中位数的计算公式
例2-9 试分别求例2-1频数表的第25、第75百分位数。 例2-9 试分别求例2-1频数表的第25、第75百分位数。 P25=65+3x[(130x25%-19)/15]=65.90 P75=74+3x[(130x75%-85)/19]=74.66
众数(mode) 众数是一组观察值中出现频率最高的那个观察值;若为分组资料,众数则是出现频率最高的那个组段的组中值。适用于大样本;较粗糙。 例2-7 有16例高血压病人的发病年龄(岁)为:42,45,48,51,52,54,55,55,58,58,58,58,61,61,62,62,试求众数。
众数(mode) 众数是一组观察值中出现频率最高的那个观察值;若为分组资料,众数则是出现频率最高的那个组段的组中值。适用于大样本;较粗糙。 例2-7 有16例高血压病人的发病年龄(岁)为:42,45,48,51,52,54,55,55,58,58,58,58,61,61,62,62,试求众数。
正态分布时: 均数=中位数=众数 正偏态分布时:均数 > 中位数 >众数 负偏态分布时:均数 < 中位数 <众数 正态分布时: 均数=中位数=众数 正偏态分布时:均数 > 中位数 >众数 负偏态分布时:均数 < 中位数 <众数
第三节 离散趋势的描述 甲医生得出的5个观察值间的差异(离散程度)较大,而丙医生得出的5个观察值间的差异(离散程度)较小。 第三节 离散趋势的描述 设有甲、乙、丙三名医生,分别对相同的5份血样进行红细胞计数(万/mm3),甲得出了560、540、500、460、440,乙得出了520、510、500、490、480,丙得出了510、505、500、495、490,见下图2,三名医生的计数结果得到的均数均为500,5个数值之和均为2500。 甲医生得出的5个观察值间的差异(离散程度)较大,而丙医生得出的5个观察值间的差异(离散程度)较小。
常用统计指标:极差、四分位数间距、方差、标准差和变异系数。 一、极差(Range) 极差,用R表示:即一组变量值最大值与最小值之差。 对于书中例2-1数据,有 简单,但仅利用了两端点值,稳定性差。
二、四分位数间距 (quartile range) 下四分位数: 上四分位数: 例2-1数据 P25=65+3x[(130x25%-19)/15]=65.90 P75=74+3x[(130x75%-85)/19]=74.66
三、方差与标准差 1. 方差(variance)也称均方差(mean square deviation),反映一组数据的平均离散水平。 总体方差 样本方差 离均差平方和SS
样本标准差用 表示 ,其度量单位与均数一致,所以最常用。 2、 公式: 样本标准差用 表示 ,其度量单位与均数一致,所以最常用。 离均差平方和SS
标准差的公式还可以写成 : 利用频数表计算标准差的公式为
例2-11 对例2-1的前10个数据: 75,76,72,69,66,72,57,68,71,72, 用直接法计算标准差。
例2-12 利用表2-2中的数据和频数表法计算标准差。 例2-12 利用表2-2中的数据和频数表法计算标准差。 ∑fX2 N=∑f ∑fX
标准差的意义和用途 说明资料的离散趋势(或变异程度),标准差的值越大,说明变异程度越大,均数的代表性越差; ...。 标准差与原始数据的单位一致,在科技论文报告中,均数与标准差经常被同时用来描述资料的集中趋势与离散趋势。 用于计算变异系数 用于计算标准误(见第四章) 结合均值与正态分布的规律,估计参考值的范围(见第五节)。
四、变异系数 变异系数(coefficient of variation,CV) 常用于比较度量单位不同或均数相差悬殊的两组(或多组)资料的变异程度。
某地7岁男孩身高的均数为123.10cm,标准差为4.71;体重均数为22.59kg,标准差为2.26kg, 比较其变异度?
第四节 正态分布
正态曲线(normal curve)的发现 de Moivre(1667-1754),published in 1733 Laplace(1749-1827) Gauss(1777-1855)正态分布: 又称高斯分布(Gaussian distribution)
, 一、正态分布的概念和特征 1.正态分布曲线的数学表达式 (概率密度函数,probability density function,pdf ) ,
2.正态分布的特征 正态曲线下面积分布有一定的规律,总面积=1。
累积面积可通过对概率密度函数f(X)积分求得 (累积)分布函数:
图2-7 正态曲线面积分布示意图
二、标准正态分布
见P404~405,Z~N(0,1)2
例2-1的130名健康成年男子脉搏资料的均数、标准差分别为:71. 32与5 例2-1的130名健康成年男子脉搏资料的均数、标准差分别为:71.32与5.80 (次/分);问在正态分布假定下,脉搏在65~75(次/分)之间有多少人?
正态分布 标准正态分布
第五节 医学参考值范围的制定 一、基本概念
1.意义:医学参考值(reference value)是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标常数,也称正常值。 由于存在个体差异,生物医学数据并非常数而是在一定范围内波动,故采用医学参考值范围作为判定正常和异常的参考标准,但不是“金标准”。
2.单、双侧问题,常依据医学专业知识而定 双侧 : 如:血清总胆固醇、血液白细胞数无论过低或过高均属异常 单侧上限 : 如:血清转氨酶、 体内有毒物质过高异常(越低越好,<P95) 单侧下限 : 如:肺活量过低异常(越高越好, > P5 )
3. 有90%、95%、99% 等医学参考值范围,最常用的是95% 。 计算医学参考值范围的常用方法: 1、正态分布法 2、百分位数法
二、正态分布法
公式: Z Z Z 单侧下限 单侧上限 Z
单侧下限 单侧上限
例2-16 测得某年某地名正常人的尿汞值如下表,试制定正常人尿汞值的95%参考值范围。 例2-16 测得某年某地名正常人的尿汞值如下表,试制定正常人尿汞值的95%参考值范围。 表2-7 282名正常人尿汞值( )测量结果
单侧上限