第三章 单变量综合性描述统计量 宇传华
本章内容 定量资料的描述 定性资料的描述 二、中位数 第一节 中心趋势指标 一、算术平均数 第二节 离散与变异性指标 三、几何均数 第一节 中心趋势指标 一、算术平均数 二、中位数 三、几何均数 四、众数 第二节 离散与变异性指标 一、全距 二、方差与标准差 三、变异系数 四、四分位间距 定性资料的描述 第二节 离散与变异性指标 五、多样性指数 第三节 率、比及其注意事项
第一节、中心趋势指标 常用的中心趋势指标有:算术均数、几何均数、中位数、众数,统称为平均数(average) 一、算术平均数( The Arithmetic mean) 简称均数(Mean)或均值,定义为所有测量值之和除以变量值个数(即,样本含量Sample Size)。反映一组呈对称分布的变量值在数量上的平均水平。
(1)直接计算法 公式 : 举例1:试计算1,3,7,9的均数? 例2:试计算1,3,3,7,7,9,9,9的均数?
(2)加权法
均数的特征
二、 中位数与百分位数 平均存活天数? (一)中位数(median) 是将每个变量值从小到大排列,位置居于中间的那个变量值。 二、 中位数与百分位数 11个大鼠存活天数: 4,10,7,50,3,15,2,9,13,>60,>60 平均存活天数? (一)中位数(median) 是将每个变量值从小到大排列,位置居于中间的那个变量值。 存活天数 2, 3, 4, 7, 9, 10, 13, 15, 50,>60,>60 秩次 1 2 3 4 5 6 7 8 9 10 11
计算 公式: n为奇数时 n为偶数时
例 9名中学生甲型肝炎的潜伏期分别为12,13,14, 14, 15, 15, 15, 17, 天,求其中位数。 例 9名中学生甲型肝炎的潜伏期分别为12,13,14, 14, 15, 15, 15, 17, 天,求其中位数。 19
频数表资料的中位数 i; fm 下限值L 中位数M 上限值U
68 中位数=4.5+0.5x[(150x50%-68)/37] =4.59
中位数的特征 计算时只利用了位置居中的测量值 优点:对极值不敏感 缺点:并非考虑到每个观测值 适用于各种分布类型的资料, 特别适合于:大样本偏态分布资料 或者一端或两端无确切数值的资料
(二)百分位数(percentile) 百分位数示意图
1.直接计算法 设有n个原始数据从小到大排列,第X 百分位数的计算公式为: 当 为带有小数位时: 当 为 整数时: Trunc()取整函数
例 对某医院细菌性痢疾治愈者的住院天数统计,120名患者的住院天数从小到大排列如下,试求第5百分位数和第99百分位数。 例 对某医院细菌性痢疾治愈者的住院天数统计,120名患者的住院天数从小到大排列如下,试求第5百分位数和第99百分位数。 患 者: 住院天数: (1)n=120, ,为整数:
患 者: 住院天数: (2) ,带有小数, 故取整 trunc(118.8)= 118
2.频数表法 公式:
例 试分别求表3.3频数表的第25、第75百分位数。 P25=4.0+0.5x[(150x25%-36)/32]=4.02 P75=5.0+0.5x[(150x75%-105)/22]=5.17
三、 几何均数(geometric mean) 可用于反映一组经对数转换后呈对称分布或正态分布的变量值在数量上的平均水平。
(1)直接法 几何均数:变量对数值的算术均数的反对数。 其他对数(如自然对数)变换获得相同的几何均数
例3.6 测定10名伤寒病人血清 抗体滴度分别为1:4, 1:4, 1:4,1:4,1:4,1:16, 1:16,1:16,1:64, 1:128,求其平均抗体滴度。 以其滴度的倒数为原变量值,代入公式有: 平均抗体滴度为: 1:11
(2)加权法 公式:
例3.6的血清抗体滴度资料的频数表
几何均数的特征 1、几何均数适用于对数正态分布,如药物的效价、抗体的滴度、传染性疾病的潜伏期等资料。 2、变量x服从对数正态分布,即表示变量lg(xi)服从正态分布。对于lg(xi),具有正态分布的所有特性。
四、众数(Mode) 是一群数据中出现次数(频数)最多的值。适用于大样本;较粗糙。 例 有16例高血压病人的发病年龄(岁)为:42,45,48,51,52,54,55,55, ,61,61,62,62,试求众数。 众数的特征 1、对于某些数据而言,例如均匀分布,并不存在众数; 2、对于某些数据存在两个或多于两个的众数; 3、定性数据可以存在众数; 众数对于进一步的统计学计算与分析不具备应用价值。 58,58,58,58
五、其他位置指标 1、四分位数(Quartile)(三个四分位数) 2、十分位数(Centile): 9个十分位数 3、百分位数(Percentile)99个百分位数
离散与变异性指标 全距 四分位间距 方差 标准差 变异系数 多样性指数 全距、四分位间距、方差、标准差、变异系数与多样性指数
一、全距(Range)与绝对差 全距为最大值与最小值之差,也叫极差 缺点:仅利用了两个极端值。
二、方差与标准差 方差(Variance)也称均方差(mean square deviation),反映一组数据的平均离散水平。 (一)样本方差为各变量值到样本均数距离的平方和除以自由度的商值,即 (二)总体方差定义为
标准差(standard deviation) 样本标准差为样本方差的平方根; 总体标准差为总体方差的平方根。
样本标准差实用公式
仍然用钉螺抽样数据为例, 1+3+3+7+7+9+9+9=48,n=8
样本标准差的加权公式
随机变量xi的标准化 如果随机变量xi服从正态分布,均数和标准差分别为 和s,则随机变量xi的标准化正态离差值(Standard normal deviation)又称为标准化得分值(Standard Scores )为:
三、变异系数 (coefficient of variation) 变异系数(coefficient of variation,CV) 常用于比较度量单位不同或均数相差悬殊的两组(或多组)资料的变异程度。
某地7岁男孩身高的均数为123.10cm,标准差为4.71;体重均数为22.59kg,标准差为2.26kg, 比较其变异度?
四、四分位数间距 (inter-quartile range) 四分位数间距,用IQR表示: IQR= 第三四分位数:Q3 第一四分位数:Q1
五、多样性指数 ( Indices of Diversity) 描述无序分类变量在各各义类别间频数的离散度。 用熵与最大熵之比表达离散度 频数资料的公式 频率资料的公式
第三节 率、比及其注意事项 一、率(rate): 在特定条件下,可能发生某现象的总例数中,实际发生某现象的强度或频率。
二、比(ratio) 构成比(Proportion,constituent ratio):构成比指标用以表示事物内部某一构成成分在全部构成中所占的比例或比重。 相对比( relative ratio)是由两个有关联的指标之比。
三、应用率比指标时的注意事项 mp = p 1、保证有足够的样本含量; 2、不要将率和比指标混淆; 3、注意平均率的计算;(p1+p2)/2 4、率和比指标比较时,要有可比性(不可比时可采用率标准化); 5、不要简单由样本率的差异做出结论。率比和均数一样都有抽样误差,需采用假设检验下结论。 mp = p
直接法标准化举例 两种疗法治疗某病的治愈率比较
某病两种治疗方法的治疗效果 组别 标准治疗人数 甲法 乙法 治愈率 (%) 预期 治愈数 儿童 150 40.0 60 20.0 30 成人 60.0 90 80.0 120 合计 300 46.7
作业 实习册的 实习一、定量与定性数据的描述 P5~6: 3、4、5、6、7