第二章 计量资料的统计描述
计量资料的分类: 1.离散型资料(discrete data):是指变量取值可以一一列举的资料。例如,每个育龄妇女现有的子女数。 2.连续型资料(continuity data):是指变量取值不能一一列举(即变量取值为一定范围内的任意值)的资料。例如,人体的身高(cm)、体重(kg) 等。
第一节 频数分布表和频数分布图 频数表适用于: 观察例数较多的计量资料。 一、频数分布表: 频数(frequency):不同组别内的观察 值个数称为频数,表示观察值在各组内出 现的频繁程度。 频数表:将分组标志和相应的频数列表, 即为频数分布表,简称频数表。
(一)离散型计量资料的频数表见P7 (二)连续型计量资料的频数表 频数表编制: 1.求全距(极差): R = MAX - MIN 2.定组距和组段,一般8~15组为宜 组距=[R/10] 组段=R÷组距 组中值=(本组段下限+下组段下限)÷2
3.列表划记 第一组段应包括MIN 最末组段应包括MAX且同时写出下限和上限 每一组段数值范围:下限≤X<上限 下限(lower limit):每个组段的起点称为该组的下限。 上限(upper limit):每个组段的终点称 为该组的上限。 3.列表划记
频数分布表的用途 (1)是大样本数据常用的表达方式。 (2)便于观察数据的分布类型(以便选择相应的统计指标和分析方法)。 对称分布:集中位置在中间。左右两侧频数基本对称。 偏态分布 正偏态分布:集中位置偏向数值较小的一侧。 负偏态分布:集中位置偏向数 值较大的一侧。
(3)便于发现资料中的可疑值 (4)当 n足够大时,以f P的估计值,便于进一步计算统计指标和进行统计分析。 二、频数分布图 直方图:适合描述连续型资料的频数分布。
第二节 计量资料集中趋势的描述 平均数(average):是一类描述计量资料集中位置或平均水平的统计指标。 常用的平均数——算术平均数、几何均数、中位数
一、算术均数 算术均数简称均数(mean),描述一组同质资料的平均水平。 总体均数: 样本均数: (一)计算方法 1.直接法:适用于样本量较小的计量资料。
2.加权法:适用于样本量较大的计量资料。 (二)均数的特性 1.各观察值与均数之差(离均差)的总和等于零,即
2.各观察值的离均差平方和最小,即 (三)均数的应用 1.均数反映一组同质观察值的平均水平,并可作为样本的代表值与其他样本进行比较。 2.均数适用于描述单峰对称分布,特别 是正态或近似正态分布资料的集中趋势。
二、几何均数(geometric mean) (一)计算方法 1.直接法:适用于样本量较小的计量资 料。 或
2.加权法:适用于样本量较大的计量资料,如频数表资料。
(二)几何均数的应用注意事项 1.几何均数常用于等比资料或对数正态分布资料,如血清抗体滴度、细菌计数等。 2.观察值中若有0或负值,则不宜直接使用几何均数。 3.观察值一般不能同时有正值和负值。若全是负值,计算时可先将负号去掉,得出结果后再加上负号。
三、中位数(median) 中位数是将一组观察值按大小顺序排列后, 位次居中的观察值。 (一)计算方法 1.直接法:适用于样本量较小的计量资料。 当 为奇数时 当 为偶数时
2.频数表法(百分位数法):适用于样本量较大的计量资料,如频数表资料。
(二)中位数的应用注意事项 1.中位数可用于各种分布的资料。 2.中位数不受极端值的影响,因此,实际工作中主要用于: (1)偏态分布资料 (2)端点无确切值的资料 (3)分布不明确的资料
百分位数 1.定义:百分位数(percentile)是指将观察值从小到大排列后处于第x百分位置上的数值。用符号表示为 ,它是个位置指标。 2.计算方法:
PX X% (100-X)%
29.81% 80 100 120 64.40%
第三节 计量资料离散趋势 的描述
衡量变异程度(或离散程度)的指标 分类: (按间距)—极差(R)和四分位数间距(Q) (按平均差距)—离均差平方和(SS)、方差(S2) 、标准差(S)和变异系数(CV)
一、极差和四分位数间距 (一)极差(全距)(range) 公式:R=MAX-MIN 性质:R大(小) 变异度大(小)
应用:适用于任何分布的计量资料 (端点无确切值者除外) 优点:简单明了,应用广泛,如用于说明传染病 、食物中毒等的最短、最长潜伏期等。
缺点: a.除MAX和MIN外,不能反映组内其它数据 变异度 。 b. 极差抽样误差大,受两个极端值影响, 不够稳定,通常只用于资料的粗略分析和小样本数据。
例1:甲:1 4 4 4 7 乙:4 4 4 4 4 R=6 R=0 X=M=4
例2: A 26℃ A 2℃ B B 50℃ X=26℃
例3:甲:2 4 6 8 10 乙:2 5 6 7 10 R=8 X=M=6
(二)四分位数间距(quartile,简记为Q 公式: 性质: Q 越大,说明数据的变异越大; 反之,Q 越小,说明变异越小。 应用:适用于任何分布的计量资料,计 算结果较稳定,尤其适用于大样本偏态 分布资料。 Q=P75-P25
特点:比极差稳定,但仍未考虑到每个观察值的 变 异度,在统计分析中应用得不普遍。
0 P25 P50 P75 100%
百分位数 1.定义:百分位数(percentile)是指将观 察值从小到大排列后处于第x百分位置上的 数值。用符号表示为 ,它是个位置指标。 2.计算方法:
二、离均差平方和、方差、标准差 (一)平均偏差(mean difference, 简记为M.D) 公式: 平均偏差=
应用: 平均偏差是一个很直观的变异量度,但由于用了绝对值,在数学上不便于继续处理,使它在应用上受到很大的限制,实际中很少使用。
(二)离均差平方和(SS) 公式:SS=
(三)方差(variance) ,方差有时也表示为 MS 方差计算公式: (1)总体方差: = (2)样本方差:
方差性质:方差越大说明数据的变异越大 自由度(degree of freedom,简记为DF) (1)定义:随机变量能自由取值的个数 (2)计算公式:υ=n-限制条件个数
例:有一四个(n=4)数据样本,受到 的条件限制,在自由确定4,2,5三个数据 后,第四个数只能是9, 因而 υ=n-1=3 。