Descriptive Statistics 第二讲 统计描述 Descriptive Statistics
第一节 计量资料的统计描述 频数表与频数分布 平均指标(算术均数、几何均数、中位数、众数) 第一节 计量资料的统计描述 频数表与频数分布 平均指标(算术均数、几何均数、中位数、众数) 变异指标(极差、百分位数与四分位间距、方差、标准差、变异系数)
一、频数表与频数分布 (frequency table and frequency distribution) 用于描述资料的分布特征
160名正常成年女子的血清甘油三酯(mmol/L) 编号 血清甘油三脂 1 0.51 … 2 0.52 153 1.65 3 0.59 154 1.66 4 0.61 155 1.67 5 156 6 0.62 157 1.69 7 0.63 158 1.7 8 0.64 159 1.71 160 1.77
1. 频数表的编制步骤 (1)求极差(range):即最大值与最小值之差,又称为全距。 本例极差: R=1.77-0.51=1.26 (mmol/L) (2) 决定组数、组段和组距:根据研究目的和样本含量n确定。组距=极差/组数,通常分10-15个组,为方便计,组距参考极差的十分之一, 再略加调整。 本例i= R /10=1.26/10=0.126≈0.1。
(3) 列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值,其它组段上限值忽略。 (4) 划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。
组段 (1) 划 记 (2) 频数,f (3) 组中值,X (4) fX (5)= (3)×(4) 0.5~ 3 0.55 1.65 0.6~ 正 9 0.65 5.85 0.7~ 正正 12 0.75 9.00 0.8~ 13 0.85 11.05 0.9~ 正正正 17 0.95 16.15 1.0~ 18 1.05 18.90 1.1~ 正正正正 20 1.15 23.00 1.2~ 1.25 22.50 1.3~ 1.35 22.95 1.4~ 1.45 18.85 1.5~ 1.55 12.40 1.6~ 8 14.85 1.7~1.8 合计 1.75 5.25 160 182.30
2. 频数分布 ①集中趋势(central tendency):变量值集中位置。本例在组段“1.1~”。 ——平均水平指标 ②离散趋势(tendency of dispersion):变量值围绕集中位置的分布情况。本例0.9~1.4,共有90人,占56%;离“中心”位置越远,频数越小;且围绕“中心”左右对称。 ——变异水平指标
3. 正态分布与偏态分布 1. 表2-2频数表—— 正态分布normal distribution (图2-1) 2. 表2-3频数表——右偏态( skewed to the right),也称正偏态(positive skewed)(图2-2) 3. 表2-4频数表——左偏态( skewed to the left),也称负偏态(negative skewed)(图2-3)
正态分布:中间高、两边低、左右对称 负偏态分布:长尾向左延伸 正偏态分布:长尾向右延伸
二、平均指标 总称为平均数(average)反映了资料的集中趋势( central tendency )。常用的有: 1. 算术均数(arithmetic mean),简称均数 (mean) 2. 几何均数(geometric mean) 3. 中位数 (median) 4. 众数(mode)
1. 均数(mean) Σ为求和符号,读成sigma 适用条件:资料呈正态或近似正态。
例:均数=182.3/160=1.14 组段 (1) 划 记 (2) 频数,f (3) 组中值,X (4) fX (5)= (3)×(4) 0.5~ 3 0.55 1.65 0.6~ 正 9 0.65 5.85 0.7~ 正正 12 0.75 9.00 0.8~ 13 0.85 11.05 0.9~ 正正正 17 0.95 16.15 1.0~ 18 1.05 18.90 1.1~ 正正正正 20 1.15 23.00 1.2~ 1.25 22.50 1.3~ 1.35 22.95 1.4~ 1.45 18.85 1.5~ 1.55 13.95 1.6~ 8 13.20 1.7~1.8 合计 1.75 5.25 160 182.30 例:均数=182.3/160=1.14
2. 几何均数(geometric mean) 几何均数:变量对数值的算术均数的反对数。
几何均数的适用条件与实例 例:血清的抗体效价滴度的倒数分别为:10、100、1000、10000、100000,求几何均数。 适用条件:呈倍数关系的等比资料或对数正态分布(正偏态)资料;如抗体滴度资料 例:血清的抗体效价滴度的倒数分别为:10、100、1000、10000、100000,求几何均数。 此例的算术均数为22222,显然不能代表滴度的平均水平。同一资料,几何均数<均数
频数表资料的几何均数 例:几何均数=反对数(102.1/72)=26.19 抗体滴度 ⑴ 人数,f ⑵ 滴度倒数,X ⑶ lgX ⑷ f·lgX ⑸ 1:2.5 1:10 1:40 1:160 1:640 合计 14 18 22 12 6 72 2.5 10.0 40.0 160.0 640.0 0.3979 1.0000 1.6021 2.2041 2.8062 5.5706 18.0000 35.2462 26.4492 16.8372 102.1032
3. 中位数(median) 适用条件:适合各种类型的资料。尤其适合于①大样本偏态分布的资料; ②资料有不确定数值;③资料分布不明等。 中位数是将一批数据从小至大排列后位次居中的数据值,符号为Md,反映一批观察值在位次上的平均水平。 适用条件:适合各种类型的资料。尤其适合于①大样本偏态分布的资料; ②资料有不确定数值;③资料分布不明等。
中位数计算公式与实例 特点:仅仅利用了中间的1~2个数据 例:9名病人潜伏期: 2,3,3,3,4,5,6,9,16 先将观察值按从小到大顺序排列,再按以下公式计算: 特点:仅仅利用了中间的1~2个数据 例:9名病人潜伏期: 2,3,3,3,4,5,6,9,16
频数表资料的中位数 i; fm 下限值L 中位数Md 上限值U
中位数=1.1+0.1x[(160x50%-72)/20] =1.14微克/毫升 组段 (1) 划 记 (2) 频数,f (3) 累计频数Sf (4) 累计百分率 0.5~ 3 1.9 (0~1.9) 0.6~ 正 9 12 7.5 (1.9~7.5) 0.7~ 正正 24 15.0 (7.5~15.0) 0.8~ 13 37 23.1 (15.2~23.1) 0.9~ 正正正 17 54 33.8 (23.1~33.8) 1.0~ 18 72 45.0 (33.8~45.0) 1.1~ 正正正正 20 92 57.5 (45.0~57.5) 1.2~ 110 68.8 (57.5~68.8) 1.3~ 127 79.4 (68.8~79.4) 1.4~ 140 87.5 (79.4~87.5) 1.5~ 149 93.1 (87.5~93.1) 1.6~ 8 157 98.1 (93.1~98.1) 1.7~1.8 合计 160 100.0 (98.1~100) 中位数=1.1+0.1x[(160x50%-72)/20] =1.14微克/毫升
4. 众数(mode) 出现次数(或频数)最多的观察值;在频数分布图中对应于高峰所在位置的观察值。适用于大样本;较粗糙。
均数、中位数、众数三者关系 正态分布时: 均数=中位数=众数 正偏态分布时:均数>中位数>众数 正态分布时: 均数=中位数=众数 正偏态分布时:均数>中位数>众数 负偏态分布时:均数<中位数<众数
三、变异(variation)指标 反映数据的离散度( Dispersion )。即个体观察值的变异程度。常用的指标有: 1. 极差(Range) (全距) 2. 百分位数与四分位数间距 Percentile and Quartile range 3. 方差 Variance 4. 标准差Standard Deviation 5. 变异系数 Coefficient of Variation
三、变异(variation)指标 甲 乙 丙 440 480 490 460 495 500 540 510 505 560 520 均数 例:设甲、乙、丙三人,采每人的耳垂血,然后红细胞计数,每人数5个计数盘,得结果如下(万/mm3) 盘编号 甲 乙 丙 1 440 480 490 2 460 495 3 500 4 540 510 505 5 560 520 合计 2500 均数 甲 乙 丙
1.极差(Range) (全距) 优点:简便 缺点:1. 只利用了两个 极端值 2.n大,R也会大 3.不稳定 120 40 20
2.百分位数与四分位数间距 Percentile and quartile range 百分位数 :数据从小到大 排列;在百分尺度下,所占百分比对应的值。记为Px。 四分位间距: QR=P75- P25 四分位半间距quartile deviation:QD=QR/2 P100(max) P75 P50(中位数) P25 P0(min) Px
频数表资料的百分位数 i; fm 下限值L 百分位数Px 上限值U
P25=0.9+0.1x[(160x25%-37)/17]=0.92 P75=1.3+0.1x[(160x75%-110)/17]=1.36 组段 (1) 划 记 (2) 频数,f (3) 累计频数Sf (4) 累计百分率 0.5~ 3 1.9 (0~1.9) 0.6~ 正 9 12 7.5 (1.9~7.5) 0.7~ 正正 24 15.0 (7.5~15.0) 0.8~ 13 37 23.1 (15.2~23.1) 0.9~ 正正正 17 54 33.8 (23.1~33.8) 1.0~ 18 72 45.0 (33.8~45.0) 1.1~ 正正正正 20 92 57.5 (45.0~57.5) 1.2~ 110 68.8 (57.5~68.8) 1.3~ 127 79.4 (68.8~79.4) 1.4~ 140 87.5 (79.4~87.5) 1.5~ 149 93.1 (87.5~93.1) 1.6~ 8 157 98.1 (93.1~98.1) 1.7~1.8 合计 160 100.0 (98.1~100) P25=0.9+0.1x[(160x25%-37)/17]=0.92 P75=1.3+0.1x[(160x75%-110)/17]=1.36 QR=1.36-0.92=0.44;QD=0.22
百分位数的应用 确定医学参考值范围 (reference range): 如95%参考值范围=P97.5-P2.5; 表示有95%正常个体的测量值在此范围。 中位数Md与四分位半间距QD一起使用,描述偏态分布资料的特征
3.方差 方差 (variance)也称均方差(mean square deviation),样本观察值的离均差平方和的均值。表示一组数据的平均离散情况。
样本方差为什么要除以(n-1) 小样本分母为n-1,称为自由度。
4.标准差 标准差 (standard deviation)即方差的正平方根;其单位与原变量X的单位相同。
标准差的计算 盘编号 甲 乙 丙 甲2 乙2 丙2 1 440 480 490 193600 230400 240100 2 460 495 211600 245025 3 500 250000 4 540 510 505 291600 260100 255025 5 560 520 313600 270400 合计 2500 1260400 1251000 1250250 标准差 50.99 15.81 7.91
方差=(221.52-182.302/160)/(160-1)= 0.0869 标准差=0.298mmol/L 组段 (1) 频数,f (3) 组中值,X (4) fX (5)= (3)×(4) fX2 (5)= (3)×(4) 2 0.5~ 3 0.55 1.65 0.91 0.6~ 9 0.65 5.85 3.80 0.7~ 12 0.75 9.00 6.75 0.8~ 13 0.85 11.05 9.39 0.9~ 17 0.95 16.15 15.34 1.0~ 18 1.05 18.90 19.85 1.1~ 20 1.15 23.00 26.45 1.2~ 1.25 22.50 28.13 1.3~ 1.35 22.95 30.98 1.4~ 1.45 18.85 27.33 1.5~ 1.55 13.95 21.62 1.6~ 8 13.20 21.78 1.7~1.8 合计 1.75 5.25 9.19 160 182.30 221.52 方差=(221.52-182.302/160)/(160-1)= 0.0869 标准差=0.298mmol/L
变异系数(coefficient of variation,CV) 5. 变异系数 变异系数(coefficient of variation,CV) 适用条件:①观察指标单位不同,如身高、体重 ②同单位资料,但均数相差悬殊 均数 标准差 变异系数 青年男子 身高 170 cm 6 cm 3.5% 体重 60 kg 7 kg 11.7%
变异指标小结 1.极差较粗,适合于任何分布 2.标准差与均数的单位相同,最常用,适合于近似正态分布 3.变异系数主要用于单位不同或均数相差悬殊资料 4.平均指标和变异指标分别反映资料的不同特征, 常配套使用 如 正态分布:均数、标准差; 偏态分布:中位数、四分位半间距