第十章 统计表与统计图 Statistical Table &Statistical Graph
统计表 (statistical table) 是表达统 计分析结果中数据和统计指标的 表格形式; 统计图 (statistical graph) 是用点、 线、面等各种几何图形来形象化 表达统计数据。
第一节 统计表 一、统计表的意义与制作原则 1 .统计表的意义 统计表用简明的表格形式,有条理地罗列数据 和统计量,方便阅读、比较和计算。 2 .制表原则:重点突出、层次清楚 3 .制表的基本要求
(1) 标题:概括表的主要内容,包括研究的 时间、地点和研究内容,放在表的上方。 (2) 标目:分别用横标目和纵标目说明表格 每行和每列数字的意义,注意标明指标的 单位。
(3) 线条:至少用三条线,表格的顶线和 底线将表格与文章的其它部分分隔开 来,纵标目下横线将标目的文字区与 表格的数字区分隔开来。部分表格可 再用横线将合计分隔开,或用横线将 两重纵标目分割开。其它竖线和斜线 一概省去。
(4) 数字:用阿拉伯数字表示。无数字用 “—” 表示,缺失数字用 “ ” 表示,数值 为 0 者记为 “0” ,不要留空项。数字按小 数位对齐。 (5) 备注:表中数字区不要插入文字,也 不列备注项。必须说明者标 “*” 号,在 表下方说明。
二、统计表的种类
例 10-1 表 10-1 列出某地进行喷昔 洛韦软膏治疗颜面单纯疱疹与阿昔 洛韦软膏比较的随机对照临床试验 结果。该表只有试验分组一个层次, 属简单表。 1. 简单表 统计表的主语只有一个层次
表 10-1 某年某地喷昔洛韦软膏治疗颜面单纯疱疹疗效比较 如何完成喷昔洛韦软膏治疗颜面单纯疱疹疗效的比较分析?
2. 组合表 统计表的主语有两个 以上层次 例 10-2 某年某地分别在城乡进 行乙型肝炎病毒抗原携带者的检测, 该研究的对象按城乡和年龄两个特 征分层,结果列在表 10-2 。该表属 组合表。
表 10-2 某年某地城乡各年龄组居民乙型肝炎病毒抗原携带率分析 请分别指出城乡 25 ~组的发生率和构成比。
三、编制统计表的注意事项 例 10-3 某地进行冠心病危险因 素研究时,调查了居民的心理得分 值与其它冠心病有关因素,结果列 成表 10-3 。
表 10-3 不同心理分值的冠心病危险因素水平比较
问 题 将太多的内容放在一个表里,特别是将两种 不同类型资料(计量资料和计数资料)的统 计量放在同一表中。 互不相容的内容分别占了不同的列,导致表 中有许多空格。 纵横标目倒置。 内容较多,层次复杂,表格中数据罗列无条 理,较难读懂。
表 10-4 某年某地居民不同心理分值的冠心病危险因素水平比较 (X±S) 处理办法: 将该表资料分别制成两 个统计表,见表 10-4 和表 10-5 。
表 10-5 某年某地居民不同心理分值的冠心病危险因素水平比较
第二节 统计图 1 .统计图的意义 : 统计图将统计数据 形象化,让读者更易于领会统计资料 的核心内容,易于做分析比较,并且 可以给读者留下深刻的印象。
2 .统计图的种类:根据资料类型和统计分 析目的不同,需要用不同的统计图表达数 据和统计指标值。常用的统计图有直条图、 直方图、百分比条图和圆图、线图、散点 图和统计地图等,还有在数据探索性分析 中应用的茎叶图、残差图、箱式图,序贯 分析的检验区域图,判别分析的类别分布 图,聚类分析的谱系图等特殊分析图等。
3 .统计图制作的一般原则 (1) 根据资料性质和分析目的正确选用 适当的统计图。 (2) 必须有标题,概括统计图资料的时 间、地点和主要内容。统计图的标 题一般 放在图的下方。
(3) 统计图一般有横轴和纵轴,并分别用 横标目和纵标目说明横轴和纵轴代表的 指标和单位。一般将两轴的相交点即原 点处定为 0 。纵横轴的比例一般以 5 : 7 或 7 : 5 为宜。 (4) 统计图用不同线条和颜色表达不同事 物和对象的统计量,需要附图例加以说 明。图例可放在图的右上角空隙处或下 方中间位置。
二、常用统计图 1 .直条图 (bar chart) 2 .圆图 (pie chart) 和百分比条图 (percent bar chart) 3 .线图 (line graph) 4 .直方图 (histogram) 5 .统计地图 (statistical map) 6 .其他特殊分析图 箱式图 (box plot) 茎叶图 (stem-leaf plot) 误差条图 (error bar chart)
1 .直条图 (bar chart) 用相同宽度的直条长短表示相互 独立的某统计指标值的大小。直条 图按直条是横放还是竖放分卧式和 立式两种,按对象的分组是单层次 和两层次分单式和复式两种。
例 10-4 图 10-1 显示某地某年主 要死因死亡率资料,不同死因是相 互独立的不连续指标,因此用直条 图。该图只按死因分类,为单式立 式直条图。
图 10-1 某年某地主要死因的死亡率 (/10 万 )
直条图的纵轴尺度起点必须为零示意图
2 .圆图和百分比条图 圆图 (pie chart) 是以圆形总面积作为 100% ,将 其分割成若干个扇面表示事物内部各构成部 分所占的比例。 百分比条图 (percent bar chart) 是以矩形总长度 作为 100% ,将其分割成不同长度的段表示各 构成的比例。 圆图和百分比条图适合描述分类变量的构成 比资料。
例 10-5 某年某地进行婴儿死亡原因 的调查,根据城市婴儿死因的构成资 料绘制成图 10-2 。 从图 10-2 可见出生窒息是婴儿死亡 的首位死因,出生窒息、早产和肺炎 头三位死因占总死亡的 60.3% ,是婴儿 死亡防治的重点。
图 10-2 某年某地城市婴儿死因构成比
例 10-6 图 10-3 是根据某地 20 世纪 70 年代和 80 年代恶性肿瘤发病登记资料绘制成的百分比 条图。由图可见不同年代主要恶性肿瘤中,鼻 咽癌和肝癌构成减少,肺癌明显增加。 百分比条图特别适合作多个构成比的比 较,将不同组别,不同时间或不同地区的某 分类指标的构成比平行地绘制成多个百分比 条图,可以方便地比较其构成比的差异。
图 世纪 70 年代和 80 年代某地 7 常见恶性肿瘤发病构成比较
3 .线图 (line graph) 线图是用线段的升降来表示数值的变化,适合于 描述某统计量随另一连续性数值变量变化而变化的趋 势,最常用于描述统计量随时间变化而变化的趋势。 普通线图:横轴和纵轴都是算术尺度。 半对数线图:横轴是算术尺度,纵轴是对数尺度, 特别适宜作不同指标变化速度的比较。
例 10-7 图 10-4 是根据 1990~2000 年某沿海 城市甲状腺功能亢进(甲亢)发病率资料绘 制的普通线图。 图 10-4 可看出在 1995 年开始食盐加碘后, 甲亢发病率有一突增高峰, 1999 年以后又逐 渐下降的趋势。
图 ~2000 年某沿海城市甲状腺功能亢进发病率变化趋势
例 10-8 调查某地 1997 年 ~2001 年两种与 性传播有关疾病 — 艾滋病和梅毒的发病率变 化趋势,资料分别绘制成普通线图和半对数 线图。 普通线图显示梅毒的增长幅度较大,但 半对数线图则显示艾滋病的增长速度更快。
图 ~2001 年某地艾滋病和梅毒发病率的变化趋势 (a) 纵轴为算术尺度 ; (b) 纵轴为对数尺度。
注意: 普通线图的纵轴一般以 0 点作起点,否则需 作特殊标记或说明,以防给读者错误印象。 标记直线的连接点时要注意,如测定值是在 某时间段或数值段的,应标记在段的中点 ; 如测定值是在某时点或确定值的,标记在相 应时点或数值上。
4 .直方图 (histogram) 以直方面积描述各组频数的多少,面积的总和相当于 各组频数之和,适合表示数值变量的频数分布。直方图 的横轴尺度是数值变量值,纵轴是频数。注意如各组的 组距不等时,要折合成等距后再绘图,即将频数除以组 距得到单位组距的频数作为直方的高度,组距为直方的 宽度。另一种表示数值变量资料频数分布的方式是将各 组段观察频数除以总观察频数得到各组段的频率,以各 组段频率除以组距得到的频率密度作为直方图高度,绘 制的直方图称为频率直方图,它以各直方面积表示各组 频率,其面积的总和为 1 。
例 年某地共报告乙型病毒 性脑炎 104 例,其年龄分布如表 10-6 。
图 年某地乙型病毒性脑膜炎病例的年龄分布
5 .统计地图 (statistical map) 统计地图是用不同的颜色和花纹表示统 计量的值在地理分布上的变化,适宜描述研 究指标的地理分布。 例 年广东省发生了某急性传染病的 流行,图 10-7 描述了该急性传染病发病数在广 东省的分布情况。
图 年广东省某急性传染病发病数的地理分布 图例中括号内是发生相同病例数的行政区频数,其余指数据缺失的行政区
6 .其他特殊分析图 在探索性数据分析中,一些特殊 的统计图对于发现数据分布特征 有着重要的意义。这里介绍常用 的箱式图、茎叶图和误差条图。
箱式图 (box plot) 使用 5 个统计量反映原始数据的分布特征, 即数据分布中心位置、分布、偏度、变异范围 和异常值。 箱式图的箱子两端分别是上四分位数和下 四分位数,中间横线是中位数,两端连线分别 是除异常值外的最小值和最大值。另外标记可 能的异常值。 显然箱子越长,数据变异程度越大。中间 横线在箱子中点表明分布对称,否则不对称。
例 某地调查不同类型化妆品厂 车间内粉尘数,结果绘制成图 10-8 。 图中显示粉尘数的分布呈偏态分布, 净化厂粉尘数较少,非净化厂粉尘数较多 。
图 10-8 某地不同类型化妆品厂车间粉尘数分布箱式图
茎叶图 (stem-leaf plot) 将数据分离成两部分:整数部分和尾数部 分,整数部分形成图的茎,尾数部分形成图 的叶。茎叶图的排列方式与频数表有些相似, 每行由一个整数的茎和若干叶构成。左边是 茎的数值,茎宽一般标在图的下方。右边是 叶,图显示每个叶的尾数数值,同样在图的 下方标示每个叶代表几个实际观察值。茎叶 图可以非常直观地显示数据的分布范围和形 态,近年非常流行。
例 利用第二章例 2-1 的数据绘制茎叶 图,结果为图 10-9 。图中茎的宽度为 1 ,即 观察值的整数位。每个叶代表 1 个观察值, 显示的尾数即观察值的第一位小数。从图可 以看出血清总胆固醇的分布范围从 2.3 到 5.7 , 基本近似正态分布。而且可以查看每个观察 值的取值情况。
误差条图 (error bar chart)
例 利用第四章例 4-2 的数据绘制误差条 图,结果显示为图 。从图示可见安慰剂 组的低密度脂蛋白平均值高于所有不同剂量 的新药组,而大剂量新药组的低密度脂蛋白 平均值低于低剂量组和中剂量组,差异有统 计学意义。
练习题 P231 一、最佳选择题 全做 三、计算分析题 第 1 题