医学统计学 主讲人:信息部 林雪君
目 录 第一讲:医学统计学内容(一) 第二讲:医学统计学内容(二) 第三讲: t 检验及其spss操作 第四讲:方差分析及其spss操作 目 录 第一讲:医学统计学内容(一) 第二讲:医学统计学内容(二) 第三讲: t 检验及其spss操作 第四讲:方差分析及其spss操作 第五讲:卡方检验及其spss操作 第六讲:秩和检验及其spss操作 第七讲:logistic回归分析和生存分析的spss操作
个人简介 2015年6月毕业于吉林大学流行病与卫生统计学专业, 硕士在读期间以第一作者发表2篇SCI,2篇中文核心期刊 文章。 联系方式: 电话 18900918412(613248) 邮箱 578872670@qq.com
医学统计学内容(二) 第一节 定性变量的统计描述 第二节 统计表与统计图 (一) 三类相对数 (二) 医学人口统计常用指标 第一节 定性变量的统计描述 (一) 三类相对数 (二) 医学人口统计常用指标 (三) 动态数列及其指标 第二节 统计表与统计图 (一) 统计表 (二) 统计图
第一节 定性变量的统计描述
(一) 三类相对数 定性变量频数表实际上就是每个变量值的统计个数(又称绝对数)列表,如表1中⑶。 在实际工作中,事物之间的比较不宜用绝对数,需计算相对数。相对数是两个有联系的指标之比。
一、频率与频率分布 Frequency (proportion)
比率(proportion)又称构成指标。说明某事物内部某组成部分占其全部的比重或分布。计算公式为: 表1中阳性数构成比的大小体现了不同地区脊柱侧凸患病的例数在总例数中所占的比重大小。
二、强度 intensity (rate) 强度(intensity)又称(速)率(rate)。指单位时间内某现象发生的频度。常以百分率(%)、千分率(‰)、万分率(1/万)、十万分率(1/10万)等表示。计算公式为:
例1:某企业2014年有2839名职工,该企业每年都对职工进行体检,这一年新发生高血压病人5例,2014年的高血压发病率为:
三、相对比 (relative) ratio 相对比(relative ratio)亦称比(ratio),又称对比指标。说明两个有关指标比对的水平,常用倍数或百分数表示。计算公式为:
两个对比指标可以是绝对数、相对数或平均数等。 如某地的男女性别比即为绝对数之比;两地区的某病死亡率之比即为相对数之比;两地区7岁男童的平均身高之比即为平均数之比。
四、应用相对数的注意事项 (一)计算相对数时分母不宜过小 在计算相对数时,分母常意味着样本例数的多少,由计算相对数的数学特性决定了只有当样本例数足够多时,计算出的相对数才稳定,才能正确反映客观实际;例数少,偶然性就大,可靠性差。
在实际应用中,最常见的错误是把构成比当作率分析(即以比代率)。 (二)根据分析目的正确选择强度和构成比 构成比只能说明某事物各组成部分的比重或分布,不能说明某现象发生的频度或强度。 在实际应用中,最常见的错误是把构成比当作率分析(即以比代率)。
(三)对相对数进行比较时,应注意可比性 对相对数进行比较时,除了研究因素(即要比较的因素)外,其余的影响因素应尽可能相同或相近。
(四) 率的标准化 (五)对样本相对数进行统计推断时,应做假设检验 当比较两个总率时,若其内部构成不同,只能分别比较或转化成标准化率再比较。 由于样本相对数也有抽样误差,当对样本相对数进行统计推断时,不能仅凭数字表面不同轻易下结论,应当做假设检验(下节课讲)。
(六)正确计算合计率 对两组同质的资料,有时需要合并起来估计一个合计率或平均率。这时,不能简单地由两组分别计算的率相加后求平均。 例:用某疗法治疗肝炎, 甲医院治疗150人,治愈30人,治愈率为20%; 乙医院治疗100人,治愈30人,治愈率为30%; 两个医院合计治愈率为? [(30+30)/(150+100)]*100%=24%
三类常用的相对数指标有: 频率(frequency) 强度(intensity /rate) 相对比(ratio)
(二)医学人口统计常用指标 医学人口统计常用指标主要有:人口总数、负担系数、粗出生率、总生育率、年龄别生育率、自然增长率、净再生育率、粗死亡率、婴儿死亡率、围生儿死亡率、死因别死亡率、死因构成比、死因顺位等。
人口金字塔(population pyramid) 将人口的性别和年龄资料结合起来,以图形的方式表达人口的性别和年龄构成。 它以年龄为纵轴,人口数构成为横轴,左侧为男,右侧为女而绘制的两个相对应的直方图。 因其形如金字塔,称为人口金字塔。人口金字塔能够形象直观地反映已有资料中男女性别人口的年龄构成,也可以分析过去人口的出生死亡情况以及今后人口的发展趋势。
图1 1990和2000年我国人口金字塔
(三)动态数列及其指标 动态数列(dynamic series)是指一系列按时间顺序排列起来的统计指标,用来说明某事物在时间上的变化和发展趋势。
表3 常用动态数列指标
第二节 统计表与统计图
统计表与统计图是统计描述的重要方法,是对比、分析事物的重要工具。 在科技报告或论文中,常把统计数据或统计指标用表格的形式列出,称为统计表(statistical table), 它常用来集中、浓缩、简洁地概括说明某类被研究事物,代替冗长、单调的文字叙述,并能够鲜明、清晰地表达该事物,便于进一步比较和计算。
统计图(statistical chart)是用点的位置、线段的升降、直条的长短或面积的大小等形式表达统计资料的一种方法,它可以把资料的变化趋势、分布特征、数据之间的关联等,以形象直观的方式表现出来。 统计图容易理解,能醒目地给读者留下深刻印象。缺点是不能精确地表达数字的大小,故常与统计表一同使用,以达到相辅相成的效果。
(一)统计表 一、统计表的结构 统计表主要由标题、表线、标目和数字组成。其结构如下图所示:
二、统计表的种类 统计表分为简单统计表和复合统计表两种。以下是论文和科技报告中常见的统计表的式样。
三、编制统计表的原则和基本要求 制作统计表总的原则:重点突出,简单实用;逻辑合理,条理清晰。即一个统计表最好只包含一个中心内容,不要面面俱到;纵、横标目的安排既要符合专业要求,又要逻辑分明。
(一) 标题 针对统计表的各组成部分,具体的制表基本要求如下: 用简明扼要的文字说明表的中心内容; 必要时写明时间和地点; 标题写在表体的上端中部; 注意标题不要过长,也不要太简略,更不要不写。
(二) 表号 一般标于标题的前部,与标题以空格相隔;若文中有多个表,以数字编号表示,如“表1”、“表2”、“表12-1”、“表5.4”等;若文中只有一个表,用“附表”表示。
(三) 表线 表线有顶线、分隔线、合计线、底线等;顶线和底线一般用粗线,其余用细线;表线只能用横线,不能用竖线,也不能用斜线;表线不宜过多。最基本的统计表一般为三线表、四线表。
(四) 纵标目 常用精炼的文字或术语写明各项指标或某种分类;位于表的上部;有单位的指标要注明单位,如“体重(kg)”、“死亡率(%)”等;纵标目上可以再列总标目,二者用一短线分隔。注意标目不宜过多;纵标目不宜划分过多层次。
(五)横标目 常为被研究或要说明的事物名称;位于表的左中部;横标目上部常列事物的性质或类别,如“类型”、“年份”、“组别”等;横标目下部可列合计项;合计与横标目之间一般不用短线分隔。
(六) 数字 表内数字一律采用阿拉伯数字;同一指标的数字应该数位对齐,小数位数要一致;数字不标明单位;表内不宜有空项。如遇数据缺失、不详或未记录时,可用“…”表示,不该有数字处可用“—”表示。数字是“0”均填“0”。数字应位于所属纵标目的正下方,横标目的右侧同一行;合计数字与分数据之间可用短线分隔。
(七)备注 当表中有某个对象需附加或特殊说明时,可先在该对象的右上角用“*”或其它特殊符号标示,再在表的底线下面左侧用该符号引导写出具体内容。
(二) 统计图 统计图是用点的位置、线段的升降、直条的长短或面积的大小等形式表达统计资料的一种方法,它可以把资料的变化趋势、分布特征、数据之间的关联等,以形象直观的方式表现出来。统计图容易理解,能醒目地给读者留下深刻印象。常用的统计图有条图、百分条图、圆图、线图、半对数线图、散点图、直方图、统计地图等。
一、绘制统计图的基本要求 统计图与统计表不同,统计表没有固定的模式,需要根据分析目的和资料特点去设计和制作,灵活性强;而统计图有固定的类型和模式,需要按每种统计图的要求去绘制,但在制作每种统计图时,要注意以下几项基本要求:
1. 按资料的性质和分析目的选用适当的统计图 统计图选择的不合理将达不到分析的目的,可能 会得到与预期目的相反的效果。掌握和熟悉每种统计 图的特点有利于正确选择合理的统计图。
2. 每个统计图要有标题 用简明扼要的文字说明图的中心内容,必要时写明时间和地点;标题常写在图体的下端中部。 3. 纵、横标目分别代表分析指标和分析事物 有单位的标目要注明单位,标目常写在坐标轴的外侧中部。
4. 条图、线图、半对数线图、散点图、直方图都有纵、横坐标轴 坐标轴要注明尺度,纵轴尺度自下而上,横轴尺度自左而右,数量都从小到大,并等距标明。条图与直方图的纵坐标必须从0开始,并标明0点。统计图的纵、横轴比例一般为5:7。
5. 比较不同事物时,应选用不同的图案或颜色区别表示,并附图例说明 图例放置的位置以不影响图的主要内容为前提, 可放在图的空隙处。
二、常用统计图的绘制方法及注意事项 (一)直条图(条图) 直条图(bar chart) 用等宽直条的长短来表示相互独立的各指标的数值大小。有单式和复式条图两种。单式条图的样例见图14-1 ,图14-10;复式条图的样例见图14-2 ,图14-11。
条图的绘制方法如下: ① 一般以横轴为基线,表示被研究的事物, 纵轴表示研究指标。也可颠倒设置,样例见图14-10a 。
② 表示指标数值的坐标尺度必须从0开始,一般为等间距,中间不能折断,否则会改变各直条长短的比例,使人产生错觉。 条图的纵轴尺度起点必须为0示意图!
③ 各直条间宽度应相等,间隙宽度也应一 致,一般与直条的宽度相同或为直条宽度的一半。 ④ 为了便于对比,一般将被比较的指标按 大小顺序排列。 ⑤ 复式条图每组内的直条间不留间隙,各 直条应以不同的图案或颜色区别表示,并附图例 说明。
(二) 百分条图 百分条图(percent bar chart) 用一个长条的面积代表事物的全部,条内分段的面积代表事物的构成比。有单式和复式百分条图两种。单式百分条图的样例见图14-3;复式百分条图的样例见图14-13 ,图14-14。
(三) 圆图 圆图(pie chart) 用圆的面积代表事物的全部, 用各扇形的面积代表事物的构成比。有单式和复式圆图两种。单式圆图的样例见图14-4;复式圆图的样例见图14-15 。
图14-15 2001年某地流动人口与本地人口的经济状况构成(%)
(四) 线图 线图(line chart)用线段的升降表示事物在时间上的变化趋势, 或某现象随另一现象变动的情况。适用于连续型资料。有单式和复式线图两种。
复式线图的样例见图14-5 ,图14-16 ,图14-17 。
(五) 半对数线图 半对数线图(semi-logarithmic linear chart) 用于表示事物的发展速度。线图的纵、横轴都为算术尺度,半对数线图的纵轴为对数尺度,横轴为算术尺度。适用于比较两组相差悬殊的数据比较变化速度。样例见图14-7 ,图14-18 。
(六) 散点图 散点图(scatter plot) 用点的密集程度和变化趋势表示两种现象之间的相互关系。适用于双变量资料。散点图的样例见图14-8 。
(七) 直方图 直方图 (histogram) 用各矩形的高度或面积代表各组段的频数或频率,各矩形的面积总和为总频数或100%,用以表示连续型资料的频数分布情况。 适用于连续型的频数分布表资料。横轴表示组段,纵轴表示频数或频率。样例见图14-9 。
绘制直方图应注意: ① 纵轴的刻度必须从0点开始。 ② 各矩形的高度为频数或频率,宽度为组 距。各组段的组距必须相等,若不等,要折合成 等组距,只能由多化少。 ③ 各矩形(直条)之间不留空隙,可用直 线分隔,也可不绘制分隔直线。
(八) 统计地图 统计地图(statistical map) 用于表示某现象的数量在地域上的分布。适用于跨地区的大型调查资料。常用来表达某种疾病在不同地区的发病率、死亡率或患病率的大小分布,有助于分析该种疾病的地理分布特征。样例见图14-19 。
图14-19 2012年全国各地区年末人口数及增长率