计量资料的统计描述 赵耐青 复旦大学卫生统计教研室
目录 概 述 1 统计图表 2 统计指标 3 小 结 4 STATA命令 5
概述 统计图表 频数表;频数/频率图 计量资料的统计描述 统计指标 集中趋势;离散趋势
统计图表 频数表 某市1995年110名7岁男童身高资料 121.4 119.2 124.7 125 115 112.8 120.2 110.2 120.9 120.1 125.5 120.3 122.3 118.2 116.7 121.7 116.8 121.6 122 118.8 121.8 124.5 122.7 116.3 124 119 124.9 130 123.5 128.1 119.7 126.1 131.3 123.8 122.2 122.8 128.6 132.5 126.4 118.4 121 119.1 116.9 131.1 120.4 115.2 118 122.4 114.2 127.2 118.3 127.8 123 117.4 123.2 119.9 122.1 124.8 114.4 120.5 120 125.8 119.4 128.2 124.1 127.1 122.5 125.1 124.4 112.3 121.3 127 113.5 127.6 125.2 121.5 129.1 122.6 134.5 132.8
统计图表 频数表的制作 确定组数:不宜过多或过少,一般10组 确定组距:可等可不等; 一般等组距=极差/组数; 本例组距=(134.5-110.2)/10=2.43,实际取2 确定各组上下限(每个组段的起点和终点): 第一组包含最小值 组段不能重叠 每一组段都为半开半闭区间 最后一组应为闭区间 离散型资料的组段通常为一个取值
利用Stata产生频数表 Excel文件: 直接粘贴到Stata软件中 求最大值和最小值的命令:su x 最小值为110.2,取最小区组的下限为110 gen y=int((x-110)/2)*2)+110 tab y 注意:stata命令一般都是小写英文字母 x 121.4 125.5 121.7 121.8 122.2 126.4 120.3 119.9 125.8 118.3 118.8 119.2 124.9 122.8 118.4 116.9 122.1 120.1 127.1 127.6 124.7 122.3 130 128.6 121 120.4 124.8 122.5 125.2 125 118.2 124.5 123.5 122 119.1 114.2 122.7 116.3 121.5 115 116.7 128.1 132.5 127.2 119.4 125.1 112.8 119.7 131.1 114.4 128.2 124.4 129.1 120.2 116.8 126.1 127.8 120.5 124.1 112.3 122.6 110.2 121.6 124 131.3 115.2 123 120 121.3 134.5 120.9 119 123.8 118 117.4 127 122.4 123.2 113.5 132.8
统计图表 表2.1 110名7岁男童身高频数分布
统计图表 连续变量 频数分布图 离散变量 以直方顶点的纵坐标(等距分组)或直方的面积大小 (不等距分组)表示频数的多少 以各直条的长短表示频数的多少
统计图表 连续变量频数分布图 等距分组:横轴表示观察变量,纵轴表示每个横轴组段的频数。
统计图表 连续变量频数分布图 不等距分组:横轴表示观察变量取值,由于不等距分组会影响频数描述,所以纵轴表示每个横轴单位的频数/组距
统计图表 频数表/图的用途 揭示资料分布类型:频数图较频数表更直观 描述频数分布的重要特征:集中趋势与离散趋势 便于发现特大与特小的可疑值 便于进一步计算统计指标和做统计处理
统计指标 集中趋势描述 算术均数:简称均数 直接法: 加权法: (一般适合频数表资料) 总体均数μ,样本均数 当数据对称分布时,位于分布的中心,是频数分布最集中的位置 直接法: 加权法: (一般适合频数表资料)
统计指标 集中趋势描述 几何均数G 适用于经对数转换后呈对称分布的数据,如医学上的滴 (一般适合频数表资料)
统计指标 集中趋势描述 中位数 将一组观察值从小到大排列位置居中的数 适用于 任何分布的定量数据 当n为偶数时 当n为奇数时 不完全资料(开口资料):没有确切最大值或最小值的资料 当n为偶数时 当n为奇数时
统计指标 集中趋势描述 中位数计算 离散型变量:直接法 连续型变量:借助频数分布表 以组中值代替公式中的X 计算公式 LM中位数所在组下限;iM中位数所在组的组距;fM中位数所在组的频数; 中位数所在组前一组的累积频数
统计指标 离散程度的描述 极差 优点:简单明了 缺点:不能反映其它数据的变异 样本量较大时极差也较大 不宜比较 极差(range):最大值-最小值 优点:简单明了 缺点:不能反映其它数据的变异 样本量较大时极差也较大 不宜比较
统计指标 离散程度的描述 四分位间距 百分位数(percentile):位置指标 第x百分位数Px:将所有数据从小到大排列后,处于第x百分位置的数值。中位数记为 P50。 连续型变量
统计指标 离散程度的描述 四分位间距 上下四分位数(QU、QL):第25百分位数和第75百分位数 四分位间距P75-P25: 上下四分位数之间的距离,包括了一半的数据,越大表明离散程度越高 描述了50%数据的分布宽度 比极差稳定 四分位数范围P25~P75(inter-quartile range) 描述了50%数据分布的宽度 反映分布的位置特征
统计指标 离散程度的描述 方差 方差variance :适用于对称分布的资料 总体方差 样本方差 离均差平方和:描述每个数据X相对于 分布的集中程度;与样本含量n有关,样本含量不同时不宜直接比较)
统计指标 离散程度的描述 方差 方差:相当于平均每个数据的离均差的平方;可用于不同样本含量数据离散度的比较。 自由度(degree of freedom):当 选定时n个X中能自由变动的X的个数
统计指标 离散程度的描述 标准差 标准差(standard deviation)
统计指标 离散程度的描述 变异系数 变异系数coefficiedt of variatlion (CV) 描述了数据的变异相对其平均水平的大小 描述的是相对离散度 无单位量纲 比较度量衡单位不同资料的变异度 比较均数相差悬殊资料的变异度
数据分析中的一般统计描述策略 如果资料近似呈对称分布,则 如果资料取对数后才呈对称分布,则 如果资料呈偏态分布 在确认性研究中,往往统计描述采用均数,中位数,标准差, , ,最小值,最大值。
小 结 集中趋势指标:不同分布情况下,描述指标的选择 离散趋势指标:各个指标的应用和特点 小 结 集中趋势指标:不同分布情况下,描述指标的选择 离散趋势指标:各个指标的应用和特点 如何从集中趋势和离散趋势两个角度对数据进行合理的描述
STATA命令 等距分组频数图(例2.1) use 光盘符:\例题\ex2-1 gen f=int((x-110)/2)*2+110 打开数据库文件ex2-1.dta gen f=int((x-110)/2)*2+110 产生用以作频数表的新变量“f” tab f 对变量“f”作频数表 graph f,bin(13) freq 作频数图
STATA命令 不等距分组频数图(例2.2) use 光盘符:\例题\ex2-2 打开数据库文件ex2-2.dta graph num age, c (J) s(.) xlab (0 5 to 60) ylab(0 5 to 25) 作频数图,其中c(J),以阶梯状横线连接各数据点。Xlab 和ylab为x轴和y轴的刻度
STATA命令 求均数、标准差(例2.1) use 光盘符:\例题\ex2-1 sum x 综述变量x 直接法 sum x 综述变量x 间接法 gen xx=int((x-110)/2)*2+111 sum xx 综述变量“xx”作频数图
STATA命令 求几何均数(例2.5) use 光盘符:\例题\ex2-5 means x [w=f] use 光盘符\例题\ex2-6 以f为权重变量,求变量x的平均数 求均数、中位数、四分位数范围、标准差、方差、 偏度系数、峰度系数(例2.6) use 光盘符\例题\ex2-6 summarize x,detail 综述变量x
Thank You !