第 2章 统计数据的描述 2.1 数据的计量尺度 2.2 统计数据的来源 2.3 统计数据的质量 2.4 统计数据的整理 第 2章 统计数据的描述 2.1 数据的计量尺度 2.2 统计数据的来源 2.3 统计数据的质量 2.4 统计数据的整理 2.5 分布集中趋势的测度 2.6 分布离散程度的测度 2.7 分布偏态与峰度的测度
2.1 数据的计量尺度 一、列名尺度 二、顺序尺度 三、间隔尺度 四、比率尺度 9
列名尺度 也称名义尺度或分类尺度 计量层次最低 对事物进行平行的分类 各类别可以指定数字代码表示 使用时必须符合类别穷尽和互斥的要求 数据表现为“类别” 具有=或的数学特性
顺序尺度 也称定序尺度 对事物分类的同时给出各类别的顺序 比定类尺度精确 未测量出类别之间的准确差值 数据表现为“类别”,但有序 具有>或<的数学特性
间隔尺度 也称间隔尺度 对事物的准确测度 比定序尺度精确 数据表现为“数值” 没有绝对零点 具有 + 或 - 的数学特性
比率尺度 也称比率尺度 对事物的准确测度 与定距尺度处于同一层次 数据表现为“数值” 有绝对零点 具有 或 的数学特性
四种计量尺度的比较 四种计量尺度的比较 √ “√”表示该尺度所具有的特性 定类尺度 定序尺度 定距尺度 定比尺度 分类( = ,≠ ) 排序( < ,> ) 间距( + ,- ) 比值( × ,÷ ) √ 计量尺度 数学特性 “√”表示该尺度所具有的特性
2.2 统计数据的来源 一、间接获取的数据 二、直接获取的数据 9
间接取得的数据 统计部门和政府部门公布的有关资料,如各类统计年鉴 各类经济信息中心、信息咨询机构、专业调查机构等提供的数据 各类专业期刊、报纸、书籍所提供的资料 各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料 从互联网或图书馆查阅到的相关资料 Internet http//WWW. 中国统计年鉴2001 中国人口统计年鉴 中国市场统计年鉴 世界发展报告 世界经济年检 工业普查数据 中国统计出版社
提供统计数据的部分政府网站 中国政府及相关机构 网址 数据内容 国家统计局 http://www.stat.gov.cn 统计年鉴、统计月报等 国务院发展研究中心信息网 http://www.drcnet.com.cn 宏观经济、财经、货币金融等 中国经济信息网 http://www.cei.gov.cn 经济信息及各类网站 华通数据中心 http://data.acmr.com.cn 国家统计局授权的数据中心 中国决策信息网 http://www.juece.gov.cn 决策知识及案例 三农数据网 http://www.sannong.gov.cn 三农信息、论坛及相关网站
提供统计数据的部分政府网站 美国政府机构 网址 数据内容 人口普查局 http://www.census.gov 人口和家庭等 联邦储备局 http://www.bog.frb.fed.us 货币供应、信誉、汇率等 预算编制办公室 http://www.whitehouse.gov/omb 财政收入、支出、债券等 商务部 http://www.doc.gov 商业、工业等
直接取得的数据 普查 抽样调查 重点调查 典型调查
普查 1.为特定目的专门组织的非经常性全面调查 2. 通常是一次性或周期性的 3. 一般需要规定统一的标准调查时间 2. 通常是一次性或周期性的 3. 一般需要规定统一的标准调查时间 4. 数据的规范化程度较高 5. 应用范围比较狭窄
抽样调查 1. 从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法 1. 从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法 2. 具有经济性、时 效性强、适应面广、准确性高等特点
重点调查 重点调查:是指在调查对象中,只选择一部分重点单位进行的非全面调查。 重点单位:着眼于现象量的方面而言,尽管这些单位在全部单位中只是一部分,但它们在所研究现象的标志总量中却占有绝大的比重,在总体中具有举足轻重的作用。
典型调查 典型调查是一种专门组织的非全面调查。根据调查的目的,在对所研究的对象进行初步分析的基础上,有意识地选取若干具有代表性的单位进行调查和研究,借以认识事物发展变化的规律。有人也认为它是“目的抽样”,以若干具有代表性的单位为样本。
2.3 统计数据的质量 9
数据的误差
抽样误差 由于抽样的随机性所带来的误差 所有样本可能的结果与总体真值之间的平均性差异 影响抽样误差大小的因素 样本量的大小 总体的变异性
非抽样误差 相对于抽样误差而言 除抽样误差之外的,由于其他原因造成的样本观察结果与总体真值之间的差异 存在于所有的调查之中 概率抽样,非概率抽样,全面性调查 有抽样框误差、回答误差、无回答误差、调查员误差、测量误差
误差的控制 抽样误差可计算和控制 非抽样误差的控制 调查员的挑选 调查员的培训 督导员的调查专业水平 调查过程控制 调查结果进行检验、评估 现场调查人员进行奖惩的制度
2.4 统计数据的整理 一、统计数据的分组 二、次数分配 三、次数分配直方图 9
组距分组 (要点) 将变量值的一个区间作为一组 适合于连续变量 适合于变量值较多的情况 需要遵循“不重不漏”的原则 组距分组 (要点) 将变量值的一个区间作为一组 适合于连续变量 适合于变量值较多的情况 需要遵循“不重不漏”的原则 可采用等距分组,也可采用不等距分组
组距分组 (步骤) 确定组数:组数的确定应以能够显示数据的分布特征和规律为目的 确定组距:组距是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即 组距=( 最大值 - 最小值)÷ 组数 统计出各组的频数并整理成频数分布表
组距分组 (几个概念) 下限 :一个组的最小值 上限 :一个组的最大值 组距 :上限与下限之差 组中值 :下限与上限之间的中点值 下限 :一个组的最小值 上限 :一个组的最大值 组距 :上限与下限之差 组中值 :下限与上限之间的中点值 下限值+上限值 2 组中值 =
次数分配直方图 用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布 在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图 直方图下的总面积等于1
分组数据的图示 (直方图的绘制) 某车间工人周加工零件直方图
折线图 折线图也称频数多边形图 是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉 折线图的两个终点要与横轴相交,具体的做法是 第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴 折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的
分组数据的图示 (折线图的绘制) 折线图与直方图 下的面积相等! 某车间工人周加工零件折线图
次数分配的类型 右偏分布 左偏分布 对称分布 反J型分布 U型分布 正J型分布 几种常见的频数分布 Shape Concerned with extent to which values are symmetrically distributed. Kurtosis The extent to which a distribution is peaked (flatter or taller). For example, a distribution could be more peaked than a normal distribution (still may be 慴ell-shaped). If values are negative, then distribution is less peaked than a normal distribution. Skew The extent to which a distribution is symmetric or has a tail. Values are 0 if normal distribution. If the values are negative, then negative or left-skewed. 反J型分布 U型分布 正J型分布 几种常见的频数分布
2.5 分布集中趋势的测度 一、众数 二、中位数 三、均值 四、众数、中位数和均值的比较 9
众数 (mode) 定义:众数是指社会现象总体中最普遍出现的标志值。 一组数据中出现次数最多的变量值 适合于数据量较多时使用 不受极端值的影响 一组数据可能没有众数或有几个众数 主要用于分类数据,也可用于顺序数据和数值型数据
众数的确定 1)单项式分配数列确定众数:出现次数最多的标志值就是众数。 2)组距式分配数列确定众数:由组距数列确定众数,先确定众数组,再通过一定的公式计算众数的近似值。
众数 (不惟一性) 无众数 原始数据: 10 5 9 12 6 8 一个众数 原始数据: 6 5 9 8 5 5 无众数 原始数据: 10 5 9 12 6 8 一个众数 原始数据: 6 5 9 8 5 5 多于一个众数 原始数据: 25 28 28 36 42 42
组距式数列确定众数的公式 下限公式: 上限公式:
众数的几何意义
中位数 定义:中位数是将总体各个单位按其标志值的大小顺序排列,处于数列中点的那个单位的标志值,在总体中,标志值小于中位数的单位占一半;标志值大于中位数的单位也占一半。
中位数 (median) 50% 1. 排序后处于中间位置上的值 不受极端值的影响 主要用于顺序数据,也可用数值型数据,但不能用于分类数据 1. 排序后处于中间位置上的值 Me 50% 不受极端值的影响 主要用于顺序数据,也可用数值型数据,但不能用于分类数据 各变量值与中位数的离差绝对值之和最小,即
中位数的确定 (1)未分组资料确定中位数。 将总体各单位的标志值按照大小顺序排列, 当总体单位数n为奇数时: 当总体单位数n为偶数时,:
(2)单项式分组资料确定中位数 当 为奇数时: 当 为偶数时,
3) 组距式分组资料确定中位数 下限公式: 上限公式:
均值 一、算术平均数 二、调和平均数 三、几何平均数 9
均值 (mean) 集中趋势的最常用测度值 一组数据的均衡点所在 体现了数据的必然性特征 易受极端值的影响 用于数值型数据,不能用于分类数据和顺序数据
算术平均数 算术平均数的基本公式 计算平均数的要求:总体标志总量必须是总体各单位标志值的总和,标志值和单位之间一一对应。
算术平均数的计算方法 (1)简单算术平均数。简单算术平均数主要用于未分组资料,用总体各单位标志值简单加总得到的标志总量除以单位总量而得。计算公式:
算术平均数的计算方法 (2)加权算术平均数。 A. 加权算术平均数主要用于原始资料已经分组,并得出次数分布的条件。计算公式: fi 为各组标志值出现的次数。
B.权数的意义和作用: 权数:各组次数(频数)的大小所对应的标志值对平均数的影响具有权衡轻重的作用。 当各组的次数都相同时,即当f1=f2=f3=…=fn时, 加权算术平均数就等于简单算术平均数。
算术平均数的数学性质 (1)算术平均数与标志值个数的乘积等于各标志值的总和。 简单算术平均数: 加权算术平均数:
(2)各个标志值与其算术平均数的离差之和等于零。 简单算术平均数: 加权算术平均数:
(3)各标志值与算术平均数离差的平方和为最小值。 (4)对被平均的变量实施某种线性变换后,新变量的算术平均数等于对原变量的算术平均数实施同样的线性变换的结果。 (5)对于任意两个变量x和y,它们的代数和的算术平均数等于两个变量的算术平均数的代数和。
调和平均数 1.简单调和平均数:标志值的倒数的算术平均数的倒数。
2.加权调和平均数 计算公式: 在权数选择合适时,加权调和平均数实际上是加权算术平均数的变形:
当各组标志总量相等,m1=m2=…=mn时,加权调和平均数可化简成为简单调和平均数形式。
几何平均数 n 个变量值乘积的 n 次方根 适用于对比率数据的平均 主要用于计算平均增长率 计算公式为 5. 可看作是均值的一种变形
众数、中位数和均值的关系 左偏分布 对称分布 右偏分布 均值 中位数 众数 均值 = 中位数 众数 众数 中位数 均值 Shape Concerned with extent to which values are symmetrically distributed. Kurtosis The extent to which a distribution is peaked (flatter or taller). For example, a distribution could be more peaked than a normal distribution (still may be 慴ell-shaped). If values are negative, then distribution is less peaked than a normal distribution. Skew The extent to which a distribution is symmetric or has a tail. Values are 0 if normal distribution. If the values are negative, then negative or left-skewed.
在对称的正态分布条件下:算术平均数等于众数等于中位数; 在非对称正态分布的情况下,众数、中位数和平均数三者的差别取决于偏斜的程度,偏斜的程度越大,它们之间的差别越大; 当次数分配呈右偏(正偏)时,算术平均数受极大值的影响; 当次数分配呈左偏(负偏)时,算术平均数受极小值的影响; 中位数则总是介于众数和平均数之间。
皮尔生经验法则 分布在轻微偏斜的情况下,众数、中位数和算术平均数数量关系的经验公式为:
众数、中位数、均值的特点和应用 众数 中位数 均值 不受极端值影响 具有不惟一性 数据分布偏斜程度较大时应用 易受极端值影响 数学性质优良 数据对称分布或接近对称分布时应用
2.6 分布离散程度的测度 一、极差 二、方差和标准差 三、离散系数 9
极差 R = max(xi) - min(xi) 一组数据的最大值与最小值之差 离散程度的最简单测度值 易受极端值影响 未考虑数据的分布 计算公式为 R = max(xi) - min(xi)
方差和标准差 离散程度的测度值之一 最常用的测度值 反映了数据的分布 反映了各变量值与均值的平均差异 根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差
总体方差和标准差 方差的计算公式 标准差的计算公式 未分组数据: 未分组数据: 组距分组数据: 组距分组数据:
样本方差和标准差 方差的计算公式 标准差的计算公式 未分组数据: 未分组数据: 组距分组数据: 组距分组数据:
样本方差 自由度 一组数据中可以自由取值的数据的个数 当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值 例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x = 5。当 x = 5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值 样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差σ2时,它是σ2的无偏估计量
离散系数 1.标准差与其相应的均值之比 2.对数据相对离散程度的测度 3.消除了数据水平高低和计量单位的影响 4. 用于对不同组别数据离散程度的比较 5. 计算公式为
2.7 分布偏态与峰度的测度 一、偏态 二、峰度 9
偏态 1、偏态:衡量频数分配不对称程度,或偏斜程度的指标。 2、计算公式:(用距法测定)
当 =0时,左右完全对称,为正态分布;当 >0时为正偏斜;当 <0时为负偏斜。 当 =0时,左右完全对称,为正态分布;当 >0时为正偏斜;当 <0时为负偏斜。 Ⅰ(α=0) II(α>0) Ⅲ(α< 0)
峰度 1、峰度:用以衡量频数分配的集中程度,即分布曲线的尖峭程度的指标。 2、计算公式:(用距法测定)
峰度指标β=0,分布为正态峰度,当峰度指标β>0时,表示频数分布比正态分布更集中,分布呈尖峰状态,β<0时表示频数分布比正态分布更分散,分布呈平坦峰。如图所示: Ⅱ(β>0) Ⅰ(β=0) Ⅲ (β<0)