第 4 章 调查数据的整理与显示
2 第一节、定类数据的整理与显示 第二节、定序数据的整理与显示 第三节、定量数据的整理与显示
在获得原始数据资料之后,需要使用一定的方法对 数据进行整理和综合,目的是从大量的原始数据资 料中提炼所需要的信息,使之可以提供概要信息并 能反映对象总体的基本数量特征,便于人们的理解 和使用。表格和图形是整理和反映调查资料的主要 工具。 重点:了数据整理的全过程,掌握分组方法及变量数列编制 的原则,灵活设计调查表和调查图。 难点:针对不同类型的数据进行图、表的设计,区分不同图、 表的应用。
调查数据的整理 要弄清所面对的数据类型,因为不同类型的数据, 所采取的处理方式和方法是不同的 对定类数据和定序数据主要是做分类整理 对定距数据和定比数据则主要是做分组整理 适合于低层次数据的整理和显示方法也适合于高层 次的数据;但适合于高层次数据的整理和显示方法并 不适合于低层次的数据
第一节、定类数据的整理与显示 11 。定类数据整理: 列列出各类别 计算各类别的频数 制作频数分布表 用 图形显示数据 频频数和频数分布 (( 1 )、频数 / 次数 Frequency :落在某特定类别(或组) 中的数据个数 (( 2 )、比例 Proportion :某一类别数据占全部数据的比 值 (( 3 )、百分比 Percentage :将对比的基数作为 100 而计 算的比值 (( 4 )、比率 Ratio :不同类别数值的比值 (( 5 )、频数分布 Frequency Distribution :把各个类 别及落在其中的相应频数全部列出,并用表格的形式表现出 来。
【例 1 】 为为研究广告市场的状况,一家广告公司在某城市随 机抽取 200 人就广告问题做了邮寄问卷调查,其中 的一个问题是 “ 您比较关心下列哪一类广告? ” 1 .商品广告; 2 .服务广告; 3 .金融广告; 4 .房地产广告; 5 .招生招聘广告; 6 .其他广告。
某城市居民关注广告类型的频数分布
2 、定类数据的图示 (( 1 )条形图( bar graph ) 条条形图是用宽度相同的条形的高度或长短来表示数据变动的 图形,在表示定类数据的分布时,是用条形图的高度来表示 各类别数据的频数或频率 绘绘制时,各类别可以放在纵轴,称为条形图,也可以放在横 轴,称为柱形图。
( 2 )圆形图 (pie chart) 也也称饼图,是用圆形及园内扇形的面积来表示数值 大小的图形。主要用于表示总体中各组成部分所占 的比例,对于研究结构性问题十分有用。 例例如,关注服务广告的人数占总人数的百分比为 25.5%
例:某商店顾客购买计算机频数分布表 公司频数比重( % ) 苹果 1326 康柏 1224 贝尔 510 盖特威 918 IBM1122 合计 50100
50 次购买计算机的频数分布条形图
购买饮料品牌 【例】一家市场调查 公司为研究不同品牌 饮料的市场占有率, 对随机抽取的一家超 市进行了调查。调查 员在某天对 50 名顾客 购买饮料的品牌进行 了记录,如果一个顾 客购买某一品牌的饮 料,就将这一饮料的 品牌名字记录一次 。 右边就是记录的原始 数据 绿色健康饮品
购买饮料品牌条形图
购买饮料品牌饼图
第二节 定序数据的整理与显示 11 、定序数据的整理 ( 1 )相关概念(可计算的指标): ①①、累计频数 cumulative frequencies :各类别的频数逐 级累加得到的频数。 ②②、累计频率 cumulative percentages :将各类别的频率 ( 百分比 ) 逐级累加。 (( 2 )编制累计频数分布表 【【例 3.2 】在一项城市住房问题的研究中,研究人员在甲乙 两个城市各抽样调查 300 户,其中的一个问题是: “ 您对您家庭 目前的住房状况是否满意? 非非常不满意; 2 .不满意; 3 .一般; 4 .满意; 5 .非常满 意
甲城市家庭对住房状况评价的频数分布
2 、定类数据的图示 — 环形图 环环形图中间有一个 “ 空洞 ” ,总体中的每一部分数据 用环中的一段表示 环环形图与圆形图的区别: ①①、圆形图只能显示一个总体中各部分所占的比例 ②②、环形图则可以同时绘制多个总体的数据系列, 每一个总体的数据系列为一个环 ③③、环形图可用于进行比较研究 ④④、环形图可用于展示定类和定序的数据
甲乙两城市住房状况评价 图 3-4 甲乙两城市家庭对住房状况的评价 8% 36% 31% 15% 7% 33% 26% 21% 13% 10%
第三节、数值型数据的整理与显示 11 、分组方法: (( 1 )单变量值分组 ①、适合于离散变量; ②、适合于变量值较少的情况。 (( 2 )组距分组(等距分组和异距分组) ①、将变量值的一个区间作为一组; ②、适合于连续变量; ③、适合于变量值较多的情况; ④、必须遵循 “ 不重不漏 ” 的原则; ⑤、可采用等距分组,也可采用不等距分组 。
等距分组与异距分组 等等距分组:标志值在各组保持相等的组距,即各组 的标志值变动都限于相同的范围。一般用于标志值 变动比较均匀的场合。 异异距分组:各组的组距不相等。
单变量值分组 —— 以某一变量值分组(单项数列) 。 适用于取值不多的离散型变量。 例例:某企业职工家庭人口分组调查表
简单分组和复合分组 按按分组标志的多少,可分为简单分组和复合分组。 简简单分组:就是对研究现象按一个标志进行分组。 复复合分组:用两个或两个以上标志分组,即先按一 个标志分组,在此基础上再按第二个标志分小组, 又再层叠地按第三个标志分成更小的组,这称为复 合分组。 ( 多个变量值)
例: 2002 年 1 月比特啤酒公司 6 6 0 个销售点的啤酒销售量 ( 单位:桶 )
比特公司啤酒销售量的分组调查 分组调查整理后, 将杂乱无章的 60 个原始数据 压缩到 8 组,清晰地反映了更多的有用信息。
比 特公司啤酒销售量的分布特征 图 1.1 比特公司啤酒销售量的频数分布
我国电视观众调查
按品质标志分组的频数分布表 例例:某企业职工人数调查表
异距分组 ——— 每组包含某一区间内的变量值。 适适用于连续型变量和取值很多的离散型变量。 组组距数列是最重要的频数分布表。 例:某企业职工工资的分组调查
组距数列中的几个基本概念 ①①、下限:一个组的最小值 ②②、上限:一个组的最大值 ③③、组距:上限与下限之差 ④④、组中值:下限与上限之间的中点值 组组中值 = (上限值 + 下限值) /2 下下限开口组组中值 = 上限值 - 邻组组中值 /2 上上限开口组组中值 = 下限值 + 邻组组中值 /2
组距数列中的几个基本概念 在在编制组距数列时,需要解决如何分组、分组 数量、组距、组限等问题。 重重叠组限 —— 相邻组的上下限重合。 适适用于连续型变量。但各组上、下限中有一个 不包含再内。通常按 “ 上限不在内 ” 处理,即组区 间是 [ a, b ) 的形式。 l不l不重叠组限 —— 相邻组的上下限不重合。 l适l适用于离散型变量。
离散型变量的分组(不重叠组限) 比特公司啤酒销售量的分组调查
连续型变量的分组 ( 重叠组限: 上限不在内 ) 某企业职工工资的分组调查
例: 按雇工人数分组的私营企业规模调查
有有些现象中各类型的数值差异很大,其标志值呈几 何级数变化,则组距就应按几何级数确定。 例例:某市零售商店年营业额分组调查
分组数量和组距的确定 分分组的数量和组距应根据对象的特点和分析的需要决定。 第第一,确定组数。斯特格斯 (Sturges) 经验公式: k= lgN 第第二,确定组距。组距 = (最大值 - 最小值) / 组数 第第三,确定组限。 一一个组的最小值叫下限 一一个组的最大值叫上限 分分组过多则难以反映总体的数量分布特征; 分分组过少则会丢失许多重要的调查信息。
(3) 使用 SPSS 制作频数分布表 利利用 Analyze==>Descriptive Statistics==> FREQUENCY 功功能:返回各组的频数。
调调查图可以形象、直观、生动、简洁地显示数据的 特征。 常常用的调查图有以下几种: l1l1. 折线图 l—l—— 通常用来描述时间序列数据,用以表示某些指 标的变化趋势。 l制l制作折线图时应正确选择坐标轴轴的刻度。对同样 的调查资料,延伸或压缩某一坐标轴可能传达不同 的甚至是误导的印象。 调查图
图 1.2 失业人数调查图 过分压缩了 Y 轴
图 1.3 失业人数调查图 过分压缩了 X 轴
图 1.4 各类进口商品的变化情况 柱形图示例
圆饼图 ——— 用来表示总体各部分在总体中所占的结构比率。 已婚 孤寡或离婚 单身 已婚 孤寡或离婚 单身 图 1.6 某企业员工的婚姻状况
经济管理中几种常见的频数分布曲线 l①l①正态分布曲线 l—l—— 这是客观事物数量特征上表现得最为普遍的一 类频数分布曲线。 l如l如人的身高、体重、智商,钢的含碳量、抗拉强度, 某种农作物的产量等等。 图 1.7 正态分布曲线
偏态曲线 图 1.8 偏态曲线 右偏(正偏) 左偏(负偏) 例如收入和财富的频数分配曲线就是右偏的,大量财富都 集中在极少数富豪手中,而多数人则是低收入者。 此外,在产品质量管理中也普遍存在这种现象,如多数次 品都集中出在少数工人手中;次品也大都出在少数几道工序 上。这就要求在管理和控制上需要突出重点、抓住关键因素。 —— 按其长尾拖向哪一方又可分为右偏 ( 正偏 ) 和 左偏 ( 负偏 ) 两类。
J 形曲线 其其典型的应用分别是经济学中的供给曲线和需求曲线。 供供给曲线 ( 正 J 形 ) 表现为随着价格的增加,供给量以 更快的速度增加; 需需求曲线 ( 倒 J 形 ) 表现为随着价格的增加,需求量以 更快的速度减少。 供供给和需求曲线的交点即供求平衡点。 正 J 形 倒 J 形 图 1.9 J 形曲线
U 形曲线 人人和动物的的死亡率、设备的故障率等通常都服 从于 U 形曲线分布。 图 1.10 U 形曲线 —— 又称生命曲线或浴盆曲线
习题 1. 调查数据分为哪几种类型?各有何特点? 2. 简述调查数据的分组的方法。
内容 定类数据的整理与显示 1 定序数据的整理与显示 2 定量数据的整理与显示 3