第二章 统计数据的搜集、整理与显示 第一节 统计数据的搜集 第二节 统计数据的整理 第三节 统计数据的显示 第二章 统计数据的搜集、整理与显示 第一节 统计数据的搜集 第二节 统计数据的整理 第三节 统计数据的显示 第四节 Excel在统计整理与统计 图表中的应用
第一节 统计数据的搜集 一 统计数据的搜集方法 二 统计调查方式 三 统计调查体系 四 统计调查方案设计 五 二手资料的主要来源渠道
一、统计数据的搜集方法 统计数据收集是根据统计研究预定的目的和任务,运用相应的科学的调查方法与手段,有计划、有组织地收集反映客观现实的统计资料的过程。统计数据的收集处于统计工作过程的基础阶段。 常用的直接收集原始统计数据的具体方法有: (1)直接观察法。它是指由调查人员到现场直接对调查对象进行观察点数和计量。 (2)报告法(通讯法)。报告法一般是由统计工作机构将调查表格分发或电传给被调查者,被调查者则根据填报的要求将填好的调查表格寄回。
上述方法各有特点,应根据调查目的与被调查对象,选择合适的方法。 (3)采访法。采访法是根据被调查者的答复来收集统计资料,这种方法又可分为口头询问法和被调查者自填法两种。口头询问法是由调查人员对被调查者逐一采访,当面填答。被调查者自填法,即调查人员把调查表交给被调查者,由被调查者按实际情况填写,而后交调查人员审核收回。 (4)登记法。登记法是由有关的组织机构发出通告,规定当事人在某事发生后到该机构进行登记,填写所需登记的材料。 上述方法各有特点,应根据调查目的与被调查对象,选择合适的方法。
二、统计调查方式 所谓调查方式是指组织收集调查数据的形式与方法。 调查方式按调查的范围划分,可分为全面调查和非全面调查两大类。全面调查是对调查对象的所有单位一一进行调查。非全面调查是对调查对象其中的一部分单位进行调查,以取得调查对象的一部分资料,用来推断总体或反映总体的基本情况。 统计调查按时间标志可分为连续性(经常性)调查和不连续性(一次性)调查。连续性(经常性)调查是指随着研究现象的变化,连续不断地进行调查登记。不连续性(一次性)调查是指间隔一段较长的时间对事物的变化进行一次性调查。
常用的统计调查方式有: 普查 抽样调查 重点调查 统计报表制度
(一)普查 普查:是专门组织的一种全面调查,它主要是用以搜集某些不能或不宜用定期报表搜集的统计资料。对国情国力的调查一般采用普查。 普查的特点: 是一种非经常性的全面调查; 比任何一种调查形式更能掌握大量、详细、全面的统计资料。
(二)抽样调查 抽样调查:是一种非全面调查,抽样调查可以分为概率抽样和非概率抽样。概率抽样是按随机原则从调查对象中抽取一部分单位作为样本进行观察,然后根据样本数据去推算调查对象的总体特征。 概率抽样的特点: 样本单位按随机原则抽取,排除了主观因素对选样的影响。 根据部分调查的实际资料对调查对象总体的数量特征作出估计。 抽样误差可以事先计算并加以控制。 抽样调查的适用场合: 不可能或不必要进行全面调查的社会现象,采用抽样调查; 对普查资料进行必要的修正。
(三)重点调查 重点调查:在调查对象中,只选择一部分重点单位进行的非全面调查。 重点单位:它们在所研究现象的标志总量中却占有绝大的比重,在总体中具有举足轻重的作用。对这些单位进行调查,能够从数量上反映整个总体在该标志总量方面的基本情况。 特点: 可以了解较详细的情况,但无法对现象总体的数量特征作出准确的推算,也无法测算调查误差。 适用场合 : 当调查任务只要求掌握基本情况,而部分单位又能比较集中地反映研究的项目,宜采用重点调查。
(四)定期报表制度 定期报表制度:依照国家有关法规,自上而下地统一布置,以一定的原始记录为依据,按照统一的表式,统一的指标项目,统一的报送时间和报送程序,自下而上地逐级地定期提供统计资料的一种调查方式。 统计报表的主要特点: 报表资料的来源是建立在各个基层单位的原始记录的基础上; 由于统计报表是逐级上报和汇总的,各级领导部门能获得管辖范围内的报表资料; 是一种经常性的(连续性)调查,调查项目相对稳定,有利于积累资料,并进行动态对比分析。
三、统计调查体系 统计调查体系:一个国家开展统计调查方法和制度的总称。 我国现行的统计调查体系:建立以必要的周期性的普查为基础,经常性的抽样调查为主体,同时辅之以重点调查、科学推算和部分全面报表综合运用的统计调查方法体系。
四、统计调查方案的设计 (一)明确调查目的 (二)确定调查对象和调查单位 (三)设计调查项目 (四)设计调查表格和问卷 调查对象,是指需要调查的现象总体。 调查单位,是指所要调查的具体单位。 报告单位亦称填报单位,它是负责向上报告调查内容、提交统计资料的单位。报告单位一般是在行政上、经济上具有一定独立性的单位。 (三)设计调查项目 (四)设计调查表格和问卷
(五)确定调查时间 (六)组织实施调查计划 (七)调查报告的撰写 调查时间是指调查资料所属的时间,在统计调查中,如果所调查的是时期现象,就要明确规定调查资料所反映的起止日期。如果所要调查的是时点现象,调查时间就是规定的统一标准时点。 调查期限是进行调查工作的时限,包括搜集资料和报送资料的工作所需的时间。 (六)组织实施调查计划 (七)调查报告的撰写
五、二手资料的主要来源渠道 对于应用统计的研究人员来说,相当一部分统计数据不必亲自进行统计调查,可取自有关统计部门和机构发布的统计资料。这方面的资料,可通过三个途径获得: 从相关的年鉴、期刊和有关出版物上获取; 从有关网站搜寻; 向有关公司购买各种数据库。
第二节 统计数据的整理 一 数据整理概述 二 统计分组 三 频数分布 四 累计频数与累计频率
一、数据整理概述 数据整理有两种含义:第一种是对统计调查所收集到的各种数据进行分类和汇总,称为汇总性整理。第二种是对现成的综合统计资料进行整理。本节所说的数据整理,指的是第一种整理。 (一)统计数据整理的内容 根据研究目的设计整理汇总方案。统计汇总方案的设计包括两方面:一是确定总体的处理方法,主要是如何对所要研究的总体进行统计分组;二是确定汇总哪些统计指标。 汇总方案确定之后,可根据汇总方案,进行数据处理,计算各项指标数值。并利用统计表或统计图的形式,描述整理的结果,显示研究对象总体的数量特征。
(二)数据整理的程序 1.原始统计资料的审核。 2.资料的分组和汇总。 3.编制统计表或绘制统计图。 4.统计数据资料的积累、保管和公布。
二、统计分组 (一)统计分组的概念与种类 1.统计分组的概念 2.统计分组的种类 根据统计研究的目的和客观现象的内在特点,按某个标志(或几个标志)把被研究的总体划分为若干个不同性质的组,称为统计分组。 统计分组标志:品质标志或数量标志 兼有分和合双重含义,对于现象总体,是“分”,对于单位,是“合”。 2.统计分组的种类 按分组标志的多少,分为简单分组和复合分组 按分组的标志的性质不同,分为品质分组(或称属 性分组)和数量分组(或称变量分组)。
(二)统计分组的原则与方法 1. 统计分组的原则: 2. 品质分组的方法 穷尽原则:使总体中的每一个单位都应有组可归,或者说各分组的空间足以容纳总体所有的单位。 互斥原则:就是在特定的分组标志下,总体中的任何一个单位的只能归属于某一组,而不能同时或可能归属于几个组。 2. 品质分组的方法 有些品质分组比较简单,分组标志一经确定,组的名称和组数也随之确定。例如,人口按性别分为男女两组。 有些品质分组还取决于统计分析对分组层次的不同要求。例如,我国把社会经济各部门划分为第一、第二和第三产业,第一产业还可细分,对于这种类别繁多的分组又称为分类。标准统计分类的制定是国家统计部门的一项重要工作。
3. 数量分组的方法 按数量标志分组,应注意如下两个问题:首先,分组时各组数量界限的确定必须能反映事物质的差别。其次,应根据被研究的现象总体的数量特征,采用适当的分组形式,确定相宜的组距、组限。 (1)单项式分组与组距式分组 (2)间断组距式分组和连续组距式分组 “上限在不内”原则:凡是总体某一个单位的变量值是相邻两组的界限值,这一个单位归入作为下限值的那一组内。 (3)等距分组与异距分组
(4)组距式分组相关指标的计算 组距 组数 组中值=(上限+下限)/2 开口组的组距与组中值 连续组距分组的组距=本组上限–本组下限 间断式组距且等距分组的条件下: 组距=本组上限–前组上限 或=本组下限–前组下限 或=本组上限–本组下限+1 组数 组中值=(上限+下限)/2 开口组的组距与组中值
三、频数分布 (一)频数分布的基本概念 1. 频数分布的定义 2. 分布数列的两个要素 总体按某标志所分的组,若总体按数量标志分组,分组标志在各组有不同的数量表现,形成标志值数列,亦称变量,一般用 x 表示; 各组所出现的单位数,即频数,亦称次数,用 f 表示。
3. 频率 将各标志出现的频数与总体单位总和相除可以得到频率。 频率的性质 4. 频数密度与频率密度: 频数密度=频数/组距 频率密度=频率/组距 fi :第 i 组频数
(二)变量数列的编制方法 下面以一实例说明变量数列的编制。 【例2-1】现有某地区50个乡镇的年财政总收入(单位:万元)资料,对上述资料采用等距分组,分为8组,组距为100,以800为第一组下限。 【解】操作方法参见第四节例2-5。
四、累计频数与累计频率 为了更清楚地反映数据分布的特点,实践中常常还需要计算累计频数(或频率)。 编制向上累计频数(或频率)分布的方法是:先列出各组的上限,然后由标志值低的组向标志值高的组依次累计。向上累计频数表明某组上限以下的各组单位数之和是多少,向上累计频率表明某组上限以下的各组单位数之和占总体单位数的比重。 向下累计频数(或频率)分布的方法是:先列出各组的下限,然后由标志值高的组向标志值低的组依次累计。向下累计频数表明某组下限以上的各组单位数之和是多少,向下累计频率表明某组下限以上的各组单位数之和占总体单位数的比重。
【例2-2】以例2-1的资料,分别进行向上累计和向下累计。 【解】具体的计算过程和结果见表2-3。 表2-3 50个乡镇的年财政总收入累计表 表2-3 50个乡镇的年财政总收入累计表 向上累计 向下累计 财政总收入分组上限 频数(个) 累计 频率 (%) 财政总收入分组下限 900 5 10 800 50 100 1000 1 6 2 12 45 90 1100 8 14 16 28 44 88 1200 11 25 22 36 72 1300 1400 7 43 86 1500 4 47 94 1600 49 98 3 1700 合计 —
第三节 统计数据的显示 一 统计表 二 统计图 三 频(次)数分布图的类型
一、统计表 (一)统计表的定义和结构 1. 统计表的定义 2. 统计表的结构 (例) (返回) 从表式上看,表格包括总标题、横行标题、纵栏标题和指标数值四个部分。 从内容上看,统计表由主词栏和宾词栏两个部分组成。 (例) (返回)
(二)统计表的分类 (三)统计表的设计 1. 按主词的结构分类,根据主词是否分组和分组的程度,分为简单表、分组表和复合表。 2. 按宾词设计分类,可分为宾词简单排列、分组平行排列和分组层叠排列等三种。 (三)统计表的设计 (1)线条的绘制 (2)合计拦 (3)标题 (4)指标数值 (5)计量单位 (6)注释或资料来源
二、统计图 (一)直方图
(二)折线图
(三)曲线图
(四)累计曲线图 向上累计图: 70分以下有22.5% 向下累计图: 90分以上有20%
洛伦茨曲线图 基尼系数=A/(A+B) 基尼系数,用以衡量收入分配的平等与否。 A B
三、频(次)数分布图的类型 (一)钟型分布 (Ⅰ) (Ⅱ) (Ⅲ) 钟型分布示意图
(二)U型分布 50 40 30 20 10 死 亡 率 (‰) 年龄 10 20 30 40 50 60 70 80 U型分布示意图
(三)J型分布 正J型图 反J型图 J型分布示意图
第四节 Excel在统计整理与统计图表 中的应用 一 编制分布数列 二 绘制统计图
一、编制分布数列 在Excel中有两类方法可以实现分布数列的编制:第一,使用相关的函数,如Countif函数、Dcount数据库函数或Frequency函数;第二,应用[直方图]分析工具。[直方图]分析工具还可以进行向上累计,并能直接绘出直方图。 需要注意的是,[直方图]分析工具与Frequency函数在编制分布数列时,并不符合统计分组的“上限不在内”原则,在实际应用时必须进行调整。
例2-5 用Excel实现本章例2-1和例2-2的计算过程。 解:使用Frequency函数编制,步骤如下: (1)输入数据。如图2-9所示,A、B、C列为原始输入数据(除最后一组上限用函数求得外),其他列为计算所得数据。年财政总收入放在A2:A51单元格区域,图中未完全显示出来。 B列的各个数据(各组的上限值)是使用Frequency函数或[直方图]分析工具编制分布数列所必需的数据。 Excel文件
(2)选定D2:D9,输入公式“=FREQUENCY(A2:A51,B2:B9)”,然后按按CRTL+SHIFT+ENTER组合键,即可计算出各组的频数。该函数的第一个参数指定用于编制分布数列的原始数据,第二个参数指定每一组的上限。在D10中输入公式“=SUM(D2:D9)”计算出频数的合计。 “1500以上”这一组的上限可以使用原始数据(财政收入)的最大值,它可通过函数求得,在B9中输入公式“=MAX(A2:A51)”即可。 (3)计算频率。在E2中输入公式“=D2/D$10*100”,然后将该公式复制到E3:E9即可。D10存放的是频数的合计数,乘以100是因为其单位是“%”。
(4)计算向上累计频数。在F2单元格中输入“=D2”,在E3单元格中输入公式“=D3+F2”,再将公式复制到F4:F9。 (5)计算向下累计频数。在G9中输入公式“=D9”,在G8单元格输入公式“=G9+D8”,再将公式复制到G2:G7单元格区域即可。可以采用向上填充的方法复制公式,即选定G2:G8单元格区域,然后点击菜单[编辑][填充][向上填充]。
二、绘制统计图 Excel有着强大的绘图功能,可以绘制出各种各样的统计图形,如直方图、折线图、曲线图、饼图、散点图、雷达图等等。需要注意的是,Excel中的图表类型与统计中的图表类型并不完全一样,如Excel中的“散点图”既包括了统计上的散点图,又包括了统计上的曲线图。 生成图表有两种方法,一种是在某些分析工具中有输出某些图表的选项,如[直方图]分析工具可以输出直方图;另一种是使用菜单插入图表,这也是最常用的方法。
例2-6 使用例2-5编制的分布数列,分别绘制年财政总收入的直方图、折线图、曲线图。 解:(一)绘制直方图。主要操作步骤如下: 1. 直方图所需数据在C1:E9区域(参见图2-9) ,选定该区域。 2. 点击菜单[插入] [柱形图] , 在弹出的菜单中选择二维柱形图中的“簇状柱形图”即可生成如图2-10 所示的图表。 3. 对生成的图形进行修改,使其更符合统计上的表示形式 ,最终结果见图2-12。 Excel文件
(二)绘制折线图与曲线图。 折线图和曲线图可以在上述直方图的基础上完成,这里向读者介绍直接绘制折线图和曲线图的方法。主要的操作步骤如下: 1. 重新安排数据。为了获得更好的效果,使用描点法绘图,因此需要组中值数据,用于绘图的数据存放在图2-13中的B、C、D列。为了使折线图或曲线图与X轴相交,我们使用了两个虚拟的组中值,分别安排中原有分组的两侧,对应的频数及频率均为0。
2. 选定B2:D11单元格区域。 3. 选择图表类型。对于折线图,点击[插入][散点图] [带直线的散点图] , 而对于曲线图, 则点击[插入] [图表] [散点图] [带平滑线的散点图] 。 4. 点击后即得到相应的图形(仅以曲线图为例),见图2-14,其中上面那条线是频率曲线图。 5. 按照前面介绍的方法生成次坐标轴,并进行适当的修改。最终结果见图2-15。