Presentation is loading. Please wait.

Presentation is loading. Please wait.

统计基础知识 编 者 娄庆松.

Similar presentations


Presentation on theme: "统计基础知识 编 者 娄庆松."— Presentation transcript:

1 统计基础知识 编 者 娄庆松

2 目 录 第一章 概 述 第一节 统计的涵义和特点 第二节 统计学中的几个基本概念

3 第二章 数据的采集与整理 第一节 统计数据的采集 第二节 统计数据的整理 第三节 统计数据的显示

4 第三章 总体变量分布特征描述 第一节 统计绝对数 第二节 变量分布集中趋势描述 第三节 变量分布离中趋势描述

5 第四章 抽样技术概述 第一节 抽样技术概念 第二节 抽样调查和抽样误差 第三节 参数估计

6 第五章 统计对比与因素分析 第一节 统计相对数 第二节 统计指数的概念和种类 第三节 综合法总指数的编制 第四节 指数体系及其因素分析
第五章 统计对比与因素分析 第一节 统计相对数 第二节 统计指数的概念和种类 第三节 综合法总指数的编制 第四节 指数体系及其因素分析 第五节 平均法总指数的编制

7 第六章 时间数列分析 第一节 时间数列的概念和种类 第二节 时间数列的水平指标 第三节 时间数列的速度分析 第四节 长期趋势和季节变动

8 第七章 相关与回归分析 第一节 相关分析 第二节 回归分析

9 一、统计与统计学的涵义,统计学的研究对象及性质。
第一章 概 述 学习要点 本章是全书的总领,重点应掌握以下几点: 一、统计与统计学的涵义,统计学的研究对象及性质。 二、社会经济统计学的研究方法及特点。 三、统计学中的几个基本概念。

10 第一节 统计的涵义和特点 一、统计与统计学 (一)统计 统计是一门研究数据的艺术,取调查或试验的数值称为统计数据。
第一节 统计的涵义和特点 一、统计与统计学 统计是一门研究数据的艺术,取调查或试验的数值称为统计数据。 (一)统计 统计的涵义:人们正确运用统计理论和方法,采集数据、整理数据、分析数据和由数据得出结论的实际操作活动过程。是人们从数据方面对客观世界的一种认识活动过程和结果。因此,统计活动的中心问题就是要获取数据和得出结论,来向人们提供信息。统计信息是统计数据加工的结果。 例如,学习委员在期末考试后,都要统计全班考试人数、各科总成绩、平均分、及格率、优秀率等,这些数字就是来自调查的统计数据。

11 (二)统计学 统计学是一门阐明如何去采集、整理、显示、描述、分析数据和由数据得出结论的一系列概念、原理、原则、方法和技巧的方法论科学。它是一门独立的、实用性很强的通用方法论科学。它源于实践、升华实践、指导实践,从而使统计实践活动更科学、严谨、标准和规范。 二、统计学的研究对象和特点 统计学的研究对象是统计研究所要研究的客体,它决定着统计学的研究领域和研究方法。一般地说,统计学的研究对象是客观事物的数量特征和数量关系。人们要认识客观事物,就必须通过调查或试验来采集有关数据,并加以整理、归纳和分析,对客观事物规律性的数量表现作出统计上的解释。 由于统计定量研究具有客观、精确和可检验的特点,所以统计方法就成为实证研究的最重要方法。它广泛应用于自然、社会、经济、科学技术等领域的统计研究。

12 例如,政府要治理国家、作出决策、执行计划、检查监督、宏观调控等都需要精确可靠的统计资料为基础;企业要开发产品、市场销售、生产管理、质量控制、资金运用、投资评估等都需要统计资料和统计方法的支持;药剂师应用统计方法进行新医药疗效的显著性检验;工程技术人员应用统计方法测定新工艺、新材料的创新成果;天文学家以统计方法为基础预测星体未来的位置;生物学应用统计方法安排转基因作物田间实验;生命学家用统计方法研究基因工程等等。 虽然所研究的问题属于不同领域,存在千差万别,但所根据的统计理论和方法是相通的。因此,统计学的研究具有以下特点: (一)数量性 人们说“统计的语言是数据”指的就是统计的数量性。而统计数据来源于调查或试验,因此统计数据是客观存在的、具体的、有时空条件的量。

13 客观现象是不断发展变化的,构成总体的个体是互有差异的,这种差异统计称作变异。它有时间上的变异和空间上的变异,有变异才有必要去统计。
(二)总体性 统计学是以客观现象总体的数量方面作为研究对象,就是说统计的数量研究是对总体中各单位普遍存在的数量事实进行大量观察与综合分析,得出反映总体的数量特征。 例如,政府进行决策,就需要进行城镇居民家庭收支调查,目的不在于了解个别居民家庭,而是要反映一个城市、一个社区、一个部门的居民收入水平、收入分配、消费水平、消费结构等等。客观事物的个别现象常常有其特殊性、偶然性,而总体现象则具有相对的普遍性、稳定性、规律性,有助于得到正确的认识。 (三)变异性 客观现象是不断发展变化的,构成总体的个体是互有差异的,这种差异统计称作变异。它有时间上的变异和空间上的变异,有变异才有必要去统计。 例如,一个商店的销售额在时间上每日数额有差异,每个柜台组之间数额有差异。因此,每日每组都要统计销售额。

14 三、社会经济统计工作过程和职能 (一)统计工作过程 一般可分为,统计设计、数据采集、数据整理、数据分析、数据提供和管理。 (二)统计的职能
统计具有,信息、咨询和监督三大职能。 (三)信息系统 系统,是由一些相互联系、相互作用的若干要素,为实现某一目标而组成的具有一定功能的有机整体。把信息与系统结合起来就组成了信息系统。 信息系统,是指把各种硬件与软件技术,并融合了各种相关理论和管理方法,以信息为处理对象,来进行信息的采集、生成、存储、传输的,人—机相结合的系统。

15 四、社会经济统计研究的基本方法 统计研究着眼于总体的数量特征,所用的基本方法都与总体数量性有关,这些基本方法是: (一)大量观察法 统计所研究的社会经济现象都是已经发生了的事件,并且无法重复实验,因为社会经济现象本质上是反映人与人之间的关系,它客观地存在于现实生活中,要研究这种关系就不能用实验的方法,而必须到社会经济的现实中去做调查、观测,即采用大量观察的方法对总体中的全部或足够多的个体进行调查、观测,来进行综合研究。 因此,大量观察法是指统计研究客观事物的现状及其发展变化过程,要从总体的全部或足够多的个体进行观察和综合分析的一种统计研究基本方法。 例如,普查、抽样调查、统计报表调查等等都是大量观察法的具体应用。

16 (二)统计分组法 它是根据统计研究的任务和被研究总体内在特点,按照所确定的分类或分组标准,将被研究总体区分为性质不同的类别或组的一种统计研究基本方法。 例如,国民经济分为一产、二产、三产业;按行业分为工业、农业、建筑业等;按核算方法分为货物与服务等等。 一个统计总体是同质性、大量性与差异性的对立统一体,统计分组就是对这三种性质的综合分析。 (三)综合指标法 综合指标是指,统计绝对数、统计相对数和统计平均数。综合指标法是指将这三种指标有机的结合起来对总体的数量特征与数量关系进行全面分析的统计基本方法。 例如,某班学生人数40人,统计期末考试总成绩 3200分,这是统计绝对数;平均成绩80分,这是统计平均数;及格率96%,优秀率25%,这是统计相对数。他们综合说明该班统计科的学习情况。

17 (四)统计模型法 它是根据一定的理论和假定条件,应用数学方程式去模拟现实经济现象相互关系的一种统计研究基本方法。在第六章与第七章中具体介绍。 (五)统计推断法 从个别到一般,从事实到理论,进行概括的推理方法,逻辑上称为归纳法。常常存在这种情况;人们所能观察到的只是部分或有限的单位,而所需要判断的总体范围却是大量的,甚至是无限的。这就产生了根据部分数据资料对总体数量特征作出判断的问题。以一定的置信标准要求,根据部分数据判断总体数量特征与数量关系的归纳推断方法称为统计推断法。将在第四章中具体介绍。 本节小结 1.统计是指实践活动过程,统计学是指活动过程的理论指导。 2.统计的特点:数量性、总体性、变异性。 3.社会经济统计的基本方法:大量观察法、统计分组法、综合指标法、统计模型法、统计推断法。

18 第二节 统计学中的几个基本概念 统计是从总体上来研究大量客观现象的数量特征与数量关系。就是说,统计是从对个体单位的观察人手最终得到反映总体数量特征与数量关系的统计资料。因而,在这个活动过程中产生了一系列的统计专业术语:统计总体、总体单位、标志、指标体系等等。这些专业术语是统计学中最基本的概念,也是统计研究对象的具体量化。要求大家深入理解和熟练掌握。 一、统计总体与总体单位 (一)统计总体与总体单位的概念 统计总体就是根据一定目的确定的所要研究现象的全体。它是由客观存在的、具有某种共同性质的、许多个体所构成的整体。构成总体的个体称为总体单位。 统计总体与总体单位,可以是人,可以是事物,也可以是事件或现象等。

19 (二)统计总体的特点 构成一个统计总体,必须同时具备以下三个特点: 1.同质性 构成总体的各个单位,必须在某些点是具有共性。 2.大量性 构成总体的个体数目要足够多,足够多是根据研究目的决定的。 3.差异性 构成总体的个体,既有共性又有个性,个性是指各单位之间的差异,这些差异有属性上的差异与数量上的差异。 二、统计标志与统计指标 表明总体单位身上特征的名称称为统计标志;表明总体身上特征的名称称为统计指标。

20 是指在标志名称的后面所列示出来的属性或数量。
(一)统计标志 1.标志的概念 标志是表明总体单位属性或数量的名称。 2.标志的种类 3.标志的表现 是指在标志名称的后面所列示出来的属性或数量。 例如,“民族”是品质标志名称,汉、回、蒙、藏、…,为品质标志的表现;“年龄”是数量标志名称,16岁、17岁、18岁、…,为数量标志的表现。 (二)统计指标 1.指标的概念 表明总体综合数量特征与数量关系的数字资料称为指标。

21 例如,某班某期末学生40名,期末平均成绩80分,优秀率30%,及格率98%。它包括;时间限制、空间范围、指标名称、计算方法、计量单位、具体数值六个要素。
2.指标的种类 三、统计指标体系 若干个相互联系的统计指标构成一个整体系统称为统计指标体系。 它有两种形式: 1.各指间的关系可以用算术式表达。 如: 销售额 = 销售价格 × 销售量 ; 总产值 = 生产价格 × 产量 ; 总成本 = 单位成本 × 产量

22 四、标志与指标的区别和联系 (一)区别 (二)联系
2.各指标间关系无法用算术式表达,只能用相互关联、相互补充关系表示。如,国民经济指标体系是由货物与服务众多指标构成,企业经济指标体系是由多项相关指标构成。 四、标志与指标的区别和联系 (一)区别 (二)联系

23 五、变异与变量 (一)变异 标志在各单位身上的具体表现互有差别;指标在不同时空上数值的差异,统计上称为变异。 (二)变量 数量标志或统计指标的不同取值,统计上称为变量。也就是说标志或指标会出现不同值,包括时间上或空间上不同的值。因此,数量标志和统计指标的名称称为变量,其具体取值称为变量值。 (三)变量的种类 连续变量:可以用小数表示的变量 离散变量:只能用整数表示的变量

24 六、统计数据的量化尺度 在统计研究中,量化通常是指概念的操作化或概念的运算化。统计数据是对客观现象进行计量的结果,即它是取自调查或试验的值。因此,统计数据按照量化尺度的不同通常可分为: (一)测量值数据,用测量的方法得到的数据 (二)计数值数据,用清点方法获得的数据 (三)排序数据,用排列顺序方法得到的数据 (四)分类数据,用划分类别方法得到的数据

25 七、本节小结 (一)总体与指标的关系 : (二)总体单位与标志之间的关系 : (三)统计总体、总体单位、统计指标、统计标志四者的关系:

26 (四)统计指标的分类:

27 (五)统计标志的分类:

28 第二章 数据的采集与整理 学习要点 本章是实物操作的第一阶段,应掌握以下几点: 一、数据的直接来源包括:统计调查和科学试验。
第二章 数据的采集与整理 学习要点 本章是实物操作的第一阶段,应掌握以下几点: 一、数据的直接来源包括:统计调查和科学试验。 二、统计分组与汇总,编制变量分布数列。 三、统计数据的显示。

29 第一节 统计数据的采集 一、统计数据的直接来源 (一)统计调查 统计调查的组织形式入图2-2所示: 图2-1简明扼要地展示了数据的来源
第一节 统计数据的采集 图2-1简明扼要地展示了数据的来源 图 数据来源 一、统计数据的直接来源 (一)统计调查 统计调查的组织形式入图2-2所示:

30 全面统计报表 调查 全面调查 普 查 范围 抽样调查 统 非全面调查 重点调查 计 典型调查 调 调查 连续(经常性)调查
调查 全面调查 普 查 范围 抽样调查 统 非全面调查 重点调查 计 典型调查 调 调查 连续(经常性)调查 查 时间 不连续调查 周期性调查 形 一次性调查 式 定期报表 普 查 组织 抽样调查 形式 专门调查 重点调查 典型调查 图 2-2

31 1.统计报表制度 它是依照国家有关法规,自上而下统一布置,以一定的原始记录为依据,按照统一表式、统一项目、统一报送时间和程序,自下而上定期提供统计资料的调查组织方式。 它的特点是: (1)资料来源于基层单位原始记录。 (2)逐级上报和汇总。 (3)多为经常性调查。 分为全面报表和非全面报表两种。 2.普查 为了解某种事物在一定时点上的状况,而专门组织的一次性全面调查。 其特点是: (1)它是间断性调查,如逢“0”年份人口普查,逢“3”年份三产普查,逢“5”年份工业普查,逢“7”年份农业普查等。主要用于采集一定时点上的全面数据。

32 (2)被调查单位依据原始记录和核算资料,结合清库盘点,自行填报调查表。如工业普查、三产普查、农业普查、统计单位普查和财产普查等等。
组织形式: (1)建立专门普查机构和普查人员,对普查单位逐一登记。如表2-1所示。 表2-1 人口普查表 本户 省市 县 乡 村 住址_自治区_市_街道_居委会_居民小组(街巷 号) 申报人__普查员__填报日期__户主姓名__ (2)被调查单位依据原始记录和核算资料,结合清库盘点,自行填报调查表。如工业普查、三产普查、农业普查、统计单位普查和财产普查等等。 姓名 与户主关系 性别 年龄 民族 常住人口户口登记状况 文化程度 行业 职业 不在业人口状况 婚姻状况 生育子女总数和存活子女总数 上年生育状况 1 2 3 4 5 6 7 8 9 10 11 12 13

33 3.抽样调查 从总体中抽取部分单位作为样本进行调查,根据所获得的样本数据估计总体相应数据,作出具有一定可靠程度的推断的统计方法。 它的特点是: (1)按随机原则抽取样本单位,排除了主观因素的影响。 (2)用样本数据推算总体相应数据。 (3)抽样误差可以事先计算并加以控制,具有一定置信度。 随机原则: 完全排除主观因素,每个单位机会均等,抽中与否全凭偶然。具体操作在第四章中详细介绍。

34 4.重点调查 它是对总体中重点单位进行调查,取得反映总体基本数据的调查方法。 重点单位:它是重点单位数占总体单位数比重小,他们的标志值之和占总体标志值总量的比重大,有举足轻重的作用。例如农作物产量调查、成交额调查、利税额调查等可颁发调查表进行调查。 5.典型调查 对调查对象进行分类划点的基础上,有意识挑选具有代表性的单位进行深入细致的调查。有好典型与坏典型之分。 (二)采集统计数据的具体操作方法 是指从调查单位上取得统计数据的具体做法。 1.直接观察法 调查人员深入现场进行观察、计数、登记、检验等,取得第一手资料。

35 2.报告法 被调查单位依据原始记录、核算资料、清查盘点,填报统计数据。 3.访问法 调查者通过口头、邮件、网络、报纸杂志等方式向被调查者采集数据。 4.问卷法 利用统一设计的答卷向被调查者采集统计资料。 (三)调查方案设计 统计调查方案一般包括以下内容: 1.调查目的 指在调查中需要解决哪些问题,采集什么资料。 2.调查对象与调查单位 调查对象是指根据调查目的所确定的调查总体;调查单位指在调查对象中所要调查的具体单位。

36 3.调查单位和调查表 调查提纲是指根据调查目的所列示出的调查项目,主要是标志、指标和指标体系。将调查项目按一定顺序排列在表格中形成调查表。 4.调查时间与期限 调查时间是指资料所属时间;调查期限是指完成调查工作所需时间。 5.组织实施计划 指调查工作的行动部署与具体活动安排。主要包括领导机构建立、调查步骤、参调单位与人员、人员培训与试点、汇总整理办法、资料报送、经费开支和预算等等。 (四)试验 对客观现象的科学观察和科学实验统称为试验。 1.对照实验 设计一个实验来测试某被调查对象的数据,是在一次真实的现场实验中逐步展开,在调查人员控制之下的活动过程,来获取统计数据。

37 2.观察研究 设计一个调研人员控制之外的实验过程,而调研者只是把观察所发生的情况记录下来。 3.促销实验 在一定条件下,在一定范围内,对某种新产品试销或赠送来摸清用户的反映。 4.改革实验 建立社会主义市场经济体制需要经验,经验不足,就需要通过建立实验区来获得有关数据,推动改革进程。 二、统计数据的间接来源 统计数据的间接来源是指利用他人调查或试验所得的数据,也称次级调查。一般是通过案头作业方式来完成。目前,实施次级调查较好的部门有:交易市场调查、金融市场调查、海关统计调查、财税管理调查、工商城管统计调查等。

38 具体渠道有: (一)查阅有关出版物 (二)向政府统计结构或调查公司咨询 (三)网上查询 本节小节 1.全面调查与非全面调查的区别:是以所包含的调查单位是总体的全部还是部分为依据,而不是以最后得到的是否为全面资料为依据。因为有的非全面调查其目的仍然是获取总体数据,如,抽样调查。 2.经常性调查和一次性调查的区别:是以调查数据的登记在时间上是否具有连续性为依据。经常性调查是指一段时期内的流量;一次性调查是指某时点上的存量。如表2-1所示。

39 全面调查或 非全面调查 连续调查或 不连续调查 观察、凭 证、询问 1.某市公共卫生设施调查 全面调查 直接观察
表 统计调查小结 全面调查或 非全面调查 连续调查或 不连续调查 观察、凭 证、询问 1.某市公共卫生设施调查 全面调查 直接观察 2.某厂技术人员居住条件调查 询问调查 3.某厂产量计划完成情况月报 连续调查 凭证调查 4.集贸市场成交价格调查 (每月25日登记) 5.某市居民对服务行业的意见 6.商店销售额核算 7.全国人口普查 8.商店商品盘点 9.产品质量破坏性检验

40 调查目的 调查单位 重点调查 典型调查 抽样调查
3.重点、典型、抽样调查的区别: 三者都是非全面调查,它们的区别如表2-2所示。 表2-2 调查方式 调查目的 调查单位 重点调查 了解被研究对象基本情况 不能推算总体相应数据。 它们的单位数比重小,但标 志值比重大。 典型调查 了解典型事物特征规律近 似推算总体无法估计误差 有意识选取具有代表性的典 型单位,有好、坏典型之分 抽样调查 用样本数据估计总体相应 数据误差可以计算和控制 按随机原则抽取样本单位, 有大样本与小样本之分

41 4.调查单位与报告单位的区别: 二者区别如表2-3所示。 调查对象 调查单位 报告单位 两者区别 科研机构调查 所有单位 每个单位 科研单位
一致 工业设备普查 所有设备 每个设备 工业企业 不一致 进出口质检 所有商品 每种商品 质检部门 项目投资调查 全部项目 每个项目 投资单位 居民收支调查 全部居民 每户居民 国企效益调查 所有国企 每个国企 食品价格调查 每种食品 每个商家

42 第二节 统计数据的整理 信息必然是数据,但数据未必是信息。信息是数据的一个子集,只有经过加工整理的数据才能成为信息。本节具体介绍统计数据的加工整理,使之生成统计信息的具体操作。 一、统计数据整理的意义和内容 (一)统计数据整理的意义 根据统计研究目的和任务,对统计调查或科学试验所获得的原始数据进行科学分类、汇总计算,或对次级资料进行再加工,使之生成系统化、条理化、标准化来反映总体数量特征与数量关系的操作过程。 通过统计调查或科学试验所获得的原始数据只能说明总体各单位的具体情况,不能反映总体综合特征。因此,必须通过科学整理才能成为统计信息。

43 (二)统计数据整理的内容与步骤 1.设计整理方案 主要明确规定出统计分组的方法和要汇总的统计指标与指标体系。 2.数据审查 主要审核原始资料的准确性和完整性。 3.数据分组 根据统计研究的要求,按照选定的分组标志,将审核后的原始数据进行分类或分组。 4.数据汇总与计算 对分组后的数据进行汇总与计算的方法主要有手工汇总和计算机汇总。 (1)手工汇总 用算盘或电子计算器作为工具进行汇总计算。主要方法有划记法、过录法、折叠法和卡片法等。

44 这里主要介绍划记法或过录法。 ①划记法:在事先设计好的汇总表上用点、线或划“正”字的方法进行分组汇总计算并将结果填入正式统计表中。 ②过录法:把调查表中资料一一过录到事先设计好的表格中然后进行汇总计算。 (2)电脑汇总 电脑汇总大体分为六个步骤: ①编程②编码③录入④检查⑤制表打印⑥数据存储。可采用SAS软件。 5.编制统计表、绘制统计图。 二、统计分组 (一)统计分组的概念 根据统计研究的要求,按照选定的分组标志,将审核后的原始数据进行分组或分类。 统计分组应遵循“相同者合并,不同者分开”的原则,将相同性质的个体划在同一组内,不同性质的个体划入不同组内,组与组之间的性质是不同的。

45 3.对总体而言是“分”,总体单位而言是“合”。 (二)统计分组的作用 1.划分现象的类型;2.显示内部结构;3.分析依存关系。 划分类型
理解统计分组的概念要明确以下三点: 1.统计分组的对象是总体; 2.应有分组标志; 3.对总体而言是“分”,总体单位而言是“合”。 (二)统计分组的作用 1.划分现象的类型;2.显示内部结构;3.分析依存关系。 某企业职工情况 划分类型 职称结构 依存关系 职称档次(级) 人数比重(%) 月薪收入(元) 高级职称 1.2 5000 中级职称 14.5 3000 初级职称 43.5 2000 无 职 称 40.8 1200 合 计 100.0

46 (三)统计分组方法 统计分组的关键是选择分组标志与划分各组界限。选择分组标志是确定不同组的标准和依据;划分各组界限是确定相邻组的性质界限或数量界限。 1.按品质标志或数量标志分组 按品质标志分组就是用反映事物属性、性质的标志分组。例如,职工按职称分组、企业按部门分组、学生按性别分组等等。 按数量标志分组是用事物的量作为分组标志,它可以是绝对数、相对数或平均数。 2.按离散变量或连续变量分组 它是根据变量取值类型来分组。离散变量分组,如企业按机器台数分组、旅馆按客房间数分组、医院按病床数分组等等。 连续变量分组,如商店按销售额分组、工厂按产值分组、学生按考试成绩分组等等。

47 简单分组是按一个标志分组;复合分组是按两个或两个以上标志分组。 三、变量分布数列 (一)变量分布数列的概念
3.简单分组和复合分组 简单分组是按一个标志分组;复合分组是按两个或两个以上标志分组。 三、变量分布数列 (一)变量分布数列的概念 统计分组的过程就是变量分布数列生成的过程。入图2-3。 ▲ ● ● ▲ ● ● ● ● ● ● ● ● ● ● ▆ ● ● ▆ ● ▆ ▆ ▆ ▆ ▆ ▆ ▆ ▆ ● ▆ ▆ ▆ ● ▲ ▲ ▲ ▲ ● ▆ ▆ ▆ 图 2-3 分布数列生成过程 将组别依次排列,同时列出各组单位数(频数)便生成变量分布数列。它有表格与图示两种显示方式。

48 (二)变量分布数列的编制方法 1.单项式变量分布数列的编制方法 单项数列是把每个变量值作为一组所生成的数列。例如,某生产组20名工人同种产品日产量如下(单位:件): 这是一个离散型变量,变量值不多、变动范围不大,宜编制单项式变量分布数列。 (1)按变量值大小顺序排列: (2)每种变量值为一组(重复者只取一个)顺序排列: 七组 (3)列入表中并汇总计算各组频数,见表2-4所示。

49 日产量(件) 工人数(人)(频数) 频 率 x f f/Σf 13 2 2/20 14 15 4 4/20 16 17 18 19 合计
表 名工人日产量资料(单项式) 日产量(件) 工人数(人)(频数) 频 率 x f f/Σf 13 2 2/20 14 15 4 4/20 16 17 18 19 合计 20 1

50 将表2-4绘制成变量分布图2-4。

51 2.组距变量数列的编制方法 例如,某班40名学生某科某次考试成绩如下: 试编制等距数列。 (1)将数据顺序排列,并判断变量性质。 变量性质为连续变量,宜编制组距式变量数列。

52 (2)计算全距 全距 = 最大变量值 - 最小变量值 该班成绩全距 = 99 – 52 = 47(分) (3)确定组限、组距和组数 组限是指每组的两端变量值,每个组的起点值称为下限,每个组的终点值称为上限。 组距是指上限值与下限值之差,即组距 = 上限值 - 下限值 组数是指变量数列应划分为多少个组。 确定组距与祖数的具体方法如下: 所使用的全距最小值应略低于实际资料的最小值,自50分开始,最大值应略高于实际资料最大值,最大值取100分。则本例全距为100-50=50。 若组距为5,则 组数 = 全距 ÷ 组距 = 50 ÷ 5 = 10 (组) 若组距为10,则 组数 = 50 ÷ 10 = 5 (组) 本例采用组距为10,组数为5。

53 (4)列表汇总计算 汇总计算要遵循“不重不漏”的原则。 连续型变量数列相邻两组的组限采用“重限分组”的方法, 即相邻两组之间的组限用同一个数值标记。为了处理好恰巧是组限的变量值的总体单位的归属问题,应按“不含上限,含下限”的原则处理。例如,60分者应归入60~70组中,70者应归入70~80组中, 80分者应归入80~90组中, 90分者应归入90~100组中。见表2-5所示。 表 名学生成绩整理表 成绩(分) 划记法 人数(人) 50~60 2 60~70 4 70~80 正正 11 80~90 正正正 18 90~100 5 合计 40

54 将整理表编制成正式表,如表2-6所示。 表 名学生成绩统计表 组中值是每组的中点数值,计算方法(上限+下限)÷ 2 。如,(50+60)/2 = 55 、(60+70)/2 = 65 、(70+80)/2 = 75 、 (80+90)/2 = 85 、(90+100)/2 = 95 等。 成绩(分)[不含上限] 人数(人)(频数) 比重(%)(频率) 组距(分) 组中值(分) 50~60 2 5.0 10 55 60~70 4 11.0 65 70~80 11 27.5 75 80~90 18 45.0 85 90~100 5 12.5 95 合计 40 100.0

55 3.开口组变量分布数列的编制 若变量值中有特大或特小的极端值出现时,为避免出现空白组或个别极端值被遗漏,最小组和最大组可采用开口组办法解决,即“╳╳以下”、“╳╳以上”。并以相邻组组距作为其组距。 例如,某班40名学生考试成绩如下: 编制等距变量数列如表2-7所示。

56 60以下组组中值为:上限–邻组组距÷2 = 60–10÷2 = 55
表 名学生成绩统计表(开口式) 两个开口组均用邻组组距,即均为10。 60以下组组中值为:上限–邻组组距÷2 = 60–10÷2 = 55 90以上组组中值为:下限+邻组组距÷2 = ÷2 = 95 成绩(分)[不含上限] 人数(人)(频数) 组距(分) 组中值(分) 60以下 2 10 55 60~70 8 65 70~80 16 75 80~90 85 90以上 4 95 合计 40

57 本节小结:

58 第三节 统计数据的显示 统计数据的显示方法有表格法与图示法两种形式。 一、统计表 (一)统计表的意义
第三节 统计数据的显示 统计数据的显示方法有表格法与图示法两种形式。 一、统计表 (一)统计表的意义 将汇总得到的统计数据按一定顺序排列在表格中,这种表格称为统计表。 (二)统计表的结构 1.形式上:总标题、横行标题、纵栏标题、数字资料。 2.内容上:主词栏、宾词栏。 3.举例:见表2-8、表2-9所示。

59 标题 横行 数字 标题 资料 主词 宾词 按所有制分组 企业数 (个) 零售额 (亿元) 国有经济 891 197.41 集体经济 1169
总标题 表 年社会消费品零售总额 纵栏 标题 横行 数字 标题 资料 主词 宾词 按所有制分组 企业数 (个) 零售额 (亿元) 国有经济 891 197.41 集体经济 1169 137.64 民营经济 793 37.92 其它经济 3754 743.17 合计 6607

60 纵栏 标题 横 指 行 标 标 数 题 值 主词栏 宾词栏 按税种分组 1~3累计税收(亿元) 同比增长(%) 增值税与消费税收入
总标题 表2-9 全国税收收入及其构成表 (2003年) 纵栏 标题 横 指 行 标 标 数 题 值 主词栏 宾词栏 按税种分组 1~3累计税收(亿元) 同比增长(%) 增值税与消费税收入 16.4 营业税收入 415.37 9.5 个人所得税收入 96.65 28.4 关税收入 130.99 144.4 其他 536.74 17.6 合计 19.5

61 表2-10 某年某进出口公司商品收购计划完成情况(单位:万元)
(三)统计表的种类 1.按作用 调查表 按主词 简单表 分 类 汇总表(整理表) 分 类 分组表 分析表 复合表 3.举例: (1)简单表,主词未经分组,只排列空间顺序如表2-10所示。 表2-10 某年某进出口公司商品收购计划完成情况(单位:万元) 单位名称 计划数 实际数 完成计划(%) A公司 380 410 107.89 B公司 260 240 92.31 C公司 430 450 104.65 D公司 100 120 120.00 E公司 110 100.00 合 计 1280 1330 103.91

62 表2-11 某年某企业增加值统计表(单位:百万元)
统计表的主词按时间顺序排列的简单表,如表2-11所示。 表2-11 某年某企业增加值统计表(单位:百万元) 时间 增加值 一季度 178 二季度 162 三季度 184 四季度 202 合计 726

63 (2)分组表:主词只按一个标志分组的统计表,见表2-12所示。 按经济类型分组 投资额(亿元) 同比增长(%) 国有经济投资 15 662
表2-12 某年全社会固定资产投资统计表 按经济类型分组 投资额(亿元) 同比增长(%) 国有经济投资 15 662 19.6 集体经济投资 3 717 -3.5 居民个人投资 3 638 6.1 其他类型投资 5 440 9.1 合 计 28 457 14.1

64 按专业和性别分组 学生人数(人) 合 计 500 会 计 专 业 100 男 70 女 30 计算机应用专业 250 180 电子商务专业
(3)复合表:主词按两个或两个以上标志分组的统计表,见表2-13所示。 表2-13 某年某校在校生人数统计表 按专业和性别分组 学生人数(人) 合 计 500 会 计 专 业 100 70 30 计算机应用专业 250 180 电子商务专业 150 120

65 按产业和行业分组 国内生产总值(亿元) 比重(%)
在复合分组表中设计横行标题时,应在第一次分组的各组组别下退一、二字填写第二次分组的组别,此时第一次分组的组别就成为第二次分组的个组小计。若需再进行第三、四次分组,均可按此类推。再如表2-14所示。 表2-14 国内生产总值统计表 按产业和行业分组 国内生产总值(亿元) 比重(%) 第一产业 第二产业 工业 建筑业 第三产业 交运仓储邮电通信业 批发和零售贸易餐饮业 合 计

66 经济类型 企业数(个) 年均职工人数(人) 增加值(万元) 年末固定资产净值(万元) 国有经济 集体经济 外商经济 其他经济 合 计
3.宾词设计分类 按排列形式分类:简单排列、分组排列、层叠排列。 (1)简单排列:宾词不加任何分组,按项目或时间排列。 如表2-15所示。 表2-15 某地区工业企业主要经济指标统计表 经济类型 企业数(个) 年均职工人数(人) 增加值(万元) 年末固定资产净值(万元) 国有经济 集体经济 外商经济 其他经济 合 计

67 表2-16 各地社会商品零售总额统计表(单位:亿元)
(2)平行排列:宾词各栏平行设计,如表2-16、2-17所示。 表2-16 各地社会商品零售总额统计表(单位:亿元) 地区 分组 性质和用途分组 城乡分组 经济类型分组 消费总额 农资销售额 城镇 乡村 国有 集体 个体 其他 北京 天津 河北 山西 上海 合计

68 表2-17 某商厦三个商场职工性别和年龄构成统计表
表2-17 某商厦三个商场职工性别和年龄构成统计表 商场类别 职工人数 性别 年龄(岁) 18以下 18~46 46 ~60 60以上 (1) (2) (3) (4) (5) (6) (7) 食品 300 250 50 20 180 90 10 百货 350 200 150 240 电器 280 100 30 190 60 合计 930 630 610

69 年份 劳动力人数(人) 三 次 产 业 第一产业 第二产业 第三产业 计 男 女 1999 2000 2001 2002 2003 合计
(3)层叠排列:两个或两个以上标志分组后上下层叠起来列示。见表2-18、2-19所示。 表 年农村劳动力分布情况 年份 劳动力人数(人) 三 次 产 业 第一产业 第二产业 第三产业 1999 2000 2001 2002 2003 合计

70 表2-19 某商厦三个商场职工性别和年龄构成统计表
表2-19 某商厦三个商场职工性别和年龄构成统计表 二、统计图 利用几何图形或具体形象来显示统计数据,按表现形式分为几何图、象形图、统计地图等形式。这里不作深入介绍。 商场类别 职工人数(人) 18以下 18~46 46~60 60以上 1 2 3 4 5 6 7 8 9 10 11 12 13 副食 百货 电器 合计

71 第三章 总体变量分布特征描述 学习要点 一、理解总量指标的概念和作用,掌握标志总量与主体单位总量的含义和区别。
第三章 总体变量分布特征描述 学习要点 一、理解总量指标的概念和作用,掌握标志总量与主体单位总量的含义和区别。 二、理解平均指标和变异指标的概念及两者辨证关系。 三、理解并熟练掌握均值、全距、标准差和标准差系数的计算与应用。 四、理解权数的意义和作用。

72 第一节 统计绝对数 一、统计绝对数的概念 它是表明总体规模的绝对数量,即表明现象大小多少的总量,在社会经济统计中称为总量指标。
第一节 统计绝对数 一、统计绝对数的概念 它是表明总体规模的绝对数量,即表明现象大小多少的总量,在社会经济统计中称为总量指标。 统计绝对数多是在试验、调查和整理中直接获得,也有一些是间接或推算得到。 统计绝对数是统计描述的基础数据,是从数量上认识客观事物的起点数据,又是计算统计相对数与统计平均数的基础数据。 在运用统计绝对数时,应注意正确使用计量尺度和计量单位以及准确界定被研究对象的总体范围和口径。 二、统计绝对数的种类 (一)按其描述对象不同可分为:总体单位总数和标志值总量。 如表3-1所示。

73 日产量(件) (标志值)x 工人数(人) (单位数)f 日产量×工人数 (标志值总量) x· f 12 1 13 2 26 14 3 42
表3-1 某生产组25名工人日产量资料 日产量(件) (标志值)x 工人数(人) (单位数)f 日产量×工人数 (标志值总量) x· f 12 1 13 2 26 14 3 42 15 4 60 16 5 80 17 68 18 54 19 38 20 合 计Σ 25 400 标志值(变量值) 总体单位数 标志值(变量值)总量

74 账户名称 (会计科目) 期初余额 本期发生额 期末余额 借方 贷方 合 计
(二)按时间状况分为:时期性总量(流量)和时点性总量。 如表3-2所示。 表 账页 (存量)时点(流量)时期 (存量)时点 账户名称 (会计科目) 期初余额 本期发生额 期末余额 借方 贷方 合 计

75 (三)统计绝对数的计量单位 1.实物单位 实物单位是根据事物的自然属性和物理属性度量其数量的计量单位,常用的有: (1)自然单位。是按照现象的自然状态来度量其数量的计量单位。例如,人口用“人”、牛用“头”、汽车用“辆”等计量单位。 (2)度量单位。是指国家度量衡制度统一规定的计量单位。例如,重量用“吨”、“克”表示;长度用“公里”、“米”等表示;面积用“平方米”、体积用“立方米”等表示。 (3)复合单位。是指两种单位结合而成的计量单位。例如,发电量用“千瓦时”表示;货运量用“吨公里”表示等等。 (4)双重或多重单位。是指同时采用两种或两种以上计量单位表明某一事物的数量。例如,电动机用“千瓦/台”表示;拖拉机用“马力/台”表示;船舶用“艘/马力/吨”表示等等。

76 2.货币单位 是用货币来表示的计量单位。例如,我国用人民币元、角、分为计量单位;国际用美元、欧元、日元等表示。 3.劳动时间单位 是用劳动时间来表示的计量单位。例如,工日、工时等。1个工人工作1小时叫做1个工时,8个工时为1个工日。 本节小结: 按内 单位总量:总体内所包含的单位总数 容分 标志总量:总体内所有单位上标志值总和 按时 时期总量(流量):一段时期内的总量 统计绝对数 间分 时点总量(存量):某一时点上的总量 (总量指标) 按计 实物总量 量单 价值总量 位分 劳动时间总量

77 第二节 变量分布集中趋势描述 一、算术平均数 它是同质总体内各单位某类变量分布集中趋势的代表值,它是同质总体内某类变量所有变量值的平均数。
第二节 变量分布集中趋势描述 集中趋势描述的实质是:找出变量值的集中点或中心值。常用方法有:算术平均数、几何平均数、中位数和众数等。 一、算术平均数 它是同质总体内各单位某类变量分布集中趋势的代表值,它是同质总体内某类变量所有变量值的平均数。 例如, 甲数列:68、69、70、71、72, 乙数列:50、60、70、80、90, 绘制成线段图3-1所示。 图3-1

78 因此,统计平均数是对变量数列围绕中心值分布状况的一种统计描述。
图3-1显示:甲数列集中程度大,乙数列离散程度大。显然,变量的离散趋势大集中趋势低如乙数列;离散趋势小集中趋势高如甲数列。 算术平均数是测定集中趋势最常用的代表值,它的实质是把同质总体中各单位变量值的差异(离差)正负相互抵消后反映变量集中趋势中心点的代表值。如甲、乙两数列: 甲数列:68、 69、 70、 71、 72, 离差: 乙数列:50、 60、 70、 80、 90, 离差: 因此,统计平均数是对变量数列围绕中心值分布状况的一种统计描述。

79 (一)简单算术平均数 用字母表示为: 式中: —— 算术平均数; xi —— 表示第i个变量值; n —— 总频数; Σ —— 加总符号。 代入数值为: 甲: = = 70 乙: = = 70 =

80 (二)加权算术平均数 1.根据单项变量分布数列计算算术平均数 用字母表示: = 式中:fi——第i组的变量值出现的次数,即频数。 利用分组数据计算算术平均数的过程是: (1)表内,根据x栏与f栏内数值计算出xf栏内数值。xf栏为各组变量总值,xf栏的合计数为总体变量总值。 (2)表外,将Σxf(变量总值)和Σf(总频数)代入公式,计算出算术平均数 。 例:某生产组10名工人生产甲产品,日产量分组资料 如表3-3所示。试计算工人平均日产量。

81 计算表明,平均日产量26件趋近工人数最多即频数最大的那个变量值30件。若本例各变量值x不变,各组工人数f的分布变化,可得表3-4。
表3-3 加权算术平均数计算表 = = = 26 (件) 计算表明,平均日产量26件趋近工人数最多即频数最大的那个变量值30件。若本例各变量值x不变,各组工人数f的分布变化,可得表3-4。 日产量(件)xi 工人数(人)fi Xi · fi 10 1 20 2 40 30 7 210 合 计 260

82 计算表明,平均日产量14件趋近工人数最多即频数最大的变量值10件。 日产量(件)xi 工人数(人)fi Xi · fi 10 7 70 20
表3-4 加权算术平均数计算表 根据表3-4资料计算平均日产量为: = = 14(件) 计算表明,平均日产量14件趋近工人数最多即频数最大的变量值10件。 日产量(件)xi 工人数(人)fi Xi · fi 10 7 70 20 2 40 30 1 合 计 140

83 权数不仅可以用绝对数f表示,也可用相对数即频率f/Σf表示。即:
由上例可以看出,用分组数据计算平均数,平均值的大小受两个因素影响:一个是各组变量值x,另一个是各组次数即频数f的影响。当各组变量值x不变时,各组次数即频数f对平均值的大小起着权衡轻重的作用。因此,次数f称为权数,这种方法称为加权算术平均法。 权数不仅可以用绝对数f表示,也可用相对数即频率f/Σf表示。即:

84 例表3-5所示。 = = 26(件) 日产量(件)xi 工人数(人)fi fi/Σfi xi·( fi/Σfi) 10 1 0.1 20 2
表 加权算术平均数计算表 = = 26(件) 日产量(件)xi 工人数(人)fi fi/Σfi xi·( fi/Σfi) 10 1 0.1 20 2 0.2 4 30 7 0.7 21 合 计 1.0 26

85 若掌握组距数列资料,计算方法是:先计算组中值xi ,然后再按上述方法计算加权算术平均数。如表3-6所示。
2.根据组距式变量分布数列计算加权算术平均数 若掌握组距数列资料,计算方法是:先计算组中值xi ,然后再按上述方法计算加权算术平均数。如表3-6所示。 表3-6 组距数列加权算术平均数计算表 日产量 (件) 组中值(件)x 工人数(人) xf x·f/ Σf f f/Σf 400以下 350 5 0.083 1750 29.05 400~500 450 13 0.217 5850 97.65 500~600 550 18 0.300 9900 165.00 600~700 650 15 0.250 9750 162.50 700~800 750 7 0.117 5250 87.75 800以上 850 2 0.033 1700 28.05 合 计 60 1.000 34200 570.00

86 缺下限组组中值 = 上限–邻组组距/2 = 400–100/2 = 350(件)
(1)计算组中值: 缺下限组组中值 = 上限–邻组组距/2 = 400–100/2 = 350(件) 缺上限组组中值 = 下限–邻组组距/2 = 800–100/2 = 850(件) 上下限齐全组组中值 =(上限+下限)/2 = ( )/2 = 450(件) (2)计算平均数 = 34200/60 = 570(件) = 570(件)

87 算术平均数 = 变量值总量 / 单位总量 二、算术平均数的变形——调和平均数
综上,简单算术平均数与加权算术平均数之间没有根本区别,因为一个变量值乘上一个频数(权数)与多次加总同一个变量值是意义相同的。它们的基本公式都是相同的: 算术平均数 = 变量值总量 / 单位总量 二、算术平均数的变形——调和平均数 在实际工作中有时由于资料的原因不能直接计算算术平均数,可采用调和平均数的形式间接算出算术平均数,其计算结果与算术平均数相同。因此,在这种情况下调和平均数的应用是算术平均数的变形形式。如表3-7所示。 表 同种商品价格及销售额资料 商场名称 价格(元)x 销售额(元)m 0.80 16000 1.00 21000 1.20 21600 合 计 58600

88 调和平均数的计算方法如表3-8所示。 表 调和平均数计算表 Σm是变量总值,因为m=xf,所以m/x=f是各组频数,Σm/x是总次数。由此可见,调和平均数是算术平均数的变形形式。 加权调和平均数的计算方法为: 平均价格 商场名称 价格(元)x 销售额(元)m 销售量(件)m/x 0.80 16000 20000 1.00 21000 1.20 21600 18000 合 计 58600 59000

89 调和平均数有以下特点: (1)调和平均数易受极端值影响,当变量呈明显偏态时它的代表性会受影响。 (2)当变量中有0值时,调和平均数无法计算。 三、几何平均数:在第六章中介绍。 四、中位数和众数(略) 本节小节 算 术 由于在计算时所有变量值均参加了计算, 集 平均数 因此,算术平均数能够代表所有的变量 中 平均值 值。算术平均数对极端值反映很灵敏。 趋 调和均值: 调和平均数是算术平均数的变形。 势 中位数是各变量值中央位置的代表值, 测 位置值 中位数 不受极端值影响。众数是出现次数最多 度 众 数 的变量值,不受极端值影响。

90 第三节 变量分布离中趋势描述 均值是描述变量分布集中趋势,标准差是描述变量分布离中趋势,两者相辅相成共同反映变量分布特征的一对对立统一的代表值。描述离中趋势的代表值常用的有:极差、标准差和离散系数等。 一、极差 极差也称全距,是变量值中最大值与最小值之差。用公式表示为:全距(R)= 最大变量值 - 最小变量值。如: 甲数列: 68 、69 、70 、71 、72 , R = = 4 乙数列: 50 、60 、70 、80 、90 , R = = 40 组距数列计算全距: 全距(R)= 最高值组上限值 - 最低值组下限值。如表3-9: 表 名工人日产量资料 产量(件) 50~60 60~70 70~80 80~90 90~100 合计 人数(人) 2 8 16 10 4 40

91 R = = 50(件) 用离差评价变量的离散状况:极差值越小表明变量值离散范围小,离散程度小,变量值集中,平均数代表性大;极差值越大,表明变量值离散范围大,离散程度大,变量值分散,平均数代表性小。极差值对极端值反映灵敏。 二、方差和标准差 方差和标准差是最重要、最常用的离中程度的度量方法,多用于以算数平均数为集中趋势度量的场合。 (一)方差 它是各变量值相对于平均数 的离差的平方的平均数,方差习惯上用字母“σ2”表示。它的计算过程是:先用各个变量值xi减去其平均数 ,得出离差xi- 。而离差有正、负之分,为了防止正、负离差相互抵消,可取离差的平方值(xi- )2,最后用离差平方之和除以项数n或总次数Σf可得方差。

92 1.简单式方差: σ2 = 2.加权式方差: (二)标准差 标准差是方差的平方根计算公式为: σ= (三)标准差的计算方法 1.简单式标准差: 计算过程见表3-10、3-11所示。

93 σ= = 14.14(件) = 350/5=70(件) 日产量(件)xi 离差(xi- ) 离差平方(xi- )2 50 -20 400
表 甲组简单式标准差计算表 = 350/5=70(件) σ= = 14.14(件) 日产量(件)xi 离差(xi- ) 离差平方(xi- )2 50 -20 400 60 -10 100 70 80 10 90 20 合 计 Σ 1000

94 计算表明,乙组比甲组标准差小,则乙组比甲组离中程度小,即乙组变量值分布范围比甲组集中,乙组平均数代表性大。 日产量(件)xi
表3-11 乙组简单式标准差计算表 = 350/5=70(件) σ= 计算表明,乙组比甲组标准差小,则乙组比甲组离中程度小,即乙组变量值分布范围比甲组集中,乙组平均数代表性大。 日产量(件)xi 离差(xi- ) 离差平方(xi- )2 68 -2 4 69 -1 1 70 71 72 2 合 计 Σ 10

95 产量(件) xi 人数(人) fi 总产量(件) xi fi 离差(件)xi- 离差平方(xi- )2 离差平方加权(xi- )2fi 12
2.加权式标准差(计算过程如表3-12)。 表 单项数列标准差计算表 产量(件) xi 人数(人) fi 总产量(件) xi fi 离差(件)xi- 离差平方(xi- )2 离差平方加权(xi- )2fi 12 1 -4 16 13 2 26 -3 9 18 14 3 42 -2 4 15 60 -1 5 80 17 68 54 19 38 20 合计 25 400 100

96 = 400/25 = 16(件) 计算公式如下: 由组距式变量数列计算标准差见表3-13。 = 3100/100 = 31(千克)
表 组距变量数列标准差计算表 = 3100/100 = 31(千克) 日产量(千克) 人数(人)fi 组中 值xi xi fi xi- (xi- )2 (xi- )2fi 15~25 20 400 -11 121 2420 25~35 50 30 1500 -1 1 35~45 40 1200 9 81 2430 合 计 100 3100 4900

97 σ= 三、离散系数 若研究的总体不同,或计量单位不同,或平均数相差悬殊,它们离中趋势的绝对数是不可以比较的。为此,要计算离中趋势的相对数,即离散系数。 离散系数有几种,常用的是标准差系数,它是标准差除以平均数表明每单位平均数的离散程度,用百分数表示,是变量分散性的相对程度度量。标准差系数常用字母“Vσ”表示,计算公式为: Vσ = (一)比较总体相同,计量单位不同两组变量数列的离散程度 例如,某市6岁男童体重与身高资料如下: 平均数 标准差 体重: 千克 千克 身高: 厘米 厘米

98 表3-14 成人组身高标准差计算表(单位:厘米)
标准差系数为: 体重: Vσ = 2.16/19.39×100% = 11.14% 身高: Vσ = 4.86/115.87×100% = 4.19% 计算表明体重变异大于身高变异 (2)比较计量单位相同平均数差异大的两组变量的离散程度 例如,表3-14和表3-15两组资料。 表 成人组身高标准差计算表(单位:厘米) 身高xi xi- (xi - )2 164 -4 16 166 -2 4 168 170 2 172 合 计 40

99 = 73(厘米) σ= 1.414(厘米) 标准差系数为: 成人组 Vσ = 1.68% 幼儿组 Vσ = 1.94%
= 168(厘米) σ= 2.828(厘米) 表 幼儿组身高标准差计算表 = 73(厘米) σ= 1.414(厘米) 标准差系数为: 成人组 Vσ = 1.68% 幼儿组 Vσ = 1.94% 计算表明成人组身高离散程度小于幼儿组。 身高xi xi- (xi - )2 71 -2 4 72 -1 1 73 74 75 2 合 计 10

100 计算表明,甲国企业员工月平均收入离散程度小。 本节小结: (一)离散程度的实质
(三)比较总体不同,计量单位也不同两组变量的离散程度 例如,甲国某企业员工月平均收入3000美元,标准差180美元;乙国某企业员工月平均收入7500欧元,标准差600欧元,问哪国员工月平均收入离散程度小? 甲国 Vσ = 6% 乙国 Vσ = 8% 计算表明,甲国企业员工月平均收入离散程度小。 本节小结: (一)离散程度的实质 标准差可以概括地、直接地、平均地描述变量发布的离散程度,是各变量值xi距离它们的平均数远近的一种尺度。概率论指出,在正态分布中68%的变量值分布在距离平均数一个σ值的范围内,95%的变量值分布在距离平均数两个σ值的范围内,其余的5%远离平均数。

101 平均数通常可用来寻找变量分布的中心值;标准差则度量了各变量值对于平均数的分布程度。两者关系用正态分布图展示:
(二)平均数与标准差 平均数通常可用来寻找变量分布的中心值;标准差则度量了各变量值对于平均数的分布程度。两者关系用正态分布图展示: 68% 95% 99%

102 本章小结: (一)总体变量分布特征的统计描述 将采集到的资料整理成变量数列后,呈现给我们的只是一个总体变量分布形态,进一步研究总体变量分布的规律性,就会发现总体变量分布具有集中趋势和离中趋势两个方面的特征。因此 就需要对总体变量分布特征进行集中趋势和离中趋势的描述—— 平均指标和变异指标。 平均值——算术、调和、几何平均 集中趋势测度 位置值——中位数、重数 总体变量 分布特征 绝对数——全距 离中趋势测度 平均数——标准差 相对数——标准差系数

103 加权调和平均: = 用 对变量值倒数 加权平均;
(二)权数的意义 加权算术平均: = 用 对变量值x加权平均; 加权调和平均: = 用 对变量值倒数 加权平均; 加权标准差:σ= 用 对离差 加权平均。

104 第四章 抽样技术概述 学习要点 一、理解和掌握抽样调查的概念、特点和作用。 二、掌握抽样技术中常用的基本概念。
第四章 抽样技术概述 学习要点 一、理解和掌握抽样调查的概念、特点和作用。 二、掌握抽样技术中常用的基本概念。 三、熟练掌握抽样平均误差的概念、影响因素和计算方法 四、熟练掌握极限抽样误差的概念和计算方法。 五、掌握必要抽样数目的意义和计算。 六、了解全及总体总量指标的推算和抽样调查组织方式。

105 第一节 抽样技术概念 一、抽样技术的涵义 抽样技术是统计学的重要分支,它已经成为当今世界上最重要的统计方法。它广泛应用于社会、经济、科技和自然等各个领域,成为现代统计学中发展最快、最活跃的一个分支。 抽样技术的完整概念应包括对样本的调查和对总体数据的估计两个方面。这里首先介绍抽样调查,然后介绍总体数据估计的基本理论和方法。 (一)抽样调查 它是一种非全面调查,是根据随机原则从总体中抽取部分单位进行调查。这部分单位称为样本。而这部分单位数目的多少不是随心所欲确定的,是根据一定原则和要求用科学的方法计算来确定。所谓随机原则,就是可能性原则,是指在抽取样本单位时,完全排除人们的主观愿望,使总体中的每个单位机会均等,抽中与否全凭偶然。

106 抽样估计是在抽样调查的基础上,利用样本数据根据概率论来估计总体相应数据的统计分析方法。 (三)抽样技术
(二)抽样估计 抽样估计是在抽样调查的基础上,利用样本数据根据概率论来估计总体相应数据的统计分析方法。 (三)抽样技术 总体、总体指标、样本、样本指标、抽样误差、概率估计等概念构成了抽样技术中的最基本范畴。它们的关系如图4-1。 图 抽样技术关系图 随机取样 总 体 样 本 调 查 反 整 理 映 汇 总 概率估计 总体指标 样本指标

107 (四)抽样设计 是指从研究总体中抽取样本之前,预先确定抽样方案。将调查资料使用者、抽样专家、活动组织者和数据处理人员召集起来协商探讨共同确定抽样方案。基本内容有:1.确定目的、任务和要求;2.确定抽样框和样本单位;3.确定组织方式和抽取样本单位的方法;4.确定估计精度要求;5.确定抽样数目和估计方法;6.确定总体方案和工作程序。 二、抽样技术的特点 (一)在调查单位的抽取上,遵循随机原则。 随机原则使样本单位的抽取不受任何主观因素影响,使所抽取的样本变量分布与总体变量分布相类似,从而保证样本的代表性和估计的无偏性。 (二)在调查功能上,用样本数据估计总体数据。 抽样调查是非全面调查,它具有从部分到总体、由具体到一般的推断功能。

108 (三)在推断手段上,以概率估计方法进行总体推断。
抽样估计是以概率论为基础的估计方法,用样本数据估计总体数据时,其可靠性用一定概率保证程度来说明。例如,用城市居民样本数据估计某电视节目的收视率、用居民样本数据估计全市居民家庭收支情况等等。 (四)在推断理论上,用大数定律的中心极限定理为基础。 中心极限定理证明随着样本单位数的增加,样本变量分布趋向正态分布,样本平均数接近总体平均数、样本标准差接近总体标准差,从而为用样本数据估计总体相应数据提供了科学的理论依据和方法。 (五)在推断效果上,抽样误差可以计算并加以控制。 用样本数据估计总体相应数据会存在一定误差,根据中心极限定理和正态分布规律,抽样误差可以事先计算出来并可以控制,从而使抽样估计具有一定的可靠程度。

109 三、抽样技术的作用 由于抽样技术具有费用低、时效强、准确度高、应用范围广等优点,抽样技术广泛应用于众多领域。 (一)用于那些不能或难以采用全面调查的情况。 无限总体,如宇宙探测、大气监测或生态保护等的调查;动态总体,如产品质量监测、物价管理等的调查;范围大,分布过散的有限总体,如居民收支调查、水中鱼苗调查、森林木材蓄积量等调查。 (二)用于不宜全面调查,而须了解总体数据的情况。 如,灯泡、轮胎等产品的耐用时间破坏性质量检验;饮料食品等品尝性检验;人体血液等健康性检验等。 (三)用于采集灵敏度高、时效强、时间要求紧迫的资料。 如市场动态、商品交易额、股市行情、抢险救灾和战时物资质量检验等。

110 (四)与其他调查方式结合运用,互相补充与核对。
如,抽样技术与普查相结合可以检查核对普查数据的准确性;与重点调查相结合,有利于掌握总体数量特征。 (五)进行假设检验,判断真伪。 如,某项新工艺、新配方或农业新品种在生产中的推广是否具有显著价值,可通过抽样推断进行假设检验,决定是采用还是放弃。 四、抽样技术中的几个基本概念 (一)抽样框 是指供抽样所使用的所有调查单位的详细名单。如,从5万名职工中随机抽取300名职工组成一个样本,则5万职工的名册就是抽样框。 抽样框有以下形式: 1.名单抽样框,即以名册或清单形式列出总体所有单位。如,学生名册、企业名录、职工名单、住户名单、村庄名单、社区名单等等。

111 2.区域抽样框,按自然地域划分并排列出总体所有单位。如,一片土地划分为若干地块并编号、一片森林划分为若干林区并编号等。
3.时间表抽样框,按时间顺序排列总体单位。如,流水线生产的产品质量检验,把一天划分为若干时段并按顺序排列。 抽样框的编制是抽样调查的前提条件,要求不重不漏来保证样本对总体的代表性。 (二)总体和样本 总体指所要研究现象的整体用字母N表示。如,从一万平方米小麦中抽取500平方米进行产量调查,则N=10000平方米。 样本,指从总体中抽取的样本单位数,用字母n表示。如,上例中n=500平方米 (三)大样本和小样本 大样本和小样本是根据样本容量多少来划分。n≥30时为大样本,n<30时为小样本。

112 总体平均数用 表示,总体标准差用σ2表示,总体成数用P表示,这些数据在抽样技术称为参数。由于总体是唯一确定的,总体参数也是唯一确定的。
(四)参数和统计量 1.参数 总体平均数用 表示,总体标准差用σ2表示,总体成数用P表示,这些数据在抽样技术称为参数。由于总体是唯一确定的,总体参数也是唯一确定的。 2.统计量 样本平均数用 表示,样本标准差用s表示,样本成数用p表示,这些数据在抽样技术称为统计量。 成数指总体或样本中具有某种属性的单位数占全部单位数的比重。如,一片森林中病株数的比重、一批产品中合格品比重、一片农作物中缺苗断垄数比重、某市居民拥有电脑户比重、某电视节目收视率等等。 本节小结: (一)样本是从总体中随机的一部分单位。 (二)参数是总体数量特征,是用样本统计量估计出来的。 (三)统计量是由样本变量直接计算得到的。

113 第二节 抽样调查和抽样误差 一、随机事件与概率 (一)随机事件 在相同条件下,每次试验可能出现也可能不出现的状态称为随机事件。
第二节 抽样调查和抽样误差 一、随机事件与概率 (一)随机事件 在相同条件下,每次试验可能出现也可能不出现的状态称为随机事件。 例如,掷一对骰子,两颗骰子落下时总共有多少种状态呢? 白色骰子能够以6种状态中任何一种状态落下: 譬如当白色骰子显示 时,黑色骰子仍有6种状态落下: 这里,骰子落下所呈现的每种状态称为随机事件。

114 (二)概率 一个随机试验由许多可能的事件,我们不仅想知道它们有那些可能的事件,而且还想知道某些事件出现的可能性的大小,并希望将这一可能性用数值描述出来。为了定量地描述随机事件,人们引入了一个描述随机事件发生可能性大小的统计数据——随机事件的概率。某一随机事件发生的次数占所有随机事件发生次数的比率就是该事件的概率。许多数学家、统计学家对概率及其计算作出了巨大的贡献,提出了概率论的公理化体系。概率论,就是研究随机事件规律性的科学。 图4-2中显示出两颗骰子出现的可能事件有6×6=36种。它们都是等可能的,所以每一个事件都有36次中一次机会。

115 图 掷两颗骰子时的36种事件

116 二、抽取样本单位的方法和抽样误差 根据每次从总体中抽取一个样本单位进行调查登记后,是否再把这个样本单位放回原总体中去,抽取样本单位方式有重复抽样和不重复抽样两种方法。 (一)重复抽样 重复抽样也称回置抽样,它是从总体N个单位中随机抽取一个容量为n的样本,每次从总体中随机抽到一个单位就看成一次试验,连续进行n次试验组成一个样本。每次抽取并记录事件后把被抽中的单位放回总体中重新参加下次抽取。这样,总体单位数不变,已经被抽中的样本单位仍然有同等机会再被抽中。 1.样本平均数的变量分布和抽样平均误差 样本平均数的变量分布是由总体中全部可能样本平均数的取值和与之相应的概率组成。 例如,某班组A、B、C、D、E五个工人的日基本工资分别为:12、14、16、18、20元。下面计算出总体平均数和总体方差:

117 总体工人日平均工资 =(12+14+16+18+20)/5 =16(元) 总体工人日工资方差:
总体工人日平均工资 =( )/5 =16(元) 总体工人日工资方差: σX2 = [(12-16)2+(14-16)2+(16-16)2(18-16)2 +(20-16)2]/5 = 8(元) 用重复抽样的方法从五人中随机抽2人组成样本,即样本容量a=2,调查记录后再放回总体中去重新参加下次抽取。那么,可能会有几种组合形式的样本呢?根据排列组合法共有25个样本,各样本的日平均工资可列表4-1显示,重复抽样过程见图4-3。 图 重复抽样过程示意图 总体 (AA)(BA)(CA)(DA)(EA)(AC)(BC)(CC)(DC)(EC) (AB)(BB)(CB)(DB)(EB)(AD)(BD)(CD)(DD)(ED) (AE)(BE)(CE)(DE)(EE)

118 表 样本组合及样本平均数 A,A 12,12 =12 B,A 14,12 =13 C,A 16,12 =14 D,A 18,12 =15 E,A 20,12 =16 A,B 12,14 B,B 14,14 C,B 16,14 D,B 18,14 E,B 20,14 =17 A,C 12,16 B,C 14,16 C,C 16,16 D,C 18,16 E,C 20,16 =18 A,D 12,18 B,D 14,18 C,D 16,18 D,D 18,18 E,D 20,18 =19 A,E 12,20 B,E 14,20 C,E 16,20 D,E 18,20 E,E 20,20 =20

119 均值 频数f 频率P( ) 将表4-1整理成样本平均数变量分布数列表4-2和变量分布频率图如图4-4。 表4-2 样本平均数变量分布数列
表 样本平均数变量分布数列 0.20- 0.16- 0.12- 0.08- 0.04- (元) 图 变量分布频率图 均值 12 13 14 15 16 17 18 19 20 合计 频数f 1 2 3 4 5 25 频率P( ) 0.04 0.08 0.12 0.16 0.20 1.00

120 表4-3 重复抽样样本平均数的平均数和方差计算表
图4-4显示样本平均数变量数列呈现正态对称分布形态。 根据表4-2计算样本平均数的平均数和方差,见表4-3。 表 重复抽样样本平均数的平均数和方差计算表 f • f ( - ) ( - )2 ( - )2 • f 12 1 -4 16 13 2 26 -3 9 18 14 3 42 -2 4 15 60 -1 5 80 17 68 54 19 38 20 合计 25 400 100

121 栏内各数值:-4、-3、-2、-1、0、1、2、3、4,称抽样个体误差;样本均值方差和样本均值标准差称抽样平均误差。
下面计算: 样本均值的均值 = = 400/25 = 16(元) 样本均值的方差 = 100/25 = 4(元) 样本均值标准差 = = = 2(元) 栏内各数值:-4、-3、-2、-1、0、1、2、3、4,称抽样个体误差;样本均值方差和样本均值标准差称抽样平均误差。 综上全部演示过程,可以得到两个重要结论: 1.重复抽样的样本均值 的均值 等于总体均值 ,即: = = 16(元)

122 2.抽样平均误差等于总体方差的1/n,即: = 4(元)= 8/2(元) 2(元) = 4/2(元) 因此,统计学将样本均值与总体均值之间的平均离差的1/n称为抽样平均误差简称抽样误差,以μ表示。换言之,抽样误差等于总体方差除以样本单位数之商的平方根,即:

123 这一等式表明两个结论: 首先,抽样误差仅为总体标准差的 。 例如,某县粮食亩产量标准差σ为80千克,随机抽取100亩则抽样误差为μ= = 8(千克)。 其次,抽样误差与总体标准差成正比,与样本单位数的平方根成反比。 例如,在同一总体中,样本单位数扩大为原来的4倍抽样误差缩小1/2,即μ= = = 1/2;若抽样误差增加一倍,则样本单位数只需原来的1/4等等。 统计学的研究目的是将实践上升到理论,并将理论归纳升华为科学定理,切贝谢夫定理表明:随着样本n的容量增加,样本平均数接近于总体平均数,当样本单位数n足够大时两者的离差非常小,并以概率为1的把握使两者相等。因此,人们在具体实际操作时,通常使用样本统计量来计算抽样误差。

124 例1,某地区种植20000平方米小麦,随机抽取1000平方米进行实割实测,计算结果: = 6千克,Sx = 0.1千克,试计算重复抽样误差。
已知:n = 1000 ,Sx = 0.1;求:μx =? 解:μx = = = = = (千克) 3.样本成数的抽样误差 贝努理定理表明:当样本容量n足够大时,用样本成数来估计总体成数是十分可靠的。样本成数抽样误差μp等于总体成数除以样本单位数的平方根。即: μp= = = 例2,从1000件产品中随机抽取100件进行质量检验,发现10件废品求1000件中的废品率。 p = n1/n = 10/100 = 0.1(即10%) μp= =0.03,(即3%)

125 从某班组5名工人日工资12、14、16、18、20中用不重复抽样方法随机抽取2名工人组成样本,共有20个样本组合方式。见图4-5和表4-4。
(二)不重复抽样 不重复抽样也称不回置抽样,它是按随机原则从总体N个单位中抽取一个容量为n的样本,每次抽取一个单位记录后被抽中的单位不再放回总体中,而是从余下的总体单位中进行抽取。因此,每次抽取后总体单位数就会减少一个。 1.抽样平均数的变量分布和抽样误差 从某班组5名工人日工资12、14、16、18、20中用不重复抽样方法随机抽取2名工人组成样本,共有20个样本组合方式。见图4-5和表4-4。 总体 (BA)(CA)(DA)(EA) (AC)(BC)(DC)(EC) (AB)(CB)(DB)(EB) (AD)(BD)(CD)(ED) (AE)(BE)(CE)(DE) 图 不重复抽样示意图

126 表 样本组合 —— B,A 14,12 =13 C,A 16,12 =14 D,A 18,12 =15 E,A 20,12 =16 A,B 12,14 C,B 16,14 D,B 18,14 E,B 20,14 =17 A,C 12,16 B,C 14,16 D,C 18,16 E,C 20,16 =18 A,D 12,18 B,D 14,18 C,D 16,18 E,D 20,18 =19 A,E 12,20 B,E 14,20 C,E 16,20 D,E 18,20

127 整理出样本平均数变量分布数列表4-5及示意图4-6。 样本平均数(元) 频数f 频率f/Σf 13 2 1/10 14 15 4 2/10
表 样本平均数变量分布数列 样本平均数(元) 频数f 频率f/Σf 13 2 1/10 14 15 4 2/10 16 17 18 19 合 计 20 1

128 下面计算样本均值的均值和样本均值的方差如表4-6。
(%) 30- 20- 10- (元) 图 平均数频数分布图 图4-6样本平均数变量数列呈正态分布。 下面计算样本均值的均值和样本均值的方差如表4-6。

129 = = 320/20 = 16(元) S2 = = 60/20 = 3(元) f ·f ( - ) ( - )2 ( - )2 · f 13
表4-6 不重复抽样均值的均值及其方差计算表 = = 320/20 = 16(元) S2 = = 60/20 = 3(元) f ·f ( - ) ( - )2 ( - )2 · f 13 2 26 -3 9 18 14 28 -2 4 8 15 60 -1 1 16 64 17 68 36 19 38 3 合计 20 320

130 S = = = = 1.732(元) 不重复抽样条件系随机变量值x1,x2,… ,xn的抽取是不会重复的。所以,不重复抽样的抽样误差为重复抽样误差乘以修正系数 ,即: 从以上演示中,得出两个重要结论: 1.不重复抽样均值的均值等于总体均值; 2.样本均值方差除以修正系数 与总体方差相等。 不重复抽样误差计算公式为: μx =

131 当总体单位数N很大时,N-1接近于N,可用N代替。则上列公式可简化为:
例3,现仍以例1资料为例按不重复抽样方法计算抽样误差。 已知: N = , n = 1000 , Sx = 0.1千克 求:μx = ? 解: 2.样本成数抽样误差的计算 上述样本平均数的抽样误差原理也适用于成数抽样误差计算。因此, 。其计算公式为:

132 例4,仍以例2资料,按不重复抽样方法计算成数抽样误差:
计算表明,不重复抽样比重复抽样误差小,因为n/N是个小正数,1-n/N其值小于1。 由于总体方差σ2未知,实际操作时可用样本方差S2代替。 (三)综合练习 例如,某电子元件厂对10000个元件使用寿命抽取1%进行检验,结果如表4-7所示。

133 1.样本平均数 = 105550/100 = 1055.5(小时) 使用寿命(小时) 抽检数f 组中值x xf 900以下 1 875
表 %样品测试数据 1.样本平均数 = /100 = (小时) 使用寿命(小时) 抽检数f 组中值x xf 900以下 1 875 900~950 2 925 1850 950~1000 6 975 5850 1000~1050 35 1025 35875 1050~1100 43 1075 46225 1100~1150 9 1125 10125 1150~1200 3 1175 3525 1200以上 1225 合 计 100 105550

134 将表4-7整理为表4-8。 x x- (x- )2 f (x- )2f 875 -180.5 32580.25 1 925 -130.5
表 % 样品标准差计算表 x x- (x- )2 f (x- )2f 875 -180.5 1 925 -130.5 2 975 -80.5 6 1025 -30.5 930.25 35 1075 19.5 380.25 43 1125 69.5 9 1175 199.5 3 1225 169.5 合计 100 269475

135 重复抽样: 不重复抽样: 2.质量标准规定使用寿命不足1000小时为不合格品,试分别计算不同抽样方法条件下该厂元件成数(合格率)与抽样误差。见表4-9所示。

136 重复抽样: 使用寿命 (小时) 元件质量 抽检数(个) 比重(成数)( % ) 900以下 900~950 950~1000 不合格 1 2
表 成数抽样误差计算表 重复抽样: 使用寿命 (小时) 元件质量 抽检数(个) 比重(成数)( % ) 900以下 900~950 950~1000 不合格 1 2 6 9.0 1000~1050 1050~1100 1100~1150 1150~1200 1200 以上 合格 35 43 9 3 91.0 合 计 100 100.0

137 不重复抽样: 二、影响抽样误差的因素 抽样理论研究和实践证明影响抽样误差大小的因素主要有: (一)总体各变量值X间差异大小 如果其他条件不变,离散程度(σX或σP)越大,抽样误差μx或μp越大;反之,则越小。 (二)样本单位数(样本容量)的多少 其他条件不变,样本单位数n越少,抽样误差越大;反之,则越小。 (三)抽样方法 重复抽样误差大于不重复抽样误差。 (四)抽样调查组织形式 不同的抽样组织形式会产生不同的抽样误差。

138 本节小节: (一)样本容量仅为总体的一小部分,总体单位数的多少对估计的精度没有影响起作用的是样本容量。 (二)总体标准差σ是未知的,可用样本标准差S来代替。 (三)重复抽样时平方根法是精确的;不重复抽样时公式给出一个较好的近似值——当样本单位数占总体单位数很小比重时。

139 第三节 参数估计 参数估计就是用样本统计量来推算总体参数,有点估计和区间估计两种方法。 一、参数估计的理论基础
第三节 参数估计 参数估计就是用样本统计量来推算总体参数,有点估计和区间估计两种方法。 一、参数估计的理论基础 概率论、大数定律和中心极限定理是参数估计的理论基础,这里只对这些理论表明的统计思想作叙述性简要介绍。 中心极限定理的内容简要概括如下: (一)大量客观事物的总体现象是正态或近似于正态发布。 (二)在大样本的条件下,样本平均数的分布是或近似是正态分布。 (三)样本平均数等于总体平均数,样本成数等于总体成数。 根据以上性质,可以按正态分布理论估计样本平均数或样本成数落在一定范围内的概率来进行参数估计。

140 1.以总体平均数为中心两侧呈对称分布,即样本平均数大于或小于总体平均数的概率完全相等,就是说样本平均数的正离差与负离差出现的可能性完全相等。
正态分布的主要特征有: 1.以总体平均数为中心两侧呈对称分布,即样本平均数大于或小于总体平均数的概率完全相等,就是说样本平均数的正离差与负离差出现的可能性完全相等。 2.样本平均数越接近总体平均数,其出现的可能性越大;反之样本平均数越远离总体平均数,其出现的可能性越小。这种可能性数学上称为概率F(t),也就是可靠性。与概率对应的数值称为概率度,即抽样误差扩大的倍数,用字母t表示。概率F(t)与概率度t的对应函数关系间图4-7所示。

141 -3t -2t -1t t 2t 3t 68.27% 95.45% 99.73% F(t) 图4-7 正态分布概率图

142 图4-7显示样本平均数与总体平均数的平均误差不超过1μ的概率为0. 6827,不超过2μ的概率为0. 9545,不超过3μ的概率为0
图4-7显示样本平均数与总体平均数的平均误差不超过1μ的概率为0.6827,不超过2μ的概率为0.9545,不超过3μ的概率为0.9973。即: 当t=1时,F(t) = 当t=2时,F(t) = 当t=3时,F(t) = 概率度t与概率F(t)的对应关系是:概率F(t)越大,则概率度t值越大,估计的可靠性越高,样本统计量与总体参数之间正负离差的变动范围也越大。对于t每取一个值,概率保证程度F(t)有一个唯一确定的值与之对应。因此人们制定«正态分布概率表»(见书后附页)供大家查找。

143 二、抽样极限误差 (一)抽样极限误差的概念 用样本统计量估计总体参数会产生抽样误差,两者完全相等的情况几乎是不可能的。抽样极限误差就是指样本统计量和总体参数之间抽样误差的可能范围。由于总体参数是唯一确定的值,而样本统计量是(随机)变量,样本统计量围绕总体参数上下变动,它与总体参数产生正离差称为范围上限,产生负离差称为下限,因此我们用样本统计量变动的上限和下限与总体参数构成的区间范围称为抽样极限误差或允许误差,用“∆”表示。 (二)极限误差的计算 在正态分布下,抽样极限误差是t倍的抽样误差,它们之间的数量关系为:抽样极限误差 = 概率度×抽样误差; 用字母表示: ∆ = t · μ 这一公式是计算抽样极限误差的基本公式。

144 (三)平均数的抽样极限误差的计算 1.重复抽样 2.不重复抽样 例,对20000头牛随机抽取1000头调查结果:平均体重 =225千克,标准差Sx = 15千克,概率为0.9545,(查表t=2)求抽样极限误差。

145 (四)成数抽样极限误差的计算 1.重复抽样 2.不重复抽样 例,对10000件产品随机抽取600件检测结果有废品48件,在概率为0.9545(查表t=2)条件下求成数抽样极限误差。

146 三、总体参数的估计 总体参数的抽样估计有点估计和区间估计两种方式: (一)点估计 点估计也称定值估计,它是直接用样本平均数代替总体平均数或样本成数代替总体成数。用字母表示为: ; p≈P。点估计不认为 ,而是认为 在点估计值 的附近。 1.总体平均数的点估计 例,对一批电子元件随机抽取100件作使用寿命检验,检验结果见表4-10,要求对该批元件使用寿命组出点估计。

147 据此,估计该批元件平均使用寿命约为1055.5小时。 使用寿命(小时) 组中值x 元件数(件)f 900以下 875 1 900~950
表 某批电子元件抽样资料 据此,估计该批元件平均使用寿命约为1055.5小时。 使用寿命(小时) 组中值x 元件数(件)f 900以下 875 1 900~950 925 2 950~1000 975 6 1000~1050 1025 35 1050~1100 1075 43 1100~1150 1125 9 1150~1200 1175 3 1200以上 1225 合 计 100

148 2.总体成数点估计 例,仍按上例资料,规定使用寿命为1000小时及以上者为合格品,则该批元件合格率约为:p = 91/100 = 0.91即91%。 3.总体方差的点估计 仍用上例资料估计总体方差约为: 再如,某市随机抽取4000名居民,调查收视晚间新闻节目的观众有1600名,则全市居民晚间新闻节目收视率约为: 1600/4000 = 0.4 即40% 4.总体总量的直接推算法 用样本平均数乘以单位数可得总体总量。 例如,从1000棵树苗中随机抽取100棵,成活率为96%,则1000棵树苗中约为1000×96% = 960棵成活。

149 (二)区间估计 1.区间估计的概念 区间估计是在一定概率论保证下用样本统计量和抽样误差估计总体参数可能范围的推断方法。 区间估计在用样本统计量估计总体参数时,用某一个区间范围的数值作为总体参数的估计值,并说明总体参数落在这一区间的可能性(概率)有多大,统计称这一区间为置信区间。置信区间两端点数值称为置信上限和置信下限。总体参数落在置信区间内的概率称为可靠程度。区间估计就是根据样本统计量确定置信区间和可靠程度。 2.区间估计的步骤 (1)抽取样本,计算样本平均数和标准差,计算抽样误差。 (2)根据给定概率查找概率度。 (3)根据概率度和抽样误差,计算极限误差。 (4)根据样本平均数和极限误差确定置信区间的上、下限。

150 例:某元件厂从10000只中随机抽取100只检测使用寿命规定寿命在950小时以上者为合格品,检测结果见表4-11。
表 件产品检测数据 在概率0.92(t=1.75)保证程度下估计平均使用寿命和合格品率。 使用寿命 (小时) 组中值x 元件数f 950以下 900 3 2700 -157 73947 950~1050 1000 41 41000 -57 133209 1050~1150 1100 52 57200 43 96148 1150以上 1200 4 4800 143 81796 合 计 100 105700 385100

151 (一)平均数的估计 1.平均寿命 2.标准差 3.不重复抽样误差 4.极限误差 概率度0.92与表中0.9199最接近,可用t=1.75。 5.区间估计 即 ~ 小时之间,其概率保证为92%。

152 (二)成数的估计 1.合格率 2.标准差 3.抽样误差 4.极限误差 5.区间估计 ≤P≤ 即合格率在:94.025%~99.975%之间,概率保证为92%。

153 四、样本容量的确定 确定样本容量是制定抽样调查方案中的一个非常重要的问题。这是因为样本容量的大小直接影响到抽样估计效果。如果样本容量太小,就会降低样本对总体的代表性,从而降低抽样估计效果;样本过大必然增加人、财、物力的消耗,增加调查成本。 不同的抽样调查组织形式,其样本容量的确定有不同的方法,这里仅以简单随机抽样样本容量的确定为例进行说明。 (一)影响样本容量的因素 1.被研究总体标志变异程度。即总体标准差σ,σ越大样本容量越大; σ越小样本容量越小。 2.允许误差(极限误差)∆大小。∆值大样本容量小; ∆值小样本容量大。 3.概率度t的大小。t值大,把握程度高,样本容量大; t值小,把握程度低,样本容量小。 4.抽取样本单位方法。重复抽样样本容量大于不重复抽样。 5.抽样组织形式。抽样组织形式不同样本容量也不同。

154 (二)简单随机抽样样本容量的计算 样本容量n的确定是由抽样极限误差公式变化而来的,分为重复抽样和不重复抽样两种方法。 1.重复抽样样本容量n的确定 (1)平均数的样本容量 由 得 则 例,某县农户经济调查,已知农户人均月收入标准差 为30元,把握程度为0.9545,允许误差 为5元,计算样本容量。 (2)成数样本容量 例,已知产品合格率为0.97,允许误差(∆p)为0.015(查表t=1.96),要求把握程度为0.95,计算样本容量。

155 2.不重复抽样样本容量计算 (1)平均数的样本容量 例,在上例中已知总体为1000户计算不重复抽样样本容量。 若总体为2000户则样本容量为: (2)成数的样本容量 在实际工作中,由于抽样比例 一般很小,不重复抽样一 般也可用重复抽样公式计算样本容量。

156 本节小结: (一)统计量是由样本计算的,它可用来估计总体参数。 (二)参数估计的重要问题是概率度,它表明估计值对真值有多大的可靠程度。 (三)总体参数的置信区间可以通过以总体均值 (或成数P)为中心的正态曲线面积中读出(查正态概率分布表)。这只能对大样本适用(n=100)。

157 第五章 统计对比与因素分析 学习要点 一、理解相对指标的概念、表现形式和应用相对指标要注意的问题。
第五章 统计对比与因素分析 学习要点 一、理解相对指标的概念、表现形式和应用相对指标要注意的问题。 二、熟练掌握五种相对指标的特点和计算方法。 三、理解统计指数的概念,明确指数的作用和种类。 四、理解并熟练掌握综合法指数、平均法指数、指数体系的编制方法和因素分析与推算。 五、理解并初步掌握均值指数的概念、计算、编制和因素分析。

158 人们通过日常的业务核算、会计核算和统计核算获得了大量的数据资料,这些数据表明社会经济的现实状况。要评价现实状况是优是劣,必须进行统计对比和因素分析,对现实状况作出全面评价,对未来决策提供参考依据。常用的方法有统计相对数与统计指数。 第一节 统计相对数 一、统计相对数的概念和作用 (一)统计相对数的概念 统计相对数通常是指两个有联系的数据之比,用来反映相关现象之间的数量关系。在我国社会经济统计中常称这类比值为相对指标。其基本计算公式为:

159 例如, 这里的基数50是对比的标准数据,从数理上讲它就是100份或整体1。比数60比基数50多0.2份或20%,即1.2–1 = 0.2 或120% = 20,在相减关系中50同样是对比的标准数据。 (二)统计相对数的作用 1.统计相对数是描述质量的指标 如,工作好坏、程度大小、结构优劣、布局状况、进展快慢、发展变化、比例关系等等,都需要用统计相对数来描述。 2.与统计绝对数结合运用 有许多统计绝对数(总量指标)由于受总体规模大小、计量单位不同等因素影响,直接对比难以进行,与绝对数相配合可以解决可比性问题。例如:

160 计算表明甲企业原材料利用率高于乙企业。 二、统计相对数值的计量形式 (一)无名数
甲、乙企业统计资料 计算表明甲企业原材料利用率高于乙企业。 二、统计相对数值的计量形式 (一)无名数 无名数的计量形式有:系数、倍数、成数、百分数、千分数等。系数和倍数是将对比的基数抽象为1;当对比的分子、分母相差不大时,用系数或百分数表示;当分子、分母相差很大时 企业名称 产品产量(吨) 材料消耗(吨) 材料利用率(%) 40 50 80 600 800 75

161 有名数是将分子和分母指标的计量单位结合起来。例如,人均粮食产量用“公斤/人”表示,人口密度用“人/平方公里”表示等。
用倍数或千分数表示;成数是将基数抽象化为10。 (二)有名数 有名数是将分子和分母指标的计量单位结合起来。例如,人均粮食产量用“公斤/人”表示,人口密度用“人/平方公里”表示等。 三、统计相对数的种类和计算原则 按其研究目的和对比标准不同,统计相对数可分为:计划完成相对数、结构相对数、比较相对数、动态相对数、比例相对数和强度相对数等。各种相对数的计算方法如下: (一)计划完成相对数 它是同一时期、同一单位实际完成数与计划数对比,用来说明计划完成的程度与进度。一般用百分数表示,故又称计划完成百分数。其基本公式是:

162 由于计划指标值有三种形式:绝对数、相对数和平均数所以基本公式具体应用也有三种形式见表5-1。
指标名称 计划数 实际数 完成数% 产品产量(万件) 500 525 105 平均工资(元) 800 840 劳动生产率(%) 10 15 104.5 单位成本(%) 3 5 97.9

163 计划执行进度检查。计划执行进度是从计划期初至检查之日止,累计实践完成数与全期计划数之比。公式如下:
注意:当计划数是比上期增长或降低百分之几的形式出现时,在计算时不能用实际增长或降低率除以计划实际增长或降低率,而应包括原有基数100%在内。这里再一次表明对比基数的重要地位。 对计划完成程度的评价,要根据计划指标的性质和内容而定。反映工作成果的指标是作为最低限度提出的,如产量、产值、销售额等,等于或大于100%为完成或超额完成;而反映人、财、物消耗性指标以最高限额提出,如成本、费用、消耗类指标计划完成程度以等于或小于100%为好。 计划执行进度检查。计划执行进度是从计划期初至检查之日止,累计实践完成数与全期计划数之比。公式如下: 例如,某企业资料如表5-2

164 表5-2 某企业主要产品产量计划执行情况表(单位:万吨)
表 某企业主要产品产量计划执行情况表(单位:万吨) 上表表明,炼铁分厂完成年计划的60%,时间过半,完成任务过半;炼钢和轧钢未完成上半年计划。 (二)结构相对数 结构相对数又称比重、比率或频率,它是总体部分数值与总体全部数值之比,它是在统计分组的基础上计算的。公式如下: 部门 产品名称 年计划数 上半年计划数 下半年计划数 执行进度% (1) (2) (3) (4)=(3)÷(1) 炼铁分厂 生铁 200 100 120 60.00 炼钢分厂 钢锭 80 40.00 轧钢分厂 钢材 140 70 50 35.71

165 计算结构相对数应注意:一是必须以统计分组为基础才能正确反映该总体的结构特征;二是总体的各组成部分结构相对数之和应等于100%。
例如,某市2003年社会商品零售总额为2.5亿元,其中:国有商业1亿元、集体商业0.6亿元、私营商业0.9亿元。则结构相对数为: 国有商业比重 = 1/2.5×100% = 40% 集体商业比重 = 0.6/2.5×100% = 24% 私营商业比重 = 0.9/2.5×100% = 36% (三)比较相对数 它是在同一时期不同空间条件下两个同类现象指标值之比。其分子和分母位置可以互换。 例,某年甲市工业总产值500亿元,乙市工业总产值400亿元则:

166 它是总体中部分与部分对比的比值,公式如下:
比较相对数 = 500/400×100% = 125% 或 比较相对数 = 400/500×100% = 80% (四)比例相对数 它是总体中部分与部分对比的比值,公式如下: 例,某地2003年,第一、二、三产业增加值分别为376.3亿元、 496.2亿元、 687.5亿元,其比例相对数为: 376.3:496.2:687.5 = 1:1.32:1.83 (五)动态相对数 它是同一现象不同时间是两个数值对比,对比基数称为基期,比数称为报告期,表明现象在时间是发展变化。因此,动态相对数也称为发展速度。其公式如下:

167 例,2003年某地工业增加值为31586万元,2002年为24089万元,则2003年为2002年的发展速度:31586/24089=1
例,2003年某地工业增加值为31586万元,2002年为24089万元,则2003年为2002年的发展速度:31586/24089=1.31或131%。 动态相对数的作用是说明现象在时间上的发展变化,因此基期的选择要根据统计研究目的来确定。 (六)强度相对数 它是两个性质不同而又有联系的两个不同总体总量指标对比,用来说明现象的强度、密度、利用程度和普遍程度。其计算公式为: 强度相对数的计量单位一般用对比的分子与分母原有的计量单位结合起来表示,即复名数。 例,某地区本年GDP为480亿元,公民600万人,土地2万平方公里。则: 人均GDP = 480亿元/600万人 = 8000元/人 人口密度(正)= 2万平方公里/600万人 = 平方公里/人 人口密度(逆)= 600万人/2万平方公里 = 300人/平方公里

168 本节小结: (一)在明确六个相对数的概念、特点和计算方法后可用对比法小结如下: (二)强度相对数与平均数的区别 强度相对数虽然带有平均的意思,但它不是统计平均数。两者区别是: 分 类 指 标 名 称 对 比 特 点 同一总体 内部之比 计划完成相对数 实际与计划对比,子母项不可对调。 比例相对数 总体内部分间对比,子母项可对调。 动态相对数 同指标异时间对比,子母项不可调。 结构相对数 各部分与总体对比,子母项不可调。 两个总体 之间对比 比较相对数 同指标异空间对比,子母项可对调。 强度相对数 异总体异指标对比,子母项可对调。

169 1.概念不同 统计平均数是同一总体内的标志值总量与总体单位总量对比,即: 这里,标志值是总体单位上数量特征的表现,它们是一一对应属于同一总体;而强度相对数则是两个性质不同而又有某种联系的总体总量对比,即: 2.作用不同 统计平均数是反映总体各单位某一变量的各变量值一般水平的代表值;而强度相对数则是反映某现象在另一现象中的强度、密度、利用程度和普遍程度。

170 第二节 统计指数的概念和种类 一、统计指数的概念
第二节 统计指数的概念和种类 一、统计指数的概念 与数学上的指数函数的概念完全不同,这里的统计指数是一种“经济指数”,运用统计指标可以分析研究许多社会经济问题。因此,统计指数的涵义是指用来反映社会经济现象中多种不能直接相加与对比的复杂总体综合数量平均变动的动态相对数。 二、统计指数的作用 (一)统计指数可以说明复杂总体的综合变动 统计指数不仅能反映不能直接相加的多种产品产量或商品销售量(数量指标q)的总变动,还能反映不能直接相加的多种产品成本或商品价格(质量指标p)的总变动。 (二)统计指数可以测定和分析现象各因素变动对总变动的影响方向和程度 如,利用统计指数可以分别测定商品销售量和商品价格变动对商品销售额变动的影响方向和程度。

171 三、统计指数的种类 (一)统计指数按反映对象的范围不同,分为个体指数和总指数 1.个体指数 个体指数是说明单项事物变动的相对数,如某种产品实物量、价格和成本等。其公式为: 2.总指数 总指数是综合说明多种社会经济现象变动程度的相对数。如,工业产品产量指数、物价指数等等。它可分为综合法总指数和平均法总指数。 (二)统计指数按反映指标性质不同,分为数量指标指数和质量指标指数

172 1.数量指标指数 它是指反映社会经济现象总量指标变动的相对数。如,产品产量指数、商品销售量指数等等。 2.质量指标指数 它是指反映社会经济质量变动的相对数。如,物价指数、成本指数、劳动生产率指数等等。 本节小结: 数量指标指数 个体指数 质量指标指数 统计 数量指标指数 指数 综合法指数 总指数 平均法指数 算术平均法指数 调和平均法指数

173 第三节 综合法总指数的编制 一、综合法总指数的概念和特点 (一)综合法总指数的概念
第三节 综合法总指数的编制 一、综合法总指数的概念和特点 (一)综合法总指数的概念 综合法总指数是总指数的基本形式,它是由两个总量指标对比形成的动态相对数。凡是一个总量指标可以分解为两个或两个以上因素指标时,将其中一个或一个以上的因素指标固定下来,仅观察另一个因素指标的变动程度,这样的总指数称为综合法总指数。例如,两个不同时期农副产品收购额的增减,既受各种农副产品收购量的影响,又受收购价格变动的影响,为了单独观察农副产品收购价格总的变动程度,就需要将各种农副产品收购量固定下来,把两个不同时期农副产品收购额的数值转化为两个能同度量的数值,然后再对比,求得能说明农副产品收购价格总变动的动态相对数。此时,所采用的综合法总指数公式为: (1)

174 综合法总指数所采用的综合指数公式有两个因素:指数化因素和同度量因素。指数化因素是指计算综合指数所反映变动的那个因素,如上式中的价格因素p;同度量因素是指把不能直接对比的总量数值转化为能对比的总量数值,如上式中所采用的报告期收购量q1。 (二)综合法总指数的特点 1.先综合后对比 首先要确定同度量因素,把不能同度量现象转化为可同度量,才能反映现象的总变动。 2.固定同度量因素的时期 在两个或两个以上因素中把同度量因素固定在同一时期。 3.指数的分子、分母统计范围应一致 二、综合法总指数编制原则和步骤 (一)确定同度量因素 如表5-3所示,计算销售量总指数。

175 必须把同度量因素固定在同一时期才有可比性,关于固定在基期还是报告期要根据研究目的来确定。 商品 单 位 销售量 价格(元) 销售额(万元)
表 某商场三种商品销售量和价格资料 因为三种商品使用价值、计量单位各异,不能直接相加,我们通过价格、销售量、销售额三者关系,分别将每种商品价格乘以销售量得到每种商品销售额即可相加和对比,这里的价格是同度量因素。 (二)固定同度量因素的时期 必须把同度量因素固定在同一时期才有可比性,关于固定在基期还是报告期要根据研究目的来确定。 商品 销售量 价格(元) 销售额(万元) 基期 报告期 假定 q0 q1 p0 p1 q0 p0 q1 p1 q1 p0 400 600 250 200 10 12 15 5000 6000 40 36 20 21.6 24 180 500 10.8 9 合计 44.4 48

176 (三)对比计算 这里的研究目的是计算三种商品销售量总指数,即: 综合法总指数分为数量指标指数和质量指标指数,现分别介绍如下。 三、数量指标综合法总指数 表5-3中的销售量是数量指标,其综合法总指数的计算是: 计算表明三种商品销售量总指数综合上升20%。 由于销售量综合上升使销售额增加的绝对额为: 这里的 具有双重含义:1.说明销售量的变动方向和程度。2.说明由于销售量变动引起销售额变动方向和程度。

177 这里销售量是指数化指标,价格是同度量因素固定在基期。一般地,凡是编制数量指标综合法总指数,均应以相应的质量指标作为同度量因素固定在基期。
四、质量指标综合法总指数 表5-3中价格是质量指标,其综合法总指数的计算是: 计算表明三种商品价格总指数综合下降7.5% 由于商品价格下降引起销售额变动的绝对额为: 这里, 具有双重含义:1.说明价格变动方向和程度。2.说明由于价格变动引起销售额变动方向和程度。 一般地,凡是编制质量指标综合法总指数,均应以相应的数量指标作为同度量因素固定在报告期。

178 本节小结: 同度量因素的作用 (一)同度量作用:使不能直接相加、直接对比的多种不同现象变为能够直接相加、直接对比。 (二)权数作用 1.数量指标总指数,选择基期质量指标作同度量因素。 2.质量指标总指数,选择报告期数量指标作同度量因素。 3.销售量是数量指标,价格是质量指标。

179 第四节 指数体系及其因素分析 一、指数体系的概念和作用 (一)指数体系的概念
第四节 指数体系及其因素分析 一、指数体系的概念和作用 (一)指数体系的概念 社会经济现象的数量变动,常取决于两个或两个以上因素的共同作用。因此,在分析现象的变动时,应考虑各个因素和总体之间的内在联系,编制相互联系的若干个指数组成指数体系。指数体系是指反映社会经济现象总体变动的指数和反映各个因素变动的指数之间所具有的相关联系构成的整体。 指数体系从相对数来看,各个因素指数乘积应等于总体变动指数;从绝对数来看,各个因素指数的分子与分母差额之和应等于总体变动指数分子与分母的差额。例如: 商品销售量×商品价格 = 商品销售额 q × p = qp 其指数体系相对数为:

180 销售量指数×价格指数 = 销售额指数 其指数体系绝对数为: 销售量影响差额 + 价格影响差额 = 销售额变动差额 类似这种因果关系的还有下列经济关系式: 总产值 = 产品价格 × 产品产量 总成本 = 单位成本 × 产品产量 总消耗量 = 单位消耗 × 产品产量 粮食总产量 = 单位产量 × 播种面积 资本金总市值 = 股票价格 × 股票发行量 质量数据 数量数据 这种经济关系式还可以列出很多,它们的动态关系式都可构成指数体系。

181 (二)指数体系的作用 1.利用指数体系进行因素分析 被研究总体的变动受多个因素变动的影响,可通过指数体系分析各个因素变动对总体变动的影响。如,利用指数体系可以测定在商品销售额的总变动中,销售量的变动和价格的变动对销售额变动的影响方向和程度。 2.利用指数体系进行因素推算 利用指数间的经济关系可进行估计推算,根据指数体系中已知项推算未知项。如:价格指数 = 销售额指数÷销售量指数 二、指数体系的两因素分析 指数体系因素分析有两因素分析和多因素分析,这里仅介绍两因素分析。 , ,

182 2.相对数关系: 总体指标指数 = 数量指标指数 × 质量指标指数 3.绝对数关系: 总体指数子母差额=数量指数子母差额+质量指数子母差额 根据表5-3资料具体计算如下: 第一步,计算三个指数。

183 第二步,建立指数体系。 相对数关系:111% = 120% × 92.5% 绝对数关系:4.4万元 = 8万元 - 3.6万元 第三步,分析说明。 报告期与基期对比,甲、乙、丙三种商品销售额增长11%,绝对额增加4.4万元 ,是由于三种商品销售量增长20%,使销售额增加8万元 ,而由于三种商品销售量下降7.5%,使销售额减少3.6万元两因素共同作用的结果。

184 本节小结: 综合法指数体系的计算方法 对这些计算公式只要细心观察就会发现只需计算三个数据,而且是被重复使用的。例如: 第一 、第二 、第三 (假定)。 在 和 中,有一个数据是被重复使用的,就是按基期价格计算的报告期产值 在 中作分子,在 中作分母。 利用指数体系进行因素变动推算时也有三种情况,即同升、同降、一升一降。而造成结果只要两种情况即升或降。即:

185 第五节 平均法总指数的编制 一、平均法总指数的概念
第五节 平均法总指数的编制 一、平均法总指数的概念 平均法总指数是通过对个体指数进行加权平均而求得的反映不能直接加总和对比的复杂总体综合变动的总指数。它分为加权算术平均法总指数和加权调和平均法总指数两种情况。 二、加权算术平均法总指数 一般情况下,数量指标综合指数可以变形为加权算术平均法形式计算总指数。它是以数量指标个体指数为变量,以基期价值指标 为进行权数加权算术平均。其公式为: 现以表5-4为例,具体说明如下。

186 表 某商场销售资料 销售量总指数 显然,采用加权算术平均法总指数公式计算的销售量总指数与采用综合法总指数公式计算的结果是一致的,在这种情况下我们把加权算术平均法总指数公式作为综合法总指数公式的变形。 商品 单位 销售量 基期销售额 个体指数 假定销售额 基期 报告期 400 600 10 150 15 5000 6000 20 120 24 200 180 90 9 合计 40 48

187 三、加权调和平均法总指数 一般情况下,质量指标综合法总指数可以变形为加权调和平均法形式计算总指数,即以质量指标个体指数的倒数为变量,以质量指标综合法总指数相应的分子数据为权数,运用调和平均法公式计算总指数。其公式如下: 表 某商场销售资料 商品 单位 价格(元) 报告期销售额 个体指数 假定销售额 基期 报告期 250 200 12 80 15 40 36 21.6 90 24 500 600 10.8 120 9 合计 44.4 48

188 销售价格总指数 显然,采用加权调和平均法总指数公式计算的价格指数与综合法计算的价格指数相同。此时,我们把加权调和平均法看作综合法指数的变形。 本节小结: (一)加权算术平均法总指数 权 权 数 数

189 加权算术平均法总指数是用 对个体数量指标指数
进行加权平均;而加权算术平均数是用频率 对变量值x进行加权平均。 (二)加权调和平均法总指数 权 权 数 数 加权调和平均法总指数,是用 对个体质量指标指数 进行加权平均;而加权调和平均数是用m对变量值倒数 进行加权平均。

190 第六章 时间数列分析 学习要点 一、明确时间数列的概念、作用、种类和编制方法。
第六章 时间数列分析 学习要点 一、明确时间数列的概念、作用、种类和编制方法。 二、明确序时平均数的概念,划清时期数列与时点数列之间的界限,熟练掌握序时平均数的计算方法。 三、理解并熟练掌握增长量、发展速度、增长速度、增长1%的绝对数、平均发展速度和平均增长速度的意义和计算方法。 四、理解时间数列分析的基本原理,掌握长期趋势和季节变动的测定方法。

191 表6-1 某企业某上半年统计资料(单位:万元)
第一节 时间数列的概念和种类 一、时间数列的概念 时间数列是指同类现象的观察值按其发生的时间先后顺序排列而形成的数列。也称为动态数列。 社会经济现象总是随着时间的推移而变化,从动态上反映其发展变化过程及规律性。统计对现象进行动态研究的基本方法是编制时间数列。 时间数列的特点是:时间数列总是以现象数据本身的时间因素作为排序单位,反映时间变化与数量变化的相互对应关系。因此,现象所属时间和该现象的统计数据成为时间数列构成的两个基本要素。如表6-1和表6-2所示。 表 某企业某上半年统计资料(单位:万元) 月份 一月 二月 三月 四月 五月 六月 月增加值 30 32 34 36 38 月利税额 4 5 6

192 时间要素按反映时间单位不同可分为年、季、月、日等。 二、时间数列的作用 (一)具体描述变量值发展变化过程、状态。
表 某企业某上半年统计资料 时间要素按反映时间单位不同可分为年、季、月、日等。 二、时间数列的作用 (一)具体描述变量值发展变化过程、状态。 (二)可以分析研究变量值的发展趋势和发展速度,为统计预测和决策提供依据。 (三)评价当前,安排未来。 三、时间数列的种类 时间数列按数据的表现形式不同可分为:绝对数时间数列、相对数时间数列和平均数时间数列三种。其中,绝对数时间数列是基本数列。 月份 一月 二月 三月 四月 五月 六月 月初职工人数(人) 124 126 122 128 月初固定资产额(万元) 60 61 64 70

193 (一)绝对数时间数列 将一系列同类的绝对数按时间先后顺序排列而形成的数列称为绝对数时间数列。按其所反映数据性质分为时期数列和时点数列。 1.时期数列 当数列中数据是反映现象在某一段时间内发展变化过程总量即“过程总量”时,称为时期数列。如表6-1所示。 时期数列的特点主要有: (1)时期数列中各数值可以相加,相加后的数据表示现象在更长时间内发展变化过程总量; (2)时期数列中各数值大小与时间长短有直接关系。一般来讲时间越长数值越大,即具有时间长度; (3)时期数列中各数值一般采用连续登记方法获得。 2.时点数列 当时间数列中数据是反映现象在某一时点上所达到的水平时称为时点数列。如表6-2所示。

194 时点数列的主要特点有: (1)不可加性。即时间数列中各时点上的同一空间的数值不具有可加性。由于时点数值显示的是现象在某一时点(或时刻)上所处的状态或水平,因而将各时点上的数值相加无法说明这个数值是属于哪一个时间状态上的水平。除了在不同空间上或在计算过程中可以相加外,一般相加无实际意义。 (2)不具有时间长度。时点数列的各数值只表明现象在某时点上的数量与时间长度无直接关系。 (3)采用间断调查。因为时点数列反映现象在各时刻上的数量,只要登记在各时刻上的数量就可以取得该时点上的资料。 时期数也称流量;时点数也称存量。流量和存量是社会经济核算中两个非常重要的概念,两者是紧密联系的。期初存量是本期流量运行的条件,而期末存量又是本期流量运行的结果,同时又是下期流量运行的条件。 (二)相对数时间数列 将一系列同类相对数值按时间先后顺序排列而形成的时间数列称为相对数时间数列。相对数时间数列中各数值不能相加。

195 例如,某家电厂产品在本市同行业中产量和销售市场占有情况如表6-3所示。
表 某家电厂市场占有情况(单位:%) 表中资料表明: 1.2001年该厂产品竞争能力强,市场销售占有率大于生产占有率。 2.2002年该厂产品竞争能力迅速下降,市场销售占有率与生产占有率大体相当。 3.2003年该厂产品竞争能力丧失,面临停产危险。 因为统计相对数有六种,所以相对数时间数列也有六种情况,如表6-4所示。 年 份 2001 2002 2003 产量占市场比重 25.5 26.2 26.8 销售市场占有率 30.2 26.0 17.4

196 表6-4 相对数时间数列的六种情况(单位:%)
表 相对数时间数列的六种情况(单位:%) (三)平均数时间数列 将一系列同类平均数按时间先后顺序排列而形成的时间数列称为平均数时间数列。数列中各数值不能相加。见表6-5所示。 表 某商场销售资料(单位:万元) 指标名称 2001 2002 2003 2004 种类 计划执行情况 106 110 104 108 计划 工程竣工率 20.5 32.4 43.1 52.7 结构 生产人员比重 128 142 135 124 比例 两乡产量比较 85 88 90 93 比较 人均保健医生 3 4 6 强度 产值发展速度 101 98 动态 时 间 一季度 二季度 三季度 四季度 平均销售额 800 850 860 900

197 四、时间数列编制原则 保证数列中各数值的可比性是编制时间数列应遵循的基本原则。 (一)时间长短应一致 时间数列中各数值与时间长度有直接关系,所以同一时间数列中各数值所属的时间长度应当一致。 (二)总体范围应一致 时间数列中各数值与所属总体空间范围有直接关系,所以同一时间数列中各数值所属的总体范围应当一致。 (三)经济内容应一致 时间数列中各数值与所属经济内容即指标名称应当一致,才能具有可比性。 (四)计算方法应一致 时间数列中各指标的计算方法应当一致,才能具有可比性。 (五)计算价格和计量单位应一致 时间数列中各指标的价格和计量单位应一致,才有可比性。

198 第二节 时间数列的水平指标 时间数列的水平指标有:发展水平、平均发展水平、增长量、平均增长量等。 一、发展水平
第二节 时间数列的水平指标 时间数列的水平指标有:发展水平、平均发展水平、增长量、平均增长量等。 一、发展水平 时间数列中各指标值称为发展水平。它可以是绝对数也可以是相对数或平均数。 时间数列中第一个指标值称为最初水平用a0表示,最后一个指标值称为最末水平用an表示,其余各指标值称为中间水平用a1 ,a2 ,a3…, an-1表示。 二、平均发展水平 平均发展水平是对时间数列中各指标值进行平均而得到的平均值,又称序时平均数或动态平均数。 由于时间数列中各指标值性质不同,所以序时平均数的计算方法也不同。 (一)绝对数时间数列序时平均数的计算

199 表6-6 时期数列序时平均数计算表(单位:万元)
1.由时期数列计算序时平均数 由于时期数列中各指标值可以直接相加,所以由时期数列计算序时平均数可采用简单算术平均法。其公式为: 用字母表示为: 如某企业资料如表6-6,计算月均增加值和月均利税额。 表 时期数列序时平均数计算表(单位:万元) 月份 1月 2月 3月 4月 5月 6月 合计 增加值 30 34 36 40 204 利税额 4 5 6

200 表6-7 连续时点数列序时平均数计算表(单位:人)
2.由时点数列计算序时平均数 (1)根据连续时点数列计算序时平均数 ①如果每日资料都掌握可采用简单算术平均法计算序时平均数。如某车间一周内工人出勤情况见表6-7,求平均出勤人数。 表 连续时点数列序时平均数计算表(单位:人) ②如果掌握各时间段连续时点资料,可用时间段长度为权数进行加权平均。其公式为: 时间 星期一 星期二 星期三 星期四 星期五 合计 人数 105 96 102 100 505

201 例如,某企业六月份职工人数变动资料如表6-8,求职工平均人数。
表 某企业六月份职工平均人数计算表 (2)间断时点数列序时平均数的计算 ①间隔相等间断时点数列序时平均数的计算 首先将期初值加期末值除以2得出本期平均值,然后将各时段平均值相加除以间隔期数则得该时点数列的序时平均数。 日期 日数f 人数a af 1~8 8 500 4000 9~15 7 510 3570 16~25 10 520 5200 26~30 5 516 2580 合 计 30 15350

202 例如,某企业资料如表6-9,求平均职工人数及平均固定资产额。
表 某企业上半年统计资料 其计算公式为:平均数=(期初数+期末数)/2 在这里,可将本月期初数当作上月期末数,因为本月初与上月末这两个时点一般是同一数值。同理,可将本月期末数当作上月期初数。因此,各月平均数如下: 1月平均人数 = ( )/2 = 125(人) 2月平均人数 = ( )/2 = 125(人) 3月平均人数 = ( )/2 = 123(人) 4月平均人数 = ( )/2 = 124(人) 5月平均人数 = ( )/2 = 127(人) 6月平均人数 = ( )/2 = 126(人) 月 份 1月 2月 3月 4月 5月 6月 7月 月初职工数 (人) 124 126 122 128 月初固定资产额(万元) 60 61 64 70

203 将上面6个平均数相加除以6则得上半年内平均月人数:
( )/6 = 125(人) 用综合式可导出简捷公式: 将上式用字母表示为: 此公式称为“首末折半法”,只适用于间隔相等间断时点数列求序时平均数。 上半年平均月固定资产额为:

204 可用相邻时点的间隔长度为权数,对各相应平均水平加权进行序时平均。其公式为:
②间隔不等间断时点数列计算序时平均数 可用相邻时点的间隔长度为权数,对各相应平均水平加权进行序时平均。其公式为: 例如,某企业2003年职工人数资料如表6-10,计算平均数。 表 某企业2003职工人数资料 此公式是假定相邻时点间数值变动均匀,因此其计算结果只能是近似值。 时 间 1月1日 4月1日 7月31日 12月31日 职工数(人) 500 560 580 600

205 (二)相对数时间数列的序时平均数 先计算相对数分子数列的序时平均数,再计算相对数分母数列的序时平均数,最后将分子、分母得数进行对比所得比值就是相对数时间数列的序时平均数,计算公式为: 用字母表示为: 1.分子、分母都是时期数采用“简单算数平均法”,公式为: 例如,某企业资料如表6-11,计算月平均利税率。

206 若分子、分母未直接给出时,计算过程如表6-12: 月 份 一月 二月 三月 四月 五月 六月 合 计 利税额a 4 5 6 30 增加值b
表 某企业资料(单位:万元) 因为, 则, 若分子、分母未直接给出时,计算过程如表6-12: 表 某企业计划执行情况 月 份 一月 二月 三月 四月 五月 六月 合 计 利税额a 4 5 6 30 增加值b 34 36 40 204 月 份 一月 二月 三月 合 计 计划完成程度(%)a 90 110 120 320 计划产量(件)b 600 700 720 2020

207 2.分子、分母都是间隔相等时点数则分子、分母都采用“首末折半法”,计算过程如表6-13:
求第一季度平均月计划完成程度。 一月实际产量 = 600×90% = 540(件) 二月实际产量 = 700×110% = 770(件) 三月实际产量 = 720×120% = 864(件) 代入公式得: 2.分子、分母都是间隔相等时点数则分子、分母都采用“首末折半法”,计算过程如表6-13: 表 某企业资料 因为, 月 份 1月 2月 3月 4月 5月 6月 7月 月初固定资产额(万元)a 60 61 64 70 月初职工数(人)b 124 126 122 128

208 若分子、分母为间隔不等时点数列时,计算过程如表6-14:
则: 若分子、分母为间隔不等时点数列时,计算过程如表6-14: 表 某企业资料(单位:人) 求该企业临时工比重。 因为, 时间 1月1日 5月31日 7月1日 10月31日 12月31日 正式工 700 710 720 740 临时工 8 10 12 20 24

209 月份 1月 增加值(万元)a 36 30 34 40 — 月初职工数(人)b 124 126 122 128
3.分子数列是时期数用“简单算术平均法”,分母数列是时点数用“首末折半法”,计算过程如表6-15: 表 某企业资料 求平均月劳动生产率。 因为, 则: 综上,它们的计算原则都是相同的,即根据资料先分别计算分子( )、分母( )序时平均数,最后二者对比 得出相对数时间数列序时平均数。 月份 1月 2月 3月 4月 5月 6月 7月 增加值(万元)a 36 30 34 40 月初职工数(人)b 124 126 122 128

210 平均数时间数列与相对数时间数列一样,也不能直接计算序 时平均数,必须先计算分子、分母数列序时平均数,然后二者对比,公式为:
(三)平均数时间数列计算序时平均数 平均数时间数列与相对数时间数列一样,也不能直接计算序 时平均数,必须先计算分子、分母数列序时平均数,然后二者对比,公式为: 用字母表示为: 例如,某企业资料如表6-16。 表 某企业资料 求平均单位成本。 时间 一季度 二季度 三季度 四季度 产量(只)b 366 324 382 402 单位成本(元)c 122.8 136.1 118.5

211 因其分子、分母为时期数,则均采用“简单算术平均法”:
因 ,则a=bc,其具体计算见表6-17。 表 某企业资料 因其分子、分母为时期数,则均采用“简单算术平均法”: 若数列中为时期数可采用“简单算术平均法”,如表6-18。 表 某企业资料 时 间 一季度 二季度 三季度 四季度 合计 产量(只)b 366 324 382 402 1474 单本(元)c 122.8 136.1 118.5 123.44 总本a = bc 45267 47637 季 度 一季度 二季度 三季度 四季度 平均产量(吨) 230 270 280 260

212 若时期间隔不等,可采用“加权算术平均法”,如表6-19。
表 某年某旅游区游客资料 三、增长量和平均增长量 (一)增长量 它是用报告期水平减基期水平表明增减的绝对量。如果增长量为正值表示增加,若为负值表示减少。 如某钢铁厂2003年钢产量为378万吨,2002年钢产量为360万吨,则增长量为: = 18(万吨)。 因采用基期不同,增长量分为:逐期增长量和累计增长量。 1.逐期增长量 用前一期水平为基期,逐期相减。 时 间 1月 2~3月 4~8月 9~11月 12月 平均人数(万人) 10 13 16 14

213 累计增长量等于同时期内各逐期增长量之和。用字母表示为: 。 如表6-20中:178(万吨)= 40+60+40+20+18 年 份 1998
2.累计增长量 它是以固定时期为基期。 具体计算见表6-20。 表 某钢厂钢产量资料(单位:万吨) 3.逐期增长量与累计增长量的关系 累计增长量等于同时期内各逐期增长量之和。用字母表示为: 。 如表6-20中:178(万吨)= 年 份 1998 1999 2000 2001 2002 2003 字 母 a0 a1 a2 a3 a4 a5 钢 产 量 200 240 300 340 360 378 逐期增长量 40 60 20 18 累计增长量 100 140 160 178

214 同时,累计增长量与逐期增长量的关系还表现为:相邻两个累计增长量之差,等于相应时期的逐期增长量。即:
如表6-20中,2003年逐期增长量 = = 18(万吨)。 (二)平均增长量 它也是一种序时平均数,它是各逐期增长量之和除以增长量个数或累计增长量除以时间项数减一。公式为: 根据表6-20分别计算如下:

215 平均数 分子、分母是流量,用流量公式计算; 动 态 分子、分母是存量,用存量公式计算。
本节小结: 流量(时期)数列 绝对数 连续时 每天流量 动 态 存 量 点数列 阶段流量 数 列 (时点) 间隔相等 数 列 间隔时 序 点数列 间隔不等 平 分子、分母流量 均 相对数 数 动 态 分子、分母存量 数 列 子流量、母存量 平均数 分子、分母是流量,用流量公式计算; 动 态 分子、分母是存量,用存量公式计算。

216 第三节 时间数列的速度分析 时间数列的速度分析是动态相对数和平均数的具体应用,它是从相对数和平均数的角度来分析社会经济现象的发展速度和增长幅度。主要包括:发展速度、增长速度、平均发展速度和平均增长速度。 一、发展速度 发展速度是用报告期水平与基期水平对比所得的动态相对数。反映社会经济现象发展变化程度,计算公式为: 由于选择基期不同,分为环比发展速度和定基发展速度。 (一)环比发展速度 环比发展速度是用报告期水平与其前一期水平对比所得的动态相对数,表明现象逐期发展变化程度,其公式为:

217 定基发展速度是用报告期与某一固定基期水平对比所得的动态相对数,表明现象在一段时期内发展变化的总速度,定基发展速度又称总速度。公式为:
例,计算速度指标见表6-21。 表6-21 发展速度计算表 (二)定基发展速度 定基发展速度是用报告期与某一固定基期水平对比所得的动态相对数,表明现象在一段时期内发展变化的总速度,定基发展速度又称总速度。公式为: 年 份 1998 1999 2000 2001 2002 2003 符 号 a0 a1 a2 a3 a4 a5 产量(万吨) 200 240 300 340 360 378 环比发展速度% 120 125 113.33 105.88 105 定基发展速度% 100 150 170 180 189 环比增长速度% 20 25 13.33 5.88 5 定基增长速度% 50 70 80 89

218 (三)环比发展速度与定基发展速度的关系 1.定基发展速度等于同时期内各环比发展速度连乘积。即: 例如,189% = 120%×125%×113.33%×105.88%×105% 2.两个相邻时期的定基发展速度之商等于相应时期的环比发展速度。即: 例如,105% = 189%÷180% 二、增长速度 它是扣除基数后的变动程度,表明现象上升和下降的相对程度。公式为: 由于选择基期不同可分为环比增长速度和定基增长速度。

219 (一)环比增长速度 它是把前一期水平作基期进行对比,表明现象逐期增长或降低程度。公式为: (二)定基增长速度 它是把固定基期水平作基期进行对比,表明现象在较长时期内总的增长或降低程度,又称总增长速度。公式为: 这里,定基增长速度不等于各环比增长速度连乘积,两者不能相互推算。变为发展速度后方可相互推算。

220 三、平均发展速度 它也是序时平均数,它是各环比发展速度的平均数。它可采用几何平均法和方程式法,这里只介绍几何平均法。 几何平均法是各环比发展速度连乘积(或定基发展速度)开n次方,公式为: 三个公式实质是一样的,在应用时可根据已知资料的不同选择使用。 例如,根据表6-21资料计算如下: 四、平均增长速度

221 增长量是现象的水平分析,增长速度是现象的速度分析,增长1%绝对数是水平分析和速度分析的结合运用。公式为:
五、增长1%的绝对数 增长量是现象的水平分析,增长速度是现象的速度分析,增长1%绝对数是水平分析和速度分析的结合运用。公式为: 其计算如表6-22。 表 增长1%绝对数计算表 增长1%的绝对数是绝对指标与相对指标的结合运用。 厂名 基期产值(万元) 报告期产值(万元) 发展速度% 增长速度% 增长量(万元) 400 440 110 10 40 13 130 30 3

222 本节小结:时间数列水平指标与速度指标总结归纳如表6-23。 年 份 1999 2000 2001 2002 2003 计 算 公 式
表 某公司钢材产量资料(单位:万吨) 年 份 1999 2000 2001 2002 2003 计 算 公 式 发展水平 产量 120 125 140 150 200 增长量 逐期 5 15 10 50 累计 20 30 80 发展速度 环比 104 112 107 133 定基 100 117 167 增长速度 4 12 7 33 17 25 67 增长1%绝对数 1.2 1.25 1.4 1.5

223 速度与水平的关系 增长1%绝对数的含义:高速度不一定是高水平,低速度不一定是低水平。要看清事物真面目,就要将相对数与绝对数结合运用。在实际工作中人们创造了将相对数与绝对数结合起来的好形式—“增长1%的绝对数”的派生指标,它是速度与水平的关系。

224 第四节 长期趋势和季节变动 一、长期趋势分析 长期趋势是时间数列的主要构成因素,是事物受某些根本因素的影响在较长时期内持续发展变化(增加或减少)的一种趋势或状态。 例如,由于“三农”即农业、农村、农民是我国国民经济重中之重,所以我国粮食产量五十多年来呈上升趋势持续发展。 下面介绍几种常用的长期趋势分析方法。 (一)扩大时期法 它是在原时间数列不能明显反映现象发展变化趋势时,将其不同时间单位上的数据加以合并形成一个新的时间数列。例如,某企业2003年资料如表6-24。 表 某企业2003年产量资料(单位:台) 月份 1 2 3 4 5 6 7 8 9 10 11 12 产量 80 85 82 86 84 88 92 94 98

225 表6-24发展趋势不明显,现采用扩大时期法即将时间间隔由月扩大到季得表6-25。
表 某企业2003年季产量资料 表6-25能明显反映该企业产量呈上升趋势。应用扩大时期法应注意两点:其一扩大时期法只适用于时期数列:其二扩大时期后的时期长短要相等。 扩大时期法还可以用序时平均数组成新数列如表6-26。 表 某企业2003季平均产量 表6-26采用序时平均数构成的新数列能明显反映该企业产量呈上升趋势。 季 度 产 量 247 258 263 284 季 度 季平均产量 82.3 86 87.7 94.7

226 表6-27 某企业各季衬衣销售资料(单位:千件)
(二)移动平均法 它从时间数列的第一项开始,按一定项数求序时平均数,然后每次向后推移一项计算一系列序时平均数从而形成一个新的时间数列。通过移动平均使原数列的长期趋势显现。如表6-27。 表 某企业各季衬衣销售资料(单位:千件) 表6-27中资料受季节因素影响长期趋势不明显采用移动平均法可以使长期趋势显现出来。具体方法是每四项求一个平均数,然后每移动一项计算一个平均数,如( )/4 = 4.7。使4.7在表中对准1~4季的正中(即2、3季之间),然后往下移动一季计算出2、3、4、5季的平均数:( )/4 = 4.75。使4.75在表中对准2~5季的正中(即3、4季之间)。全部计算 时 间 一季度 二季度 三季度 四季度 2000年 1.8 8.0 6.0 3.0 2001年 2.0 11.0 7.0 3.5 2002年 2.5 14.0 4.2 2003年 15.2 9.5 5.0

227 如表6-28: 表6-28 四项移动平均计算表(“两项移中”栏为趋势值)
如表6-28: 表6-28 四项移动平均计算表(“两项移中”栏为趋势值) 季节顺序 销售量(千件) 四项移动平均 两项移中 1 1.8 2 8.0 3 6.0 4.73 4 3.0 5.13 5 2.0 5.63 6 11.0 5.82 7 7.0 5.94 8 3.5 6.38 9 2.5 6.88 10 14.0 7.09 11 7.24 12 4.2 7.45 13 7.79 14 5.2 8.08 15 9.5 16 5.0

228 表6-29 三、五项移动平均计算表(2、3栏为趋势值)
三、五项移动平均计算法如表6-29: 表 三、五项移动平均计算表(2、3栏为趋势值) 产量(吨) 三项移动平均 五项移动平均 2 6 4 5 5.2 6.2 9 7 6.6 8 8.2 9.2 12 10 8.6 11 11.2 12.2 15 13

229 (二)最小平方法 对于同一个直线趋势的时间数列,可以配合许多个方程,画出不同的直线,但总有一条最接近原趋势线,可以配合一个最适当的方程式,使实际值(y)与用该方程计算出的趋势值(yt)之间的离差平方和最小,这种方法叫最小平方法。公式为: 直线方程为: yt = a + bt 式中:t —时间序号,可以是年、季、月、日; a —直线在y轴上的截距,即t为零时的y值; b —直线斜率,表示t每增加一个单位时yt的变动值; yt —根据直线方程计算的趋势值。 将yt = a + bt代入 ∑(y-yt)= 最小值,得: 用求函数极值方法可得联立方程:

230 为简化计算,给时间顺序重新赋值使∑t=0。为奇数项时用中间项为原点“0”;偶数项时两个中间项的中点为原点“0”。见表6-30、6-31。
解联立方程求参数a、b值: 为简化计算,给时间顺序重新赋值使∑t=0。为奇数项时用中间项为原点“0”;偶数项时两个中间项的中点为原点“0”。见表6-30、6-31。 表 奇数项赋值表 表 偶数项赋值表 时间 t 1 -2 2 -1 3 4 5 时间 t 1 -5 2 -3 3 -1 4 5 6

231 当以上两种情况出现时,∑t=0。 原方程: ∑y = na+b∑t 简化为 ∑y = na ∑ty = a∑t+b∑t ∑ty = b∑t2 因此,a、b两个参数的计算公式为: 这样处理,可以简化计算过程。以表6-32为例,它是奇数项数列,以中间项即1998年为原点计算过程如下。

232 表 最小平方法计算表(奇数项) 年份 t y ty t2 Yt 1993 -5 2.1 -10.5 25 2.142 1994 -4 2.3 -9.2 16 2.239 1995 -3 2.5 -7.5 9 2.336 1996 -2 2.6 -5.2 4 2.433 1997 -1 2.4 -2.4 1 2.530 1998 2.627 1999 2.724 2000 2 2.8 5.6 2.821 2001 3 3.0 9.0 2.918 2002 3.2 12.8 3.015 2003 5 3.1 15.5 3.112 合计 28.9 10.7 110 28.897

233 将时间序号t依次代入公式可得yt栏数据即趋势值。 以表6-33为例说明偶数项数列计算方法。 年份 t 产量y t2 ty yt 1998
将上表资料代入参数公式得: 将a、b代入直线方程得:yt = t 将时间序号t依次代入公式可得yt栏数据即趋势值。 以表6-33为例说明偶数项数列计算方法。 表 最小平方法计算表(偶数项) 年份 t 产量y t2 ty yt 1998 -5 85.6 25 -428.0 1999 -3 91.0 9 -273.0 90.9 2000 -1 96.1 1 -96.0 96.2 2001 101.2 101.5 2002 3 107.0 321.0 106.8 2003 5 112.2 561.0 合计 593.1 70 186.1 593.2

234 将表中数据代入a、b公式得: 将a、b值代入直线方程得:yt= t 将时间序号依次代入直线方程得yt栏数值,即趋势值。 预测以后各年产量: 2004年产量预测值为:yt= ×7=117.47(万吨) 2005年产量预测值为:yt= ×9=122.79(万吨) 需要注意的是偶数项时间间隔为2因此b=2.66只表示半年产量的平均增加数量。

235 二、季节变动分析 (一)季节变动分析的意义 在经济活动中,常听到“销售旺季”或“销售淡季”;在旅游业中也经常使用“旅游旺季”或“旅游淡季”等等。这些活动因季节的不同而发生变化。 季节变动是指因受自然条件或社会因素的影响,在一年内随着季节的更替而引起的比较有规律的变动。本节将分析现象因季节变动而产生的变化规律。 (二)季节变动的测定 测定季节变动的方法很多,这里只介绍季节指数法,又称月(季)平均法。这种方法是在不考虑长期趋势的影响下,而直接通过计算各月(季)平均数、总平均数,来确定季节比率。通过季节比率可以显示和分析季节变动的规律性。 进行季节变动分析必须占有较长时期的资料,即至少应有三个周期(年度)以上的各月(季)资料,才能测定季节变动。 例如,某地区2000年至2003年各月衬衫销售资料如表6-34。

236 表6-34 某地衬衫销售量季节比率计算表(单位:万件)
表 某地衬衫销售量季节比率计算表(单位:万件) 月份 2000年 2001年 2002年 2003年 四年合计 同月平均 季节比率% 1 2.1 3.8 4.3 4.5 14.7 3.675 37.93 2 2.5 3.7 4.0 14.0 3.500 36.12 3 5.5 8.3 6.5 4.2 24.5 6.125 63.21 4 8.6 10.0 10.6 11.0 40.2 10.050 103.37 5 17.6 19.3 21.9 20.0 78.8 19.700 203.30 6 21.1 25.5 30.3 32.0 108.9 27.225 280.96 7 17.9 21.2 20.5 24.0 83.6 20.900 215.70 8 10.7 11.4 10.8 11.5 44.4 11.100 114.55 9 3.4 7.3 4.9 5.0 20.6 5.150 53.15 10 2.8 14.2 3.550 36.64 11 1.6 2.3 3.5 10.2 2.550 26.32 12 3.0 3.1 2.750 28.38 年合计 95.9 119.2 123.3 126.7 465.1 1200.0 年平均 7.99 9.93 10.28 10.56 38.76 9.69 100.0

237 具体计算如下: (1)求各年同月平均数,如:一月份为14.7÷4 = 3.675,二月份为14÷4 = 3.5,… (2)求全部数据总平均数,如:465.1÷48 = 或38.76÷4 = 9.69。 (3)用各年月平均数除以总平均数得季节比率,见表6-34中最后一列。 表中数据表明:季节比率各月平均数为100%,全年12个月合计为1200%(按季计算为400%)。以大于或小于100%分为经营活动的“淡”季、“旺”季。该地衬衫销售量旺季是4~8月,其中6月是最旺季,11月是最淡季。 再如,某地区游客人数资料如表6-35,试计算游客人数季节比率,为该地区接待工作提供依据。

238 表6-35 某地游客人数季节比率计算表(单位:十万人)
表 某地游客人数季节比率计算表(单位:十万人) 第一步,计算各年同季平均数和总平均数: 一季平均 = ( )÷4 = 2.325(十万人) 二季平均 = ( )÷4 = 2.325(十万人) 三季平均 = ( )÷4 = 2.325(十万人) 四季平均 = ( )÷4 = 2.325(十万人) 总平均数 = ∑季平均数÷4 = ( )÷4 = (十万人)。 一季 二季 三季 四季 年平均数 2000年 1.8 8.0 6.0 3.0 4.7 2001年 2.0 11.0 7.0 3.5 5.875 2002年 2.5 14.0 4.2 7.175 2003年 15.2 9.5 5.0 8.175 各季平均数 2.325 12.05 7.625 3.925 6.481 季节比率% 35.87 185.93 117.65 60.56 100.0

239 第二步,计算季节比率,它是季平均数与总平均数之比,公式为:季节比率(%)= 季平均数÷总平均数×100%。
一季 = 2.325÷6.481×100% = 35.87% 二季 = 12.05÷6.481×100% = % 三季 = 7.625÷6.481×100% = % 四季 = 3.925÷6.481×100% = 60.56% 第三步,绘制季节比率图6-1。

240 本节小结: 扩大时距法: 简单平均法 移动平均法: 列 最小平均法 势 或 析 第一,先计算各年同季平均数再计算总平均数 季节变动 第二,计算季节比率。

241 第七章 相关与回归分析 学习要点 一、理解相关关系的概念、种类和测定方法。 二、掌握相关系数的概念和计算方法。
第七章 相关与回归分析 学习要点 一、理解相关关系的概念、种类和测定方法。 二、掌握相关系数的概念和计算方法。 三、理解回归分析的概念,相关与回归分析的关系。 四、掌握相关与回归分析的步骤,熟练掌握简单直线的回归分析方法。

242 第一节 相关分析 一、相关关系的概念 (一)函数关系
第一节 相关分析 一、相关关系的概念 (一)函数关系 变量间的关系有确定性的与非确定性的两种。变量间的确定关系叫函数关系,即对自变量的如何一个值因变量都有唯一确定的值严格的与之对应。函数关系通常可以用数学公式确切的表示出来。 (二)相关关系 相关关系是现象之间确实存在的,但关系值不固定、不严格的依存关系。当一现象数值发生变化时,另一现象数值也相应发生变化,但其关系值是不固定的,往往可能出现几个不同的数值在一定的范围内变动着,这些数值分布在它们的平均数周围。 例如,给定一个x值就有几个y值与之对应,这时变量的相关关系可由x值与在x值一定的条件下y的平均值与之对应得到说明。例如儿童按身高x分组,每组有5个儿童的不同体重y值与之对应 ,共25对变量值,如表7-1。

243 表7-1显示,儿童平均体重与身高之间为直线正相关关系(见第一列和第三列)。
表 名儿童身高、体重相关表 表7-1显示,儿童平均体重与身高之间为直线正相关关系(见第一列和第三列)。 直线单相关可分为正相关和负相关。甲变量x值增加,乙变量y值也相应增加称正相关,如图7-1(a);甲变量x值增加,乙变量y值也相应减少称负相关,如图7-1(b);若y值几乎不受x值影响称无相关,如图7-1(c)。 身高 (厘米)x 体 重 (千克)y 平均体重 (千克) (1) (2) (3) 150 40,41,42,43,44, 42 151 41,43,44,46,46, 44 152 41,44,45,48,52, 46 153 43,46,47,49,55, 48 154 44,46,49,51,60, 50

244 本章只介绍简单直线相关关系的分析方法。 三、直线相关关系的测定 (一)直线相关关系的一般判定
(a)正相关 (b)负相关 (c)无相关 图 直线单相关种类 本章只介绍简单直线相关关系的分析方法。 三、直线相关关系的测定 (一)直线相关关系的一般判定 首先是利用定性分析来判断。任何社会经济现象都有质的规定性,它表明了现象之间的区别与联系,对现象的这种质的规定性的认识和分析,就是定性分析。一般来说,在定性分析的基础上进而进行定量分析。所以,根据定性分析来判断是测定相关关系的最基本方法。如果有些现象之间的关系难以通过定性分析作出准确判断,可通过编制相关表和绘制相关图的直观显示判断。

245 1.简单相关表。它是根据原始资料按甲变量x由小到大顺序列出乙变量y的对应数值形成的相关表,如表7-2。
(二)相关表法 1.简单相关表。它是根据原始资料按甲变量x由小到大顺序列出乙变量y的对应数值形成的相关表,如表7-2。 表 某产品产量与总成本相关表 表7-2显示产量与总成本呈直线正相关。 2.分组相关表。原始资料很多可编制分组相关表,如表7-3。 表 单变量分组相关表 产量(辆)x 9 10 11 12 13 14 15 总成本(万元)y 102 110 115 120 126 130 135 身高(厘米)x 人数(人)f 平均体重(千克) 150 5 42 151 44 152 46 153 48 154 50 合 计 25

246 (三)相关图 将对应的变量在直角坐标上描绘出来所形成的图形叫相关图,也称散点图。图7-2是根据表7-3绘制的相关图,相关图显示儿童体重与身高之间呈直线正相关关系。 相关图可以直观地对相关关系的态势、方向和密切程度做出显示。

247 (四)相关系数 相关表和相关图能大致显示变量间相关关系的直观态势,为了定量研究相关关系的密切程度,就要计算相关系数。 1.相关系数的意义 它表明两个变量在直线相关形式下相关关系密切程度的统计分析数据,通常用r表示。公式为: r的变化范围在-1~1之间,即0≤|r|≤1。当r=0,表示无相关。|r|=1,表示完全相关。 r>0,正相关。 r<0,负相关。当 0<|r|<0.3,微相关。 ≤|r|<0.5 ,低相关。 0.5≤|r|<0.8,显著相关。 0.8≤|r|<1,高度相关。 应当指出,上述标准的划分要求计算相关系数的原始数据足够多,这样相关系数所表明的关系程度才是可信的。

248 计算结果表明,产量与总成本之间为直线正相关。 月份n 产量x 总成本y x2 y2 xy 1 10 110 100 12100 1100 2
2.相关系数的计算方法 计算过程见表7-4。 表 产量与总成本相关系数计算表 计算结果表明,产量与总成本之间为直线正相关。 月份n 产量x 总成本y x2 y2 xy 1 10 110 100 12100 1100 2 9 101 81 10201 909 3 11 115 121 13225 1265 4 112 12544 1120 5 117 13689 1287 6 12 144 14641 1452 合计 63 676 667 76400 7133

249 第二节 回归分析 一、回归分析的概念 回归分析是指对具有显著相关关系的变量,根据其相关形态选择一合适的数学方程来表达变量间的平均变动关系的统计分析方法。 二、相关与回归分析的关系 (一)相关分析是回归分析的基础和前提 一般先进行相关分析,对相关关系的密切程度做出判断,进而决定是否进行回归分析。 (二)回归分析是相关分析的深入和继续 回归分析是指把相关变量的关系转化为函数关系并建立数学方程式,来研究变量之间数量变动关系的统计分析方法。如果仅有回归分析而缺少相关分析,就会因为缺乏必要的基础和前提而影响回归分析的可靠性;若仅有相关分析而缺少回归分析,就会降低相关分析的意义。只有把两者结合起来才能达到分析研究的目的。

250 三、回归分析的步骤 (一)定性判断现象间有无相关关系 (二)编制相关图表,显示变量间相关关系形态 (三)计算相关系数,测定变量间相关关系的密切程度 (四)配合适当的回归方程式,进行回归计算。 四、简单直线回归分析 (一)简单直线回归的概念 它是对具有显著直线相关的两个变量变化的一般关系进行测定,只研究一个因变量与一个自变量的线性关系,称一元线性回归分析,即直线回归分析,其回归方程最简单故又称简单直线回归分析。 (二)简单直线回归方程 它是借助于数学中的直线方程近似反映两个变量间的一般线性数量关系,并根据自变量推算因变量。 设x为自变量、y为因变量用y代表y实际观察值的平均值,即理论值。这样,直线方程为:y = a+bx 估计值(理论值)

251 式中:a直线截距,表明变量的基础水平;b直线斜率,又称回归系数,表明x每变动一个单位时影响到y平均变动的数值,b还反映变量x和y之间的数量关系的形式和方向,b为正表明两变量变动方向相同,是正相关, b为负表明两变量变动方向相反,是负相关。用最小平方法求解b、a两个参数值,即: 表 产量与总成本回归直线计算表 月份n 产量x 总成本y x2 y2 xy y 1 10 110 100 12100 1100 109.48 2 9 101 81 10201 909 103.12 3 11 115 121 13225 1265 115.84 4 112 12544 1120 5 117 13689 1287 6 12 144 14641 1452 122.20 合计 63 676 667 76400 7133 675.96

252 基本步骤如下: 1.绘制散点图7-3。 2.计算相关系数表7-4,r = 。 3.确定回归方程,计算回归参数a、b值表7-5。 将a、b值代入回归直线方程得: y = x

253 利用回归直线方程可以得到内推理论值见表7-5y栏,还可进行外推估计。 y = 45.848+6.363×13 = 128.57(万元)。
绘出回归直线,见图7-3。 利用回归直线方程可以得到内推理论值见表7-5y栏,还可进行外推估计。 y = ×13 = (万元)。 再如表7-6。绘制散点图见图7-4,列计算表见表7-7。 表 产量与单位成本回归直线计算表 计算相关系数: 企业 产量(件) x 单位成本(元) y x2 y2 xy 1 2 52 4 2704 104 3 54 9 2916 162 16 203 48 2304 192 5 25 240 6 46 36 2116 276 合计 24 300 106 15048 1182

254 计算结果表明:产量与单位成本为高度负相关。 计算b、a值:
将b、a值代入回归直线方程得: y = x 表 直线回归计算表 企业n 产量x 单本y x2 y2 xy y 1 2 52 4 2704 104 53.6 3 54 9 2916 162 51.8 16 203 50.0 48 2304 192 5 25 240 48.2 6 46 36 2116 276 46.4 合计 24 300 106 15048 1182 300.0

255 利用回归方程内推估计表7-7 y 栏。外推估计,若x=7时,单位成本为:y7 = 57. 2-1. 8x7 = 57. 2-1

256 感谢使用


Download ppt "统计基础知识 编 者 娄庆松."

Similar presentations


Ads by Google