第六章 相关与回归分析 学习目的和要求 学习重点 学习难点 教学方法 授课时数 基本内容
学习目的和要求 目的:掌握相关与回归分析的基本理论和方法,以便在实际工作中能对具有相关关系的社会经济现象进行有效的分析,为管理层的预测和决策服务。 要求:首先要了解相关与回归分析的概念、特点,相关分析与回归分析的区别与联系,进而掌握相关分析的定性和定量分析方法,在此基础上进一步掌握回归模型的拟合方法、对回归方程拟合精度的测定和评价的方法。
学习重点 相关分析的方法和回归分析的方法。 在具体应用时要根据给定的数据资料,列示统计计算表,进而据以计算。 掌握简捷计算法公式。
学习难点 理解并掌握有关计算公式和应用条件
教学方法 基本知识通过案例结合EXCEL软件演示授课
授课时数 6学时
基本内容 一、相关分析 二、一元线性回归分析
一、相关分析 (一)相关关系的概念 1.函数关系 它反映现象之间存在着严格的依存关系,在这种关系中,对于某一变量的每一个数值,都有另一个变量的确定值与之相对应,并且这种关系可以用一个数学表达式反映出来。如:圆的面积与半径之间的关系,即
(一)相关关系的概念 2.相关关系 它反映现象之间确实存在的,但关系数值不固定的相互依存关系。这一概念表明: (1)相关关系是指现象之间确实存在数量上的相互依存关系。 (2)现象之间数量依存关系的具体关系值不是固定的。
(一)相关关系的概念 3.相关关系与函数关系的联系 由于有观察或测量误差等原因,函数关系在实际中往往通过相关关系表现出来。在研究相关关系时,又常常要使用函数关系的形式来表现,以便找到相关关系的一般数量表现形式。
(二)相关关系的种类
(二)相关关系的种类
(二)相关关系的种类
(二)相关关系的种类
各类相关关系的表现形态图
(三)相关分析内容
(四)相关表和相关图 1.相关表 相关表是一种反映变量之间相关关系的统计表。将某一变量按其取值的大小排列,然后再将与其相关的另一变量的对应值平行排列,便可得到简单的相关表。 例1:某地区某企业近8年产品产量与生产费用的相关情况如表6-1所示:
表6-1 产品产量与生产费用相关表 从上表可看出,产品产量与生产费用之间存在一定的正相关关系。
2.相关图 相关图又称散点图,它是将相关表中的观测值在平面直角坐标系中用坐标点描绘出来,以表明相关点的分布状况。通过相关图,可以大致看出两个变量之间有无相关关系以及相关的形态、方向和密切程度。 例2:以表6-1为例,用EXCEL绘制相关图如下
产品产量与生产费用相关图
(五)相关系数 1.相关系数的定义 相关系数是用来说明变量之间在直线相关条件下相关关系密切程度和方向的统计分析指标。其定义公式为: 式中:表示数据项数,为自变量,为因变量。
相关系数公式的涵义理解 (1)两个变量之间的相关程度和方向,取决于两个变量离差乘积之和 ,当它为0时,为0;当它为正时,为正;当它为负时, 为负。 (2)相关程度的大小与计量单位无关。为了消除积差中两个变量原有计量单位的影响,将各变量的离差除以该变量数列的标准差,使之成为相对积差,即 ,所以相关系数是无量纲的数量。
2.相关系数的计算 (1)根据相关系数定义的公式推导得简化公式: 例3:以表6-1为例,用EXCEL计算相关系数见表6-2。
表6-2 相关系数计算表
于是: =0.9697
(2)利用EXCEL计算相关系数 以表6-1的资料为例,处理的简要步骤与结果如下:
3.相关系数的意义 (1)r的取值在-1到+1之间。 相关系数一般可以从正负符号和绝对数值的大小两个层面理解。正负说明现象之间是正相关还是负相关。绝对数值的大小说明两现象之间线性相关的密切程度。 (1)r的取值在-1到+1之间。 (2)r=+1,为完全正相关;r=-1为完全负相关。表明变量之间为完全线性相关,即函数关系。 (3)r=0,表明两变量无线性相关关系。 (4)r>0,表明变量之间为正相关;r<0,表明变量之间为负相关。 (5)r的绝对值越接近于1,表明线性相关关系越密切;r越接近于0,表明线性相关关系越不密切。
相关程度可分为以下几种情况: ① ,为无线性相关; ②0.3≤ <0.5,为低度线性相关; ③0.5≤ <0.8,为显著线性相关; ① ,为无线性相关; ②0.3≤ <0.5,为低度线性相关; ③0.5≤ <0.8,为显著线性相关; ④ ≥0.8,一般称为高度线性相关。 以上说明必须建立在相关系数通过显著性检验的基础之上。
4.相关系数的显著性检验 相关系数是根据样本数据计算的,具有一定随机性,能否真实地表现变量总体的相关情况受到随机因素和样本容量大小的影响。故需要对其进行检验。 样本相关系数的检验包括两类检验: (1)对总体相关系数是否等于0进行检验; (2)对总体相关系数是否等于某一给定的不为0的数值进行检验。
对总体相关系数是否等于0的检验 总体相关系数的检验统计上用t检验。其步骤如下: 第一步,提出原假设和备择假设。假设样本相关系数r是抽自具有零相关的总体,即 第二步,规定显著性水平,并依据自由度(n-2)确定临界值 ; 第三步,计算检验的统计量:
第四步,做出判断。将计算的统计量与临界值对比,若统计量大于或等于临界值,表明变量间线性相关在统计上是显著的,若统计量小于临界值,则说明相关关系在统计上并不显著。
例4:对例3中产品产量与生产费用之间的相关系数检验 ①提出原假设和备择假设。 ②取显著性水平 ,根据自由度 查 分布表得 =2.4469 ③计算检验的统计量: =9.7236
④由于 ,则拒绝 ,表明变量间线性相关在统计上是显著的。即产品产量与生产费用之间的相关系数是显著的。
二、一元线性回归分析 (一)回归分析的概念和特点 1.回归分析的概念 回归分析就是对具有相关关系的变量之间数量变化的一般关系进行测定,确定一个相关的数学表达式,以便于进行估计或预测的统计方法。
2.回归分析的特点 (1)在变量之间,必须根据研究目的具体确定哪些是自变量,哪个是因变量。 (2)回归方程的作用在于,在给定自变量的数值情况下来估计因变量的可能值。一个回归方程只能做一种推算。推算的结果表明变量之间具体的变动关系。
(3)直线回归方程中,自变量的系数为回归系数。回归系数的符号为正时,表示正相关;回归系数的符号为负时,表示负相关。 (4)确定回归方程时,只要求因变量是随机的,而自变量是给定的数值。
3.回归分析的类型
(二)一元线性回归分析 1.一元线性回归模型的确定 设有两个变量 和 ,变量 的取值随变量 取值的变化而变化,我们称 为因变量, 为自变量;反之亦然。一般来说,对于具有线性相关关系的两个变量,可以用一条直线方程来表示它们之间的关系,即: 倚 回归方程:
例5:以表4-1-1的资料,建立一元线性回归模型
3.回归方程的显著性检验 对于回归方程进行显著性检验基于以下两点: 第一,在根据样本数据拟合回归方程时,我们首先假设变量 与 之间存在着线性关系,但这种假设是否成立?就必须通过检验才能证实;
第二,样本回归方程 中的 、 是对总体回归方程中参数 的最小二乘估计值,样本回归系数 能否作为总体回归系数 的估计值,还需要对总体回归系数 的显著性进行检验。
回归方程的检验一般包括两个方面的内容: 一是线性关系的检验; 二是回归系数的检验。
(1)线性关系的检验 具体方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用F检验来分析二者之间的差别是否显著。检验的具体步骤如下: 第一步,提出假设。 H0:β=0, H1:β≠0:
第二步,计算检验统计量F。 可以证明,在原假设成立的情况下,F统计量服从F分布,第一自由度为1,第二自由度为n-2,即F~F(1,n-2)。
例6:以表6-1的资料为例,对其回归模型作F检验
F检验的步骤:
(2)回归系数的检验
回归系数的检验(续) 计算公式如下:
例6:以表6-1为例,对回归模型做回归系数检验
④由于=9.72345>,拒绝,表明样本回归系数是显著的,生产费用与产品产量之间确实存在着线性关系,产品产量是影响生产费用的显著因素。 于是,=128.9599/13.26277=9.72345 ③取显著性水平=0.05,并根据自由度=6,查分布表得相应的临界值。
4.一元线性回归问题的EXCEL处理 以表6-1的资料为例,处理的简要步骤与结果如下:
由上图可知:相关系数R=0.9697,F检验回归方程显著,t检验回归系数P值小于0.05,说明回归系数是显著的,于是有可预测的回归方程:。
5.回归预测
例7:以表6-1所建的回归方程为例,取产量为10千吨,试计算生产费用在95%的预测区间
于是,值的预测区间为: 1802.83±2.4469×85.87即,1518.32≤≤2087.35 以上预测区间说明,我们可以95%的概率保证,当产量为10千吨时,生产费用在1518.32到2087.35千元之间。