第八章 相关分析和回归分析 第一节:相关的意义、概念和种类 第二节:相关图表和相关系数 第三节:回归分析 第四节:相关分析和回归分析中 应注意的问题
第一节:相关的意义、概念和种类 一、相关分析的意义: 1、统计分析的重要课题. 2、在总体中,如果对变量x的每一个数值,相应还有第二个变量y的数值,则各对变量的变量值所组成的总体称为二元总体;由二个以上相互对应的变量组成的总体,称为多元总体。 3、对二元总体应了解的问题 两变量是不是存在关系,关系的密切程度如何 如果存在关系,那么关系的具体形式是什么 怎样根据一个变量的变动来估计另一变量的变动
二、相关分析的概念 1、相关分析就是对总体中确实具有联系的标志进行分析,其主体是对总体中具有因果关系标志的分析。 2、现象总体的依存关系类型: 因素标志是决定结果标志发展的条件,根据结果标志对因素标志的不同反应,可分两种类型。 函数关系是当因素标志的数量确定之后,结果标志的数量也随之完全确定,以y=f(x)表现 相关关系是不完全确定的随机关系。因素标志的数值,可能有若干结果标志的数值。
3、函数关系与相关关系的联系 1、对具有相关关系的现象进行分析时,则必须利用响应的函数关系数学表达式,来表明现象之间的相关方程式。 2、相关关系是相关分析的研究对象,函数关系是相关分析的工具。 例:圆的面积与半径的关系;计件工资总额与零件数量;看书时间和学习成绩。
三、相关的种类 1、按相关的程度分为完全相关、不完全相关和不相关。 两种依存关系的标志,其中一个标志的数量变化由另一个标志的数量变化所确定,则称完全相关,也称函数关系。 两个标志彼此互不影响,其数量变化各自独立,称为不相关。 两个现象之间的关系,介乎完全相关与不相关之间称不完全相关。
2、按相关的方向分为正相关和负相关 正相关指相关关系表现为因素标志和结果标志的数量变动方向一致。 负相关指相关关系表现为因素标志和结果标志的数量变动方向是相反的。
如果研究的是一个结果标志同某一因素标志相关,就称单相关。 3、按影响因素的多少分为单相关和复相关 如果研究的是一个结果标志同某一因素标志相关,就称单相关。 如果分析若干因素标志对结果标志的影响,称为复相关或多元相关。
一种现象的一个数值和另一现象相应的数值在直角坐标系中确定为一个点,称为线性相关。 4、按相关的形式分为线性相关和非线性相关 一种现象的一个数值和另一现象相应的数值在直角坐标系中确定为一个点,称为线性相关。
四、相关分析的主要内容 1、确定相关关系的存在,相关关系呈现的形态和方向,相关关系的密切程度(主要方法是绘制相关图表和计算相关系数) 2、确定相关关系的数学表达式 3、确定因变量估计值误差的程度。
第二节:相关图表和相关系数 一、相关表的编制 1、编制相关表前首先要通过实际调查取得一系列成对的标志值资料作为相关分析的原始数据。 2、相关表的分类: 简单相关表是资料未经分组的相关表,它是把因素标志值按照从小到大的顺序并配合结果标志值一一对应而平行排列起来的统计表。 分组相关表是在简单相关表的基础上,将原始数据进行分组而编成的统计表。
·自变量和因变量都进行分组而制成的相关表,这种表形似棋盘,故又称棋盘式相关表。 ①单变量分组相关表 ·自变量分组并计算次数,而对应的因变量不分组,只计算其平均值。 ·单变量分组相关表的特点:使冗长的资料简化,能够更清晰地反映出两变量之间相关关系。 ②双变量分组相关表: ·自变量和因变量都进行分组而制成的相关表,这种表形似棋盘,故又称棋盘式相关表。
二、相关图的编制 1、相关图:利用直角坐标系第一象限,把自变量置于横轴上,因变量置于纵轴上,而将两变量相对应的变量值用坐标点形式描绘出来,用以表明相关点分布状况的图形。 2、相关图被形象地称为相关散点图 3、因素标志分了组,结果标志表现为组平均数,所绘制的相关图就是一条折线,这种折线又叫相关曲线。
三、相关系数的计算: 1、符号系数:把两个同平均值的离差数列做对称比较。 ①如果一个数列的离差与另一个数列的离差有很多同号,就可以认为这两标志之间存在正相关。 ②如果大多数为异号,就可以认为他们之间存在负相关。 ③如果同号与异号大体一样,显然不存在相关。 符号系数K
分析 ①K= -1时,标志间的相关是负相关 ②K= +1时,标志间的相关是正相关 ③K= 0 时, 标志间不存在相关 符号系数的优点在于意义明了,计算方便,其缺点在于掩盖了离差绝对值上的不同,指标只能反映相关的一般趋势。
2、相关系数 定义:是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度。 公式:
协方差的意义 ①显示x与y是正相关还是负相关 协方差为负,是负相关, 协方差为正,是正相关。 ②协方差显示x与y相关程度的大小 当相关点在四个象限呈散乱的分布,相关程度很低 当相关点分布在x与y的平均值线上时,表示不相关 当相关点靠近一直线,表示相关关系密切 当相关点全部落在一直线,表示完全相关
相关系数r的性质: ①、当 时,x与y为完全线性相关,它们之间存在确定的函数关系。 ②、当 时,表示x与y存在着一定的线性相关,r的绝对值越大,越接近于1,表示x与y直线相关程度越高,反之越低。
相关系数的r的推导公式:
第三节:回归分析 一、回归分析的意义: 1、回归分析就是对具有相关关系的两个或两个以上变量之间数量变化的一般关系进行测定,确立一个相应的数学表达式,以便从一个一直量来推测另一个未知量,为估算预测提供一个重要的方法。 2、回归分析和相关分析是互相补充、密切联系的,相关分析需要回归分析来表明现象数量关系的具体形式,而回归分析则应该建立在相关分析的基础上。
3、回归的种类 按自变量的个数分: 一元回归:只有一个自变量,又称简单回归 多元回归:有两个或两个以上自变量,又称复回归 按回归线的形状分: 线性回归—直线回归 非线性回归—曲线回归
二、简单线性回归方程: 1、简单线性方程式:y=a+bx 2、变量y不仅受x的影响,还受其他随机因素的影响,因此通过相关图,可以直观地发现各个相关点并不都落在一条直线上,而是在直线上下波动,只呈现线性相关的趋势。 3、我们试图在相关图的散点中引出一条模拟的回归直线,以表明两变量x与y的关系,称为估计回归线,回归方程:yc=a+bx yc—y的估计值 a—纵轴截距 b—回归系数,代表自变量增加一个单位时因变量的平均增加值。
4、计算a、b值 当实际值y与估计值yc的离差平方和为最小值时,则此直线为最优的理想直线。 即:
当出现权数时:
5、回归系数b与相关系数r的关系
6、回归分析和相关分析的特点: 回归分析是研究两变量之间的因果关系,所以必须通过定性分析来确定哪个是自变量,哪个是因变量。 回归分析是研究两变量具有因果关系的数学形式 回归分析中回归系数有2个(区分自变量、因变量),相关分析中相关系数有1个(不区分自变量、因变量) 对于回归方程进行预测估计时,只能根据x估计yc,不能根据yc估计x
三、估计标准误 1、当yc(估计值)与y(实际值)有偏差的时候,产生估计值代表性问题。 2、估计标准误是用来说明回归方程代表性大小的统计分析指标,计算公式为:
一、在定性分析的基础上进行定量分析 二、要注意现象质的界限及相关关系作 用的范围 三、要具体问题具体分析 四、要考虑社会经济现象的复杂性 第四节 相关分析和回归分析中应注意的问题 一、在定性分析的基础上进行定量分析 二、要注意现象质的界限及相关关系作 用的范围 三、要具体问题具体分析 四、要考虑社会经济现象的复杂性 五、对回归模型中计算出来的参数的有 效性应进行检验