第七章 相关与回归分析 第一节 相关与回归分析的基本概念 第二节 简单线性相关与回归分析 第三节 多元线性相关与回归分析 第七章 相关与回归分析 第一节 相关与回归分析的基本概念 第二节 简单线性相关与回归分析 第三节 多元线性相关与回归分析 第四节 Excel在相关与回归分析 中的应用
第一节 相关与回归分析的基本 概念 一 函数关系与相关关系 二 相关关系的种类 三 相关分析与回归分析 四 相关图
一、函数关系与相关关系 当一个或几个变量取一定的值时,另一个变量有确定值与之相对应,我们称这种关系为确定性的函数关系。例如,商品的销售收入Y与该商品的销售量X以及该商品价格P之间的关系。 当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化。 变量间的这种相互关系,称为具有不确定性的相关关系。例如,劳动生产率与工资水平的关系。
变量之间的函数关系和相关关系,在一定条件下是可以互相转化的。 本来具有函数关系的变量,当存在观测误差时,其函数关系往往以相关的形式表现出来。 而具有相关关系的变量之间的联系,如果我们对它们有了深刻的规律性认识,并且能够把影响因变量变动的因素全部纳入方程,这时的相关关系也可能转化为函数关系。 相关关系也具有某种变动规律性,所以,相关关系经常可以用一定的函数形式去近似地描述。客观现象的函数关系可以用数学分析的方法去研究,而研究客观现象的相关关系必须借助于统计学中的相关与回归分析方法。
二、相关关系的种类 按相关的程度可分为完全相关、不完全相关和不相关。 当一种现象的数量变化完全由另一个现象的数量变化所确定时,称这两种现象间的关系为完全相关。在这种场合,相关关系便成为函数关系。因此也可以说函数关系是相关关系的一个特例。 当两个现象彼此互不影响,其数量变化各自独立时,称为不相关现象。 两个现象之间的关系介于完全相关和不相关之间,称为不完全相关,一般的相关现象都是指这种不完全相关。
按相关的方向可分为正相关和负相关。 当一个现象的数量增加(或减少),另一个现象的数量也随之增加(或减少)时,称为正相关。例如,消费水平随收入的增加而提高。 当一个现象的数量增加(或减少),而另一个现象的数量向相反方向变动时,称为负相关。例如商品流转的规模愈大,流通费用水平则愈低。
按相关的形式可分为线性相关和非线性相关。 按所研究的变量多少可分为单相关、复相关和偏相关。 两个变量之间的相关,称为单相关。 当所研究的是一个变量对两个或两个以上其他变量的相关关系时,称为复相关。 在某一现象与多种现象相关的场合,假定其他变量不变,专门考察其中两个变量的相关关系称为偏相关。例如,在假定人们的收入水平不变的条件下,某种商品的需求与其价格水平的关系就是一种偏相关。
三、相关分析与回归分析 相关分析是用一个指标来表明现象间相互依存关系的密切程度。 回归分析是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系。 相关分析和回归分析有着密切的联系,它们不仅具有共同的研究对象,而且在具体应用时,常常必须互相补充。
相关分析与回归分析之间在研究目的和方法上是有明显区别的。 相关分析研究变量之间相关的方向和相关的程度。回归分析则是研究变量之间相互关系的具体形式,它对具有相关关系的变量之间的数量联系进行测定,确定一个相关的数学表达式,根据这个数学方程式可以从已知量来推测未知量,从而为估算和预测提供一个重要的方法。 相关分析不能指出变量间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。可以不必确定变量中哪个是自变量,哪个是因变量,其所涉及的变量可以都是随机变量。而回归分析则必须事先研究确定具有相关关系的变量中哪个为自变量,哪个为因变量。一般地说,回归分析中因变量是随机的,而把自变量作为研究时给定的非随机变量。
在应用项关于回归分析方法对客观现象进行研究时,一定要始终注意把定性分析和定量分析结合起来,在定性分析的基础上开展定量分析。
例7-1 教堂数与监狱服刑人数同步增长。(引自吴柏林《现代统计学》,吴南图书出版有限公司,1999年版。) 美国印第安纳州的地区教会想要筹款兴建新教堂,提出教堂能洁净人们的心灵,减少犯罪,降低监狱服刑人数的口号。为了增进民众参与的热诚和信心,教会的神父收集了近15年的教堂数与在监狱服刑的人数进行统计分析。结果却令教会大吃一惊。最近15年教堂数与监狱服刑人数呈显著的正相关。那么是否可以由此得出,教堂建得越多,就可能带来更多的犯罪呢?经过统计学家和教会神父深入讨论,并进一步收集近15年的当地人口变动资料和犯罪率等资料作进一步分析,发现监狱服刑人数的增加和教堂数的增加都与人口的增加有关。教堂数的增加并非监狱服刑人数增加的原因。至此,教会人士总算松了一口气。
四、相关图 相关图又称散点图。它是以直角坐标系的横轴代表变量X,纵轴代表变量Y,将两个变量间相对应的变量值用坐标点的形式描绘出来,用来反映两变量之间相关关系的图形。
第二节 简单线性相关与回归 分析 一 相关系数及其检验 二 标准的一元线性回归模型 三 一元线性回归模型的估计 四 一元线性回归模型的检验 第二节 简单线性相关与回归 分析 一 相关系数及其检验 二 标准的一元线性回归模型 三 一元线性回归模型的估计 四 一元线性回归模型的检验 五 一元线性回归模型预测
一、相关系数及其检验 (一)相关系数的定义 总体相关系数的定义式是 总体相关系数是反映两变量之间线性相关程度的一种特征值,表现为一个常数。 样本相关系数的定义公式是 上式中, 和 分别是X和Y的样本平均数。 样本相关系数是根据样本观测值计算的,抽取的样本不同,其具体的数值也会有所差异。样本相关系数是总体相关系数的一致估计量。
(二)相关系数的特点 r的取值介于-1与1之间。 当r =0时,X与Y的样本观测值之间没有线性关系。 在大多数情况下,0<|r|<1,即X与Y的样本观测值之间存在着一定的线性关系,当r >0时, X与Y为正相关,当r <0时, X与Y为负相关。 如果|r|=1,则表明X与Y完全线性相关,当r=1时,称为完全正相关,而r =-1时,称为完全负相关。 r是对变量之间线性相关关系的度量。 r =0只是表明两个变量之间不存在线性关系,它并不意味着X与Y之间不存在其他类型的关系。对于二者之间可能存在的非线性相关关系,需要利用其他指标去进行分析。
(三)相关系数的计算 具体计算样本相关系数时,通常利用以下公式:
例7-2 表7-1是 1996年-2009年我国城镇居民人均年消费性支出和人均年可支配收入的有关资料,试计算消费性支出与可支配收入的样本相关系数。 表7-1 (答案) 年份 人均可支配收入X 人均消费性支出Y X2 Y2 XY 1996 4.839 3.919 23.4159 15.3586 18.964 1997 5.16 4.186 26.6256 17.5226 21.5998 1998 5.425 4.332 29.4306 18.7662 23.5011 1999 5.854 4.616 34.2693 21.3075 27.0221 2000 6.28 4.998 39.4384 24.98 31.3874 2001 6.86 5.309 47.0596 28.1855 36.4197 2002 7.703 6.03 59.3362 36.3609 46.4491 2003 8.472 6.511 71.7748 42.3931 55.1612 2004 9.422 7.182 88.7741 51.5811 67.6688 2005 10.493 7.943 110.103 63.0913 83.3459 2006 11.759 8.697 138.2741 75.6378 102.268 2007 13.786 9.997 190.0538 99.9400 137.8186 2008 15.781 11.243 249.04 126.405 177.4258 2009 17.175 12.265 294.9806 150.4302 210.6514 合计 62.976 50.073 372.6661 232.7719 294.4539
(四)相关系数的检验 对总体相关系数 是否等于0进行检验。 计算相关系数r的t值: 根据给定的显著性水平和自由度(n-2),查找t分布表中相应的临界值t /2。若| t |≥ t /2 ,表明r在统计上是显著的。 若| t | ≤ t /2 ,表明r在统计上是不显著的。
例7-3 假设根据6对样本观测数据计算出某公司的股票价格与气温的样本相关系数r =0.5,试问是否可以根据5%的显著水平认为该公司的股票与气温之间存在一定程度的线性相关关系? 解:H0: γ=0; H0: γ 0 r的t检验值 查表可知: 显著水平为5%,自由度为4的临界值t /2 =2.776 ,上式中的t值小于2.776,因此,r不能通过显著性检验。这就是说,尽管根据样本观测值计算的r达到0.5,但是由于样本单位过少,这一结论并不可靠,它不足以证明该公司的股票与气温之间存在一定程度的线性相关关系。
二、标准的一元线性回归模型 (一)总体回归函数 上式被称为总体回归函数。式中的 1和 2是未知的参数,又叫回归系数。Yt和Xt分别是Y和X的第t个观测值。u t是随机误差项,又称随机干扰项,它是一个特殊的随机变量,反映未列入方程式的其他各种因素对Y的影响。
图7-2 总体回归线与随机误差项 E(Yt)=β1+β2Xt X Y Yt ut 。
(二)样本回归函数 在现实问题研究中,由于所要研究的现象的总体单位数一般是很多的,在许多场合甚至是无限的,因此无法掌握因变量Y总体的全部取值。也就是说,总体回归函数事实上是未知的,需要利用样本的信息对其进行估计。 一元线性回归模型的样本回归线可表示为: 式中的 是样本回归线上与Xt相对应的Y值,可视为E(Yt)的估计; 是样本回归函数的截距系数, 是样本回归函数的斜率系数,它们是对总体回归系数 1和 2的估计。
实际观测到的因变量Yt值,并不完全等于 ,如果用et表示二者之差( ), 则有: ( t=1,2,...,n) 上式称为样本回归函数。式中et称为残差。
样本回归函数与总体回归函数之间的间的区别。 总体回归线是未知的,它只有一条。而样本回归线则是根据样本数据拟合的,每抽取一组样本,便可以拟合一条样本回归线。 总体回归函数中的1和2是未知的参数,表现为常数。而样本回归函数中的 和 是随机变量,其具体数值随所抽取的样本观测值不同而变动。 总体回归函数中的ut是Yt与未知的总体回归线之间的纵向距离,它是不可直接观测的。而样本回归函数中的et是Yt与样本回归线之间的纵向距离,当根据样本观测值拟合出样本回归线之后,可以计算出et的具体数值。
(三)误差项的标准假定 假定1:误差项的期望值为0,即对所有的t总有 假定2:误差项的方差为常数,即对所有的t总有 假定3:误差项之间不存在序列相关关系,其协方差为零,即当t≠s时有: 假定4:自变量是给定的变量,与误差项线性无关。 假定5:随机误差项服从正态分布。 满足以上标准假定的一元线性模型,称为标准的一元线性回归模型。
三、一元线性回归模型的估计 (一)回归系数的点估计 所谓最小二乘法就是通过使残差平方和为最小来估计回归系数的一种方法。 将Q对求偏导数,并令其等于零,可得 加以整理后有 设
以上方程组称为正规方程组或标准方程组,式中的n是 样本容量。求解这一方程组可得:
例7-4 我们利用例7-2的表7-1中已给出我国历年城镇居民人均消费支出和人均可支配收入的数据,来估计我国城镇居民的边际消费倾向和基础消费水平。 解:Yt= 1+ 2Xt+ut 样本回归方程为: 上式中:0.6724是边际消费倾向,表示人均可支配收入每增加1千元,人均消费支出会增加0.6724千元;0.7489是基本消费水平,即与收入无关最基本的人均消费为748.9元。
(二)总体方差的估计 数学上可以证明, 2的无偏估计S2可由下式给出: 式中,分子是残差平方和,分母是自由度,其中n是样本观测值的个数,2是一元线性回归方程中回归系数的个数。 S2的正平方根又叫做回归估计的标准误差。 一般采用以下公式计算残差平方和: 上式的推导过程如下:
例7-5 根据例7-2中给出的有关数据和例7-4中已得到的回归系数估计值,计算我国城镇居民消费函数的总体方差S2和回归估计标准差S。 解:根据例7-2中给出的有关数据和例7-4中已得到的回归系数估计值,可得: =771.9598-0.7489×97.228-0.6724×1039.683 =0.0808 S2=0.0808/(14-2)=0.006732 进而有:S=0.082047
(三)最小二乘估计量的性质 按照最小二乘法求得的估计总体回归系数的数学公式是样本观测值的函数,通常称之为最小二乘估计量。 可以证明,在标准假定能够得到满足的条件下,回归系数的最小二乘估计量的期望值等于其真值,即有: 其方差为: 和 的期望值与方差的推导过程基本类似。这里只就 进行证明。
为了便于讨论,将Yt= 1 + 2 Xt + ut代入 估计量,并作以下变形: 为了推导上式,利用了以下恒等式: 这样,回归系数的最小二乘估计量可以表现为所要估计的参数的真值与随机误差项的线性组合。由于我们已假定Xt是给定的变量(不是随机变量),因此,同各期误差项相乘的权数也都是确定量。为了叙述的方便,令
利用前面所述的关于随机误差项的标准假定和期望值运算的规则,可以证明 的期望值和方差分别为: 利用前面所述的关于随机误差项的标准假定和期望值运算的规则,可以证明 的期望值和方差分别为: 证毕。 根据标准假定4 根据标准假定1 根据标准假定4、3 根据标准假定2
由以上推导过程可知,最小二乘估计量是因变量观测值Yt的线性函数,其期望值等于总体回归系数的真值。因此,最小二乘估计量是总体回归系数的线性无偏估计量。数学上还可以进一步证明,在所有的线性无偏估计量中,回归系数的最小二乘估计量的方差最小;同时随着样本容量的增大,其方差会不断缩小。也就是说,回归系数的最小二乘估计量是最优线性无偏估计量和一致估计量。 高斯-马尔可夫定理表明,在标准的假定条件下,最小二乘估计量是一种最佳的估计方式。但是应当明确,这并不意味着根据这一方式计算的每一个具体的估计值都比根据其他方式计算的具体估计值更接近真值,而只是表明如果反复多次进行估计值计算或是扩大样本的容量进行估计值计算,按最佳估计方式计算的估计值接近真值的可能性(概率)最大。
根据第五章中介绍的关于参数区间估计的原理,可得到以下回归系数区间估计的公式: (四)回归系数的区间估计 根据第五章中介绍的关于参数区间估计的原理,可得到以下回归系数区间估计的公式: 式中, 是回归系数估计的样本标准误差, 是显著水平为 ,自由度为(n-2)的t分布双侧临界值。 =S
例7-6 利用例7-2的有关资料和例7-4与例7-5的结果,对例7-4中估计的我国城镇居民边际消费倾向进行置信度为95%的区间估计。 解: 查t分布表可知:显著水平为5%,自由度为12的t分布双侧临界值是2.1788,前面已求得 ,将其代入回归系数区间估计的公式 ,可得:
四、一元线性回归模型的检验 (一) 回归模型检验的种类 回归模型的检验包括理论意义检验、一级检验和二级检验。 理论意义检验主要涉及参数估计值的符号和取值区间,如果它们与实质性科学的理论以及人们的实践经验不相符,就说明模型不能很好地解释现实的现象。例如,在前面所举的消费函数中, 2的取值区间应在0至1之间。在对实际的社会经济现象进行回归分析时,常常会遇到经济意义检验不能通过的情况。造成这一结果的主要原因是:社会经济的统计数据无法像自然科学中的统计数据那样通过有控制的实验去取得,因而所观测的样本容量有可能偏小,不具有足够的代表性,或者不能满足标准线性回归分析所要求的假定条件。
一级检验又称统计学检验,它是利用统计学中的抽样理论来检验样本回归方程的可靠性,具体又可分为拟合程度评价和显著性检验。一级检验是对所有现象进行回归分析时都必须通过的检验。 二级检验又称经济计量学检验,它是对标准线性回归模型的假定条件能否得到满足进行检验,具体包括序列相关检验、异方差性检验、多重共线性检验等。二级检验对于社会经济现象的定量分析具有特别重要的意义。
(二)拟合程度的评价 总离差平方和的分解 对任一实际观测值Yt总有: 对上式两边取平方并求和,得到: 利用残差的定义和有关约束条件可以证明: 从而有: 即 SST=SSR+SSE
上式中,SST是总离差平方和;SSR是由回归直线可以解释的那一部分离差平方和,称为回归平方和;SSE是用回归直线无法解释的离差平方和,称为残差平方和。式子两边同除以SST,得: 显而易见,各个样本观测点与样本回归直线靠得越紧,SSR在SST中所占的比例就越大。因此,可定义这一比例为决定系数,即有: 决定系数是对回归模型拟合程度的综合度量,决定系数越大,模型拟合程度越高。决定系数越小,则模型对样本的拟合程度越差。
决定系数r2具有如下特性: 1. 决定系数r2具有非负性。 由决定系数的定义式可知, r2的分子分母均是不可能为负值的平方和,因此其比值必大于零。(但是在回归模型中不包括截距项的场合, 由于总离差平方和的分解公式不成立,按该式计算的r2有可能小于0。 ) 2. 决定系数的取值范围为0≤ r2 ≤1。 3. 决定系数是样本观测值的函数,它也是一个统计量。 4. 在一元线性回归模型中,决定系数是单相关系数的平方。
例7-7 利用例7-5中计算的残差平方和,计算例7-3所拟合的样本回归方程的决定系数。 解: 上式中的SST是利用表7-1中给出的数据按下式计算的:
(三)显著性检验 所谓回归系数的显著性检验,就是根据样本估计的结果对总体回归系数的有关假设进行检验。 下面我们以 2的检验为例,介绍回归系数显著性检验的基本步骤:
1. t检验 (1)提出假设。对回归系数进行显著性检验,所提出的假设的一般形式是: 式中,H0表示原假设; H1表示备择假设; 是假设的总体回归系数的真值。在许多回归分析的计算机程序里,常常令 =0。这是因为 2 是否为0,可以表明X对Y是否有显著的影响。 (2)确定显著水平 。显著水平的大小应根据犯哪一类错误可能带来损失的大小确定。一般情况下可取0.05。 (3)计算回归系数的t值。
(4)确定临界值。 t检验的临界值是由显著水平和自由度决定的。 这时应该注意,原假设和备择假设设定的方式不同,据以判断的接受域和拒绝域也不相同。例如对H0: 2=0,H1: 2 0,进行的是双侧t检验;而对H0: 2=0.9,H1: 2 <0.9,进行的是单侧t检验。对此,在双侧检验的场合,依据和df,查t分布表所确定的临界值是(-t /2)和( t /2 );而在单侧检验的场合,所确定的临界值是( t )。 (5)做出判断。 如果 的绝对值大于临界值的绝对值,就拒绝原假设,接受备择假设;反之,如果 的绝对值小于临界值的绝对值,则接受原假设。
2.p检验 回归系数的显著性检验还可以采用p检验。其前三步与t检验相同,但t值计算出来之后,并不与t分布的临界值进行对比,而是直接计算自由度为n-2的t统计量大于或小于根据样本观测值计算的 的概率即p值。然后将其与给定的显著水平对比,如果p小于 ,则拒绝原假设,反之则接受原假设。利用Excel进行回归分析时,计算机将直接给出回归系数估计的p值。
例7-8 利用例7-4和例7-6的有关资料和结果,对例7-4中估计的我国城镇居民边际消费倾向进行显著性检验。 (1)以5%的显著水平检验可支配收入是否对消费支出有显著影响。 (2)对H0: 2=0.7, H1: 2 <0.7进行检验。
解: (1)首先,提出假设H0: 2=0, H1: 2 ≠0。 其次,计算t值 =0.6724/0.0056=119.82 查t分布表可知:显著水平为5%,自由度为12的双侧t检验的临界值是2.178。以上计算的t值远远大于此临界值,所以拒绝原假设,接受备择假设,即认为可支配收入对消费支出的影响是非常显著的。 (2) =(0.6724-0.7)/0.0056=-4.9210 查t分布表可知:显著水平为5%,自由度为12的单侧t检验的临界值是1.782。因为计算的t值的绝对值大于此临界值,所以否定 2=0.7的原假设,接受备择假设,认为我国城镇居民的平均消费倾向小于0.7。
五、一元线性回归模型预测 (一)回归预测的基本公式 简单回归预测的基本公式如下: 式中,Xf是给定的X的具体数值; 是Xf给定时Y的预测值; 和 是已估计出的样本回归系数。 回归预测是一种有条件的预测,在进行回归预测时,必须先给出Xf的具体数值。当给出的Xf属于样本内的数值时,利用该式去计算 称为内插检验或事后预测。而当给出的Xf在样本之外时,利用该式去计算 称为外推预测或事前预测。通常所说的预测是指事前预测。
在实际的回归模型预测中,发生预测误差的原因可以概括为以下四个: (二)预测误差 在实际的回归模型预测中,发生预测误差的原因可以概括为以下四个: 1. 模型本身中的误差因素所造成的误差;这一误差可以用总体随机误差项的方差来评价。 2. 由于回归系数的估计值同其真值不一致所造成的误差;这一误差可以用回归系数的最小二乘估计量的方差来评价。 3. 由于自变量X的设定值同其实际值的偏离所造成的误差。 4. 由于未来时期总体回归系数发生变化所造成的误差。 在以上造成预测误差的原因中,3、4两项不属于回归方程本身的问题,而且也难以事先予以估计和控制。因此,在下面的讨论中,假定只存在1、2、两种误差。
设Xf给定时Y的真值为Yf , Yf = 1+ 2 Xf + uf 则有 式中, ef是预测的残差。利用期望值与方差的运算规则以及前面给出的回归系数最小二乘估计量的期望值和方差,可以证明: 在此基础上,还可以进一步证明 是Yf的最优线性无偏预测,即在标准假定能够满足的情况下,公式 是Yf的最佳预测方式。
(三)区间预测 若用Sef来表示预测标准误差的估计值, 则数学上可以证明: 服从于自由度为(n-2)的t分布。按照确定置信区间的方法,可以得出Yf的(1- )的置信区间为: 式中, 是置信度为(1- ) 、自由度为(n-2)的t分布的临界值。
对于每一个给定的X值,计算相应的Y的置信区间,并将连接各点的曲线描绘在平面图上,便可得到右图。 从置信区间和Sef的计算公式以及右图,可以得到以下结论: Y X 回归预测的置信区间
第一,置信区间的上下限对称地落在样本回归直线两边, 呈中间小两头大的喇叭型。当Xf= 时的置信区间最窄,而当Xf远离 时,其置信间逐渐增大。这就是说,在用回归模型进行预测时,Xf的取值不宜离开 过远,否则预测精度将会降低,有可能使预测失效。 第二,在样本容量n保持不变时, 的值,随置信度(1- )的提高而增加,因此,要求预测值的概率保证程度增 加,在其它条件不变时,也就意味着预测精度的降低。 第三,当其它条件不变时, 和Sef的值均为样本容量n 的减函数,即随着n的增加,这二者将逐渐减少。这说明 随着样本容量的增加,预测精度将会提高,而样本容量 过小,预测的精度就较差。
按上式确定的预测区间的上、下限在平面图上呈两条直线(参见图“回归预测的置信区间”中与样本回归线平行的两条虚线)。 第四,当n足够大时,Sef会趋近于S; 会趋近于z /2。( z /2是置信度为(1- )的标准正态分布的临界值)。 这时,可以用S和z /2取代Sef和zt /2来确定预测区间。即样本容量充分大时,Yf的(1- )的置信区间为: Yf ± z /2 ×S 按上式确定的预测区间的上、下限在平面图上呈两条直线(参见图“回归预测的置信区间”中与样本回归线平行的两条虚线)。 Y X
例7-9 假定已知某居民家庭的年人均可支配收入为8000元,要求利用例7-4中拟合的样本回归方程与有关数据,计算置信度为95%的年人均消费支出的预测区间。 解:将有关数据代入拟合好的样本回归方程,可得: 从前面几例的结果可知:S = 0.0820, n=14 将其代入求预测标准误差估计值的公式,有
查t分布表可知:显著水平为5%,自由度为12的双侧t检验的临界值是2 6.1280-2.178×0.0852 ≤ Yf ≤ 6.1280+2.178×0.0852 5.9424 (千元) ≤ Yf ≤ 6.3135(千元)
第三节 多元线性相关与回归 分析 一 标准的多元线性回归模型 二 多元线性回归模型的估计 三 多元线性回归模型的检验和预测 第三节 多元线性相关与回归 分析 一 标准的多元线性回归模型 二 多元线性回归模型的估计 三 多元线性回归模型的检验和预测 四 复相关系数和偏相关系数
一、标准的多元线性回归模型 研究在线性相关条件下,两个和两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。 多元线性回归模型总体回归函数的一般形式如下: 多元线性回归模型的样本回归函数如下 (t=1,2,…,n)
上式中,et是Yt与其估计之间的离差,即残差。与一元线性回归分析相类似,为了进行多元线性回归分析也需要提出一些必要的假定。多元线性回归分析的标准假定除了包括上一节中已经提出的关于随机误差项的假定外,还要追加一条假定。这就是回归模型所包含的自变量之间不能具有较强的线性关系,同时样本容量必须大于所要估计的回归系数的个数即n>k。我们称这条假定为标准假定6。
二、多元线性回归模型的估计 (一)回归系数的估计 多元线性回归模型中回归系数的估计同样采用最小二乘法。设 根据微积分中求极小值的原理,可知残差平方和Q存在极小值,欲使Q达到最小, Q对 的偏导数必须等于零。将Q对 求偏导数,并令其等于零,加以整理后可得到以下k个方程式: 以上k元一次方程组称为正规方程组或标准方程组,通过求解这一方程组便可以得到 。
求解多元回归方程,用矩阵形式来表达较为简便(这里给出的矩阵形式具有一般性,对于一元线性回归模型也同样适用。对于尚未学过矩阵代数的读者,可以不必掌握这一部分内容。) 记
则总体回归函数(7.50)式可以写为: Y=XB+U 样本回归函数(7.51)式可以写为: 标准方程组可以写为: 式中X’表示X的转置矩阵。(X’X)是一个k× k的对称矩阵,根据标准假定6,(k - 1)个自变量之间不存在高度的线性相关,因此其逆矩阵存在。在上式两边同时左乘(X’X)-1,可以得到: 上式是回归系数最小二乘估计的一般形式。
(二)总体方差的估计 多元线性回归模型中的 2也是利用残差平方和除以其自由度来估计的。即有: 上式中,n是样本观测值的个数;k是方程中回归系数的个数;数学上可以证明,S2是 2的无偏估计。 S2的正平方根S又叫做回归估计的标准误差。 S越小表明样本回归方程的代表性越强。 在编制计算机程序时,残差平方和一般不是按照其定义式计算,而是利用以下公式计算: 上式是残差平方和的矩阵形式。式中Y是因变量样本观测值向量;X是自变量样本观测值矩阵; 是回归系数估计值向量的转置向量。
(三)最小二乘估计量的性质 在标准的多元线性回归模型中,高斯.马尔可夫定理同样成立。
三、多元线性回归模型的检验和 预测 (一)拟合程度的评价 利用R2来评价多元线性回归方程的拟合程度,必须注意以下问题。 三、多元线性回归模型的检验和 预测 (一)拟合程度的评价 利用R2来评价多元线性回归方程的拟合程度,必须注意以下问题。 由决定系数的定义可知, R2的大小取决于残差平方和 在总离差平方和 中所占的比重。在样本容量一定的条件下,总离差平方和与自变量的个数无关,而残差平方和则会随着模型中自变量个数的增加不断减少,至少不会增加。因此, R2是自变量个数的非递减函数。
在一元线性回归模型中,所有模型包含的变量数目都相同,如果所使用的样本容量也一样,决定系数便可以直接作为评价拟合程度的尺度。然而在多元线性回归模型中,各回归模型所含的变量的数目未必相同,以R2的大小作为衡量拟合优劣的尺度是不合适的。 在多元回归分析中,人们更常用的评价指标是所谓的修正自由度的决定系数。 该指标的定义如下: 式中,n是样本容量;k是模型中回归系数的个数。( n -1)和( n - k )实际上分别是总离差平方和与残差平方和的自由度。
修正自由度的决定系数具有以下特点: 1. 。因为k≥1,所以根据 和R2各自的定义式可以得出这一结论。对于给定的R2值和n值,k值越大 2. 小于1,但未必都大于0。在拟合极差的场合,有可能取负值。
例7-10 假设有7年的年度统计资料,现利用其对同一因变量拟合了两个样本回归方程。方程一中:k=6, R2=0.82;方程二中:k=2, R2 =0.80。试对这两个回归方程的拟合程度做出评价。 解:如果仅从R2考察,似乎方程一的拟合程度更佳。但是,由于两个方程选用的自变量个数不同,这一结论是不正确的。将上列数据代入修正自由度的决定系数 公式,可得: 方程一的 =1-((7-1)/(7-6))(1-0.82)=-0.08 方程二的 =1-((7-1)/(7-2))(1-0.80)=0.76 由此可见,方程二的实际拟合程度远远优于方程一。
(二)显著性检验 1. 回归系数的显著性检验 多元回归中进行这一检验的目的主要是为了检验与各回归系数对应的自变量对因变量的影响是否显著,以便对自变量的取舍做出正确的判断。一般来说,当发现某个自变量的影响不显著时,应将其从模型中删除。这样才能够做到以尽可能少的自变量去达到尽可能高的拟合优度。 多元模型中回归系数的检验同样采用t检验和P检验,其原理和基本步骤与一元回归模型基本相同,这里不再赘述。下面仅给出回归系数显著性检验t统计量的一般计算公式。
j=1,2,…,k 式中, 是回归系数的估计值, 是的标准差的估计值,其按下式计算: 式中, 是(X’X)-1的第j个对角线元素,S2是随机误差项方差的估计值。上式的t 统计量背后的原假设是 H0: j=0,因此 t的绝对值越大表明 j为0的可能性越小,即表明相应的自变量对因变量的影响是显著的。
必须在方差分析的基础上利用F检验进行。其具体的方法步骤可归纳如下: 2. 回归方程的显著性检验 必须在方差分析的基础上利用F检验进行。其具体的方法步骤可归纳如下: (1)假设总体回归方程不显著,即有 H0: 2= 3 =……= k =0 (2)进行方差分析,列出回归方差分析表(见下表)
表中, 回归平方和的取值受k个回归系数估计值的影响,同时又要服从 的约束条件,因此其自由度是k -1。残差平方和取决于n个因变量的观测值,同时又要服从k个正规方程式的约束,因此其自由度是n - k 。 回归平方和与残差平方和各除以自身的自由度得到的是样本方差。 回归模型方差分析表 离差名称 平方和 自由度 方 差 回归平方和 k-1 SSR/(k-1) 残差平方和 n-k SSE/(n-k) 总离差平方和 n-1
(3)根据方差分析的结果求F统计量,即 数学上可以证明,在随机误差项服从正态分布同时原假设成立的条件下,F服从于自由度为(k-1)和(n-k)的F分布。 (4)根据自由度和给定的显著性水平 ,查F分布表中的理论临界值F 。当F > F 时,拒绝原假设,即认为总体回归函数中各自变量与因变量的线性回归关系显著。当F < F 时,接受原假设,即认为总体回归函数中,自变量与因变量的线性关系不显著,因而所建立的回归模型没有意义。
(三)多元线性回归预测 在通过各种检验的基础上,多元线性回归模型可以用于预测。多元线性回归预测与一元线性回归预测的原理是一致的,其基本公式如下: 式中,Xjf(j=2,3,…,k)是给定的Xj在预测期的具体数值; 是已估计出的样本回归系数; 是Xj给定时Y的 预测值。 该方程的矩阵形式为:
式中: 多元线性回归预测标准误差的计算公式如下: 式中,S是回归方程估计的标准误差。 多元线性回归预测Yf的(1- )的置信区间可由下式给出: 式中,t /2是显著水平为的t分布双侧临界值。
四、复相关系数和偏相关系数 (一)复相关系数 样本复相关系数(以下简称复相关系数)的定义式如下: 实际计算复相关系数时,一般不直接根据其定义式,而是先计算出决定系数,然后再求决定系数的平方根。 复相关系数只取正值。因此,复相关系数只是反映一个变量Y与其他多个变量X2,X3,…,Xk之间线性相关程度的指标,而不能反映其相互之间线性相关的方向。 复相关系数的取值区间为:0≤R≤1。
(二)偏相关系数 在对其他变量的影响进行控制的条件下,衡量多个变量中某两个变量之间的线性相关程度和相关方向的指标称为偏相关系数。 (二)偏相关系数 在对其他变量的影响进行控制的条件下,衡量多个变量中某两个变量之间的线性相关程度和相关方向的指标称为偏相关系数。 在多变量相关的场合,由于变量之间存在错综复杂的关系,因此偏相关系数与单相关系数在数值上可能相差很大,有时甚至符号都可能相反。单相关系数受其他因素的影响,反映的往往是表面的非本质的联系,而偏相关系数则较能说明现象之间真实的联系。例如,一种商品的需求既受收入水平的影响又受其价格的影响。按照经济学理论,在一定的收入水平下,该商品的价格越高,商品的需求量就越小。也就是说,需求与价格之间应当是负相关。可是,在现实经济生活中,由于收入和价格常常都有不断提高的趋势,如果不考虑收入对需求的影响,仅仅利用需求和价格的时间序列数据去计算单相关系数,就有可能得出价格越高需求越大的错误结论。
样本单相关系数也可定义为两个样本回归系数的乘积的开方,即: 上式中r的符号应与回归系数的符号一致。回归系数为正数时, r取正值;回归系数为负数时, r取负值。 样本偏相关系数也可以按照类似的形式来定义,即偏相关系数等于两个相应的偏回归系数的几何平均数。 为简明起见,下面举3变量的偏相关分析为例。设有3个变量X1、X2和X3。3个变量各自以另两个变量为自变量拟合的样本回归方程如下:
利用以上偏回归系数,3个变量之间的偏相关系数可定义如下: 偏相关系数的取值范围与单相关系数一样也是在-1至+1之间,其符号与相应的偏回归系数相同。
以上偏相关系数的定义可以推广到k个变量的场合。在进行实际的客观现象的定量分析时,人们所关心的通常是某一个因变量Y 与多个自变量之间的偏相关程度。这时若令Y为X1,则Y与各自变量的偏相关系数的一般形式可表现为: 式中, 是Y对Xj的偏回归系数; 是Xj对Y的偏回归系数。 表示k个变量情况下Y与Xj的偏相关系数,它反映其他自变量保持不变时Y与Xj的净相关程度。
第四节 Excel在相关与回归分析 中的应用 【例7-11】Checkers Pizza公司是美国休斯顿附近Westbury镇上仅有的从事家庭比萨饼送货业务的两家公司之一,另一家竞争者欧文公司也提供同样的产品与服务。此外,麦当劳连锁店提供的汉堡包等服务属于替代性商品,同样与公司存在竞争关系。 公司的经理安妮知道她的顾客对于价格是非常敏感的,镇上的比萨饼购买者很关注她与她的竞争者的价格变化。安妮决定估计她的比萨饼经验需求函数。她收集了过去24个月的有关数据(参见Excel文件)。 注:本案例数据引自美国S.Charles Maurice和Christopher R.Thomas 《管理经济学》(第7版)中译本207页,陈章武等译,机械工业出版社2003年8月。
要求 : 答案见Excel文件 1.绘制本公司比萨饼的需求量与价格的相关图。 2.估计以下线性需求模型的参数,并进行统计检验; 3.计算本公司比萨饼的需求量与上述模型中其他各变量的单相关系数;计算本公司比萨饼的需求量与小镇居民人均收入的偏相关系数。 4.假定小镇居民的人均年收入为29000美元,欧文公司和麦当劳公司商品的价格分别为:10.5美元和1.3美元,本公司价格维持9.75美元,试预测本公司比萨饼的需求量,并给出置信度为95%的预测区间。 答案见Excel文件