第一节 引言 第二节 一元线性回归模型 第三节 多元线性回归模型 第四节 虚拟变量回归模型 第五节 非线性回归模型 本章小节 主要内容
第一节 引言 回归是研究自变量与因变量之间的关系形式的分析方法。 一、回归分析的提出 第一节 引言 回归是研究自变量与因变量之间的关系形式的分析方法。 一、回归分析的提出 回归分析起源于生物学研究,是由英国生物学家兼统计学家高尔登(Francis Galton 1822-1911)在19世纪末叶研究遗传学特性时首先提出来的。 高尔登在1889年发表的著作《自然的遗传》中,提出了回归分析方法以后,很快就应用到经济领域中来,而且这一名词也一直为生物学和统计学所沿用。
第一节 引言 二、回归分析和相关分析 函数关系 函数关系反映客观事物之间存在着严格的依存关系。在这种关系中,当一个或几个变量取值一定时,另一个变量有确定的值与之相对应,并且这种关系可以用一个确定的数学表达式反映出来。 一般把作为影响因素的变量称为自变量,把发生对应变化的变量称为因变量。
相关关系 二、回归分析和相关分析 相关关系反映的是客观事物之间的非严格、不确定的线性依存关系。这种线性依存关系有两个显著的特点: 相关关系反映的是客观事物之间的非严格、不确定的线性依存关系。这种线性依存关系有两个显著的特点: ① 客观事物之间在数量上确实存在一定的内在联系。表现在一个变量发生数量上的变化,要影响另一个变量也相应地发生数量上的变化。 ② 客观事物之间的数量依存关系不是确定的,具有一定的随机性。表现在当一个或几个相互联系的变量取一定数值时,与之对应的另一个变量可以取若干个不同的数值。这种关系虽然不确定,但因变量总是遵循一定规律围绕这些数值的平均数上下波动。
图 国内生产总值y与固定资产投资完成额x间关系的散点图
二、回归分析和相关分析 回归分析与相关分析的关系 相关分析 相关分析是研究两个或两个以上随机变量之间线性依存关系的紧密程度。通常用相关系数表示,多元相关时用复相关系数表示。 回归分析 回归分析是研究某一随机变量(因变量)与另外一个或几个普通变量(自变量)之间的数量变动的关系。由回归分析求出的关系式,称为回归模型。
二、回归分析和相关分析 联系 由相关系数的大小决定是否需要进行回归分析。在相关分析的基础上建立回归模型,以便进行推算、预测,同时相关系数还是检验回归分析效果的标准。 区别 相关分析研究的变量都是随机变量,并且不分自变量与因变量;回归分析研究的变量要首先明确那些是自变量,那些是因变量?并且自变量是确定的普通变量,因变量是随机变量。
三、回归模型的种类 根据自变量的多少 回归模型可以分为一元回归模型和多元回归模型。 根据回归模型的形式线性与否 根据回归模型是否带有虚拟变量 回归模型可以分为普通回归模型和带虚拟变量的回归模型。 此外,根据回归模型是否用滞后的因变量作自变量,回归模型又可分为无自回归现象的回归模型和自回归模型。
、一元线性回归模型 设x为自变量, y为因变量,y与x之间存在某种线性关系,即一元线性回归模型为 第二节 一元线性回归模型 (6.2.1) 第二节 一元线性回归模型 、一元线性回归模型 设x为自变量, y为因变量,y与x之间存在某种线性关系,即一元线性回归模型为 (6.2.1) 给定x,y的n对观测值xi,yi, ,代入式(6.2.1)得 (6.2.1’) 当b>0时,x与y为正相关,当b<0时,x与y为负相关。
二、 OLS (Ordinary Least Square)估计 第二节 一元线性回归模型 二、 OLS (Ordinary Least Square)估计 OLS的中心思想 最小二乘法的中心思想,是通过数学模型,配合一条较为理想的趋势线。这条趋势线必须满足下列两点要求: (1)原数列的观测值与模型估计值的离差平方和为最小; (2)原数列的观测值与模型估计值的离差总和为0。
二、 OLS (Ordinary Least Square)估计
二、OLS (Ordinary Least Square)估计
二、OLS (Ordinary Least Square)估计
二、OLS (Ordinary Least Square)估计 最小二乘估计量 具有线性、无偏性和最小方差性等良好的性质。线性、无偏性和最小方差性统称BLUE性质。满足BLUE性质的估计量 称为BLUE估计量。
在一元线性回归模型中最常用的显著性检验方法有: 3.2 一元线性回归预测法 回归方程的检验 在一元线性回归模型中最常用的显著性检验方法有: 相关系数检验法 F检验法 t检验法
三、离差平方和的分解与可决系数 3.2 一元线性回归预测法 在一元线性回归模型中,观测值的数值会发生波动,这种波动称为变差。变差产生的原因如下: ①受自变量变动的影响,即x取值不同时的影响; ②受其他因素(包括观测和实验中产生的误差)的影响。为了分析这两方面的影响,需要对总变差进行分解。
三、相关系数 离差平方和的分解
三、相关系数 可决系数
当R=0时,说明回归变差为0,自变量x的变动对总变差毫无影响,这种情况称y与x不相关。 三、相关系数 相关系数的取值范围为 当R=0时,说明回归变差为0,自变量x的变动对总变差毫无影响,这种情况称y与x不相关。 当|R|=1时,说明回归变差等于总变差,总变差的变化完全由自变量x的变化所引起,这种情况成为完全相关。这时因变量y是自变量x的线性函数,二者之间呈函数关系。 当0<|R|<1时,说明自变量x的变动对总变差有部分影响,这种情况成为普通相关。
三、相关系数
四、显著性检验 相关系数检验法 第一步,计算相关系数R; 第二步,根据回归模型的自由度(n-2)和给定的显著性水平值α,从相关系数临界值表中查出临界值; 第三步,判别。若|R|≥Rα(n-2),表明两变量之间线性相关关系显著,检验通过,这时回归模型可以用来预测;若|R|< Rα ,表明两变量之间线性相关关系不显著,检验不通过。
四、显著性检验 F 检验法 F服从第一自由度为1,第二自由度为n-2的F分布。对给定的显著性水平 ,查F分布表可得临界值 。
四、显著性检验
在一元线性回归模型中,对于自变量x的一个给定值,代入回归模型,就可以求得一个对应的回归预测值,又称为点估计值。 五、预测区间 点估计 在一元线性回归模型中,对于自变量x的一个给定值,代入回归模型,就可以求得一个对应的回归预测值,又称为点估计值。 区间估计 所谓预测区间就是指在一定的显著性水平上,依据数理统计方法计算出的包含预测对象未来真实值的某一区间范围。
五、预测区间 回归系数b的统计性质 点估计值 的统计性质
五、预测区间
由于总体方差往往是未知的,所以,常用总体方差的无偏估计量来代替。 五、预测区间 由于总体方差往往是未知的,所以,常用总体方差的无偏估计量来代替。 式中,Sy称为y的标准误差,实际计算时可用其简捷式
五、预测区间 预测值和预测误差 预测误差的数学期望与方差
当实际观测值较多时,一般n>30,式(6.2.31)可简化为 五、预测区间 令 当实际观测值较多时,一般n>30,式(6.2.31)可简化为 (6.2.31)
六、应用举例 例6.2.1 某省1978-1989年国内生产总值和固定资产投资完成额资料如表6.2.1所示。
六、应用举例 试配合适当的回归模型并进行显著性检验;若1999年该省固定资产投资完成额为249亿元,当显著性水平=0.05时,试估计1990年国内生产总值的预测区间。 解:1.绘制散点图
六、应用举例 2.设一元线性回归模型为 3.计算回归系数
六、应用举例 4.检验线性关系的显著性
六、应用举例
六、应用举例 5.预测 (1)计算估计值的标准误差 (2)当显著性水平,自由度=n-m=12-2=10时,查t分布表得
六、应用举例
图6.2.2 a) 应用excel软件求回归分析相关参数 点击 “工具” -“数据分析” -“回归”, 在出现的数据分析对话框中选择,如图6.2.2所示。 图6.2.2 a) 应用excel软件求回归分析相关参数
六、应用举例(excel计算) 点击图6.2.2 a)所示对话框中的确定,弹出“回归”对话框,在Y值输入区域,拖动鼠标选择Y样本值B2:B13,在X值输入区域,拖动鼠标选择X样本值A2:A13,如图6.2.2 b)所示。 图6.2.2 b) 应用excel软件求回归分析相关参数
图6.2.2 c) 应用excel软件求回归分析相关参数 点击图6.2.2 b)所示中的确定,弹出回归分析有关参数的窗口,如图6.2.2c)所示。 图6.2.2 c) 应用excel软件求回归分析相关参数
七、几个应当注意的问题 1.重视数据的收集和甄别 2. 合理确定数据的单位 在收集数据的过程中可能会遇到以下困难: (1)一些变量无法直接观测。 (2)数据缺失或出现异常数据。 (3)数据量不够。 (4)数据不准确、不一致、有矛盾。 2. 合理确定数据的单位 在建立回归方程时,如果不同变量的单位选取不适当,导致模型中各变量的数量级差异悬殊,往往会给建模和模型解释带来诸多不便。比如模型中有的变量用小数位表示,有的变量用百位或千位数表示,可能会因舍入误差使模型计算的准确性受到影响。因此,适当选取变量的单位,使模型中各变量的数量级大体一致是一种明智的做法。
第三节 多元线性回归预测法 一元线性回归模型研究的是某一因变量与一个自变量之间的关系问题。但是,客观现象之间的联系是复杂的,许多现象的变动都涉及到多个变量之间的数量关系。 研究某一因变量与多个自变量之间的相互关系的理论和方法就是多元线性回归模型。
第三节 多元线性回归预测法
一、 多元线性回归模型及其假设条件 多元线性回归模型
一、 多元线性回归模型及其假设条件
一、 多元线性回归模型及其假设条件
一、 多元线性回归模型及其假设条件
一、 多元线性回归模型及其假设条件
二、模型参数OSL的估计与性质 模型参数的OSL 估计
二、模型参数OSL的估计与性质 回归系数向量估计值 的统计性质
回归系数向量估计值 的统计性质
常用的检验方法有 R检验法 F检验法 t检验法 DW检验法 三、多元线性回归模型的检验 在建立多元线性回归模型的过程中,为进一步分析回归模型所反映的变量之间的关系是否符合客观实际,引入的影响因素是否有效,同样需要对回归模型进行检验。
1. R检验法
与相关系数检验法一样,复相关系数检验法的步骤为: (1)计算复相关系数; (2)查相关系数临界值表; 1.R检验法 与相关系数检验法一样,复相关系数检验法的步骤为: (1)计算复相关系数; (2)查相关系数临界值表; 根据回归模型的自由度n-m和给定的显著性水平α值,查相关系数临界值表 (3)判别。
1.R检验法
1. R检验法
2. F 检验法
2. F 检验法
3. T 检验法
3. T 检验法
4. DW 检验法
在序列相关中,最常见的是一阶自相关,最常用的检验方法是DW检验法(Durbin-Watson准则)。定义DW统计量为:
4. DW检验法
4. DW检验法
4. DW检验法 表 DW检验判别表
4. DW检验法 将上面DW检验判别表绘成图形如下图:
4. DW检验法
5. 预测区间
5. 预测区间
四、应用举例 某省1978~1989年消费基金、国民收入使用额和平均人口资料如表6.3.3所示。试配合适当的回归模型并进行各种检验;若1990年该省国民收入使用额为67十亿元,平均人口为58百万人,当显著性水平=0.05时,试估计1990年消费基金的预测区间。
四、应用举例
四、应用举例
四、应用举例
四、应用举例
四、应用举例
四、应用举例
四、应用举例
图6.3.1a) 应用excel“数据分析”功能求多元线性回归的有关参数
图6.3.1 b) 应用excel“数据分析”功能求多元线性回归的有关参数 点击图6.3.1 a)所示中的确定,弹出多元回归分析有关参数的窗口,如图6.3.1b)所示。 图6.3.1 b) 应用excel“数据分析”功能求多元线性回归的有关参数
四、应用举例 7.DW检验
四、应用举例
四、应用举例
常见的带虚拟变量的回归模型有以下三种形式: 第四节 虚拟变量回归预测 1.虚拟变量 品质变量不像数量变量那样表现为具体的数值。它只能以品质、属性、种类等形式来表现。要在回归模型中引入此类品质变量,必须首先将具有属性性质的品质变量数量化。通常的做法是令某种属性出现对应于1,不出现对应于0。这种以出现为1,未出现为0形式表现的品质变量,就称为虚拟变量。 2.带虚拟变量的回归模型 常见的带虚拟变量的回归模型有以下三种形式:
第四节 虚拟变量回归预测
第四节 虚拟变量回归预测 其中的趋势变化如右图所示
第四节 虚拟变量回归预测
第四节 虚拟变量回归预测
虚拟变量的回归模型应用举例 例 某省农业生产资料购买力和农民货币收入统计数据,根据上述统计数据,试建立一元线性回归模型和带虚拟变量的回归模型,并将两模型对比分析
虚拟变量回归模型的应用举例
虚拟变量回归模型的应用举例
第五节 非线性回归模型 非线性回归模型按变量个数也可以分为一元非线性回归模型和多元非线性回归模型;曲线的形式也因实际情况不同而有多种形式,如指数曲线、双曲线、S形曲线等。
第五节 非线性回归模型 非线性回归模型的形式
第五节 非线性回归模型
非线性回归模型的分类 第五节 非线性回归模型 第五节 非线性回归模型 根据非线性回归模型线性化的不同性质,上述模型一般可以分成三种类型: 第一类:直接换元型 这类非线性回归模型通过简单的变量换元可直接化为线性回归模型,如式(1)、式(2)、式(3)、式(4)。 第二类:间接代换型 这类非线性回归模型经常通过对数变形代换间接地化为线性回归模型,如:式(5)、式(6)。 第三类:非线性型 这类非线性回归模型属于不可线性化的非线性回归模型,如式(7)和式(8)。 非线性回归模型的分类
直接换元法
间接换元法 对于式(5)、式(6)和式(7)所示的非线性回归模型,因变量与待估计参数之间的关系也是非线性的。因此不能通过直接换元化为线性模型。对此类模型,通常可通过对回归方程两边取对数将其化为可以直接换元的形式。这种先取对数再进行变量代换的方法称为间接换元法。
间接换元法
例 6.5.1 例 6.5.2 直接换元法计算表
例 6.5.1
例 6.5.1
例 6.5.1
例 6.5.1 由于商品零售额增加,流通费用率呈下降趋势,二者之间为负相关关系,故相关系数取负值为:-0.9898。说明两者高度相关,用双曲线回归模型配合进行预测是可靠的。
例 6.5.1
本章小节 回归分析和相关分析的目的不同 在回归分析中,寻找的是变量之间的关系,代表这种关系的方程可能就是所期望的结果,也可能是所期望预测的均值。 在相关分析中,需要度量的是两个或两个以上随机变量之间线性关系的强度。当二维数据显示在散点图上落在一条直线附近时,它们支持一个线性关系,但是这并不能证明这是必然的和有因果关系的。
本章小节 线性回归模型的一般形式为
本章小节
本章小节 对于非线性回归模型,一般可以分成三种类型: 直接换元型 即通过简单的变量换元可直接化为线性回归模型; 间接代换型 通常通过对数变换的代换间接地化为线性回归模型; 非线性型 指不能线性化的非线性回归模型。 对于可线性化的非线性回归模型可以转化为线性模型后进行求解,并应用可决系数R2或相关系数R度量非线性相关程度。