应用回归分析 信计学院统计系 沈菊红
第1章 回归分析概述 1.1 变量间的关系 1.2 回归方程与回归名称的由来 1.3 回归分析的主要内容及其一般模型 第1章 回归分析概述 1.1 变量间的关系 1.2 回归方程与回归名称的由来 1.3 回归分析的主要内容及其一般模型 1.4 建立实际问题回归模型的过程 1.5 回归分析应用与发展述评
1.1 变量间的关系 函数关系 相关关系
函数关系 是一一对应的确定关系 设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,并完全依赖于 x ,当变量 x 取某个数值时, y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y = f (x),其中 x 称为自变量,y 称为因变量 各观测点落在一条线上 x y
函数关系(几个例子) 函数关系的例子 某种商品的销售额y与销售量x之间的关系可表示为 y = px (p 为单价) 圆的面积S与半径之间的关系可表示为 S=R2 企业的原材料消耗额y与产量x1 、单位产量消耗x2 、原材料价格x3之间的关系可表示为 y = x1 x2 x3
相关关系(correlation) 1. 变量间关系不能用函数关系精确表达 2. 一个变量的取值不能由另一个(或某一些)变量唯一确定 3. 当变量 x 取某个值时,变量 y 的取值可能有几个 4. 各观测点分布在直线周围 x y
相关关系 (几个例子) 相关关系的例子 父亲身高x与子女身高y之间的关系 收入水平y与受教育程度x之间的关系 粮食亩产量y与施肥量x1 、降雨量x2 、温度 x3之间的关系 商品的消费量y与居民收入x之间的关系 商品销售额y与广告费支出x之间的关系
在推断统计中,我们把上述变量间具有密切 关联而又不能由某一个或某一些变量唯一确 定另外一个变量的关系,称为变量间的统计 关系或相关关系。 相关分析 统计关系的研究 回归分析
回归分析与相关分析的区别 相关分析中,变量x和变量y处于平等的地位;回归分析中,变量 y 称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化 相关分析中所涉及的变量 x 和 y 都是随机变量;回归分析中,因变量 y 是随机变量,自变量 x 可以是随机变量,也可以是非随机的确定变量 相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行预测和控制
相关关系 (类型)
1.2 回归方程与回归名称的由来 ■回归函数:称给定x时y的条件数学期望 f(x)=E( y|x ) (1.1) 1.2 回归方程与回归名称的由来 ■回归函数:称给定x时y的条件数学期望 f(x)=E( y|x ) (1.1) 为随机变量y对x的回归函数。(1.1)式从平均 意义上刻画了变量x与y之间的统计规律。 样本观测值: (1.2) 建立一个公式
回归方程(regression equation) 1. 描述因变量 y 的平均值或期望值如何依 赖于自变量 x的方程 2.一元线性回归方程的形式如下 (1.3) 方程的图示是一条直线,也称为直线回归方程 0是回归直线在 y 轴上的截距,是当 x=0 时 y 的期望值,称为回归常数 1是直线的斜率,称为回归系数,表示当 x 每变动一个单位时,y 的平均变动值
由样本数据(1.2)去估计 ,得到估计 的回归方程 (1.4)
什么是回归分析?(Regression) 1. 从一组样本数据出发,确定变量之间的数学关系式 2. 对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著 3. 利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度 回归一词是怎么来的? ?
高尔顿(研究父代与子代身高的关系) 以父母亲的平均身高为x,取儿子的身高为y 回归效应:大自然具有一种约束力,使人类身 高的分布在一定时期内相对稳定而不产生两极 分化
1.3 回归分析的主要内容及其一般模型 主要内容 回归分析
回归模型( regression model) 1. 一个因变量与一个及一个以上自变量的回归 2. 描述因变量 y 如何依赖于自变量 x1 , x2 ,…, xp 和误差项 的方程,称为多元回归模型 3. 涉及 p 个自变量的多元回归模型可表示为 (1.6) 该模型中由两部分组成:一部分是确定性函数关系,另一部分是随机误差项 正是因为随机误差项的引入,才将变量之间的关系描述为一个随机方程,才能借助随机数学方法研究 y与 的关系
随机误差项主要包括下列因素的影响: 由于人们认识的局限或时间、费用、数据质 量等制约未引入回归模型但又对回归被解释变 量y有影响的因素; 样本数据的采集过程中变量观测值的观测误差 的影响; 理论模型设定误差的影响; 4. 其他随机因素的影响
(multiple regression model) 多元回归模型 (multiple regression model) 涉及 p 个自变量的多元线性回归模型可表示为 (1.7) b0 ,b1,b2 ,,bp是参数 是被称为误差项的随机变量 y 是x1,,x2 , ,xp 的线性函数加上误差项 包含在y里面但不能被p个自变量的线性关系所解释的变异性
给定(1.7)式中变量 的一组观测值 , 则线性回归模型可表示为: (1.8) 其中
为了估计模型参数的需要,线性回归模型 通常应满足几个基本假设: ■ Gauss-Markov假设 1. 误差项 是一个期望值为0的随机变量,即 2. 对于自变量 的所有值, 的方差 2都相同 3. 误差项 是彼此相互独立的
■ 解释变量 是非随机变量,观测值 是常数 ■ 正态分布的假定 ~ ■ 为了便于数学上的处理,要求 ■ 解释变量 是非随机变量,观测值 是常数 ■ 正态分布的假定 ~ ■ 为了便于数学上的处理,要求
1.4 建立实际问题回归模型的过程 回归建模步骤流程图 具体(社会经济)问题 设置指标变量 收集整理数据 构造理论模型 估计模型参数 模型 检验 N 修改 Y 模型运用 经济因素分析 经济变量控制 经济决策预测
一 根据研究目的设置指标变量 * 回归分析模型主要是揭示事物间相关变量的数量联 系。首先是根据所研究问题的目的设置因变量y, 一 根据研究目的设置指标变量 * 回归分析模型主要是揭示事物间相关变量的数量联 系。首先是根据所研究问题的目的设置因变量y, 然后再选取与y有统计关系的一些变量作为自变量。 * 通常情况下,希望因变量与自变量之间具有因果关 系,被解释变量为“果”,解释变量为“因”。 * 选择变量时与一些专门领域的专家合作,有助于确 定模型变量。 例如,研究中国通货膨胀问题,通常把全国零售物价总指数作为衡量 通货膨胀的重要指标,那么,全国零售物价总指数作为被解释变量,国民收入、居民存款、工农业总产值、货币流通量、职工平均工资、社会商品零售总额等18个指标确定为解释变量。
二 收集、整理统计数据 *回归模型的建立是基于回归变量的样本统计数据。 数据的收集是建立经济问题回归模型的重要一环, 是一项基础性工作 二 收集、整理统计数据 *回归模型的建立是基于回归变量的样本统计数据。 数据的收集是建立经济问题回归模型的重要一环, 是一项基础性工作 *样本数据分为时间序列数据和横截面数据 – 时间序列数据就是按时间顺序排列的统计数据 (容易产生模型中随机误差项的序列相关) – 横截面数据为在同一时间截面上的统计数据 (容易产生异方差性) 对于收集到的时间序列资料要特别注意数据的可比性和数据 的统计口径问题
*统计数据的整理中要把一些变量进行折算、差 分、对数化、中心化等 国民生产总值(GNP)按国民原则计算,反映一国常住居民 当期在国内外所从事的生产活动; 国内生产总值(GDP)则以国土为计算原则,反映一国国土 范围内所发生的生产活动量。
三 确定理论回归模型的数学形式 * 绘制变量 的样本散点图是选择 数学模型形式的重要环节 * 经济回归模型的建立,通常要依据经济理论和一 * 绘制变量 的样本散点图是选择 数学模型形式的重要环节 * 经济回归模型的建立,通常要依据经济理论和一 些数理经济学结果 例:C-D生产函数 随机模型为 , 是随机项
四 模型参数的估计 * 未知参数的经典估计方法是普通最小二乘法 * 对于不满足模型基本假设的回归问题,常用 四 模型参数的估计 * 未知参数的经典估计方法是普通最小二乘法 * 对于不满足模型基本假设的回归问题,常用 岭回归、主成分回归、偏最小二乘估计法等 * 用TSP、SPSS、 SAS等统计软件去完成
五 模型的检验与修改 * 模型是否真正揭示了被解释变量与解释变量之 间的关系,必须通过对模型的检验才能决定 五 模型的检验与修改 * 模型是否真正揭示了被解释变量与解释变量之 间的关系,必须通过对模型的检验才能决定 * 统计检验:回归方程的显著性检验,回归系数 的显著性检验,拟合优度的检验,随机误差项 的序列相关检验,异方差性检验,解释变量的 多重共线性检验等 * 回归模型未通过某种统计检验,或者没有合理 的经济意义时,需对模型进行修改
六 回归模型的运用 1. 描述变量之间的关系 2. 分析变量之间的相互关系 3. 预测(给定自变量的一组特定值,可以 六 回归模型的运用 1. 描述变量之间的关系 回归方程描述了因变量和自变量之间的相依关系 2. 分析变量之间的相互关系 3. 预测(给定自变量的一组特定值,可以 预测对应的因变量值)
4. 控制 控制问题只不过是预报的反问题。若要求观测值 在一定范围内 取值,只要将x的 取值加以控制,我们就能以95%(或99.7%)的 把握保证, 中包含 在回归模型的运用中,注意定性分析和定量分析 的有机结合。
定性分析是对某一社会现象以现有的文献资料或经验材料为依据,运用演绎、归纳、比较、分类、矛盾分析等方法,对某种事物进行分析的一种类型。其目的是把握事物质的规定性。 定量分析是运用概率、统计原理对社会现象的数量特征、数量关系和事物发展过程中的数量变化等方面进行的分析。其目的是把握事物量的规定性。
1.5 回归分析应用与发展评述 1. 计量经济学中的基本计量方法就是回归分析 2. 矩阵理论和计算机技术的发展为回归分析模型在 经济研究中的应用提供了极大的方便 3. 模型技术在经济问题研究中的应用;回归分析方 法是模型技术中最基本的内容 4. 统计学中的许多重要方法都与回归分析有着密切 联系
作业:1-(1)、(3)、(4)、(9)