Download presentation
Presentation is loading. Please wait.
1
第8章 回归分析 本章教学目标: 了解回归分析在经济与管理中的广泛应用; 掌握回归分析的基本概念、基本原理及其分析应用的基本步骤;
应用统计第5章 第8章 回归分析 本章教学目标: 了解回归分析在经济与管理中的广泛应用; 掌握回归分析的基本概念、基本原理及其分析应用的基本步骤; 熟练掌握使用软件求解回归方程及其运行输出结果的分析与使用; 能应用回归分析方法解决实际问题(分析各种变量间的关系,进行预测和控制)
2
本章主要内容: 本章内容重点: §8.1 回归分析概述 §8.2 一元线性回归 §8.3 曲线回归 §8.4 多元线性回归
§ 回归分析概述 § 一元线性回归 § 曲线回归 § 多元线性回归 本章内容重点: 最小二乘法的原理;回归方程和回归系数的显著性检验;多元线性回归及其预测和控制;软件的求解分析。
3
§8.1 回归分析概述 在经济管理和其他领域中,人们经常需要研究两个或多个变量(现象)之间的相互(因果)关系,并使用数学模型来加以描述和解释。如: 商品销售量与价格间的关系; 产品的某些质量指标与某些控制因素之间的关系; 家庭消费支出与家庭收入间的关系等等。 回归分析就是对变量间存在的不确定关系进行分析的统计方法。 回归分析是使用得最为广泛的统计学分支,在质量管理、市场营销、宏观经济管理等领域都有非常广泛的应用。 本章介绍回归分析中最基本的内容。
4
质量控制应用案例 某钢厂生产的某种合金钢有两个重要的质量指标:抗拉强度(kg/mm2)和延伸率(%)。
根据冶金学的专业知识和实践经验,该合金钢的含碳量是影响抗拉强度和延伸率的主要因素。其中含碳量高,则抗拉强度也就会相应提高,但与此同时延伸率则会降低。 为降低生产成本,提高产品质量和竞争能力,该厂质量控制部门要求该种合金钢产品的上述两项质量指标的合格率都应达到99%以上。
5
如何制订含碳量的控制标准? 为达到以上质量控制要求,就需要制定该合金钢冶炼中含碳量的工艺控制标准,也即要确定在冶炼中应将含碳量控制在什么范围内,可以有99%的把握使抗拉强度和延伸率这两项指标都达到要求。 这是一个典型的产品质量控制问题,可以使用回归分析方法求解。
6
一. 变量间的两类关系 1. 确定性关系 ——也即函数关系,即 Y = ƒ(X) ; Y = ƒ(X1, X2, ···, Xp)
或 F(X, Y) = 0; F(X1, X2, ···, Xp, Y) = 0 例:价格不变时商品销售收入与销售量的关系。 Y 销售收入 Y = cX X O Y 与 X 间的确定性关系 销售量
7
2. 非确定性关系 ——指变量间虽存在着相互影响和相互制约关系, 但由于许多无法预计和控制的因素的影响, 使变量间 的关系呈现不确定性。
即不能由一个或若干变量的值 精确地确定另一变量的值。 但通过大量观察, 可以发现非确定性关系的变量间 存在着某种统计规律性 ——称为相关关系或回归关系。 . 家庭消费支出 Y . Y = b0 + b1X . . . . . . . . . . . . . . . . . . . . X O 非确定性关系 家庭收入
8
【案例1】商品价格与消费量的关系 以三口之家为单位,某种食品在某年各月的家庭平均月消费量 Y (kg)与其价格 X (元/kg) 间的调查数据如下,试分析该食品家庭平均月消费量与价格间的关系。
9
二. 线性回归模型 由图可知,该食品家庭月平均消费量 Y 与价格 X 间基本呈线性关系。这些点与直线 Y = 0 + 1X
二. 线性回归模型 由图可知,该食品家庭月平均消费量 Y 与价格 X 间基本呈线性关系。这些点与直线 Y = 0 + 1X 间的偏差是由其他一些无法控制的因素和观察误差引起的。 因此可以建立 Y 与 X 之间关系的如下线性回归模型 Y = 0 + 1X + (8.1-1)其中 X —— 解释变量(自变量) Y —— 被解释变量(因变量) 0, 1 —— 模型中的未知参数 —— 随机误差项
10
随机误差项产生的原因 (1) 模型中忽略的其他因素对 Y 的影响; (2) 模型不准确所产生的偏差;
(4) 对变量的观察误差; (5) 其他随机因素的影响。
11
线性回归模型的数据结构 得 当 X 取不完全相同的值 x1, x2, ···, xN 时, 到 Y 的一组相应的观察值 y1, y2, ···, yN 。 显然, 每一对观察值 (xi, yi) 都应满足(5.1-1)式。 因此 一元线性回归模型有如下的数据结构: yi = 0 + 1xi + i ; i =1, 2, ···, N (8.1-2) 其中 i 是其他因素和试验误差对 yi 影响的总和。
12
例 解释截距和斜率一名统计学教授打算运用学生为准备期末考试而学习统计学的小时数(X)预测其期末考试成绩(Y)。依据上学期上课班级中收集的数据建立的回归模型如下:
如何解释截距和斜率? 解 截距=35.0表示当学生不为期末考试做准备的话,期末考试平均成绩是35.0。斜率=3表示每增加1小时学习时间,期末考试平均成绩就变化+3.0。换句话说,每增加1小时学习时间,期末成绩就增加3.0。
13
三. 回归模型的经典假设条件 1. 各 i ~ N( 0, 2 ),且相互独立; 2. 解释变量是可以精确观察的普通变量(非随机变量);
三. 回归模型的经典假设条件 1. 各 i ~ N( 0, 2 ),且相互独立; 2. 解释变量是可以精确观察的普通变量(非随机变量); 3. 解释变量与随机误差项是各自独立对被解释变量产生影响的。 称满足以上条件的回归模型为经典回归模型。 本章仅讨论经典回归模型。 但在经济领域中,经济变量间的关系通常是不会完全满足上述条件的。 例如家庭消费支出 Y 与家庭收入 X 间的回归模型就不会是同方差的。
14
四. 回归分析的主要内容和分析步骤 1. 根据问题的实际背景、专业知识或通过对样本数据的分析,建立描述变量间相关关系的回归模型; 2. 利用样本数据估计模型中的未知参数,得到回归方程; 3. 对模型进行检验; 4. 利用通过检验的回归方程对被解释变量进行预测或控制。
15
§8.2 一元线性回归 一. 一元线性回归模型 设被解释变量 Y 与 解释变量 X 间存在线形相关关系,则
§8.2 一元线性回归 一. 一元线性回归模型 设被解释变量 Y 与 解释变量 X 间存在线形相关关系,则 Y = 0 + 1X + ; ~N(0, 2 ) 其中 X 是普通变量。 则 Y ~ N( 0+ 1X, 2 ) 称 Y 的条件期望 E( Y|X ) = 0 + 1X (8.2-1) 为 Y 对 X 的回归。
16
二. 回归方程 记 分别是参数 0 和 1 的点估计, 并记 为 Y 的条件期望 E( Y|X ) 的点估计, 则由(8.2-1) 式,
二. 回归方程 记 分别是参数 0 和 1 的点估计, 并记 为 Y 的条件期望 E( Y|X ) 的点估计, 则由(8.2-1) 式, 有 (8.2-2) 称(5.2-2) 式为回归方程。 并称 为回归方程的 回归系数。 对每一 xi 值,由回归方程可以确定一个回归值
17
三. 回归模型的参数估计 之差 回归模型中的参数估计, 采用的是“最小二乘法”, 其原理如下: Y 的各观察值 yi 与回归值 反映了 yi
与回归直线之间的偏离程度, 从而全部观察值与回归值 的残差平方和 反映了全部观察值与回归直线间总的偏离程度。 显然, Q 的值越小, 就说明回归直线对所有样本数据的 拟和程度越好。 所谓最小二乘法, 就是要使 为最小。 只要令 就可求出
18
最小二乘法原理示意图 要找一条直线,使 。 x y yi xi
19
四. 最小二乘估计的性质 可以证明, 在满足经典假设的条件下 1. 分别是参数 0 和 1 的最小方差无偏估计。 2. 的方差分别为:
四. 最小二乘估计的性质 可以证明, 在满足经典假设的条件下 1. 分别是参数 0 和 1 的最小方差无偏估计。 2. 的方差分别为: 以上两式说明, 回归系数 的估计精度不仅 与 σ 2 及样本容量 N 有关, 而且与各 xi 取值的分散程 度有关。 在给定样本容量下, xi 的取值越分散, 则估 计的方差就越小, 即对参数 0 和 1 的估计就越精确; 反之估计的精确就差。 了解这一点, 对指导试验或抽样调查是非常重要的。
20
五. 回归方程的显著性检验 通过参数估计得到回归方程后,还需要对回归方程进行检验,以确定变量间是否存在显著的线性关系。
五. 回归方程的显著性检验 通过参数估计得到回归方程后,还需要对回归方程进行检验,以确定变量间是否存在显著的线性关系。 对一元线性回归模型,如果变量 Y 与 X 之间并不存在线性相关关系,则模型中的一次项系数 1 应为 0;反之,则 1≠0。 故对一元线性回归模型,要检验的原假设为 H0:1 = 0 以上检验称为对回归方程的显著性检验,使用的仍然是方差分析方法。 Y 的观察值 y1, y2, …, yN 之间的差异是由两方面的原因引起的: (1) 解释变量 X 的取值 xi 不同; (2) 其他因素和试验误差的影响。
21
1. 偏差平方和的分解 为检验以上两方面中哪一个对 Y 取值的影响是主要的,
就需要将它们各自对 Y 取值的影响,从 yi 总的差异中分解出来。 与方差分析类似地,可以用总的偏差平方和 来表示全部观察值 yi 间总的差异量。 将 ST 作如下分解: 称 SR 为回归平方和, 它主要是由于变量 X 的取值不同 引起的, 其大小反映了 X 的对 Y 影响的重要程度。 称 SE 为剩余平方和或残差平方和, 它主要是由随机误 差和其他因素的影响所引起的。
22
2. 检验 H0 的统计量 可以证明, 当 H0 为真时, 统计量 ~ F(1, N-2) 因此,在给定显著性水平 下,若
F > F (1, N-2) 就拒绝 H0, 并称回归方程是显著的, 可以用回归方程对 被解释变量进行预测或控制分析; 反之, 则称回归方程 无显著意义。 若不能拒绝 H0, 则可能有以下原因: (1) Y 和 X 之间不是线性关系; (2) 模型中忽略了对 Y 有重要影响的其他因素; (3) Y 和 X 基本无关; (4) 数据误差过大。
23
3.方差分析表 回归方程的显著性检验过程同样可以列成如下方差分析表: 方差分析表
24
【案例1】商品价格与消费量的关系 以三口之家为单位,某种食品在某年各月的家庭平均月消费量 Y (kg)与其价格 X (元/kg) 间的调查数据如下,试分析该食品家庭平均月消费量与价格间的关系。
25
案例 1 求解分析 可用 Excel 【工具】→“数据分析”→“回归”求解线性回归问题。 本案例可解得 故所求回归方程为:
说明该食品价格每上涨一元, 家庭月平均消费量将下降 0.34kg, kg 为该食品的最大月平均消费量。 方差分析表 “Significance F”为达到的显著性水平,含义与 P-value 相同。 ∵ Significance F = <0.001 故回归方程是极高度显著的。
26
运用回归分析,可能存在如下一些错误: 不注意最小二乘回归的假设条件 不知道如何评估最小二乘回归的假设条件 不知道在违背某一假设条件的情况下运用除最小二乘回归外的其它方法 在对主要问题不了解的情况下运用回归模型 在相关范围外进行外推 根据某研究中的因果关系得出存在显著关系的结论
27
案例 1 需要继续研究的问题 1. 以 90% 的可信度预测当价格为5.6元/kg时,该食品的家庭平均月消费量。
应将价格控制在什么水平之下?
28
五. 预测和控制 1. 预测 ——就是对解释变量 X 的某一给定值 x0, 求被解释 变量 Y 的取值 y0 的
置信度为 1- 的预测区间, 类似于 区间估计问题。 对任一给定的 x0, 由回归方程可得 y0 的回归值 (点估计): 可以证明, y0 的置信度为 1- 的预测区间为
29
关于预测的精度 允许误差 d 的公式说明, 预测区间的大小 (预测精度) 不仅与 、样本容量 N 及各 xi 取值的分散程度有关, 而且
时, d 就较小, 反之,x0 离 越远, d 就越大。 ∴ d 是 x0 的函数 d = d(x0)。 y o x0
30
预测区间的近似计算 当样本容量 N 足够大时, 中方括号内的部分就近似于 1。 因此 d 可以使用以下近似公式计算: (5.2-3) 或
(5.2-4) 其中 就是回归方程的标准误差。
31
案例 1 的预测问题分析 由所得回归方程 可解得当 x0=5.6 时, 由 Excel 或 SPSS 的输出结果, 可得标准误差为
d≈t0.05(10)×0.4007 = ×0.4007 = 0.73 故当价格为 5.6/kg 时, 该食品的家庭月平均消费 量的 90% 置信预测区间为:
32
2. 控制 控制问题在质量管理及其他经济管理领域中 有着非常广泛的应用, 它是预测的反问题。 即当要求以 1- 的概率将 Y 的值控制在某一 范围 ( y1, y2 ) 内时, 应将解释变量 X 的值控制 在哪一范围内的问题。 也即要确定 X 的两个值 x1, x2, 当 x1< X < x2 时, 在 1- 的置信度下可使 y1< Y < y2 即满足 P{ y1< Y < y2 | x1< X < x2 }=1-
33
控制问题示意图 x y x y y2 y2 y1 y1 x1 x2 x1 x2 由图可知,X 的取值范围应是以下不等式组的解。
34
即可以通过解以下方程组来解出 x1,x2 (5.2-5) 或: (5.2-6) 若解出的 x1 > x2 , 则说明无法实现所要求的控制目 标, 也即 Y 的控制范围不能过小 (与,N 及 xi 的分 散程度等都有关)。
35
控制范围的近似求解 当样本容量 N 足够大时, 可用(5.2-3)式或(5.2-4)式作为 d 的近似值。
此时(5.2-5)和(5.2-6)式可简化为: x y x1 x2 y2 y1 x y x1 x2 y2 y1
36
案例 1 的控制要求分析 要求以90%的概率使该食品的家庭月平均消费量达到2.5kg以上,应将价格控制在什么水平之下?
显然,这是一个单侧控制问题。 即要确定 x2的值, 使 注意,对于单侧控制 本例中,可得 d≈t0.1(10)× = 0.55 由 x > 2.5 可解得:x < 4.32 故应将该食品价格控制在4.32元/kg 之下。 y 2.5 x2 x
37
质量控制应用案例 某钢厂生产的某种合金钢有两个重要的质量指标:抗拉强度(kg/mm2)和延伸率(%)。该合金钢的质量标准要求:抗拉强度应大于32kg/mm2;延伸率应大于33%。 根据冶金学的专业理论知识和实践经验知道,该合金钢的含碳量是影响抗拉强度和延伸率的主要因素。其中含碳量高,则抗拉强度也就会相应提高,但与此同时延伸率则会降低。为降低生产成本,提高产品质量和竞争能力,该厂质量控制部门要求该种合金钢产品的上述两项质量指标的合格率都应达到 99% 。
38
如何制订含碳量的控制标准? 为达到以上质量控制要求,就需要重新修订该合金钢冶炼中关于含碳量的工艺控制标准。
也即要确定在冶炼中应将含碳量控制在什么范围内,可以有99%的把握使抗拉强度和延伸率这两项指标都达到要求。
39
案例分析 1. 样本数据的收集 为分析抗拉强度和延伸率这两项指标与含碳量之间的关系,需要有关该合金钢的含碳量与抗拉强度及延伸率的样本数据。
该厂质量控制部门查阅了该合金钢的质量检验纪录, 在剔除了异常情况后,整理了该合金钢的上述两项指标与含碳量的 92 炉实测数据(见Excel工作表)。
40
2. 建立线性回归模型 为分析抗拉强度和延伸率这两项指标与含碳量之间的关系,需要建立反映它们之间相关关系的回归模型。
设 Y1, Y2分别为该合金钢的抗拉强度和延伸率,X 为含碳量,则 Y1 = β01 +β1 X +ε1 Y2 = β02 +β2 X +ε2 分别为该合金钢抗拉强度和延伸率关于含碳量的一元线性回归模型。
41
3. 软件运行输出结果分析 用 Excel 分别求解本案例的两个回归方程,可得: 从而得到抗拉强度和含碳量间的线性回归方程为
再由输出的方差分析表可知, Significance F = 2.05E-32 < 0.001,回归方程极高度显著。 此外还得到标准误差为: 这一数据在求解控制范围时需要用到。
42
同样可得到: 从而得到延伸率和含碳量间的回归方程为 再由输出的方差分析表, Significance F = 3.69E-10 < 0.001 回归方程极高度显著. 同时还得到标准误差为
43
4.求含碳量的控制范围 由本案例所给的质量控制要求可知,对两个指标抗拉强度 Y1 和延伸率 Y2 都是单侧控制要求。
即要求含碳量 X 的控制范围,使以下两式同时满足 由于本例中样本容量 N = 92 很大,因此可用近似公式求解 d1 和 d2 的值。 = 0.01,t(N-2) = t0.01(90) 在 t 分布表中通常已查不到。 此时可用标准正态分布的右侧分位点 Z0.01 来代替 t0.01(90)。
44
求含碳量的控制范围(续) 由所给控制要求,可得如下不等式组: 34.7728 + 87.8269 X - 6.0785 > 32
即: 解此不等式组,得: < X < 故只要在冶炼中将含碳量控制在0.04%和0.09%之间,就可以有 99% 的把握使该合金钢的抗拉强度大于 32 kg/mm2,延伸率大于 33%。
45
控制分析示意图 y 33 32 0.0376 0.0968 x
46
§8.3 曲线回归 在实际问题中,变量间的关系有时是非线性的,这时回归分析的任务就是要为它们配置适当类型的曲线。
§8.3 曲线回归 在实际问题中,变量间的关系有时是非线性的,这时回归分析的任务就是要为它们配置适当类型的曲线。 在多数情况下两个变量间的非线性关系可以通过简单的变量代换转化为线性关系,进而可以用线性回归方法来求解和分析。 一. 曲线回归的分析步骤 1. 确定函数类型 正确选择变量间相关关系的函数类型,是提高曲线拟合精度的关键。通常可根据有关专业知识来决定;也可通过分析样本数据的散点图后确定。 2. 对样本数据作线性化处理 3. 用线性回归方法求解和分析 4. 代换为非线性回归方程
47
二. 非线性函数的线性化方法 1. 双曲线函数: 令 y' =1/y, x' =1/x,,得: y' = a + bx' y y 1/a
-b/a x 1/a a > 0 b > 0 -b/a x
48
2. 幂函数: y = axb 若 a > 0,则 ln y = ln a + b ln x
令 y' = ln y,b0 = ln a,x' = ln x, 得: y' = b0 + bx' b > 1 x y b = 1 a > 0 y x b < 0 a a 0 < b < 1 1 1 a > 0
49
3. 指数函数:y = ae bx 若 a > 0,则 ln y = ln a + bx
令 y' = ln y,b0 = ln a,得: y' = b0 + bx y y b > 0 b < 0 a > 0 a a x x
50
4. 负指数函数:y = aeb/x 若a > 0,则 ln y = ln a + b/x
令 y' = ln y, b0 = ln a, x' = 1/x 得:y' = b0+ bx' y y a b > 0 b < 0 a x x
51
5. 对数函数:y = a + b ln x 令 x' = ln x,得:y = a + bx' y y b < 0 b > 0
x x
52
6. 逆函数: 令 x' = 1/x,得 y = a + bx' y y a b > 0 x b < 0 a x
53
令 y' = 1/y,x' = e -x,得:y' = a + bx'
7.S 型曲线: 令 y' = 1/y,x' = e -x,得:y' = a + bx' y 1/a 1/(a+b) x
54
配置曲线的原则 在实际问题中,究竟应使用哪种曲线来配置解释变量与被解释变量间的回归模型,通常可根据有关专业理论知识、或分析样本数据的散点图来决定。 但合适的曲线类型并不是一下就能选准的, 往往需要选择几种类型, 通过求解经数据变换 后的线性回归方程, 比较各回归方程的显著性 水平, 则显著性水平最高的曲线对样本数据的 拟合程度最好。
55
【案例2】产品销售额与广告费投入的关系 对 10 家化妆品企业某年的产品销售额 yi 与当年广告费投入 xi 的调查数据如下: 试分析化妆品销售额与广告费投入间的关系。
56
案例 2 分析 对所给数据作散点图如下: 由图可知 Y 与 X 之间呈非线性相关关系, Y 随 X 增 加而增加, 但增长率逐渐递减。
根据这一特点可试用以下两种曲线进行拟合: ⑴ 幂函数; ⑵ 对数函数
57
⑴设 Y 与 X 间为幂函数关系: 令 Y' = ln Y,X' = ln X,0 = ln a 得线性回归模型:
用 Excel 求解,可得线性化后的回归方程及方差分析表如下: 方差分析表 Significance F = < 0.001,回归方程极高度显著。
58
⑵设 Y 与 X 间为对数关系: Y = 0 + 1 ln X + 令 X' = ln X,得线性回归模型:Y = 0 + 1X' + 用 Excel 求解,得线性化后的回归方程及方差分析表如下: 方差分析表 Significance F = < 0.001,回归方程同样极高度显著。
59
确定最优回归曲线 本案例中,两种曲线配得的回归方程都是极高度显著,但幂函数配得的回归方程临界显著性水平更高,故应选用幂函数回归模型。
由 0= ln a ,还原得 因此可以认为本案例中产品销售额与广告费之间较合适的回归方程为:
60
§8.4 多元线性回归 在许多实际问题中,对某一变量 Y 有重要影响的解释变量不止一个,此时就需要研究一个随机变量 Y 与多个普通变量 X1, X2, ···, XP 之间的回归关系,这就是多元回归问题。 本节仅讨论多元线性回归,多元非线性回归通常也可化为多元线性回归来求解和分析。 多元线性回归分析的原理与一元线性回归是类似的。
61
一. 多元线性回归的数学模型 设被解释变量 Y 与 P 个解释变量 X1, X2, ···, XP 之间 存在线性相关关系。
则 Y 与 X1, X2, ···, XP 之间的多元 线性回归模型为: Y= 0 + 1 X1 + 2 X2 + ··· + P XP + (5.4-1) 设第 i 次试验数据为 (xi1, xi2 ,···, xip, yi ), 则多元线性 回归有如下数据结构: yi = 0 + 1 xi1 + 2 xi2 + ··· + p xip + i (5.4-2) i ~N(0, 2 ),且相互独立 i = 1, 2, ···, N
62
二. 参数 的最小二乘估计 设 为参数 0, 1, ···, P 的最小二乘估计, 则多元线性回归方程为
在多元线性回归中,同样使用最小二乘法进行参数 估计。 同样称 为回归方程的回归系数。
63
三.回归方程的显著性检验 如果变量 Y 与 X1, X2, ···, Xp 之间并无线性关系, 则
模型(5.4-1)式中各一次项系数应全为零。 因此要检验 的原假设为 H0:1 = 2 = ··· = p = 0 为构造检验 H0 的统计量, 同样需要对总的偏差平 方和 ST 作如下分解: = SE + SR 同样称 SR 为回归平方和, SE 为剩余平方和。
64
检验 H0 的统计量 可以证明,当 H0 为真时,统计量 ~F( P, N-P-1) 检验过程同样可以列成一张方差分析表。 多元回
归方差分析表的格式与一元回归完全相同。
65
四. 回归系数的显著性检验 在多元回归中, 回归方程显著的结论仅表明模型中 各 j 不全为零, 但并不说明它们全不为零。 也即并不
能保证每个解释变量都对 Y 有重要影响。 如果模型中含有对 Y 无显著影响的变量, 就会降低 回归方程的预测精度和稳定性。 因此, 需要从回归方程中剔除对 Y 无显著影响的变 量, 重新建立更为简单的回归方程。 如果某个变量 Xk 对 Y 的作用不显著, 则模型中 k 就可以为零。 故要检验的原假设为 H0k:k = 0,k = 1, 2, ···, P
66
记 tk 为检验 H0k 的统计量,则当 H0k为真时,
tk ~t (N-P-1),k = 1, 2,···, P 因此,在给定水平 下,若 tk > t(N-P-1) 就拒绝 H0k,说明 Xk 的作用显著。 反之,则说明 Xk 的作用不显著。
67
2. 存在不显著变量后的处理 若经检验, Xk 的作用不显著, 则应从模型中剔除 Xk,
并重新求解 Y 对余下的 P-1 个变量的回归方程。 若检验中同时存在多个不显著的变量, 则每次只能 剔除一个显著性水平最低的变量, 重新求解新的回归 方程。 再对新的回归系数进行检验, 直至所有变量都 显著为止。 当模型中解释变量很多时, 通常会存在较多的不显 著变量, 以上步骤就非常繁琐。 更为有效的方法是采 用“逐步回归”来求解多元线性回归方程。
68
逐步回归方法简介 逐步回归的基本思想是: 采用一定的评价标准,将解释变量一个一个地逐步引入回归方程。每引进一个新变量后,都对方程中的所有变量进行显著性检验,并剔除不显著的变量,被剔除的变量以后就不再进入回归方程。 采用逐步回归方法最终所得到的回归方程与前述方法的结果是一样的,但计算量要少得多。 在 SPSS 软件的线性回归功能中就提供了逐步回归的可选项。
69
【案例3】需求量与价格及收入间的关系 家电商品的需求量 Y 与其价格 X1 及居民家庭平均收入 X2 有关。
下表给出了某市 10 年中某家电商品需求量与价格和家庭年平均收入水平间的数据。 求该商品年需求量 Y 关于价格 X1和家庭年平均收入 X2 的回归方程。
70
案例 3 分析 用 Excel 求解案例 3,可得回归方程如下:
由方差分析表,Significance F = ,因而回归方程极高度显著。 对回归系数的显著性检验结果为: X1 的P-value = ,X2 的 P-value = 都是一般显著。 此外还得到回归方程的标准误差: 该值在求预测区间和控制范围时要用到。
71
案例 3 需要进一步分析的问题 ⑴预计下一年度该商品的价格水平为1800元, 家庭年平均收入为30000元,希望预测该商品下一年的需求量。 ⑵假定下一年度居民家庭年平均收入估计在 元之间。 若要以90%的概率使该商品的年需求量不低于12万台,则应将价格控制在什么范围内?
72
五. 预测和控制 1. 预测 在给定解释变量的一组取值 ( x01, x02 ,···, x0P ), 由回归方程可得回归值
它是 Y0 = 0 + 1X01 + 2X02 + ··· + pX0p+ 0 的一个点估计。 可以证明,Y0 的置信度为 1- 的预测区间为
73
案例 3 的预测分析 预计下一年度该商品的价格水平为1800元,家庭年平均收入为30000元,求该商品年需求量的置信度为90%的预测区间。
解:由所得回归方程,可求得 = t0.05(7)×0.8618 = 1.63 ∴该商品在该市下一年的年需求量的置信度为90%的预测区间为 = (11.20万台,14.46万台)
74
2. 控制 在多元回归情况下, 由于解释变量有多个, 若控制 问题的提法是: 当要求以 1- 的概率将 Y 控制在某一 给定范围内,
问应将各解释变量控制在什么范围内? 显然此问题可以有无穷多个解。 因此多元回归控制问题的一般提法是: 若要将 Y 控 制在某给定范围内, 在给定其中 P-1 个解释变量的取 值范围时, 应将另一个解释变量控制在什么范围之内? 多元回归的控制分析方法与一元回归是完全类似的。
75
案例 3 的控制要求分析 假定下一年度居民家庭的年平均收入估计在 元之间,若要以90%概率使该商品在的年需求量不低于12万台,问应将价格控制在什么范围内?。 解:此问题仍是单测控制问题,即要控制 X1 的取值范围,使 其中 = t0.1(7)×0.8618 =
76
案例 3 的控制要求分析(续) 由所得回归方程,可得以下不等式组
y x1 12 由所得回归方程,可得以下不等式组 x × > 12 x × > 12 可解得:x1 < (千元) ∴应将该商品价格控制在 1594元/台 之下。
77
【案例4】宏观经济模型 在计划经济时期, 我国钢材产量 Y 主要与以 下因素有关: 原油产量 X1, 生铁产量 X2, 原煤产量 X3, 电力产量 X4, 固定资产投资 X5, 国民收入消费额 X6, 铁路运输能力 X7。 根据我国自 1975 年到 1986 年 12 年间上述各项经济指标数据,建立计划经济时期影响我国钢材产量最合适的回归模型。
78
用 Excel 求解本案的分析步骤 第一次回归的结果是:回归方程极高度显著,但回归系数的检验结果中除X4(电力产量)外,其他变量都不显著。
经过4轮逐个剔除t统计量最小的变量后,得到最优回归方程如下: = X X X4 即在计划经济时期,我国钢材产量主要受原油产量X1,生铁产量 X2,电力产量 X4的影响。其中原油产量与钢材产量之间是负相关的,这主要是因当时资金有限的原故。 如果使用 SPSS 软件中的“逐步回归”求解,可直接得到上述结果。
Similar presentations