Presentation is loading. Please wait.

Presentation is loading. Please wait.

5 多元线性回归分析 §1 一元线性回归分析 §2 多元线性回归分析 §3 最优回归方程的选取 §4 可线性化的非线性回归.

Similar presentations


Presentation on theme: "5 多元线性回归分析 §1 一元线性回归分析 §2 多元线性回归分析 §3 最优回归方程的选取 §4 可线性化的非线性回归."— Presentation transcript:

1 5 多元线性回归分析 §1 一元线性回归分析 §2 多元线性回归分析 §3 最优回归方程的选取 §4 可线性化的非线性回归

2 §2 多元线性回归模型 2.1 多元线性回归模型 2.2 模型的参数估计 2.3 线性关系的显著性检验 2.4 预测

3 2.1 线性回归模型 1. 理论模型及其假设 设Y是一个可观测的随机变量,它受m个非随机因素X1,X2,…,Xp-1和随机因素ε的影响, 若有如下线性关系 其中 未知 一般假设 该模型称为多元线性回归模型的理论模型

4 2. 观测模型及其假设 为了估计回归系数 我们对变量进行了n次观察,得到n组观察数据 一般要求n>m.于是回归关系可写为 假设其中 独立且与ε同分布

5 采用矩阵形式来表示 X称为设计矩阵 Y称为观测向量 ε称为误差向量 β称为回归参数

6 上述理论模型和观测模型统称为多元线性回归模型
则观测模型可写成 假定 X列满秩,且 该模型称为多元线性回归模型的观测模型 上述理论模型和观测模型统称为多元线性回归模型 将其代入理论模型并略去误差项, 得 当给出 的估计 称为经验回归方程或简称为回归方程

7 3. 需解决的问题 样本集 参数估计 误差分析 模型检验 优化建模

8 2.2 模型的参数估计 1. 参数β的点估计:最小二乘估计(Least Square Estimate, LSE) 误差的平方和
2.2 模型的参数估计 1. 参数β的点估计:最小二乘估计(Least Square Estimate, LSE) 误差的平方和 求参数β的估计 使得

9 得正规方程 由于X为列满秩,所以 X TX 可逆,由此解得

10 的性质 LSE估计量 1). β的LSE估计是其无偏估计,且 2). 在β的所有线性无偏估计中,其LSE估计的方差最小.

11 证明 1) 可知 是正态随机向量Y的线性组合 服从多维正态分布 所以

12 证明 2) 若T是的另一线性无偏估计量,由无偏性要求,应有 对任一β成立,所以 所以

13 LSE估计的几何解释 则向量 设由X的列向量张成的线性空间为L(X) ε Y e 由于 使得 最小 所以 是Y在L(X)上的投影 L(X) o 残差向量

14 残差向量的性质( Properties of Error Vector)
特别

15 证明 1)

16 证明 2) e是正态随机向量Y的线性组合,服从多维正态分布 由于

17 证明 3),4) 即e与X的每个列向量正交 因而e与X的全体列向量张成的线性空间L(X)正交 特别由

18 证明5)

19 2. 参数 σ 2 的点估计(Point Estimation of parameter σ 2 )
残差平方和 则 σ2的无偏估计量为

20 2.3 线性关系的显著性检验 线性模型显著性检验 变量显著性检验 一般约束检验 ? 检验假设 H0 方差分析 构造统计量 拒绝域

21 1.方差分析

22 总离差平方和: 回归平方和: 注 残差差平方和: 则 可证明 其中J是元素全为1的n阶方阵 Total Sum of Squares
Regression Sum of Squares 残差差平方和: Error Sum of Squares 可证明 其中J是元素全为1的n阶方阵

23 2.线性模型显著性检验 设有线性模型 参数估计为 定义:均方和

24 证明 1)

25 2) 由于PX是秩为n-p对称幂等矩阵,存在正交矩阵C 类似可证

26 3) 二者均服从正态分布,且 所以二者独立 所以 独立

27 为了检验线性回归方程的回归系数整体的显著性
提出如下假设 拒绝域形式 检验统计量 拒绝域

28 3.部分线性回归参数显著性检验 为了考察Y对某个自变量Xj线性依赖性是否显著,可以对如下假设作检验 可知

29 当 H0 成立时, 得检验统计量 拒绝域为 统计量F的值称为变量Xk的F值.

30 ? 2.4 预测 线性回归模型 线性回归方程 在线性回归方程通过了线性回归的显著性检验后,可以利用回归方程作预测
2.4 预测 线性回归模型 线性回归方程 在线性回归方程通过了线性回归的显著性检验后,可以利用回归方程作预测 已知X的取值X0,如何估计(预测)Y的取值Y0 ?

31 1.点预测 由于 证明 是正态随机向量Y的线性组合 服从多维正态分布 所以

32 2.区间预测 由此可得区间预测(估计)为

33 5 多元线性回归分析 §1 一元线性回归分析 §2 多元线性回归分析 §3 最优回归方程的选取 §4 可线性化的非线性回归

34 5 多元线性回归分析 §1 一元线性回归分析 §2 多元线性回归分析 §3 最优回归方程的选取 §4 可线性化的非线性回归

35 §3 最优回归方程的选取 3.1 准则函数 3.2 逐步回归法 3.3 回归建模概述

36 3.1 准则函数 1.均方残差(MSE)准则 从直观看残差平方和越小越好,一般来说变量越选得多,残差平方和总会越小,而好的回归方程应该是变量不太多,为此用平均残差平方和作为选择方程的准则

37 2.全相关系数.偏相关系数准则 全相关系数也称为复相关系数,定义为 可以证明: 偏关系数也称为修正的复相关系数,定义为 偏关系数考虑了模型中参数个数的控制作用

38 3. Cp准则 定义 其中: F表示含有个m变量的全模型, R表示含有p个变量的约简模型 对全模型F有 若约简模型已经能够很好地拟合所给数据,则近似有 所以

39 4. 预报误差平方和准则 在原n个数据组中,删除第i组观测值,用余下的n-1组观测值拟合线性回归模型,并利用拟合的回归方程对删除组的Y值进行预报, 计算两者的误差及由此依次得到的误差平方和.

40 3.2 逐步回归法 逐步回归是逐步筛选自变量的回归。 逐步回归有以下三种形式 1 前向回归法(只进不出法) 2 后向回归法(只出不进法)
3.2 逐步回归法 逐步回归是逐步筛选自变量的回归。 逐步回归有以下三种形式 1 前向回归法(只进不出法) 2 后向回归法(只出不进法) 3 前向-后向回归法(有进有出法)

41 1 前向回归法 前向回归法也称为只进不出法 将因变量与每一自变量作一元回归,挑出检验最显著的一元线性回归方程式。然后再引入第二个变量,原则是它比别的变量进入模型有更大的检验值,如此继续下去,每次都引入一个在剩余变量中进入模型有最大检验值的变量。直到无变量可加入为止.

42 2 后向回归法 后向回归法也称为只出不进法 首先建立包含全部变量的回归方程,再对每个变量作显著性检验,剔除不显著变量中对Y影响最小的变量,重新建立一个包含剩下变量的回归方程,对新的方程重复上述过程,直到无变量可剔除为止.

43 3 前向后向回归法 若筛选过程是有进有出,称为“前向后向回归法”,开始时,将因变量与每一自变量作一元回归,挑出检验最显著的一元线性回归方程式。然后再引入第二个变量,原则是它比别的变量进入模型有更大的检验值。同时对原来的第一个变量作检验,看新变量引入后老变量还是否显著,若不显著则予以剔除。如此继续下去,每次都引入一个在剩余变量中进入模型有最大检验值的变量,每次引入后又对原来已引入的变量逐一检验以决定是否剔除。这样直到再无新变量可以引入,同时再无旧变量可以剔除为止,最终建立起回归方程式。

44 1) 记号 选入变量的F检验的显著性水平α1 剔除变量的F检验的显著性水平α2 要求 α1≥α2, 一般取α1=α2 设变量的总个数为m,变量的集合用Ω表示,当前模型中变量的集合用A表示.变量的个数为|A|. 2) 逐步回归通常由以下步骤组成 将所给数据进行标准化处理, A=空集,当前模型 Step1 初始化

45 Step2 选入变量 在当前模型中引入Ω\A 中的一个变量Xk,与A一起拟合一个回归模型,共得到|Ω\A|个回归模型 计算每个模型中变量Xk的F值F(k) 则选含Xk1的模型为当前模型,A←A∪ {Xk1} 否则,没有变量进入模型.

46 Step3 剔除变量 若前一步无变量加入, 转下一步,否则 计算当前模型中每一变量Xki的F值F(ki) 则剔除变量Xk*, 当前模型A←A\ {Xk*} 用A中的变量重新拟合一个回归模型, 继续判定是否有变量被剔除. 否则,没有变量被剔除..

47 Step4 写出最终模型 重复步骤2,3,直到既没有变量能够进入模型,模型中也没有变量被剔除为止.此当前模型即是最优模型.

48 3) 计算举例 设有4个自变量,1个因变量,共采集到15组数据 , 整体线性检验显著性水平α=0.05 逐步回归入选变量F检验显著性水平α 1=0.05 逐步回归筛选变量F检验显著性水平α 2=0.05

49 Y X X X X4

50 ① 分别作一元线性回归,按分别计算各自的F值为
F0.05(1,15-2)=4.67, 于是选中第2个变量,计算得 SSE=506.79 ② 将在模型外的变量分别进入模型作二元线性回归,按计算出各自F值为 暂空 F0.05(1,15-3)=4.75, 于是选中第1个变量,计算得 SSE=

51 ③ 对于这个模型,重新计算原来变量的检验值,得
暂空 暂空 F0.05(1,15-3)=4.75,都大于临界值,故暂不予剔除 ④ 将模型外的X3,X4分别加入模型,作三元线性回归,计算它们的检验值: 暂空 暂空 F0.05(1,15-4)=4.84,于是X3进入模型

52 ⑤ 对于这个三元模型,重新计算原有变量各自的检验F值得
暂空 F0.05(1,15-4)=4.84 ,这说明由于X3的到来,首先进入模型的X2已变得很不重要了,应予剔除,剔除以后的模型为 SSE= 重新计算各变量的F值为 暂空 暂空 F0.05(1,15-3)=4.75 ,这说明已不能再剔除.

53 ⑥ 再将模型外的变量分别选入模型,并计算检验值
暂空 暂空 F0.05(1,15-4)=4.84 ,这说明X2,X4都不能进入模型. SSE= 最后得到的优化模型为. 不作变量筛选的全集回归模型 SSE=

54 统计是一门科学,也是一门艺术。由于入选变量临界值与剔除变量临界值选的大小不同,原始数据读入的组数不同,原始数据误差形态不同,逐步回归可能出现各种奇怪现象,需要使用者灵活掌握.

55 3.3 回归建模概述 1 数据的收集和准备 2 回归方程的选取 3 模型的精细分析 4 模型的确认

56 确定自变量和因变量 收 集 数 据 数 据 预 处 理 模 型 预 分 析
1 数据的收集和准备 明确问题,结合专业知识分析问题,舍弃不重要的并且可能带来较大的测量误差或与重要变量高度相关的那些变量 确定自变量和因变量 收 集 数 据 经验准则:收集的数量即样本容量应至少为自变量的6~10倍 数 据 预 处 理 仔细检查获得的数据是否有错,或因测量设备故障而收集到异常数据,删除异常数据或重新收集 模 型 预 分 析 结合专业知识和经验确定线性模型的可行性,拟合一个全模型,并作相应的检验及误差分析

57 2 回归方程的选取 确定了回归关系的形式后(如关于自变量是线性的或者是多项式形式的), 接下来便需要选取“好”的自变量, 以最终确定一个或几个“最优”回归方程. 如果自变量个数较少,可用穷举法;当变量个数较大时,可采用前述方法. 由于不同的准则或方法一般会得到不同的最优回归方程,所以上述“最优”并不一定是实际中的最优.一般,只有结合问题的实际背景和具体应用,才能得到一个较为满意的模型.

58 3 模型的精细分析 当选择了一个或几个最优回归方程后,还需对这些方程作进一步的精细分析,其中一个很重要的方面仍是残差分析,通过残差分析,可进一步了解所选模型的回归关系及误差的正态性.等方差性假定的合理性以及有无必要在所选的回归方程中加入自变量的高次项或交叉乘积项,作出残差关于被剔除变量的残差图,以考察剔除该变量的合理性.

59 4 模型的确认 若收集新的数据有困难,可将已有的数据随机分成两部分,一部分用作所选的模型拟合数据,另一部分用作确认模型的数据. 重新收集确认数据 模 型 的 确 认 将从建立的模型所得到的一些结果与相应的理论期望值及已有的经验结果作比较,考察模型的适用性.稳定性和预报能力等

60 5 多元线性回归分析 §1 一元线性回归分析 §2 多元线性回归分析 §3 最优回归方程的选取 §4 可线性化的非线性回归

61 §4可线性化的非线性回归 实际中的回归函数往往是比较复杂的非线性函数,下面仅对某些可化成线性回归的非线性回归问题作些初步的探讨.
自变量与因变量之间未必总有线性相关关系,.再某些情况下,可以通过对自变量和因变量的变量代换法把一个非线性相关关系转换成线性的相关关系,然后用线性回归的方法来处理.

62 1. 双曲线 2. 幂函数

63 3. 指数曲线 4. 倒指数曲线

64 5. 对数曲线 6. S型曲线


Download ppt "5 多元线性回归分析 §1 一元线性回归分析 §2 多元线性回归分析 §3 最优回归方程的选取 §4 可线性化的非线性回归."

Similar presentations


Ads by Google