5 多元线性回归分析 §1 一元线性回归分析 §2 多元线性回归分析 §3 最优回归方程的选取 §4 可线性化的非线性回归.

Slides:



Advertisements
Similar presentations
第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
Advertisements

2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
第六章 回归分析.
第十章 相关与回归分析 PowerPoint 统计学.
回归分析法预测 (Regression Analysis)
《解析几何》 乐山师范学院 0 引言 §1 二次曲线与直线的相关位置.
第五章 二次型. 第五章 二次型 知识点1---二次型及其矩阵表示 二次型的基本概念 1. 线性变换与合同矩阵 2.
第3节 二次型与二次型的化简 一、二次型的定义 二、二次型的化简(矩阵的合同) 下页.
一、能线性化的多元非线性回归 二、多元多项式回归(线性化)
一、二阶行列式的引入 用消元法解二元线性方程组. 一、二阶行列式的引入 用消元法解二元线性方程组.
第三章 函数逼近 — 最佳平方逼近.
第13章 多重线性回归与相关 (multiple linear regression & multiple correlation)
第5章 自变量的选择与逐步回归 5.1 自变量选择对估计和预测的影响 5.2 所有子集回归 5.3 逐步回归 5.4 本章小结与评注.
预测与决策分析 Forecasting and Decision Analysis
量化视角下的豆粕投资机会分析 格林期货研发培训中心 郭坤龙.
工程数学 第22讲 本文件可从网址 上下载 (单击ppt讲义后选择'工程数学'子目录)
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
2-7、函数的微分 教学要求 教学要点.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
计量经济学 第三章 多元线性回归模型.
第一节 引言 第二节 一元线性回归模型 第三节 多元线性回归模型 第四节 虚拟变量回归模型 第五节 非线性回归模型 本章小节 主要内容.
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
第12章 回归直线.
§3.3 多元线性回归模型的统计检验 一、拟合优度检验 二、方程的显著性检验(F检验) 三、变量的显著性检验(t检验) 四、参数的置信区间.
Multiple linear regression
计量经济学 第三章 多元线性回归模型.
第二章 回归模型 法、参数的普通最小二乘估计式及相关性质、对模型的经济意 义检验和统计检验,能应用Eviews软件进行最小二乘估计与统
一元线性回归模型 § 1 回归分析概述 § 2 一元线性回归模型的参数估计 § 3 一元线性回归模型的统计检验
数学实验之 回归分析(1).
第2章 一元线性回归 2 .1 一元线性回归模型 2 .2 参数 的估计 2 .3 最小二乘估计的性质 2 .4 回归方程的显著性检验
第2章 一元线性回归分析 §2.1 :回归分析及回归模型 §2.2 :一元线性模型的参数估计 §2.3 :参数估计值的性质及统计推断
§2 求导法则 2.1 求导数的四则运算法则 下面分三部分加以证明, 并同时给出相应的推论和例题 .
多元回归分析:估计 y = b0 + b1x1 + b2x bkxk + u 计量经济学导论 刘愿.
第十章 方差分析.
统 计 学 (第三版) 2008 作者 贾俊平 统计学.
第七章 参数估计 7.3 参数的区间估计.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
统 计 学 (第三版) 2008 作者 贾俊平 统计学.
抽样和抽样分布 基本计算 Sampling & Sampling distribution
9.1 简单线性相关分析 9.2 一元线性回归分析 9.3 多元线性回归与复相关分析 9.4 变量间非线性关系的回归
3.8.1 代数法计算终点误差 终点误差公式和终点误差图及其应用 3.8 酸碱滴定的终点误差
模型分类问题 Presented by 刘婷婷 苏琬琳.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
正切函数的图象和性质 周期函数定义: 一般地,对于函数 (x),如果存在一个非零常数T,使得当x取定义域内的每一个值时,都有
定理21.9(可满足性定理)设A是P(Y)的协调子集,则存在P(Y)的解释域U和项解释,使得赋值函数v(A){1}。
第16讲 相似矩阵与方阵的对角化 主要内容: 1.相似矩阵 2. 方阵的对角化.
§8.3 不变因子 一、行列式因子 二、不变因子.
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
第三章 函数的微分学 第二节 导数的四则运算法则 一、导数的四则运算 二、偏导数的求法.
第三章 两变量线性回归.
第四章 多元线性回归分析.
第一部分:概率 产生随机样本:对分布采样 均匀分布 其他分布 伪随机数 很多统计软件包中都有此工具 如在Matlab中:rand
建模常见问题MATLAB求解  .
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
概率论与数理统计B.
正弦、余弦函数的性质 华容一中 伍立华 2017年2月24日.
§2 方阵的特征值与特征向量.
第三节 随机区组设计的方差分析 随机区组设计资料的总平方和可以分解为三项: (10.10).
欢迎大家来到我们的课堂 §3.1.1两角差的余弦公式 广州市西关外国语学校 高一(5)班 教师:王琦.
第三节 函数的微分 3.1 微分的概念 3.2 微分的计算 3.3 微分的应用.
回归分析实验课程 (实验三) 多项式回归和定性变量的处理.
多元线性回归分析.
3.1回归分析的基本思想及其初步应用(四) 高二数学 选修2-3 第三章 统计案例.
数学模型实验课(二) 最小二乘法与直线拟合.
§4.5 最大公因式的矩阵求法( Ⅱ ).
第三章 线性方程组 §4 n维向量及其线性相关性(续7)
§2 自由代数 定义19.7:设X是集合,G是一个T-代数,为X到G的函数,若对每个T-代数A和X到A的函数,都存在唯一的G到A的同态映射,使得=,则称G(更严格的说是(G,))是生成集X上的自由T-代数。X中的元素称为生成元。 A变, 变 变, 也变 对给定的 和A,是唯一的.
Presentation transcript:

5 多元线性回归分析 §1 一元线性回归分析 §2 多元线性回归分析 §3 最优回归方程的选取 §4 可线性化的非线性回归

§2 多元线性回归模型 2.1 多元线性回归模型 2.2 模型的参数估计 2.3 线性关系的显著性检验 2.4 预测

2.1 线性回归模型 1. 理论模型及其假设 设Y是一个可观测的随机变量,它受m个非随机因素X1,X2,…,Xp-1和随机因素ε的影响, 若有如下线性关系 或 其中 未知 一般假设 该模型称为多元线性回归模型的理论模型

2. 观测模型及其假设 为了估计回归系数 我们对变量进行了n次观察,得到n组观察数据 一般要求n>m.于是回归关系可写为 假设其中 独立且与ε同分布

采用矩阵形式来表示 X称为设计矩阵 Y称为观测向量 ε称为误差向量 β称为回归参数

上述理论模型和观测模型统称为多元线性回归模型 则观测模型可写成 假定 X列满秩,且 该模型称为多元线性回归模型的观测模型 上述理论模型和观测模型统称为多元线性回归模型 将其代入理论模型并略去误差项, 得 当给出 的估计 称为经验回归方程或简称为回归方程

3. 需解决的问题 样本集 参数估计 误差分析 模型检验 优化建模

2.2 模型的参数估计 1. 参数β的点估计:最小二乘估计(Least Square Estimate, LSE) 误差的平方和 2.2 模型的参数估计 1. 参数β的点估计:最小二乘估计(Least Square Estimate, LSE) 误差的平方和 求参数β的估计 使得

得正规方程 由于X为列满秩,所以 X TX 可逆,由此解得 记 则

的性质 LSE估计量 1). β的LSE估计是其无偏估计,且 2). 在β的所有线性无偏估计中,其LSE估计的方差最小.

证明 1) 由 可知 而 是正态随机向量Y的线性组合 服从多维正态分布 所以 即

证明 2) 若T是的另一线性无偏估计量,由无偏性要求,应有 对任一β成立,所以 所以 即

LSE估计的几何解释 则向量 设由X的列向量张成的线性空间为L(X) ε Y e 由于 使得 最小 所以 是Y在L(X)上的投影 L(X) o 残差向量

残差向量的性质( Properties of Error Vector) 记 特别

证明 1)

证明 2) e是正态随机向量Y的线性组合,服从多维正态分布 由于 即

证明 3),4) 即e与X的每个列向量正交 因而e与X的全体列向量张成的线性空间L(X)正交 特别由 得

证明5)

2. 参数 σ 2 的点估计(Point Estimation of parameter σ 2 ) 残差平方和 即 则 σ2的无偏估计量为

2.3 线性关系的显著性检验 线性模型显著性检验 变量显著性检验 一般约束检验 ? 检验假设 H0 方差分析 构造统计量 拒绝域

1.方差分析

总离差平方和: 回归平方和: 注 残差差平方和: 则 可证明 其中J是元素全为1的n阶方阵 Total Sum of Squares Regression Sum of Squares 注 残差差平方和: Error Sum of Squares 则 可证明 其中J是元素全为1的n阶方阵

2.线性模型显著性检验 设有线性模型 参数估计为 则 定义:均方和

证明 1)

2) 由于PX是秩为n-p对称幂等矩阵,存在正交矩阵C 类似可证

3) 二者均服从正态分布,且 所以二者独立 又 所以 独立

为了检验线性回归方程的回归系数整体的显著性 提出如下假设 拒绝域形式 由 检验统计量 拒绝域

3.部分线性回归参数显著性检验 为了考察Y对某个自变量Xj线性依赖性是否显著,可以对如下假设作检验 可知 由 又

得 当 H0 成立时, 得检验统计量 或 拒绝域为 或 统计量F的值称为变量Xk的F值.

? 2.4 预测 线性回归模型 线性回归方程 在线性回归方程通过了线性回归的显著性检验后,可以利用回归方程作预测 2.4 预测 线性回归模型 线性回归方程 在线性回归方程通过了线性回归的显著性检验后,可以利用回归方程作预测 已知X的取值X0,如何估计(预测)Y的取值Y0 ?

1.点预测 则 由于 证明 而 是正态随机向量Y的线性组合 服从多维正态分布 所以

2.区间预测 由 得 由此可得区间预测(估计)为

5 多元线性回归分析 §1 一元线性回归分析 §2 多元线性回归分析 §3 最优回归方程的选取 §4 可线性化的非线性回归

5 多元线性回归分析 §1 一元线性回归分析 §2 多元线性回归分析 §3 最优回归方程的选取 §4 可线性化的非线性回归

§3 最优回归方程的选取 3.1 准则函数 3.2 逐步回归法 3.3 回归建模概述

3.1 准则函数 1.均方残差(MSE)准则 从直观看残差平方和越小越好,一般来说变量越选得多,残差平方和总会越小,而好的回归方程应该是变量不太多,为此用平均残差平方和作为选择方程的准则

2.全相关系数.偏相关系数准则 全相关系数也称为复相关系数,定义为 可以证明: 偏关系数也称为修正的复相关系数,定义为 偏关系数考虑了模型中参数个数的控制作用

3. Cp准则 定义 其中: F表示含有个m变量的全模型, R表示含有p个变量的约简模型 对全模型F有 若约简模型已经能够很好地拟合所给数据,则近似有 所以

4. 预报误差平方和准则 在原n个数据组中,删除第i组观测值,用余下的n-1组观测值拟合线性回归模型,并利用拟合的回归方程对删除组的Y值进行预报, 计算两者的误差及由此依次得到的误差平方和.

3.2 逐步回归法 逐步回归是逐步筛选自变量的回归。 逐步回归有以下三种形式 1 前向回归法(只进不出法) 2 后向回归法(只出不进法) 3.2 逐步回归法 逐步回归是逐步筛选自变量的回归。 逐步回归有以下三种形式 1 前向回归法(只进不出法) 2 后向回归法(只出不进法) 3 前向-后向回归法(有进有出法)

1 前向回归法 前向回归法也称为只进不出法 将因变量与每一自变量作一元回归,挑出检验最显著的一元线性回归方程式。然后再引入第二个变量,原则是它比别的变量进入模型有更大的检验值,如此继续下去,每次都引入一个在剩余变量中进入模型有最大检验值的变量。直到无变量可加入为止.

2 后向回归法 后向回归法也称为只出不进法 首先建立包含全部变量的回归方程,再对每个变量作显著性检验,剔除不显著变量中对Y影响最小的变量,重新建立一个包含剩下变量的回归方程,对新的方程重复上述过程,直到无变量可剔除为止.

3 前向后向回归法 若筛选过程是有进有出,称为“前向后向回归法”,开始时,将因变量与每一自变量作一元回归,挑出检验最显著的一元线性回归方程式。然后再引入第二个变量,原则是它比别的变量进入模型有更大的检验值。同时对原来的第一个变量作检验,看新变量引入后老变量还是否显著,若不显著则予以剔除。如此继续下去,每次都引入一个在剩余变量中进入模型有最大检验值的变量,每次引入后又对原来已引入的变量逐一检验以决定是否剔除。这样直到再无新变量可以引入,同时再无旧变量可以剔除为止,最终建立起回归方程式。

1) 记号 选入变量的F检验的显著性水平α1 剔除变量的F检验的显著性水平α2 要求 α1≥α2, 一般取α1=α2 设变量的总个数为m,变量的集合用Ω表示,当前模型中变量的集合用A表示.变量的个数为|A|. 2) 逐步回归通常由以下步骤组成 将所给数据进行标准化处理, A=空集,当前模型 Step1 初始化

Step2 选入变量 在当前模型中引入Ω\A 中的一个变量Xk,与A一起拟合一个回归模型,共得到|Ω\A|个回归模型 计算每个模型中变量Xk的F值F(k) 设 若 则选含Xk1的模型为当前模型,A←A∪ {Xk1} 否则,没有变量进入模型.

Step3 剔除变量 若前一步无变量加入, 转下一步,否则 计算当前模型中每一变量Xki的F值F(ki) 设 若 则剔除变量Xk*, 当前模型A←A\ {Xk*} 用A中的变量重新拟合一个回归模型, 继续判定是否有变量被剔除. 否则,没有变量被剔除..

Step4 写出最终模型 重复步骤2,3,直到既没有变量能够进入模型,模型中也没有变量被剔除为止.此当前模型即是最优模型.

3) 计算举例 设有4个自变量,1个因变量,共采集到15组数据 , 整体线性检验显著性水平α=0.05 逐步回归入选变量F检验显著性水平α 1=0.05 逐步回归筛选变量F检验显著性水平α 2=0.05

Y X1 X2 X3 X4 91.0000 100.0000 30.0000 10.0000 10.0000 75.0000 95.0000 25.0000 20.0000 11.0000 58.0000 90.0000 20.0000 30.0000 12.0000 46.0000 85.0000 15.0000 40.0000 12.0000 40.0000 80.0000 10.0000 50.0000 13.0000 35.0000 75.0000 10.0000 50.0000 14.0000 22.0000 70.0000 10.0000 50.0000 15.0000 15.0000 65.0000 10.0000 45.0000 16.0000 22.0000 60.0000 10.0000 40.0000 18.0000 32.0000 65.0000 10.0000 35.0000 20.0000 38.0000 70.0000 13.0000 30.0000 22.0000 50.0000 75.0000 16.0000 25.0000 24.0000 60.0000 80.0000 20.0000 20.0000 30.0000 85.0000 90.0000 27.0000 10.0000 35.0000 98.0000 100.0000 34.0000 .0000 50.0000

① 分别作一元线性回归,按分别计算各自的F值为 78.45 232.78 60.75 35.8 F0.05(1,15-2)=4.67, 于是选中第2个变量,计算得 SSE=506.79 ② 将在模型外的变量分别进入模型作二元线性回归,按计算出各自F值为 4.84 暂空 0.0147 0.1628 F0.05(1,15-3)=4.75, 于是选中第1个变量,计算得 SSE= 361.129

③ 对于这个模型,重新计算原来变量的检验值,得 4.8403 33.26 暂空 暂空 F0.05(1,15-3)=4.75,都大于临界值,故暂不予剔除 ④ 将模型外的X3,X4分别加入模型,作三元线性回归,计算它们的检验值: 暂空 暂空 10.892 1.105 F0.05(1,15-4)=4.84,于是X3进入模型

⑤ 对于这个三元模型,重新计算原有变量各自的检验F值得 19.68 0.3807 10.8916 暂空 F0.05(1,15-4)=4.84 ,这说明由于X3的到来,首先进入模型的X2已变得很不重要了,应予剔除,剔除以后的模型为 SSE= 187.74 重新计算各变量的F值为 95.96 暂空 75.067 暂空 F0.05(1,15-3)=4.75 ,这说明已不能再剔除.

⑥ 再将模型外的变量分别选入模型,并计算检验值 暂空 0.3807 暂空 0.7007 F0.05(1,15-4)=4.84 ,这说明X2,X4都不能进入模型. SSE= 187.74 最后得到的优化模型为. 不作变量筛选的全集回归模型 SSE= 166.44

统计是一门科学,也是一门艺术。由于入选变量临界值与剔除变量临界值选的大小不同,原始数据读入的组数不同,原始数据误差形态不同,逐步回归可能出现各种奇怪现象,需要使用者灵活掌握.

3.3 回归建模概述 1 数据的收集和准备 2 回归方程的选取 3 模型的精细分析 4 模型的确认

确定自变量和因变量 收 集 数 据 数 据 预 处 理 模 型 预 分 析 1 数据的收集和准备 明确问题,结合专业知识分析问题,舍弃不重要的并且可能带来较大的测量误差或与重要变量高度相关的那些变量 确定自变量和因变量 收 集 数 据 经验准则:收集的数量即样本容量应至少为自变量的6~10倍 数 据 预 处 理 仔细检查获得的数据是否有错,或因测量设备故障而收集到异常数据,删除异常数据或重新收集 模 型 预 分 析 结合专业知识和经验确定线性模型的可行性,拟合一个全模型,并作相应的检验及误差分析

2 回归方程的选取 确定了回归关系的形式后(如关于自变量是线性的或者是多项式形式的), 接下来便需要选取“好”的自变量, 以最终确定一个或几个“最优”回归方程. 如果自变量个数较少,可用穷举法;当变量个数较大时,可采用前述方法. 由于不同的准则或方法一般会得到不同的最优回归方程,所以上述“最优”并不一定是实际中的最优.一般,只有结合问题的实际背景和具体应用,才能得到一个较为满意的模型.

3 模型的精细分析 当选择了一个或几个最优回归方程后,还需对这些方程作进一步的精细分析,其中一个很重要的方面仍是残差分析,通过残差分析,可进一步了解所选模型的回归关系及误差的正态性.等方差性假定的合理性以及有无必要在所选的回归方程中加入自变量的高次项或交叉乘积项,作出残差关于被剔除变量的残差图,以考察剔除该变量的合理性.

4 模型的确认 若收集新的数据有困难,可将已有的数据随机分成两部分,一部分用作所选的模型拟合数据,另一部分用作确认模型的数据. 重新收集确认数据 模 型 的 确 认 将从建立的模型所得到的一些结果与相应的理论期望值及已有的经验结果作比较,考察模型的适用性.稳定性和预报能力等

5 多元线性回归分析 §1 一元线性回归分析 §2 多元线性回归分析 §3 最优回归方程的选取 §4 可线性化的非线性回归

§4可线性化的非线性回归 实际中的回归函数往往是比较复杂的非线性函数,下面仅对某些可化成线性回归的非线性回归问题作些初步的探讨. 自变量与因变量之间未必总有线性相关关系,.再某些情况下,可以通过对自变量和因变量的变量代换法把一个非线性相关关系转换成线性的相关关系,然后用线性回归的方法来处理.

1. 双曲线 2. 幂函数

3. 指数曲线 4. 倒指数曲线

5. 对数曲线 6. S型曲线