第13章 多重线性回归与相关 (multiple linear regression & multiple correlation)

Slides:



Advertisements
Similar presentations
3 的倍数的特征 的倍数有 : 。 5 的倍数有 : 。 既是 2 的倍数又是 5 的倍数有 : 。 12 , 18 , 20 , 48 , 60 , 72 , , 25 , 60 ,
Advertisements

一、 一阶线性微分方程及其解法 二、 一阶线性微分方程的简单应用 三、 小结及作业 §6.2 一阶线性微分方程.
第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
第八章 第四节 机动 目录 上页 下页 返回 结束 一个方程所确定的隐函数 及其导数 隐函数的微分法.
2.6 隐函数微分法 第二章 第二章 二、高阶导数 一、隐式定义的函数 三、可微函数的有理幂. 一、隐函数的导数 若由方程 可确定 y 是 x 的函数, 由 表示的函数, 称为显函数. 例如, 可确定显函数 可确定 y 是 x 的函数, 但此隐函数不能显化. 函数为隐函数. 则称此 隐函数求导方法.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
第二章 导数与微分. 二、 微分的几何意义 三、微分在近似计算中的应用 一、 微分的定义 2.3 微 分.
第三节 微分 3.1 、微分的概念 3.2 、微分的计算 3.3 、微分的应用. 一、问题的提出 实例 : 正方形金属薄片受热后面积的改变量.
第六章 回归分析.
第七章 回归分析.
5 多元线性回归分析 §1 一元线性回归分析 §2 多元线性回归分析 §3 最优回归方程的选取 §4 可线性化的非线性回归.
第十章 相关与回归分析 PowerPoint 统计学.
回归分析法预测 (Regression Analysis)
一、能线性化的多元非线性回归 二、多元多项式回归(线性化)
18.2一元二次方程的解法 (公式法).
一、二阶行列式的引入 用消元法解二元线性方程组. 一、二阶行列式的引入 用消元法解二元线性方程组.
10.2 立方根.
§4.3 多重共线性 Multi-Collinearity.
第六章 多重共线性 (Multi-Collinearity)
第十五章 多元线性回归分析 (Multiple Linear Regression).
第5章 自变量的选择与逐步回归 5.1 自变量选择对估计和预测的影响 5.2 所有子集回归 5.3 逐步回归 5.4 本章小结与评注.
§9.3 线性回归分析 一. 什么是回归分析 相关分析研究变量之间相关的方向和相关的程度,但是相关分析不能指出变量间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。 回归分析则是研究变量之间的数量变化规律的一种方法。
预测与决策分析 Forecasting and Decision Analysis
量化视角下的豆粕投资机会分析 格林期货研发培训中心 郭坤龙.
不确定度的传递与合成 间接测量结果不确定度的评估
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
第三章 导数与微分 习 题 课 主要内容 典型例题.
2-7、函数的微分 教学要求 教学要点.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
第十一章 线性相关与回归.
简单相关与回归 武汉大学.公共卫生学院 卫生统计学教研室.
第一章 商品 第一节 价值创造 第二节 价值量 第三节 价值函数及其性质 第四节 商品经济的基本矛盾与利己利他经济人假设.
第15章 相关分析与回归分析 (续).
曲线拟合 Curve fitting 2002级研究生《医学统计学》.
第 14 章 複迴歸與相關分析.
医学统计学 7 主讲人 陶育纯 医学统计学 7 主讲人 陶育纯
第12章 回归直线.
计量经济学 第四章 多重共线性.
引子: 国内生产总值增加会减少财政收入吗?
多元逐步回归 多元线性回归中自变量的确定: 根据理论知识与经验决定自变量,由于对部分自变量的作用不确认,借助统计分析来实现,剔除:
Multiple linear regression
第2章 一元线性回归 2 .1 一元线性回归模型 2 .2 参数 的估计 2 .3 最小二乘估计的性质 2 .4 回归方程的显著性检验
回归分析.
相关与回归分析 庄文忠 副教授 世新大学行政管理学系 SPSS之应用(庄文忠副教授) 2012/7/6.
多元回归分析:估计 y = b0 + b1x1 + b2x bkxk + u 计量经济学导论 刘愿.
第十章 方差分析.
2 主讲人 陶育纯 MEDICAL MULTIVARIATE STATISTICS ANALYSIS 多元统计分析 教案
统 计 学 (第三版) 2008 作者 贾俊平 统计学.
第4章 非线性规划 4.5 约束最优化方法 2019/4/6 山东大学 软件学院.
第一章 函数与极限.
Liner regression analysis
统 计 学 (第三版) 2008 作者 贾俊平 统计学.
9.1 简单线性相关分析 9.2 一元线性回归分析 9.3 多元线性回归与复相关分析 9.4 变量间非线性关系的回归
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
用统计学方法研究电商平台上的产品销售特征
1.2 有理数 第1课时 有理数 伏家营中学 付宝华.
第十三章 直线相关与直线回归.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
第4章 Excel电子表格制作软件 4.4 函数(一).
3.1 变化率与导数   3.1.1 变化率问题 3.1.2 导数的概念.
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
第四章 多元线性回归分析.
概率论与数理统计B.
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
第三节 随机区组设计的方差分析 随机区组设计资料的总平方和可以分解为三项: (10.10).
回归分析实验课程 (实验三) 多项式回归和定性变量的处理.
线性规划 Linear Programming
数学模型实验课(二) 最小二乘法与直线拟合.
一元一次方程的解法(-).
Presentation transcript:

第13章 多重线性回归与相关 (multiple linear regression & multiple correlation)

content 第一节 多重线性回归的概念与统计推断 第二节 假设检验及其评价 第三节 复相关系数与偏相关系数 第四节 自变量筛选 第一节   多重线性回归的概念与统计推断 第二节 假设检验及其评价 第三节 复相关系数与偏相关系数 第四节    自变量筛选 第五节 多元线性回归的应用与注意事项

目的:作出以多个自变量估计应变量的多元线性回归方程。 资料:应变量为定量指标;自变量全部或大部分为定量指标,若有少量定性或等级指标需作转换。 用途:解释和预报。更精确 意义:由于事物间的联系常常是多方面的,一个应变量的变化可能受到其它多个自变量的影响,如糖尿病人的血糖变化可能受胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂等多种生化指标的影响。

第一节   多重线性回归的概念与统计推断

一、数据与多元线性回归模型 变量:应变量 1 个,自变量k 个,共 k+1 个。 样本含量:n 数据格式见表13-1 回归模型一般形式:

多元回归分析数据格式 条件

车流 (X1) 气温 (X2) 气湿 (X3) 风速 (X4) 一氧化氮(Y) 1300 20.0 80 0.45 0.066 948 22.5 69 2.00 0.005 1444 23.0 57 0.50 0.076 1440 21.5 79 2.40 0.011 786 26.5 64 1.50 0.001 1084 28.5 59 3.00 0.003 1652 84 0.40 0.170 1844 26.0 73 1.00 0.140 1756 29.5 72 0.90 0.156 1116 35.0 92 2.80 0.039 1754 30.0 76 0.80 0.120 1656 83 1.45 0.059 1200 1.80 0.040 1536 0.087 1500 21.8 77 0.60 960 24.8 67 27.0 58 1.70 0.100 1784 23.3 0.222 1476 65 0.65 0.129 1496 0.145 1820 22.0 0.135 1060 1.83 0.029 1436 28.0 68 0.099

建立回归方程(样本) 一般步骤 (2)检验并评价回归方程 及各自变量的作用大小

样本估计而得的多重线性回归方程 二、多元线性回归方程的建立 bj为自变量Xj 的偏回归系数(partial regression coefficient),是βj的估计值,表示当方程中其他自变量保持常量时,自变量Xj变化一个计量单位,反应变量Y的平均值变化的单位数。

求偏导数(一阶) 原 理 最小二乘法 统计软件包

第二节 假设检验及其评价 (一)对回归方程 1. 方差分析法:

多元线性回归方差分析表

表13-2显示,P <0.0001,拒绝H0。说明从整体上而言,用这四个自变量构成的回归方程解释空气中NO浓度的变化是有统计学意义的。 变异来源 自由度 SS MS F P 回归模型 4 0.06396 0.01599 17.59 <.0001 残差 19 0.01727 0.00090903 总变异 23 0.08123 表13-2显示,P <0.0001,拒绝H0。说明从整体上而言,用这四个自变量构成的回归方程解释空气中NO浓度的变化是有统计学意义的。

偏回归系数的t检验 偏回归系数的t检验是在回归方程具有统计学意义的情况下,检验某个总体偏回归系数等于零的假设,以判断是否相应的那个自变量对回归确有贡献

利用SAS对例13-1的四个偏回归系数进行t检验与标准化偏回归系数的结果如表13-3所示。 变量 自由度 回归系数 标准误 t值 P值 标准化偏回归系数 截距 1 -0.14166 0.06916 -2.05 0.0546 X1 0.00011619 0.00002748 4.23 0.0005 0.59249 X2 0.00449 0.00190 2.36 0.0289 0.27274 X3 -0.00000655 0.00069083 -0.01 0.9925 -0.00110 X4 -0.03468 0.01081 -3.21 0.0046 -0.44770

第三节 复相关系数与偏相关系数 确定系数、复相关系数与调整确定系数 复相关系数的平方称为确定系数(coefficient of determination), 或决定系数,记为R2,用以反映线性回归模型能在多大程度上解释反应变量Y的变异性。其定义为

复相关系数:确定系数的算术平方根 对例13-1,由方差分析表可得:SSR=0.06396 SSE=0.01727 SST=0.08123 说明,用包含气车流量、气温、气湿与风速这四个自变量的回归方程可解释交通点空气NO浓度变异性的78.74%。 复相关系数:确定系数的算术平方根 表示变量Y与k个自变量(X1,X2,…Xk)的线性相关的密切程度。

表示交通点空气NO浓度与气车流量、气温、气湿与风速等四个变量的复相关系数为0.8703

调整的R2(Adjusted R-Square) 当回归方程中包含有很多自变量,即使其中有一些自变量(如本例中的X3 )对解释反应变量变异的贡献极小,随着回归方程的自变量的增加,R2 值表现为只增不减,这是复相关系数R2的缺点。调整的R2定义为

偏相关系数 冷饮销售量(元) X1 游泳人数(人) X2 气温 (oC) X3 267 722 29 397 814 30 451 924 31 528 1066 32 618 1253 33 655 1369 34 690 1593 35 740 1761 36 780 1931 37 889 2231 38 996 2749 39

偏相关系数(partial correlation coefficient ):一般地,扣除其他变量的影响后,变量Y与X的相关. 表13-5 空气中NO浓度与各自变量的相关系数和偏相关系数 自变量 相关系数 偏相关系数 偏相关系数P值 车流X1 0.80800 0.69620 0.0005 气温X2 0.01724 0.47670 0.0289 气湿X3 0.27854 -0.00218 0.9925 风速X4 -0.67957 -0.59275 0.0046

指明方程中的每一个自变量对Y的影响(即方差分析和决定系数检验整体)。 (二)对各自变量 指明方程中的每一个自变量对Y的影响(即方差分析和决定系数检验整体)。 1. 偏回归平方和

各自变量的偏回归平方和可以通过拟合包含不同自变量的回归方程计算得到

结 果

2. t 检验法 是一种与偏回归平方和检验完全等价的一种方法。计算公式为

结 论

标准化回归系数 变量标准化是将原始数据减去相应变量的均数,然后再除以该变量的标准差。 标准化回归系数 变量标准化是将原始数据减去相应变量的均数,然后再除以该变量的标准差。 计算得到的回归方程称作标准化回归方程,相应的回归系数即为标准化回归系数。

注意: 一般回归系数有单位,用来解释各自变量对应变量的影响,表示在其它自变量保持不变时, 增加或减少一个单位时Y的平均变化量 。不能用各 来比较各 对 的影响大小。 标准化回归系数无单位,用来比较各自变量对应变量的影响大小, 越大, 对 的影响越大。

第四节    自变量筛选 目的:使得预报和(或)解释效果好

自变量筛选的标准与原则 1.残差平方和(SSE)缩小与确定系数(R2)增大 2.残差均方( SSE )缩小与调整确定系数增大 3. CP统计量 选择既具有较小CP值,在图中又接近于CP =q直线的模型作为“最优”的准则

全局择优法 目的:预报效果好 意义:对自变量各种不同的组合所建立 的回归方程进行比较 择优。 选择方法:

逐步选择法 1.前进法,回归方程中的自变量从无到有、从少到多逐个引入回归方程。这种选择自变量的方法基于残差均方缩小的准则,不一定能保证“最优” . 此法已基本淘汰。 2. 后退法,先将全部自变量选入方程,然后逐步剔除无统计学意义的自变量。 剔除自变量的方法是在方程中选一个偏回归平方和最小的变量,作F检验决定它是否剔除,若无统计学意义则将其剔除,然后对剩余的自变量建立新的回归方程。重复这一过程,直至方程中所有的自变量都不能剔除为止。理论上最好,建议使用采用此法。 3.逐步回归法,逐步回归法是在前述两种方法的基础上,进行双向筛选的一种方法。该方法本质上是前进法。 1.

第五节 多元线性回归的应用与注意事项 多元线性回归的应用

多元线性回归应用的注意事项 1、非同质资料的合并问题 斜率相同(同质):可以利用男、女合并的资料拟合共同的回归模型; 不同质:此时应按不同性别分别拟合回归模型。 2、指标的数量化

3、样本含量: n =(5~10)m。 4、关于逐步回归: 对逐步回归得到的结果不要盲目的信任,所谓的“最优”回归方程并不一定是最好的,没有选入方程的变量也未必没有统计学意义。例如,例15-3中若将选入标准和剔除标准定为 和 ,选入的变量是 ,而不是 ,结果发生了改变。 不同回归方程适应于不同用途,依专业知识定。

5、多重共线性 即指一些自变量之间存在较强的线性关系。如高血压与年龄、吸烟年限、饮白酒年限等,这些自变量通常是高度相关的,有可能使通过最小二乘法建立回归方程失效,引起下列一些不良后果: (1)参数估计值的标准误变得很大,从而t值变得很小。 (2)回归方程不稳定,增加或减少某几个观察值,估计值可能会发生很大的变化。 (3)t检验不准确,误将应保留在模型中的重要变量舍弃。 (4)估计值的正负符号与客观实际不一致。 消除多重共线性:剔除某个造成共线性的自变量,重建回归方程;合并自变量,采用逐步回归方法。