第十五章 多元线性回归分析 (Multiple Linear Regression).

Slides:



Advertisements
Similar presentations
质数和合数 中心小学 顾禹 人教版小学五年级数学下册 一、激趣导入 提示:密码是一个三位 数,它既是一个偶数, 又是 5 的倍数;最高位是 9 的最大因数;中间一位 是最小的质数。你能打 开密码锁吗?
Advertisements

一、 一阶线性微分方程及其解法 二、 一阶线性微分方程的简单应用 三、 小结及作业 §6.2 一阶线性微分方程.
第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
第三节 微分 3.1 、微分的概念 3.2 、微分的计算 3.3 、微分的应用. 一、问题的提出 实例 : 正方形金属薄片受热后面积的改变量.
第6章 多重共线性的情形及其处理 6 .1 多重共线性产生的背景和原因 6 .2 多重共线性对回归模型的影响 6 .3 多重共线性的诊断
第六章 回归分析.
生 物 统 计 学 第7章 回归与相关 彭司华 2016年5月.
第七章 回归分析.
5 多元线性回归分析 §1 一元线性回归分析 §2 多元线性回归分析 §3 最优回归方程的选取 §4 可线性化的非线性回归.
第十章 相关与回归分析 PowerPoint 统计学.
回归分析法预测 (Regression Analysis)
圆的一般方程 (x-a)2 +(y-b)2=r2 x2+y2+Dx+Ey+F=0 Ax2+Bxy+Cy2+Dx+Ey+ F=0.
第五章 二次型. 第五章 二次型 知识点1---二次型及其矩阵表示 二次型的基本概念 1. 线性变换与合同矩阵 2.
一、能线性化的多元非线性回归 二、多元多项式回归(线性化)
一、二阶行列式的引入 用消元法解二元线性方程组. 一、二阶行列式的引入 用消元法解二元线性方程组.
介绍: 1、回归分析的概念和模型 2、回归分析的过程
第13章 多重线性回归与相关 (multiple linear regression & multiple correlation)
§4.3 多重共线性 Multi-Collinearity.
第六章 多重共线性 (Multi-Collinearity)
预测与决策分析 Forecasting and Decision Analysis
四种命题 2 垂直.
糖尿病流行病学.
量化视角下的豆粕投资机会分析 格林期货研发培训中心 郭坤龙.
田间试验和统计方法 第九章 直线回归与相关.
第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 实习2 主讲人 陶育纯 医学统计学方法 实习2 主讲人 陶育纯 流行病与卫生统计学教研室
不确定度的传递与合成 间接测量结果不确定度的评估
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
简单相关与回归 武汉大学.公共卫生学院 卫生统计学教研室.
第一章 商品 第一节 价值创造 第二节 价值量 第三节 价值函数及其性质 第四节 商品经济的基本矛盾与利己利他经济人假设.
第15章 相关分析与回归分析 (续).
曲线拟合 Curve fitting 2002级研究生《医学统计学》.
医学统计学 7 主讲人 陶育纯 医学统计学 7 主讲人 陶育纯
计量经济学 第四章 多重共线性.
引子: 国内生产总值增加会减少财政收入吗?
多元逐步回归 多元线性回归中自变量的确定: 根据理论知识与经验决定自变量,由于对部分自变量的作用不确认,借助统计分析来实现,剔除:
Multiple linear regression
第2章 一元线性回归 2 .1 一元线性回归模型 2 .2 参数 的估计 2 .3 最小二乘估计的性质 2 .4 回归方程的显著性检验
回归分析.
计算机数学基础 主讲老师: 邓辉文.
§2 求导法则 2.1 求导数的四则运算法则 下面分三部分加以证明, 并同时给出相应的推论和例题 .
第十章 方差分析.
2 主讲人 陶育纯 MEDICAL MULTIVARIATE STATISTICS ANALYSIS 多元统计分析 教案
统 计 学 (第三版) 2008 作者 贾俊平 统计学.
MyLibrary ——数字图书馆的个性化服务
第一章 函数与极限.
统 计 学 (第三版) 2008 作者 贾俊平 统计学.
9.1 简单线性相关分析 9.2 一元线性回归分析 9.3 多元线性回归与复相关分析 9.4 变量间非线性关系的回归
模型分类问题 Presented by 刘婷婷 苏琬琳.
线 性 代 数 厦门大学线性代数教学组 2019年4月24日6时8分 / 45.
用计算器开方.
用统计学方法研究电商平台上的产品销售特征
第十三章 直线相关与直线回归.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
第4章 Excel电子表格制作软件 4.4 函数(一).
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
物理化学 复旦大学化学系 范康年教授 等 2019/5/9.
第4课时 绝对值.
学习任务三 偏导数 结合一元函数的导数学习二元函数的偏导数是非常有用的. 要求了解二元函数的偏导数的定义, 掌握二元函数偏导数的计算.
分数再认识三 真假带分数的练习课.
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
概率论与数理统计B.
第三节 随机区组设计的方差分析 随机区组设计资料的总平方和可以分解为三项: (10.10).
回归分析实验课程 (实验三) 多项式回归和定性变量的处理.
线性规划 Linear Programming
第三节 数量积 向量积 混合积 一、向量的数量积 二、向量的向量积 三、向量的混合积 四、小结 思考题.
数学模型实验课(二) 最小二乘法与直线拟合.
一元一次方程的解法(-).
Presentation transcript:

第十五章 多元线性回归分析 (Multiple Linear Regression)

讲述内容 第一节 多元线性回归 第二节 自变量选择方法 第三节 多元线性回归的应用 及其注意事项

例 子 人的体重与身高、胸围 血压值与年龄、性别、劳动强度、饮食习惯、吸烟状况、家族史 例 子 人的体重与身高、胸围 血压值与年龄、性别、劳动强度、饮食习惯、吸烟状况、家族史 糖尿病人的血糖与胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂 射频治疗仪定向治疗脑肿瘤过程中,脑皮质的毁损半径与辐射的温度、与照射的时间

目的:作出以多个自变量估计应变量的多元线性回归方程。 资料:应变量为定量指标,一定是随机的;自变量全部或大部分为定量指标,可以是随机变动的,也可以是人为选定的,若有少量定性或等级指标需作转换。 用途:解释和预报。更精确

第一节   多元线性回归

一、多元线性回归模型 变量:应变量 1 个,自变量m 个,共 m+1 个。 样本含量:n 数据格式见表15-1 回归模型一般形式:

表15-1 多元回归分析数据格式 条件

两自变量与应变量的散点图

建立回归方程 一般步骤 (2)检验并评价回归方程 及各自变量的作用大小

二、多元线性回归方程的建立 例15-1 27名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表15-2中,试建立血糖与其它几项指标关系的多元线性回归方程。

表15-2 27名糖尿病人的血糖及有关变量的测量结果

采用 最小二乘法建立多元线性回归方程,即寻找适宜的系数b0,b1,b2,…,使得因变量观测值yi与其回归估计值 之间残差平方和最小。

最小 求偏导数(一阶) 原 理 最小二乘法 统计软件包

三、假设检验及其评价 方差分析法可将回归方程中所有自变量X1,X2,…Xm,,作为一个整体来检验他们与应变量Y之间是否具有线性关系,并对回归方程的预测或解释能力做出综合评价。 (一)对回归方程 1. 方差分析法:

表15-3 多元线性回归方差分析表 表15-4 例15-1的方差分析表

SPSS软件输出结果 Analysis of Variance df Mean Square F Sig. 8.28 0.000 Model Sum of Squares df Mean Square F Sig. Regression Residual Total 133.7107 88.8412 222.5519 4 22 26 33.4277 4.0382 8.28 0.000

2. 决定系数R 2:

3.复相关系数 Y Y 计算公式: ,本例 若 m =1 自变量,则有 , 为简单相关系数。 r 可用来度量应变量 与多个自变量间的线性相 可用来度量应变量 与多个自变量间的线性相 关程度,亦即观察值 与估计值 之间的 相关程度。 Y Y Y ˆ 计算公式: 2 R = ,本例 7751 6008 . R = 若 m =1 自变量,则有 | r R = , 为简单相关系数。 r

在其它自变量存在于回归方程中的条件下,考察某一自变量Xj对应变量Y的回归效应 1. 偏回归平方和 (二)对各自变量的假设检验与评价 指明方程中的每一个自变量对Y的影响 在其它自变量存在于回归方程中的条件下,考察某一自变量Xj对应变量Y的回归效应 1. 偏回归平方和

各自变量的偏回归平方和可以通过拟合包含不同自变量的回归方程计算得到,表15-5给出了例15-1数据分析的部分中间结果。 表15-5 对例15-1数据作回归分析的部分中间结果

结 果

2. t 检验法 是一种与偏回归平方和检验完全等价的一种方法。计算公式为

对于同一资料,不同自变量的t值间可以相互比较,t的绝对值越大,说明该自变量对Y的回归所起的作用越大。 结 果 对于同一资料,不同自变量的t值间可以相互比较,t的绝对值越大,说明该自变量对Y的回归所起的作用越大。 结 论

3.标准化回归系数 自变量取值的单位及其离散程度是不同的,因此量纲不同的各回归系数之间不能直接比较大小,可对变量进行标准化变换,然后拟合回归方程,这样获得的回归系数称为标准化回归系数。(可说明各自变量相对贡献大小)。 变量标准化是将原始数据减去相应变量的均数,然后再除以该变量的标准差。

计算得到的回归方程称作标准化回归方程,相应的回归系数即为标准化回归系数。

注意: 一般回归系数有单位,用来解释各自变量对应变量的影响,表示在其它自变量保持不变时, 增加或减少一个单位时Y的平均变化量 。不能用各 来比较各 对 的影响大小。 标准化回归系数无单位,用来比较各自变量对应变量的影响大小, 越大, 对 的 影响越大。

结 论

第四节    自变量筛选 目的:使得预报和(或)解释效果好

多元线性回归方程中所包含的自变量是根据专业知识和经验事先选择好的,但在许多回归分析的、应用中,由于没有清晰的理论依据,回归模型所包含的自变量难以预先确定,如果将一些不重要的自变量也引入方程,会降低模型的精度,因此选择有意义的自变量是回归分析的第一步。 选择自变量的基本思路是:尽可能将回归效果显著的自变量选入回归方程中,将作用不显著的特别是与自变量有密切线性关系的自变量排除在外。

一、全局择优法 目的:根据一些准则建立 “最优”回归模型 意义:对自变量各种不同的组合所建立 的回归方程进行比较 , 择优 选择方法:

决定系数R2的缺点: 当回归方程中包含有很多自变量,即使其中有一些自变量对解释应变量变异的贡献极小,随着回归方程的自变量的增加,R2 值表现为只增不减。

例15-2 用全局择优法对例15-1数据的自变量进行选择。 例15-2 用全局择优法对例15-1数据的自变量进行选择。

全局择优法的局限性 如果自变量个数为4,则所有的回归模型有24-1= 15个;当自变量数个数为10时,所有可能的回归为 210-1= 1023个;……;当自变量数个数为50时,所有可能的回归为250-1≈1015个。

1.前进法,回归方程中的自变量从无到有、从少到多逐个引入回归方程。此法已基本淘汰。 二、逐步选择法 1.前进法,回归方程中的自变量从无到有、从少到多逐个引入回归方程。此法已基本淘汰。 2. 后退法,先将全部自变量选入方程,然后逐步剔除无统计学意义的自变量。 剔除自变量的方法是在方程中选一个偏回归平方和最小的变量,作F检验决定它是否剔除,若无统计学意义则将其剔除,然后对剩余的自变量建立新的回归方程。重复这一过程,直至方程中所有的自变量都不能剔除为止。理论上最好,建议使用采用此法。 3.逐步回归法,逐步回归法是在前述两种方法的基础上,进行双向筛选的一种方法。该方法本质上是前进法。 1.

1.从不包含任何自变量的模型开始(截距) 2.添加具有最大统计学意义的变量进入模型,如p值最小,小于预先给定的进入标准的变量。 3.重复第二步,直到没有p值小于预先给定的进入标准的变量。

1.从整个模型开始(包含研究所涉及所有自变量及其交互项 2.剔除对参数进行t检验或方差分析的结果中最无统计学意义的变量。如p值最大,大于预先给定的剔除标准的变量。 3.重复第二步,直到没有p值大于预先给定的剔除标准的变量。

1.从不包含任何自变量的模型开始。 2.添加具有最大统计学意义的变量进入模型。 3.剔除对参数进行t检验或方差分析的结果中最无统计学意义的变量。 3.重复第二步和第三步,直到模型外没有可进入的变量或模型内没有可剔除的变量为止。

表15-7 逐步回归过程

表15-8 例15-3方差分析表 “最优”回归方程为 结果表明:血糖的变化与甘油三脂、胰岛素和糖化血红蛋白有线性回归关系,其中与胰岛素负相关。由标准化回归系数看出,糖化血红蛋白对空腹血糖的影响最大。

表15-9 例15-3的回归系数的估计及检验结果

第四节 多元线性回归的应用 及其注意事项

一、多元线性回归的应用 影响因素分析,控制混杂因素 预测:由自变量值推出应变量Y的值 控制:指定应变量Y的值查看自变量的改变量

二、应用条件

三、应用的注意事项 (一)变量的数量化 (二)样本含量 (三)统计“最优”与专业的“最优” (四)多重共线性 (五)交互作用 (六)残差图

1. 影响因素分析 例如影响高血压的因素可能有年龄、饮食习惯、吸烟状况、工作紧张度和家族史等,在影响高血压的众多可疑因素中,需要研究哪些因素有影响,哪些因素影响较大。

在临床试验中,则可能由于种种原因难以保证各组的指标基线相同,如在年龄、病情等指标不一致出现混杂的情况下,如何对不同的治疗方法进行比较等。 这些问题都可以利用回归分析来处理。控制混杂因素(confounding factor)的一个简单办法就是将其引入回归方程中,与其他主要变量一起进行分析

2. 估计与预测 如由儿童的心脏横径、心脏纵径和心脏宽径估计心脏的表面积;由胎儿的孕龄、头颈、胸径和腹径预测出生儿体重等。

3. 统计控制 逆估计。 例如采用射频治疗仪治疗脑肿瘤,脑皮质的毁损半径与射频温度及照射时间有线性回归关系,建立回归方程后可以按预先给定的脑皮质毁损半径,确定最佳控制射频温度和照射时间。

二、多元线性回归应用的注意事项 1.指标的数量化 分2类,可用一个(0,1)变量。如性别 分k类,k-1个(0,1)变量,如血型。

b1 :相当A 型相对于O 型的差别 数据格式回归方程 建立回归方程 b2 :相当B 型相对于O 型的差别 b3 :相当AB 型相对于O 型的差别

解释:b(b1)反映X(X1) 增加1个单位, 增加b个单位(如:500元)。 表示中学文化较小学收入多500, (3)等级 定量。 一般是将等级从弱到强转换为 (或 )如文化程度分为小学、中学、大学、 大学以上四个等级。Y为经济收入。 解释:b(b1)反映X(X1) 增加1个单位, 增加b个单位(如:500元)。 表示中学文化较小学收入多500, 大学较中学多500,余类推。

b1,b2,b3分别反映中学、大学、大学以上相对于小学文化程度者经济收入差别的大小 也可将K个等级转换为K-1个(0,1)变量

2.样本含量: n =(5~10)m。 3.关于逐步回归: 对逐步回归得到的结果不要盲目的信任,所谓的“最优”回归方程并不一定是最好的,没有选入方程的变量也未必没有统计学意义。例如,例15-3中若将选入标准和剔除标准定为 和 选入的变量是 , 而不是 , 结果发生了改变。 不同回归方程适应于不同用途,依专业知识定。

统计“最优”与专业的“最优” 不同准则、方法得出的“最优”方程不同 不同的引入、剔除标准获得的“最优”方程不同; 方程还受数据的正确性、共线性影响 研究者应结合问题本身和专业知识及 经验来决定

多重共线性 自变量间存在着相关关系,使一个或几个自变量可以由另外的自变量线性表示时,称为该变量与另外的自变量间存在有共线性(collinearity)。 Y x x X2 X1

4. 多重共线性 即指一些自变量之间存在较强的线性关系。如高血压与年龄、吸烟年限、饮白酒年限等,这些自变量通常是高度相关的,有可能使通过最小二乘法建立回归方程失效,引起下列一些不良后果: (1)参数估计值的标准误变得很大,从而t值变得很小。 (2)回归方程不稳定,增加或减少某几个观察值,估计值可能会发生很大的变化。 (3)t检验不准确,误将应保留在模型中的重要变量舍弃。 (4)估计值的正负符号与客观实际不一致。 消除多重共线性:剔除某个造成共线性的自变量,重建回归方程;合并自变量;采用逐步回归方法。

多重共线性的识别与解决办法 回归系数的符号与专业知识不符 变量的重要性与专业不符 R2高,但各自变量对应的回归系数均不显著。 方差膨胀因子(Variance Inflation Factors ,VIF) >10 筛选自变量 用主成分回归 岭回归

交互作用 当某一自变量对应变量的作用大小与另一个自变量的取值有关时,则表示两个变量有交互作用(interaction)。 检验两变量间有无交互作用,普遍的做法是在方程中加入它们的乘积项再做检验。如考察X1、X2间的交互作用,可在模型中加入X1X2项。

(六)、残差图(residual plot) Residuals Homoscedasticity: Residuals appear completely random. No indication of model inadequacy. Curved pattern in residuals resulting from underlying nonlinear relationship. Residuals exhibit a linear trend with time. Time Heteroscedasticity: Variance of residuals changes when x changes.

Spss 应用 从菜单选择 Regression Linear… Method中的选项: Enter 所选自变量强行全部选入方程 Stepwise 逐步回归法 重要的结果 R、R Square、 Adjust R Square反映模型对应变量变异的解释程度。Adjust R Square尤其用于自变量个数不等的模型之间的比较。

ANOVA方差分析表中的Sig.反映模型是否有统计学意义 Coefficients表中B为各自变量系数(回归系数)。Beta为标准化回归系数,其绝对值用于说明自变量的重要性。t、Sig.检验各系数是否有统计学意义。 逐步回归的重要选项 Method要选为Stepwise Options中要设定合适的选入选出标准(注:Removal中设定的p值必须大于Entry中的设定。)

参考书目 1.孙振球主编 . 医学统计学 . 第 2 版 . 北京:人民卫生出版社, 2005 2. 方积乾主编 , 孙振球副主编 . 卫生统计学 . 第 5 版 . 北京:人民卫生出版社, 2003 3. 徐勇勇主编 , 孙振球副主编 . 医学统计学 . 第 2 版 . 北京:高等教育出版社, 2004 4. 方积乾主编 . 医学统计学与电脑实验 . 第 2 版 . 上海:上海科学技术出版社, 2001 5. 赵耐青主编 . 医学统计学 . 高等教育出版社, 2004