Multiple linear regression

Slides:



Advertisements
Similar presentations
第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
Advertisements

无锡商业职业技术学院 机电工程学院党总支孙蓓雄
南台科技大學 萬金生教授 九十八年六月十二日
全面了解入党程序 认真履行入党手续 第一讲 主讲人:陈亭而.
中共湖北大学知行学院委员会党校 入党材料规范填写指导 学工处 李华琼 二〇一三年十二月.
第六章 回归分析.
云南财经大学2010年党员发展培训—— 党员发展工作培训 校党委组织部 2010年9月17日.
第七章 回归分析.
數據挖掘 課程 王海 深圳國泰安教育技術股份有限公司.
Chapter 15 複迴歸.
双变量关联性分析.
应用回归分析 信计学院统计系 沈菊红.
第十章 相关与回归分析 PowerPoint 统计学.
回归分析法预测 (Regression Analysis)
一、能线性化的多元非线性回归 二、多元多项式回归(线性化)
Chapter 3 預測.
第13章 多重线性回归与相关 (multiple linear regression & multiple correlation)
第八章 诉讼法 第一节 诉讼法概述 第二节 民事诉讼法 第三节 行政诉讼法 第四节 刑事诉讼法.
第十五章 多元线性回归分析 (Multiple Linear Regression).
第5章 自变量的选择与逐步回归 5.1 自变量选择对估计和预测的影响 5.2 所有子集回归 5.3 逐步回归 5.4 本章小结与评注.
多元迴歸 Multiple Regression
量化视角下的豆粕投资机会分析 格林期货研发培训中心 郭坤龙.
第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 实习2 主讲人 陶育纯 医学统计学方法 实习2 主讲人 陶育纯 流行病与卫生统计学教研室
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
第十一章 线性相关与回归.
简单相关与回归 武汉大学.公共卫生学院 卫生统计学教研室.
Chapter 8 Liner Regression and Correlation 第八章 直线回归和相关
第一章 商品 第一节 价值创造 第二节 价值量 第三节 价值函数及其性质 第四节 商品经济的基本矛盾与利己利他经济人假设.
曲线拟合 Curve fitting 2002级研究生《医学统计学》.
通 知 通知是批转下级机关的公文,转发上级机关和不相隶属机关的公文,传达要求下级机关办理和需要有关单位周知或执行的事项,任免人员时使用的公文。
單因子實驗 設計 (Single­factor experiments)
Chapter 2 簡單迴歸模型.
第 14 章 複迴歸與相關分析.
医学统计学 7 主讲人 陶育纯 医学统计学 7 主讲人 陶育纯
优化试验设计与数据分析 第五章 回归分析方法 本章主要内容 · 一元线性回归方程度建立、显著性检验、预报和控制。非线性回归方程的线性化。
引子: 国内生产总值增加会减少财政收入吗?
多元逐步回归 多元线性回归中自变量的确定: 根据理论知识与经验决定自变量,由于对部分自变量的作用不确认,借助统计分析来实现,剔除:
多元回歸及模型 Multiple Regression Model Building
第一章.
第十一章. 簡單直線迴歸與簡單相關 Simple Linear Regression and Simple Correlation
十一、簡單相關與簡單直線回歸分析(Simple Correlations and Simple Linear Regression )
簡單迴歸模型的基本假設 用最小平方法(OLS-ordinary least square)找到一個迴歸式:
第14章 迴歸分析與複迴歸分析  本章的學習主題 
统计软件应用 7 主讲人 陶育纯 SPSS统计分析 统计软件应用 7 主讲人 陶育纯 教案.
Chapter 14 Simple Linear Regression
第2章 一元线性回归 2 .1 一元线性回归模型 2 .2 参数 的估计 2 .3 最小二乘估计的性质 2 .4 回归方程的显著性检验
回归分析.
第四章 相关分析与回归分析 4.1 简单相关分析 4.2 回归分析 4.3 非线性回归.
線性相關與直線迴歸 基本概念 線性相關:兩個連續變項的共變關係,且有線性關係。所謂 的線性關係乃指兩個變項的關係可以被一條最具
第十章 方差分析.
2 主讲人 陶育纯 MEDICAL MULTIVARIATE STATISTICS ANALYSIS 多元统计分析 教案
以每年參觀Lake Keepit的人數為例
庄文忠 副教授 世新大学行政管理学系 相关分析与简单回归分析 庄文忠 副教授 世新大学行政管理学系 SPSS之应用(庄文忠副教授) 2019/4/7.
MyLibrary ——数字图书馆的个性化服务
第一章 函数与极限.
第3章 預測 2019/4/11 第3章 預測.
9.1 简单线性相关分析 9.2 一元线性回归分析 9.3 多元线性回归与复相关分析 9.4 变量间非线性关系的回归
日光燈製造業 勞工汞蒸氣暴露評估技術探討 勞工安全衛生研究所 謝俊明 林雲卿 4/18/2019.
課程十 迴歸3.
用统计学方法研究电商平台上的产品销售特征
第二章 经典线性回归模型: 双变量线性回归模型
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
概率论与数理统计B.
Logistic回归 Logistic regression 研究生《医学统计学》.
Multiple Regression: Estimation and Hypothesis Testing
回归分析实验课程 (实验三) 多项式回归和定性变量的处理.
数学模型实验课(二) 最小二乘法与直线拟合.
簡單迴歸分析與相關分析 莊文忠 副教授 世新大學行政管理學系 計量分析一(莊文忠副教授) 2019/8/3.
8的乘法口诀 导入 新授 练习.
Presentation transcript:

Multiple linear regression 多元(重)线性回归 Multiple linear regression 《医学统计学》 宇传华 制作

例 子 同济医学院卫生统计学教研组 人的体重与身高、胸围 血压值与年龄、性别、劳动强度、饮食习惯、吸烟状况、家族史 例 子 人的体重与身高、胸围 血压值与年龄、性别、劳动强度、饮食习惯、吸烟状况、家族史 糖尿病人的血糖与胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂 射频治疗仪定向治疗脑肿瘤过程中,脑皮质的毁损半径与辐射的温度、与照射的时间 同济医学院卫生统计学教研组 2005年11月

表15-1 32例40岁以上男性的年龄、吸烟、 体重指数与收缩压 表15-1 32例40岁以上男性的年龄、吸烟、 体重指数与收缩压 同济医学院卫生统计学教研组 2005年11月

多元回归分析数据格式 同济医学院卫生统计学教研组 2005年11月

第一节 多元线性回归模型 一、回归模型简介 同济医学院卫生统计学教研组 2005年11月

(一)多元线性回归模型的一般形式 同济医学院卫生统计学教研组 2005年11月

两自变量与应变量的散点图

两自变量与应变量的拟合面 bj 为 xj方向 的斜率

(二)多元线性回归分析的一般步骤 同济医学院卫生统计学教研组 2005年11月

二、采用 最小二乘法 建立多元线性回归方程 同济医学院卫生统计学教研组 2005年11月

同济医学院卫生统计学教研组 2005年11月

同济医学院卫生统计学教研组 2005年11月

表15-1有三个自变量 同济医学院卫生统计学教研组 2005年11月

表15-1有三个自变量 同济医学院卫生统计学教研组 2005年11月

SAS软件输出结果 28 分别为参数估计值b0、b1、b2、b3 Parameter Estimates   Parameter Standard Standardized Variable DF Estimate Error t Value Pr > |t| Estimate Intercept 1 42.78878 9.88159 4.33 0.0002 0 x1 1 1.43184 0.31057 4.61 <.0001 0.68980 x2 1 9.49043 2.42174 3.92 0.0005 0.33641 x3 1 5.83908 4.28754 1.36 0.1841 0.20293 28 分别为参数估计值b0、b1、b2、b3

SAS软件输出结果 data a; input no y x1-x3; cards; 1 135 45 0 2.876 1 135 45 0 2.876 2 122 41 0 3.251 。。。 31 152 62 0 3.962 32 164 65 0 4.01 ; proc reg; model y=x1-x2/stb; run;

第二节 回归方程的假设检验与评价 同济医学院卫生统计学教研组 一、回归方程的假设检验 二、偏回归系数的假设检验 三、有关评价指标 第二节 回归方程的假设检验与评价 一、回归方程的假设检验 二、偏回归系数的假设检验 三、有关评价指标 同济医学院卫生统计学教研组 2005年11月

一、回归方程的方差分析 (H0:所有总体回归系数bj为0) Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 3 5052.61828 1684.20609 36.58 <.0001 Error 28 1289.25672 46.04488 Corrected Total 31 6341.87500 同济医学院卫生统计学教研组 2005年11月

有关计算公式 同济医学院卫生统计学教研组 2005年11月

有关计算公式 X2 X1 Y Model SS Total SS Residual SS 同济医学院卫生统计学教研组 2005年11月

Variable DF Estimate Error t Value Pr > |t| Estimate Parameter Standard Standardized Variable DF Estimate Error t Value Pr > |t| Estimate 变量 自由度 回归系数 标准误 t值 P值 标准化回归系数 Intercept 28 42.78878 9.88159 4.33 0.0002 0 x1 28 1.43184 0.31057 4.61 <.0001 0.68980 x2 28 9.49043 2.42174 3.92 0.0005 0.33641 x3 28 5.83908 4.28754 1.36 0.1841 0.20293 同济医学院卫生统计学教研组 2005年11月

标准化回归系数(可说明各自变量相对贡献大小) bj 标准化 回归系数b’j ljj 标准差 S 常数项 42.78878 0.00000 X1 1.43184 0.68980 1471.875 6.890561 X2 9.49043 0.33641 7.969 0.507007 X3 5.83908 0.20293 7.660 0.497078 Y 6341.875 14.30303 同济医学院卫生统计学教研组 2005年11月

三、有关评价指标 (软件有关结果) 同济医学院卫生统计学教研组 Root MSE (剩余标准差) 6.7856 R-Square (决定系数) 0.7967 Adj R-Sq (校正决定系数) 0.7749 Dependent Mean 应变量Y 的均值=144.43750 同济医学院卫生统计学教研组 2005年11月

1. 剩余标准差( Root MSE ) 反映了回归方程的精度,其值越小说明回归效果越好 同济医学院卫生统计学教研组 2005年11月

2.决定系数 ( determination coefficient) 说明所有自变量能解释Y变异的百分比。取值(0,1),越接近1模型拟合越好 同济医学院卫生统计学教研组 2005年11月

3. 复相关系数 ( multiple correlation coefficient) 说明所有自变量与Y间的线性相关程度。 即 与Y间的相关程度。 如果只有一个自变量,此时 同济医学院卫生统计学教研组 2005年11月

4. 校正决定系数( Adjusted determination coefficient) 同济医学院卫生统计学教研组 2005年11月

5. 偏回归平方和(sum of squares for partial regression)及其F检验 在其它自变量存在于回归方程中的条件下,考察某一自变量Xj对应变量Y的回归效应 ;j=1,2,…,p 同济医学院卫生统计学教研组 2005年11月

Reduced Model Full Model 同济医学院卫生统计学教研组 2005年11月

实例计算 同济医学院卫生统计学教研组 2005年11月

第四节 自变量的选择 一、 全局择优法 二、 逐步回归法 同济医学院卫生统计学教研组 2005年11月

一、全局择优法 根据一些准则(criterion)建立 “最优”回归模型 同济医学院卫生统计学教研组 校正决定系数(考虑了自变量的个数) Cp准则(C即criterion,p为所选模型中变量的个数;Cp接近(p+1)模型为最优) AIC(Akaike’s Information Criterion)准则; AIC越小越好 同济医学院卫生统计学教研组 2005年11月

第三节 模型的变量筛选 根据一些准则(criterion)建立 “最优”回归模型 同济医学院卫生统计学教研组 第三节 模型的变量筛选 根据一些准则(criterion)建立 “最优”回归模型 校正决定系数(考虑了自变量的个数) Cp准则(C即criterion,p为所选模型中变量的个数;Cp接近(p+1)模型为最优) AIC(Akaike’s Information Criterion)准则; AIC越小越好 同济医学院卫生统计学教研组 2005年11月

(一)校正决定系数( Adjusted determination coefficient) 同济医学院卫生统计学教研组 2005年11月

(二) Cp准则的计算公式 同济医学院卫生统计学教研组 2005年11月

(三) AIC准则的计算公式 同济医学院卫生统计学教研组 2005年11月

1. 全局择优法 求出所有可能的回归模型(共有2m-1个)对应的准则值;按上述准则选择最优模型 同济医学院卫生统计学教研组 2005年11月

SAS获得的几个准则值结果 同济医学院卫生统计学教研组 2005年11月 ADJRSQ CP AIC x2x3x4 0.54563 4 40.343 x2x3 0.40748 3 46.66 x1x2x3x4 0.52823 5 42.157 x1x3 0.37522 48.091 x1x3x4 0.48797 43.568 x4 0.34653 2 48.405 x1x2x4 0.44683 45.655 x1 0.28443 50.857 x1x4 0.44137 45.07 x1x2 0.27478 52.116 x2x4 0.4395 45.16 x3 0.23063 52.814 x3x4 0.43542 45.356 x2 0.17864 54.579 x1x2x3 0.40756 47.507 同济医学院卫生统计学教研组 2005年11月

全局择优法的局限性 同济医学院卫生统计学教研组 如果自变量个数为4,则所有的回归模型有24-1= 15个;当自变量数个数为10时,所有可能的回归为 210-1= 1023个;……;当自变量数个数为50时,所有可能的回归为250-1≈1015个。 同济医学院卫生统计学教研组 2005年11月

2. 逐步选择法 同济医学院卫生统计学教研组 1. 前进法(forward selection) 2. 后退法(backward elimination) 3. 逐步回归法(stepwise regression) 它们的共同特点是每一步只引入或剔除一个自变量。决定引入或剔除基于对偏回归平方和的F检验 同济医学院卫生统计学教研组 2005年11月

(一)前进法 同济医学院卫生统计学教研组 自变量从无到有、从少到多 2005年11月 Y对每一个自变量作直线回归,对回归平方和最大的自变量作F检验,有意义(P小)则引入。 在此基础上,计算其它自变量的偏回归平方和,选取偏回归平方和最大者作F检验,…。 局限性:即后续变量的引入可能会使先进入方程的自变量变得不重要。 同济医学院卫生统计学教研组 2005年11月

(二)后退法 同济医学院卫生统计学教研组 先将全部自变量放入方程,然后逐步剔除 偏回归平方和最小的变量,作F检验及相应的P值,决定它是否剔除(P大) 。 建立新的回归方程。重复上述过程。 局限性:自变量高度相关时,可能得不出正确的结果 。 同济医学院卫生统计学教研组 2005年11月

(三)逐步回归法 同济医学院卫生统计学教研组 双向筛选 ;引入有意义的变量(前进法),剔除无意义变量(后退法) 小样本检验水准a定为0.10或0.15,大样本把值定为0.05。值越小表示选取自变量的标准越严。 注意,引入变量的检验水准要小于或等于剔除变量的检验水准。 同济医学院卫生统计学教研组 2005年11月

第四节 多元线性回归的应用 及其注意事项 同济医学院卫生统计学教研组 2005年11月

一、应用 同济医学院卫生统计学教研组 影响因素分析,控制混杂因素 预测:由自变量值推出应变量Y的值 控制:指定应变量Y的值查看自变量的改变量 2005年11月

二、应用条件 同济医学院卫生统计学教研组 2005年11月

三、应用的注意事项 (一)变量的数量化 (二)样本含量 (三)统计“最优”与专业的“最优” (四)多重共线性 (五)交互作用 (六)残差图 (七)偏相关系数 同济医学院卫生统计学教研组 2005年11月

(一)变量的数量化 同济医学院卫生统计学教研组 (1)自变量为连续型变量 (必要时作变换) (2)自变量为有序变量(依次赋值,如疗效好中差,可分别赋值3、2、1) (3)自变量为二分类(可令男=1,女=0) (4)自变量为名义分类(需要采用哑变量(dummy variables)进行编码) 同济医学院卫生统计学教研组 2005年11月

名义分类变量的哑变量化 同济医学院卫生统计学教研组 假如职业分类为工、农、商、学、兵5类,则可定义比分类数少1个,即4个哑变量。编码方法如下: 同济医学院卫生统计学教研组 2005年11月

举 例 同济医学院卫生统计学教研组 2005年11月 注意:1.哑变量是同时存在,其统计学意义是相对而言的。       举 例 姓名 性别 sex 年龄 职业(J) J1 J2 J3 J4 张山 男 1 19 学生 李四 女 25 商人 王五 30 军人 赵六 40 农民 钱七 36 工人 孙八 刘九 26 注意:1.哑变量是同时存在,其统计学意义是相对而言的。 2.哑变量有无意义可采用加与不加入哑变量的偏回归平方和F检验确定。                         同济医学院卫生统计学教研组 2005年11月

观察个体n :变量 m =5~10 (二)样本含量 观察个体数n与变量个数m的比例一般至少应为: 同济医学院卫生统计学教研组 2005年11月

(三)统计“最优”与专业的“最优” 不同准则、方法得出的“最优”方程不同; 不同的引入、剔除标准获得的“最优”方程不同; 方程还受数据的正确性、共线性影响 同济医学院卫生统计学教研组 2005年11月

(四)多重共线性 同济医学院卫生统计学教研组 自变量间存在着相关关系,使一个或几个自变量可以由另外的自变量线性表示时,称为该变量与另外的自变量间存在有共线性(collinearity)。 Y x x X2 X1 同济医学院卫生统计学教研组 2005年11月

多重共线性的识别与解决办法 同济医学院卫生统计学教研组 回归系数的符号与专业知识不符 变量的重要性与专业不符 R2高,但各自变量对应的回归系数均不显著。 方差膨胀因子(Variance Inflation Factors ,VIF) >10 筛选自变量 用主成分回归 岭回归 同济医学院卫生统计学教研组 2005年11月

(五)交互作用 同济医学院卫生统计学教研组 当某一自变量对应变量的作用大小与另一个自变量的取值有关时,则表示两个变量有交互作用(interaction)。 检验两变量间有无交互作用,普遍的做法是在方程中加入它们的乘积项再做检验。如考察X1、X2间的交互作用,可在模型中加入X1X2项。 同济医学院卫生统计学教研组 2005年11月

(六)、残差图(residual plot) Residuals Homoscedasticity: Residuals appear completely random. No indication of model inadequacy. Curved pattern in residuals resulting from underlying nonlinear relationship. Residuals exhibit a linear trend with time. Time Heteroscedasticity: Variance of residuals changes when x changes.

标准化残差(Standardized residual) i = 残差(Residual) i / 剩余标准差 学生化残差的分母的计算 标准化残差(Standardized residual) i = 残差(Residual) i / 剩余标准差 残差标准差 学生化残差(Studentized residual) i = 残差(Residual) i /其标准差 Standard deviation

(七)偏相关系数 同济医学院卫生统计学教研组 2005年11月

几个相关系数的区别 同济医学院卫生统计学教研组 2005年11月

(八)多元回归计算程序 SAS计算程序 SPSS计算见书P448 同济医学院卫生统计学教研组 2005年11月