2 主讲人 陶育纯 MEDICAL MULTIVARIATE STATISTICS ANALYSIS 多元统计分析 教案

Slides:



Advertisements
Similar presentations
第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
Advertisements

2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
第三节 微分 3.1 、微分的概念 3.2 、微分的计算 3.3 、微分的应用. 一、问题的提出 实例 : 正方形金属薄片受热后面积的改变量.
3.4 空间直线的方程.
第六章 回归分析.
第七章 回归分析.
Chapter 15 複迴歸.
5 多元线性回归分析 §1 一元线性回归分析 §2 多元线性回归分析 §3 最优回归方程的选取 §4 可线性化的非线性回归.
双变量关联性分析.
《解析几何》 乐山师范学院 0 引言 §1 二次曲线与直线的相关位置.
一、能线性化的多元非线性回归 二、多元多项式回归(线性化)
第13章 多重线性回归与相关 (multiple linear regression & multiple correlation)
第十五章 多元线性回归分析 (Multiple Linear Regression).
§9.3 线性回归分析 一. 什么是回归分析 相关分析研究变量之间相关的方向和相关的程度,但是相关分析不能指出变量间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。 回归分析则是研究变量之间的数量变化规律的一种方法。
预测与决策分析 Forecasting and Decision Analysis
第一章 行列式 第五节 Cramer定理 设含有n 个未知量的n个方程构成的线性方程组为 (Ⅰ) 由未知数的系数组成的n阶行列式
统计学Statistics 主讲人:商学院 刘后平 教授
多元迴歸 Multiple Regression
量化视角下的豆粕投资机会分析 格林期货研发培训中心 郭坤龙.
第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 实习2 主讲人 陶育纯 医学统计学方法 实习2 主讲人 陶育纯 流行病与卫生统计学教研室
不确定度的传递与合成 间接测量结果不确定度的评估
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
第十一章 线性相关与回归.
简单相关与回归 武汉大学.公共卫生学院 卫生统计学教研室.
第十九章 直线相关和回归分析.
第15章 相关分析与回归分析 (续).
曲线拟合 Curve fitting 2002级研究生《医学统计学》.
线性相关分析.
Chapter 2 簡單迴歸模型.
第 14 章 複迴歸與相關分析.
医学统计学 7 主讲人 陶育纯 医学统计学 7 主讲人 陶育纯
第12章 回归直线.
多元逐步回归 多元线性回归中自变量的确定: 根据理论知识与经验决定自变量,由于对部分自变量的作用不确认,借助统计分析来实现,剔除:
Multiple linear regression
第一章.
第十一章. 簡單直線迴歸與簡單相關 Simple Linear Regression and Simple Correlation
十一、簡單相關與簡單直線回歸分析(Simple Correlations and Simple Linear Regression )
统计软件应用 7 主讲人 陶育纯 SPSS统计分析 统计软件应用 7 主讲人 陶育纯 教案.
Chapter 14 Simple Linear Regression
李杰 首都经济贸易大学 安全与环境工程学院 个人主页:
第2章 一元线性回归 2 .1 一元线性回归模型 2 .2 参数 的估计 2 .3 最小二乘估计的性质 2 .4 回归方程的显著性检验
§2 求导法则 2.1 求导数的四则运算法则 下面分三部分加以证明, 并同时给出相应的推论和例题 .
统计软件应用 6 主讲人 陶育纯 SPSS统计分析 统计软件应用 6 主讲人 陶育纯 教案.
線性相關與直線迴歸 基本概念 線性相關:兩個連續變項的共變關係,且有線性關係。所謂 的線性關係乃指兩個變項的關係可以被一條最具
第十章 方差分析.
数据挖掘工具性能比较.
医学统计学 6 主讲人 陶育纯 医学统计学 6 主讲人 陶育纯
统 计 学 (第三版) 2008 作者 贾俊平 统计学.
第4章 非线性规划 4.5 约束最优化方法 2019/4/6 山东大学 软件学院.
第一章 函数与极限.
第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 6 主讲人 陶育纯 医学统计学方法 6 主讲人 陶育纯 流行病与卫生统计学教研室
统 计 学 (第三版) 2008 作者 贾俊平 统计学.
第捌章 敘述研究法 一、調查研究法(survey method) 二、相關研究法(co relational studies)
3 主讲人 陶育纯 MEDICAL MULTIVARIATE STATISTICS ANALYSIS 多元统计分析 教案
概 率 统 计 主讲教师 叶宏 山东大学数学院.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
第十三章 直线相关与直线回归.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
iSIGHT 基本培训 使用 Excel的栅栏问题
3.1 变化率与导数   3.1.1 变化率问题 3.1.2 导数的概念.
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
概率论与数理统计B.
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
第三节 随机区组设计的方差分析 随机区组设计资料的总平方和可以分解为三项: (10.10).
第六章 Excel的应用 五、EXCEL的数据库功能 1、Excel的数据库及其结构 2、Excel下的数据排序 (1)Excel的字段名行
回归分析实验课程 (实验三) 多项式回归和定性变量的处理.
数学模型实验课(二) 最小二乘法与直线拟合.
庄文忠 副教授 世新大学行政管理学系 复回归分析 庄文忠 副教授 世新大学行政管理学系 SPSS之应用(庄文忠副教授) 2019/8/26.
Presentation transcript:

2 主讲人 陶育纯 MEDICAL MULTIVARIATE STATISTICS ANALYSIS 2014.4.22 多元统计分析 教案 医用多元统计分析 MEDICAL MULTIVARIATE STATISTICS ANALYSIS 2 主讲人 陶育纯 2014.4.22 教案

第二讲 课程名称:多元统计分析 参考教材: «医学统计学与电脑实验» 年级、专业:2013公卫学院研究生 授课时间:2014年4月22日 (第二版) 方积乾 主编 上海科学技术出版社 年级、专业:2013公卫学院研究生 授课时间:2014年4月22日 授课时数:4h 2014.4.22

目录 第二部分 多重回归和相关(1) 一、多重线性回归 ㈠ 多重线性回归的概念 ㈡ 多重线性回归与直线回归的区别 ㈢ 多重线性回归的实例 ㈣ 多重线性逐步回归 2014.4.22

目录 ㈤ 多重线性回归分析的注意事项 二、练习资料 ㈠ 课堂练习习题 ㈡ 课后作业题 2014.4.22

一、多重线性回归 第二部分 多重回归和相关(1) ㈠ 多重线性回归概念 多重回归分析(Multiple Regression Analysis) 定义:是研究一个因变量和多个自变量间依存关系的一种统计学方法。 1个因变量 k个自变量(k>1) 2014.4.22

۞多重线性回归分析(Multiple Linear Regression Analysis) 是研究一个因变量和多个自变量间线性依存 关系的一种统计学方法。 线性 1个因变量 k个自变量(k>1) 此外,多重回归分析方法还包括非线性回归 (Nonlinear Regression)、Logistic回归(后面讲)等 方法。 2014.4.22

㈡ 多重线性回归与直线回归的区别 直线回归 又称简单回归(Simple Linear Regression)是描述一个应变量Y与一个自变量X间依存关系的一种统计分析方法。此法也即直线回归。通过直线回归方程描述应变量Y依存自变量X变化的数量关系。 线性 1个因变量 1个自变量 2014.4.22

根据数学上的最小二乘法的原理计算a和b 来得到具体的直线回归方程。其直观表达是二维平面上的一条回归直线(见下图1所示)。 2014.4.22

多重线性回归通过多重线性回归方程描述应变量Y依存多个自变量Xi 变化的数量关系。 其中bi 称为自变量Xi 的偏回归系数( partial regression coefficient )。根据数学上的最小二乘法的原理计算bi 来得到具体的多重线性回归方程。当只有两个自变量时,其直观表达是三维平面上的一个回归平面(见下图2所示)。 2014.4.22

图2. 肺活量依存身高和胸围之呼吸差变化的回归平面 2014.4.22

㈢ 多重线性回归的实例 ⑴ 多重线性回归方程的建立 例2. 20名儿童的血红蛋白Y(g/100ml)与微量元素钙X1(μg/100ml)和铁X2(μg/100ml)的测定结果如表2。试进行多重线性 回归分析。 2014.4.22

1. 建立Excel数据文件(见exp2.xls); 2. 选择“工具”→“数据分析”打开数据分析 ① 手工计算 略。 No time, also no necessary. ② 利用Excel计算 1. 建立Excel数据文件(见exp2.xls); 2. 选择“工具”→“数据分析”打开数据分析 对话框,选择分析工具栏中的“回归”→确定。 3. 在“回归”对话框中的“Y值输入区域”内输 入应变量Y的数据范围,“X值输入区域”内输入 所有自变量Xi的数据范围,选取适当“输出区域” →确定,即可完成回归分析。结果见图3。 2014.4.22

1. 建立SPSS数据文件(见exp2.sav); 2. Analyze → Regression  → Linear…打开Linear Regression对话框,将Y变量(血红蛋白)调入Dependent:栏 中,将X1、X2变量(钙、铁)调入Independent(s):栏中, → OK即可完成回归分析。主要结果见图4。 2014.4.22

⑵ 多重线性回归方程的假设检验 对例2.的回归方程进行假设检验的步骤如下: 我们知道即使每个Xi 对应的总体偏回归系数βi 都为零,由于抽样误差的存在,样本偏回归系数bi 也不一定为零。因此需要对全部样本偏回归系数bi 进行假设检验,以此推断多元线性回归方程是否存在统计学意义。可用方差分析。基本原理与直线回归方程的假设检验相同。 对例2.的回归方程进行假设检验的步骤如下: 2014.4.22

H0: 每个βi = 0 即所有自变量对应变量都无线性回归关系 α= 0.05 计算检验统计量F : ① 手工计算 略。F=12.5044。由α=0.05,ν1=ν回=2,ν2=ν残差=17,查F界值附表,得F0.05(2,17)=3.59,今求得F>3.59,则P<0.05,按α=0.05水准拒绝H0,可认为微量元素钙和铁对血红蛋白有线性回归关系。 2014.4.22

② 利用Excel计算 结果见图3。F=12.5327,P=0.00045233<0.05,按α=0.05水准拒绝H0,可认为微量元素钙和铁对血红蛋白有线性回归关系。 ③ 利用SPSS计算 结果见图4。F=12.5327,P=0.00045233<0.05,结论同上。 2014.4.22

为了寻找出真正对应变量有统计学意义的那些自变量,就需要对每个自变量相应的偏回归系 ⑶ 偏回归系数的假设检验 上一部分对多重线性回归方程进行的假设检验是通过对全部样本偏回归系数bi 整体做出的,即存在着只要有一个bi不是来自βi = 0的总体,即使其它的所有bi都来自βi = 0的总体,此多重线性回归方程也有统计学意义的现象。即用上述假设检验方法不能揪出bi中的南郭先生(即对应变量贡献不大)! 为了寻找出真正对应变量有统计学意义的那些自变量,就需要对每个自变量相应的偏回归系 2014.4.22

数bi 分别进行检验,原理是先将所有自变量都引入方程,计算SS回;再将拟检验的某个自变量X从方程中剔除,重新建立一个不含此自变量的方程,计算回归平方和SS回(no X),则SS回-SS回(no X)即代表了该自变量X对应变量的贡献量,通过方差分析得出该X对应变量的贡献量是否有统计学意义。 2014.4.22

① 手工计算 参见相关参考书。 ② 利用Excel计算 结果见图3。对自变量X1(钙): t=1.511,P=0.1491 对例2.的资料做偏回归系数的假设检验: ① 手工计算 参见相关参考书。 No seeing, no trouble. ② 利用Excel计算 结果见图3。对自变量X1(钙): t=1.511,P=0.1491 >0.05,可认为微量元素钙对血红蛋白的线性回归无统计学意义;对自变量X2(铁): t=4.986,P=0.0001<0.05,可认为微量元素铁对血红蛋白的线性回归有统计学意义。重新建立只有X2(铁)的线性回归方程如下: 2014.4.22

⑷ 用SPSS求解多个自变量的线性回归方程 结果见图4。结论完全相同,解释见前。 ⑷ 用SPSS求解多个自变量的线性回归方程 举例 例3. 某单位研究儿童生长发育情况,测量了15名三岁儿童的六项基本体格指标,体重(X1, kg)、身高(X2, cm)、胸围(X3, cm)、上臂围(X4, cm)、胸围之呼吸差(X5, cm)、肺活量(Y, ml),其数据如表3所示。试求以肺活量为应变量,体重、身高、胸围、上臂围、胸围之呼吸差为自变量的线性回归方程。 2014.4.22

2014.4.22

1. 建立SPSS数据文件(见exp3.sav); 2. Analyze → Regression  → Linear…打开Linear Regression对话框,将Y变量(肺活量)调入Dependent: 栏中,将X1~X5变量(体重、身高、胸围、上臂围、 胸围之呼吸差)调入Independent(s):栏中,→OK即 可完成回归分析。 3. 分析结果见文件exp3out.spo。 2014.4.22

⑸ 决定系数 复相关系数(multiple correlation coefficient) 用R表示,取值界于0~1之间。其大小表示多个自变量共同对应变量的相关密切程度。R的计算公式如下: 复相关系数 的平方R2称为决定系数(coefficient of determination),其大小反映线性回归模型能在多大程度上解释应变量的变异性,即反映了回归模型拟合数据的优良程度。 2014.4.22

㈣ 多重逐步回归 多重逐步回归就是一个利用逐步(stepwise)选择有统计学意义的自变量的过程来获得最优化的多重回归方程的统计学方法。 由于多重线性回归分析是研究一个应变量和多个自变量之间线性依存关系,而在多个自变量中,不一定每一个变量对因变量的影响都有统计学意义,因此需要通过某种方法寻找出一个最优化的多重回归方程,即能够使方程中的每一个自变量对因变量的影响都有统计学意义。 多重逐步回归就是一个利用逐步(stepwise)选择有统计学意义的自变量的过程来获得最优化的多重回归方程的统计学方法。 2014.4.22

由于多重逐步回归的计算量比较大,因此常借助统计软件进行计算。 在逐步选择变量的过程中,把经检验有意义的变量引入方程后,又对已在方程中的变量进行检验,保留有统计学意义的变量,剔除无统计学意义的变量。反复进行引入、剔除过程,直到既没有变量被引入,也没有变量被剔除为止。 由于多重逐步回归的计算量比较大,因此常借助统计软件进行计算。 下面通过对例3.的资料使用SPSS进行多重逐 2014.4.22

步回归分析演示其操作过程、分析结果以及结果的判读。 1. 建立SPSS数据文件(见exp3.sav); 2. Analyze → Regression  → Linear…打开Linear Regression对话框,将Y变量(肺活量)调入Dependent: 栏中,将X1~X5变量(体重、身高、胸围、上臂围、 胸围之呼吸差)调入Independent(s):栏中,在Method: 下拉框中点击选择stepwise来选择逐步回归法, →OK即可完成逐步回归分析。 2014.4.22

3. 结果判读:输出结果见表4a~4e。 表4a中显示了多元逐步回归的步骤。第一步引进 自变量X5(胸围之呼吸差) , 第二步引进自变量X2 (身高) 。 二者使用的准则( Criteria)都是:引进的概率P≤0.050, 剔除的概率P≥0.100 。 表4b显示了第一步引进自变量X5 ,R2=0.860;第二步引进自变量X2 ,R2=0.935。 表4c显示了第一步引进自变量X5 后的回归方程有意义(F=79.695,P < 0.001 );第二步引进自变量X2后的回归方程也有意义(F=86.032,P < 0.001 )。 表4d显示了第一步引进自变量X5 后的回归方程中相 2014.4.22

表4e显示了多元逐步回归分析中每步未进入方程的 自变量的情况。 应系数的大小及其假设检验的结果( X5 的系数b5=811.529, P<0.001;常数项(Constant)的系数 b0=766.053, P=0.015 <0.05 );第二步引进自变量X2后的回归方程中相应系数的大小及其假设检验的结果( X5 的系数b5=671.744, P<0.001;X2 的系数b2=41.956, P <0.01;常数项的系数 b0=-5957.353, P <0.01 )。故本例题的回归方程为: 表4e显示了多元逐步回归分析中每步未进入方程的 自变量的情况。 2014.4.22

㈤ 多重线性回归分析的注意事项 1. 多重回归分析的条件 线性(linear)、独立(independent)、正态(normal)和等方差(equal variance)。“LINE”。 2. 作多重回归分析时,应注意样本含量 一般应使记录数(case)达到自变量数的10~20倍。 3. 作多重回归分析时,决定系数R2很重要 一般R2很小的方程实际意义不大。 2014.4.22

4. 多重回归分析时,应避免选择Enter法,最好选择stepwise法。 5. 不能直接使用回归系数bi 相互比较回归作用大小,而应该使用标准化系数bi '(standardized coefficient)。 6. 作多重逐步回归分析时,应事先确定自变量入选和剔除的α值的界限 一般采取“严进宽出”的原则。即入选时,α=0.05,剔除时,α=0.10。 2014.4.22

7. 多重回归分析时,必须结合资料的专业实际意义来选择不同的自变量入选和剔除的α值的大小。 8. 多重回归分析时,注意统计上的“最优”与专业上的“最优”的区别 不同准则、方法得出的“最优”方程不同;不同的引入、剔除标准获得的“最优”方程不同;方程还受数据的准 确性、共线性等影响。 这么多条条框框! 2014.4.22

9. 多重回归分析时,应注意自变量的数量化问题。 Ⅰ. 自变量为连续型变量(常直接用即可,必要时作变换) Ⅱ. 自变量为有序变量(依次赋值,如疗效好中差,可分别赋值 3、2、1) Ⅲ. 自变量为二分类(可令男=1,女=0) Ⅳ. 自变量为名义分类[需要采用哑变量(dummy variables) 进行编码] 2014.4.22

假如职业分类为工、农、商、学、兵5类,则可定义比分类数少1个,即4个哑变量。编码方法如下: 名义分类变量的哑变量化 假如职业分类为工、农、商、学、兵5类,则可定义比分类数少1个,即4个哑变量。编码方法如下: 2014.4.22

举 例 2014.4.22 姓名 性别 sex 年龄 职业(J) J1 J2 J3 J4 张山 男 1 19 学生 李四 女 25 商人 举 例 姓名 性别 sex 年龄 职业(J) J1 J2 J3 J4 张山 男 1 19 学生 李四 女 25 商人 王五 30 军人 赵六 40 农民 钱七 36 工人 孙八 刘九 26 2014.4.22

10. 作多重回归分析时,应注意多重共线性 (Multicollinearity )问题 自变量间存在着相关关系,使一个或几个自变量可以由另外的自变量线性表示时,称为该变量与另外的自变量间存在有共线性。 识别 回归系数的符号与专业知识不符; 变量的重要性与专业不符; R2高,但各自变量对应的回归系数均不显著; 方差膨胀因子(Variance Inflation Factors,VIF) >10。 2014.4.22

对策 筛选自变量 用主成分回归 岭回归 11. 多重回归分析时,残差分析( Residual analysis)也是模型诊断不可缺少的过程。 什么时候完啊! 11. 多重回归分析时,残差分析( Residual analysis)也是模型诊断不可缺少的过程。 12. 多重回归分析时,应特别注意异常点对模型的影响 对于少于3个自变量的多重回归分析,可以通过直观的二维或三维散点图( Scatter Plot) 在分析前检查。 2014.4.22

残差图(residual plot) Homoscedasticity : 等方差 Heteroscedasticity : 异方差 Residuals Homoscedasticity: Residuals appear completely random. No indication of model inadequacy. Curved pattern in residuals resulting from underlying nonlinear relationship. Residuals exhibit a linear trend with time. Time Heteroscedasticity: Variance of residuals changes when x changes. 2014.4.22

异常点(outlier)对模型的影响 2014.4.22

别看我,看图! 2014.4.22

二、练习资料 ㈠ 课堂练习习题 1. 本讲中的例2. 、例3.数据; 1. 本讲中的例2. 、例3.数据; 2. 《医学统计学与电脑实验》(第二版)第二十一章Page378 例21.1数据,见表4。建立由 X1、X2、X3预测Y的线性回归方程。 2014.4.22

㈡ 课后作业题 HW1. 20名儿童的血红蛋白Y(g/dl)与微量元素钙X1(μg/dl)、铁X2(μg/dl)和锰X3(μg/dl)的测定结果如表2-4。试进行多重线性回归分析。(数据见HomeworkData1.xls) C 2014.4.22

exp2.xls 2014.4.22

2014.4.22

图3 例2.回归分析的Excel输出(主要部分) 2014.4.22

Data View Variable View exp2.sav 2014.4.22

2014.4.22

图4 例2.回归分析的SPSS输出(主要部分) 2014.4.22

exp3.xls 2014.4.22

2014.4.22

表 4a 2014.4.22

表 4b 表 4c 2014.4.22

表 4d 2014.4.22

表 4e 2014.4.22

2014.4.22