医学统计学 7 主讲人 陶育纯 http://cc.jlu.edu.cn/ms.html http://cc.jlu.edu.cn/ss.html 医学统计学 7 主讲人 陶育纯 2013.6.8
第七讲 课程名称:医学统计学 主要教材: «卫生统计学» 第7版 方积乾 主编 人民卫生出版社 年级、专业:2010级白求恩医学班 方积乾 主编 人民卫生出版社 年级、专业:2010级白求恩医学班 授课时间:2013年6月8日 授课时数:4h 2013.6.8
目录 ※第十二章 多重线性回归和相关 第四节 自变量筛选 *第五节 多重线性回归的应用 第一节 多重线性回归的概念及其统计描述 第二节 多重线性回归的假设检验 第三节 复相关系数与偏相关系数 第四节 自变量筛选 *第五节 多重线性回归的应用 2013.6.8
第十二章 多重线性回归和相关 第一节 多重线性回归的概念及其统计描述 ㈠ 多重线性回归概念 多重回归分析(Multiple Regression Analysis) 定义:是研究一个因变量和多个自变量间依存关系的一种统计学方法。 1个因变量 k个自变量(k>1) 2013.6.8
۞多重线性回归分析(Multiple Linear Regression Analysis) 是研究一个因变量和多个自变量间线性依存 关系的一种统计学方法。 线性 1个因变量 k个自变量(k>1) 此外,多重回归分析方法还包括非线性回归 (Nonlinear Regression)、Logistic回归(后面讲)等 方法。 2013.6.8
㈡ 多重线性回归与直线回归的区别 直线回归 又称简单回归(Simple Linear Regression)是描述一个应变量Y与一个自变量X间依存关系的一种统计分析方法。此法也即直线回归。通过直线回归方程描述应变量Y依存自变量X变化的数量关系。 线性 1个因变量 1个自变量 2013.6.8
根据数学上的最小二乘法的原理计算a和b 来得到具体的直线回归方程。其直观表达是二维平面上的一条回归直线(见下图1所示)。 2013.6.8
多重线性回归通过多重线性回归方程描述应变量Y依存多个自变量Xi 变化的数量关系。 其中bi 称为自变量Xi 的偏回归系数( partial regression coefficient )。根据数学上的最小二乘法的原理计算bi 来得到具体的多重线性回归方程。当只有两个自变量时,其直观表达是三维平面上的一个回归平面(见下图2所示)。 2013.6.8
图2. 肺活量依存身高和胸围之呼吸差变化的回归平面 2013.6.8
㈢ 多重线性回归的实例 ⑴ 多重线性回归方程的建立 例2. 20名儿童的血红蛋白Y(g/100ml)与微量元素钙X1(μg/100ml)和铁X2(μg/100ml)的测定结果如表2。试进行多重线性 回归分析。 2013.6.8
1. 建立Excel数据文件(见exp2.xls); 2. 选择“工具”→“数据分析”打开数据分析对话 ① 手工计算 略。 No time, also no necessary. ② 利用Excel计算 1. 建立Excel数据文件(见exp2.xls); 2. 选择“工具”→“数据分析”打开数据分析对话 框,选择分析工具栏中的“回归”→确定。 3. 在“回归”对话框中的“Y值输入区域”内输入 应变量Y的数据范围,“X值输入区域”内输入所有 自变量Xi的数据范围,选取适当的“输出区域” → 确定,即可完成回归分析。结果见图3。 2013.6.8
1. 建立SPSS数据文件(见exp2.sav); 2. Analyze → Regression → Linear…打开Linear Regression对话框,将Y变量(血红蛋白)调入Dependent:栏 中,将X1、X2变量(钙、铁)调入Independent(s):栏中, → OK即可完成回归分析。主要结果见图4。 2013.6.8
第二节 多重线性回归的假设检验 对例2.的回归方程进行假设检验的步骤如下: 我们知道即使每个Xi 对应的总体偏回归系数βi 都为零,由于抽样误差的存在,样本偏回归系数bi 也不一定为零。因此需要对全部样本偏回归系数bi 进行假设检验,以此推断多元线性回归方程是否存在统计学意义。可用方差分析。基本原理与直线回归方程的假设检验相同。 对例2.的回归方程进行假设检验的步骤如下: 2013.6.8
H0: 每个βi = 0 即所有自变量对应变量都无线性回归关系 α= 0.05 计算检验统计量F : ① 手工计算 略。F=12.5044。由α=0.05,ν1=ν回=2,ν2=ν残差=17,查F界值附表,得F0.05(2,17)=3.59,今求得F>3.59,则P<0.05,按α=0.05水准拒绝H0,可认为微量元素钙和铁对血红蛋白有线性回归关系。 2013.6.8
② 利用Excel计算 结果见图3。F=12.5327,P=0.00045233<0.05,按α=0.05水准拒绝H0,可认为微量元素钙和铁对血红蛋白有线性回归关系。 ③ 利用SPSS计算 结果见图4。F=12.5327,P=0.00045233<0.05,结论同上。 2013.6.8
为了寻找出真正对应变量有统计学意义的那些自变量,就需要对每个自变量相应的偏回归系 ⑶ 偏回归系数的假设检验 上一部分对多重线性回归方程进行的假设检验是通过对全部样本偏回归系数bi 整体做出的,即存在着只要有一个bi不是来自βi = 0的总体,即使其它的所有bi都来自βi = 0的总体,此多重线性回归方程也有统计学意义的现象。即用上述假设检验方法不能揪出bi中的南郭先生(即对应变量贡献不大)! 为了寻找出真正对应变量有统计学意义的那些自变量,就需要对每个自变量相应的偏回归系 2013.6.8
数bi 分别进行检验,原理是先将所有自变量都引入方程,计算SS回;再将拟检验的某个自变量X从方程中剔除,重新建立一个不含此自变量的方程,计算回归平方和SS回(no X),则SS回-SS回(no X)即代表了该自变量X对应变量的贡献量,通过方差分析得出该X对应变量的贡献量是否有统计学意义。 2013.6.8
① 手工计算 参见相关参考书。 ② 利用Excel计算 结果见图3。对自变量X1(钙): t=1.511,P=0.1491 对例2.的资料做偏回归系数的假设检验: ① 手工计算 参见相关参考书。 No seeing, no trouble. ② 利用Excel计算 结果见图3。对自变量X1(钙): t=1.511,P=0.1491 >0.05,可认为微量元素钙对血红蛋白的线性回归无统计学意义;对自变量X2(铁): t=4.986,P=0.0001<0.05,可认为微量元素铁对血红蛋白的线性回归有统计学意义。重新建立只有X2(铁)的线性回归方程如下: 2013.6.8
⑷ 用SPSS求解多个自变量的线性回归方程 结果见图4。结论完全相同,解释见前。 ⑷ 用SPSS求解多个自变量的线性回归方程 举例 例3. 某单位研究儿童生长发育情况,测量了15名三岁儿童的六项基本体格指标,体重(X1, kg)、身高(X2, cm)、胸围(X3, cm)、上臂围(X4, cm)、胸围之呼吸差(X5, cm)、肺活量(Y, ml),其数据如表3所示。试求以肺活量为应变量,体重、身高、胸围、上臂围、胸围之呼吸差为自变量的线性回归方程。 2013.6.8
2013.6.8
1. 建立SPSS数据文件(见exp3.sav); 2. Analyze → Regression → Linear…打开Linear Regression对话框,将Y变量(肺活量)调入Dependent: 栏中,将X1~X5变量(体重、身高、胸围、上臂围、 胸围之呼吸差)调入Independent(s):栏中,→OK即 可完成回归分析。 3. 分析结果见文件exp3out.spo。 2013.6.8
第三节 复相关系数与偏相关系数 ㈠ 多重线性相关概念 多重线性相关(Multiple Linear Correlation) 定义:是研究一个因变量和多个自变量间互依关系的一种统计学方法。 线性 1个因变量 k个自变量(k>1) 2013.6.8
必须满足正态分布或多元正态分布(Multivariate Normal Distribution)。 上述的因变量和自变量的地位是相同的,都 必须满足正态分布或多元正态分布(Multivariate Normal Distribution)。 多重线性相关常通过以下三个统计指标进行 分析。 简单相关系数(Simple correlation coefficient) 复相关系数(Multiple correlation coefficient) 偏相关系数(Partial correlation coefficient) 2013.6.8
㈡ 多重线性相关与直线相关的区别 直线相关 1个因变量 1个自变量 多重线性相关 1个因变量 k个自变量(k>1) 直线相关是多重线性相关的特例,是描述两个变量线性互依关系的最常用的方法,常用直线相关系数(Pearson’s correlation coefficient)表达和分析。 2013.6.8
۞简单相关系数 是一组随机变量X1,X2,…,Xp和Y中任何两个变量之间的Pearson相关系数。把这些相关系数列在一起就形成了相关系数矩阵(Correlation Matrix) 。 下例为X1,X2,X3和Y的简单相关系数矩阵。 2013.6.8
是度量一组随机变量(X1,X2,…,Xp)和Y之间的线性互依关系的指标。其计算方法为: ۞复相关系数 是度量一组随机变量(X1,X2,…,Xp)和Y之间的线性互依关系的指标。其计算方法为: 首先求Y和X1,X2,…,Xp的多重回归,得到: Y和 的简单相关系数取绝对值就称Y和(X1,X2,…,Xp)的复相关系数,记为R, 2013.6.8
۞偏相关系数 2013.6.8
几个相关系数的区别 2013.6.8
㈢ 多重线性相关的实例 例4. 石磊(1991)发表了其所在医院1970~1989年间历年门诊人次X1, 病床利用率X2, 病床周转次数X3 和住院人数Y的数据如表4所示。试求X1, X2, X3 和Y的简单相关系数矩阵、复相关系数,扣除X2的影响后X1 和Y的偏相关系数。 2013.6.8
1. 建立Excel数据文件(见exp4.xls); 2. 选择“工具”→“数据分析”打开数据分析对话 框,选择分析工具栏中的“相关系数”→确定。 3. 在“相关系数”对话框中的“输入区域”内输入 所有变量的数据范围,选取适当的“输出区域” → 确定,即可完成计算简单相关系数矩阵。结果见 exp4.xls 。 复相关系数的结果可通过回归分析得到,过 程参见前述的多重回归分析,结果见exp4.xls 。 Excel不提供偏相关系数的计算。 2013.6.8
1. 建立SPSS数据文件(见exp4.sav); 2. Analyze → Correlate → Bivariate…打开Bivariate Correlations对话框,将Y和X1、X2、X3调入Variables:栏中, →OK即可完成简单相关系数矩阵的计算。主要结果见exp4out.spo 。 3. Analyze → Correlate → Partial…打开Partial Correlations对话框,将Y和X1调入Variables:栏中,将X3调入Controlling for:栏中→OK即可完成偏相关系数的计算。主要结果见exp4out.spo 。 2013.6.8
SPSS不直接提供复相关系数的计算。 复相关系数的结果可通过回归分析得到,过 程参见前述的多重回归分析,结果略。 Excel不直接提供简单相关系数矩阵中的任两个变量的简单相关系数的假设检验。复相关系数的假设检验与多重回归的假设检验等价。不提供偏相关系数的假设检验。 SPSS则提供三种相关系数的假设检验。关于简单相关系数的假设检验和偏相关系数的假设检验均在列出相关系数的同时列出。复相关系数的假设检验也通过多重回归的假设检验获得。 2013.6.8
复相关系数(multiple correlation coefficient) 用R表示,取值界于0~1之间。其大小表示多个自变量共同对应变量的相关密切程度。R的计算公式如下: 复相关系数 的平方R2称为决定系数(coefficient of determination),其大小反映线性回归模型能在多大程度上解释应变量的变异性,即反映了回归模型拟合数据的优良程度。 2013.6.8
第四节 自变量筛选 ㈠ 多重逐步回归 由于多重线性回归分析是研究一个应变量和多个自变量之间线性依存关系,而在多个自变量中,不一定每一个变量对因变量的影响都有统计学意义,因此需要通过某种方法寻找出一个最优化的多重回归方程,即能够使方程中的每一个自变量对因变量的影响都有统计学意义。 多重逐步回归就是一个利用逐步(stepwise)选择有统计学意义的自变量的过程来获得最优化的多重回归方程的统计学方法。 2013.6.8
由于多重逐步回归的计算量比较大,因此常借助统计软件进行计算。 在逐步选择变量的过程中,把经检验有意义的变量引入方程后,又对已在方程中的变量进行检验,保留有统计学意义的变量,剔除无统计学意义的变量。反复进行引入、剔除过程,直到既没有变量被引入,也没有变量被剔除为止。 由于多重逐步回归的计算量比较大,因此常借助统计软件进行计算。 下面通过对例3.的资料使用SPSS进行多重逐 2013.6.8
步回归分析演示其操作过程、分析结果以及结果的判读。 1. 建立SPSS数据文件(见exp3.sav); 2. Analyze → Regression → Linear…打开Linear Regression对话框,将Y变量(肺活量)调入Dependent: 栏中,将X1~X5变量(体重、身高、胸围、上臂围、 胸围之呼吸差)调入Independent(s):栏中,在Method: 下拉框中点击选择stepwise来选择逐步回归法, →OK即可完成逐步回归分析。 2013.6.8
3. 结果判读:输出结果见表4a~4e。 表4a中显示了多元逐步回归的步骤。第一步引进 自变量X5(胸围之呼吸差) , 第二步引进自变量X2 (身高) 。 二者使用的准则( Criteria)都是:引进的概率P≤0.050, 剔除的概率P≥0.100 。 表4b显示了第一步引进自变量X5 ,R2=0.860;第二步引进自变量X2 ,R2=0.935。 表4c显示了第一步引进自变量X5 后的回归方程有意义(F=79.695,P < 0.001 );第二步引进自变量X2后的回归方程也有意义(F=86.032,P < 0.001 )。 表4d显示了第一步引进自变量X5 后的回归方程中相 2013.6.8
表4e显示了多元逐步回归分析中每步未进入方程的 自变量的情况。 应系数的大小及其假设检验的结果( X5 的系数b5=811.529, P<0.001;常数项(Constant)的系数 b0=766.053, P=0.015 <0.05 );第二步引进自变量X2后的回归方程中相应系数的大小及其假设检验的结果( X5 的系数b5=671.744, P<0.001;X2 的系数b2=41.956, P <0.01;常数项的系数 b0=-5957.353, P <0.01 )。故本例题的回归方程为: 表4e显示了多元逐步回归分析中每步未进入方程的 自变量的情况。 2013.6.8
㈡ 多重线性回归分析的注意事项 1. 多重回归分析的条件 线性(linear)、独立(independent)、正态(normal)和等方差(equal variance)。“LINE”。 2. 作多重回归分析时,应注意样本含量 一般应使记录数(case)达到自变量数的10~20倍。 3. 作多重回归分析时,决定系数R2很重要 一般R2很小的方程实际意义不大。 2013.6.8
4. 多重回归分析时,应避免选择Enter法,最好选择stepwise法。 5. 不能直接使用回归系数bi 相互比较回归作用大小,而应该使用标准化系数bi '(standardized coefficient)。 6. 作多重逐步回归分析时,应事先确定自变量入选和剔除的α值的界限 一般采取“严进宽出”的原则。即入选时,α=0.05,剔除时,α=0.10。 2013.6.8
7. 多重回归分析时,必须结合资料的专业实际意义来选择不同的自变量入选和剔除的α值的大小。 8. 多重回归分析时,应注意统计上的“最优”与专业上的“最优”的区别 不同准则、方法得出的“最优”方程不同;不同的引入、剔除标准获得 的“最优”方程不同;方程还受数据的准 确性、共线性等影响。 这么多条条框框! 2013.6.8
9. 多重回归分析时,应注意自变量的数量化问题。 Ⅰ. 自变量为连续型变量(常直接用即可,必要时作变换) Ⅱ. 自变量为有序变量(依次赋值,如疗效好中差,可分别赋值 3、2、1) Ⅲ. 自变量为二分类(可令男=1,女=0) Ⅳ. 自变量为名义分类[需要采用哑变量(dummy variables) 进行编码] 2013.6.8
假如职业分类为工、农、商、学、兵5类,则可定义比分类数少1个,即4个哑变量。编码方法如下: 名义分类变量的哑变量化 假如职业分类为工、农、商、学、兵5类,则可定义比分类数少1个,即4个哑变量。编码方法如下: 2013.6.8
举 例 2013.6.8 姓名 性别 sex 年龄 职业(J) J1 J2 J3 J4 张山 男 1 19 学生 李四 女 25 商人 王五 举 例 姓名 性别 sex 年龄 职业(J) J1 J2 J3 J4 张山 男 1 19 学生 李四 女 25 商人 王五 30 军人 赵六 40 农民 钱七 36 工人 孙八 刘九 26 2013.6.8
10. 作多重回归分析时,应注意多重共线性 (Multi-collinearity )问题 自变量间存在着相关关系,使一个或几个自变量可以由另外的自变量线性表示时,称为该变量与另外的自变量间存在有共线性。 识别 回归系数的符号与专业知识不符; 变量的重要性与专业不符; R2高,但各自变量对应的回归系数均不显著; 方差膨胀因子(Variance Inflation Factors,VIF) >10。 2013.6.8
对策 筛选自变量 用主成分回归 岭回归 11. 多重回归分析时,残差分析( Residual analysis)也是模型诊断不可缺少的过程。 什么时候完啊! 11. 多重回归分析时,残差分析( Residual analysis)也是模型诊断不可缺少的过程。 12. 多重回归分析时,应特别注意异常点对模型的影响 对于少于3个自变量的多重回归分析,可以通过直观的二维或三维散点图( Scatter Plot) 在分析前检查。 2013.6.8
残差图(residual plot) Homoscedasticity : 等方差 Heteroscedasticity : 异方差 Residuals Homoscedasticity: Residuals appear completely random. No indication of model inadequacy. Curved pattern in residuals resulting from underlying nonlinear relationship. Residuals exhibit a linear trend with time. Time Heteroscedasticity: Variance of residuals changes when x changes. 2013.6.8
异常点(outlier)对模型的影响 2013.6.8
别看我,看图! 2013.6.8
*第五节 多重线性回归的应用(略) ㈠ 课堂练习习题 1. 本讲中的例2. 、例3.数据; 1. 本讲中的例2. 、例3.数据; 2. 《医学统计学与电脑实验》(第二版)第二十一章Page378 例21.1数据,见表4。建立由 X1、X2、X3预测Y的线性回归方程。 2013.6.8
㈡ 课后附加作业题 HW5:20名儿童的血红蛋白Y(g/dl)与微量元素钙X1(μg/dl)、铁X2(μg/dl)和锰X3(μg/dl)的测定结果如表2-4。试进行多重线性回归分析。(数据见HomeworkData1.xls) C 2013.6.8
exp2.xls 2013.6.8
2013.6.8
图3 例2.回归分析的Excel输出(主要部分) 2013.6.8
Data View Variable View exp2.sav 2013.6.8
2013.6.8
图4 例2.回归分析的SPSS输出(主要部分) 2013.6.8
exp3.xls 2013.6.8
2013.6.8
表 4a 2013.6.8
表 4b 表 4c 2013.6.8
表 4d 2013.6.8
表 4e 2013.6.8
2013.6.8