Download presentation
Presentation is loading. Please wait.
1
Multiple linear regression
多元(重)线性回归 Multiple linear regression 《医学统计学》 宇传华 制作
2
例 子 同济医学院卫生统计学教研组 人的体重与身高、胸围 血压值与年龄、性别、劳动强度、饮食习惯、吸烟状况、家族史
例 子 人的体重与身高、胸围 血压值与年龄、性别、劳动强度、饮食习惯、吸烟状况、家族史 糖尿病人的血糖与胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂 射频治疗仪定向治疗脑肿瘤过程中,脑皮质的毁损半径与辐射的温度、与照射的时间 同济医学院卫生统计学教研组 2005年11月
3
表15-1 32例40岁以上男性的年龄、吸烟、 体重指数与收缩压
表15-1 32例40岁以上男性的年龄、吸烟、 体重指数与收缩压 同济医学院卫生统计学教研组 2005年11月
4
多元回归分析数据格式 同济医学院卫生统计学教研组 2005年11月
5
第一节 多元线性回归模型 一、回归模型简介 同济医学院卫生统计学教研组 2005年11月
6
(一)多元线性回归模型的一般形式 同济医学院卫生统计学教研组 2005年11月
7
两自变量与应变量的散点图
8
两自变量与应变量的拟合面 bj 为 xj方向 的斜率
9
(二)多元线性回归分析的一般步骤 同济医学院卫生统计学教研组 2005年11月
10
二、采用 最小二乘法 建立多元线性回归方程 同济医学院卫生统计学教研组 2005年11月
11
同济医学院卫生统计学教研组 2005年11月
12
同济医学院卫生统计学教研组 2005年11月
13
表15-1有三个自变量 同济医学院卫生统计学教研组 2005年11月
14
表15-1有三个自变量 同济医学院卫生统计学教研组 2005年11月
15
SAS软件输出结果 28 分别为参数估计值b0、b1、b2、b3 Parameter Estimates
Parameter Standard Standardized Variable DF Estimate Error t Value Pr > |t| Estimate Intercept x < x x 28 分别为参数估计值b0、b1、b2、b3
16
SAS软件输出结果 data a; input no y x1-x3; cards; 1 135 45 0 2.876
。。。 ; proc reg; model y=x1-x2/stb; run;
17
第二节 回归方程的假设检验与评价 同济医学院卫生统计学教研组 一、回归方程的假设检验 二、偏回归系数的假设检验 三、有关评价指标
第二节 回归方程的假设检验与评价 一、回归方程的假设检验 二、偏回归系数的假设检验 三、有关评价指标 同济医学院卫生统计学教研组 2005年11月
18
一、回归方程的方差分析 (H0:所有总体回归系数bj为0)
Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model <.0001 Error Corrected Total 同济医学院卫生统计学教研组 2005年11月
19
有关计算公式 同济医学院卫生统计学教研组 2005年11月
20
有关计算公式 X2 X1 Y Model SS Total SS Residual SS 同济医学院卫生统计学教研组 2005年11月
21
Variable DF Estimate Error t Value Pr > |t| Estimate
Parameter Standard Standardized Variable DF Estimate Error t Value Pr > |t| Estimate 变量 自由度 回归系数 标准误 t值 P值 标准化回归系数 Intercept x < x x 同济医学院卫生统计学教研组 2005年11月
22
标准化回归系数(可说明各自变量相对贡献大小)
bj 标准化 回归系数b’j ljj 标准差 S 常数项 X1 X2 7.969 X3 7.660 Y 同济医学院卫生统计学教研组 2005年11月
23
三、有关评价指标 (软件有关结果) 同济医学院卫生统计学教研组 Root MSE (剩余标准差) 6.7856
R-Square (决定系数) Adj R-Sq (校正决定系数) Dependent Mean 应变量Y 的均值= 同济医学院卫生统计学教研组 2005年11月
24
1. 剩余标准差( Root MSE ) 反映了回归方程的精度,其值越小说明回归效果越好 同济医学院卫生统计学教研组 2005年11月
25
2.决定系数 ( determination coefficient)
说明所有自变量能解释Y变异的百分比。取值(0,1),越接近1模型拟合越好 同济医学院卫生统计学教研组 2005年11月
26
3. 复相关系数 ( multiple correlation coefficient)
说明所有自变量与Y间的线性相关程度。 即 与Y间的相关程度。 如果只有一个自变量,此时 同济医学院卫生统计学教研组 2005年11月
27
4. 校正决定系数( Adjusted determination coefficient)
同济医学院卫生统计学教研组 2005年11月
28
5. 偏回归平方和(sum of squares for partial regression)及其F检验
在其它自变量存在于回归方程中的条件下,考察某一自变量Xj对应变量Y的回归效应 ;j=1,2,…,p 同济医学院卫生统计学教研组 2005年11月
29
Reduced Model Full Model 同济医学院卫生统计学教研组 2005年11月
30
实例计算 同济医学院卫生统计学教研组 2005年11月
31
第四节 自变量的选择 一、 全局择优法 二、 逐步回归法 同济医学院卫生统计学教研组 2005年11月
32
一、全局择优法 根据一些准则(criterion)建立 “最优”回归模型 同济医学院卫生统计学教研组 校正决定系数(考虑了自变量的个数)
Cp准则(C即criterion,p为所选模型中变量的个数;Cp接近(p+1)模型为最优) AIC(Akaike’s Information Criterion)准则; AIC越小越好 同济医学院卫生统计学教研组 2005年11月
33
第三节 模型的变量筛选 根据一些准则(criterion)建立 “最优”回归模型 同济医学院卫生统计学教研组
第三节 模型的变量筛选 根据一些准则(criterion)建立 “最优”回归模型 校正决定系数(考虑了自变量的个数) Cp准则(C即criterion,p为所选模型中变量的个数;Cp接近(p+1)模型为最优) AIC(Akaike’s Information Criterion)准则; AIC越小越好 同济医学院卫生统计学教研组 2005年11月
34
(一)校正决定系数( Adjusted determination coefficient)
同济医学院卫生统计学教研组 2005年11月
35
(二) Cp准则的计算公式 同济医学院卫生统计学教研组 2005年11月
36
(三) AIC准则的计算公式 同济医学院卫生统计学教研组 2005年11月
37
1. 全局择优法 求出所有可能的回归模型(共有2m-1个)对应的准则值;按上述准则选择最优模型 同济医学院卫生统计学教研组 2005年11月
38
SAS获得的几个准则值结果 同济医学院卫生统计学教研组 2005年11月 ADJRSQ CP AIC x2x3x4 0.54563 4
40.343 x2x3 3 46.66 x1x2x3x4 5 42.157 x1x3 48.091 x1x3x4 43.568 x4 2 48.405 x1x2x4 45.655 x1 50.857 x1x4 45.07 x1x2 52.116 x2x4 0.4395 45.16 x3 52.814 x3x4 45.356 x2 54.579 x1x2x3 47.507 同济医学院卫生统计学教研组 2005年11月
39
全局择优法的局限性 同济医学院卫生统计学教研组
如果自变量个数为4,则所有的回归模型有24-1= 15个;当自变量数个数为10时,所有可能的回归为 210-1= 1023个;……;当自变量数个数为50时,所有可能的回归为250-1≈1015个。 同济医学院卫生统计学教研组 2005年11月
40
2. 逐步选择法 同济医学院卫生统计学教研组 1. 前进法(forward selection)
2. 后退法(backward elimination) 3. 逐步回归法(stepwise regression) 它们的共同特点是每一步只引入或剔除一个自变量。决定引入或剔除基于对偏回归平方和的F检验 同济医学院卫生统计学教研组 2005年11月
41
(一)前进法 同济医学院卫生统计学教研组 自变量从无到有、从少到多 2005年11月
Y对每一个自变量作直线回归,对回归平方和最大的自变量作F检验,有意义(P小)则引入。 在此基础上,计算其它自变量的偏回归平方和,选取偏回归平方和最大者作F检验,…。 局限性:即后续变量的引入可能会使先进入方程的自变量变得不重要。 同济医学院卫生统计学教研组 2005年11月
42
(二)后退法 同济医学院卫生统计学教研组 先将全部自变量放入方程,然后逐步剔除
偏回归平方和最小的变量,作F检验及相应的P值,决定它是否剔除(P大) 。 建立新的回归方程。重复上述过程。 局限性:自变量高度相关时,可能得不出正确的结果 。 同济医学院卫生统计学教研组 2005年11月
43
(三)逐步回归法 同济医学院卫生统计学教研组 双向筛选 ;引入有意义的变量(前进法),剔除无意义变量(后退法)
小样本检验水准a定为0.10或0.15,大样本把值定为0.05。值越小表示选取自变量的标准越严。 注意,引入变量的检验水准要小于或等于剔除变量的检验水准。 同济医学院卫生统计学教研组 2005年11月
44
第四节 多元线性回归的应用 及其注意事项 同济医学院卫生统计学教研组 2005年11月
45
一、应用 同济医学院卫生统计学教研组 影响因素分析,控制混杂因素 预测:由自变量值推出应变量Y的值 控制:指定应变量Y的值查看自变量的改变量
2005年11月
46
二、应用条件 同济医学院卫生统计学教研组 2005年11月
47
三、应用的注意事项 (一)变量的数量化 (二)样本含量 (三)统计“最优”与专业的“最优” (四)多重共线性 (五)交互作用 (六)残差图 (七)偏相关系数 同济医学院卫生统计学教研组 2005年11月
48
(一)变量的数量化 同济医学院卫生统计学教研组 (1)自变量为连续型变量 (必要时作变换)
(2)自变量为有序变量(依次赋值,如疗效好中差,可分别赋值3、2、1) (3)自变量为二分类(可令男=1,女=0) (4)自变量为名义分类(需要采用哑变量(dummy variables)进行编码) 同济医学院卫生统计学教研组 2005年11月
49
名义分类变量的哑变量化 同济医学院卫生统计学教研组
假如职业分类为工、农、商、学、兵5类,则可定义比分类数少1个,即4个哑变量。编码方法如下: 同济医学院卫生统计学教研组 2005年11月
50
举 例 同济医学院卫生统计学教研组 2005年11月 注意:1.哑变量是同时存在,其统计学意义是相对而言的。
举 例 姓名 性别 sex 年龄 职业(J) J1 J2 J3 J4 张山 男 1 19 学生 李四 女 25 商人 王五 30 军人 赵六 40 农民 钱七 36 工人 孙八 刘九 26 注意:1.哑变量是同时存在,其统计学意义是相对而言的。 2.哑变量有无意义可采用加与不加入哑变量的偏回归平方和F检验确定。 同济医学院卫生统计学教研组 2005年11月
51
观察个体n :变量 m =5~10 (二)样本含量 观察个体数n与变量个数m的比例一般至少应为: 同济医学院卫生统计学教研组
2005年11月
52
(三)统计“最优”与专业的“最优” 不同准则、方法得出的“最优”方程不同; 不同的引入、剔除标准获得的“最优”方程不同;
方程还受数据的正确性、共线性影响 同济医学院卫生统计学教研组 2005年11月
53
(四)多重共线性 同济医学院卫生统计学教研组
自变量间存在着相关关系,使一个或几个自变量可以由另外的自变量线性表示时,称为该变量与另外的自变量间存在有共线性(collinearity)。 Y x x X2 X1 同济医学院卫生统计学教研组 2005年11月
54
多重共线性的识别与解决办法 同济医学院卫生统计学教研组 回归系数的符号与专业知识不符 变量的重要性与专业不符
R2高,但各自变量对应的回归系数均不显著。 方差膨胀因子(Variance Inflation Factors ,VIF) >10 筛选自变量 用主成分回归 岭回归 同济医学院卫生统计学教研组 2005年11月
55
(五)交互作用 同济医学院卫生统计学教研组
当某一自变量对应变量的作用大小与另一个自变量的取值有关时,则表示两个变量有交互作用(interaction)。 检验两变量间有无交互作用,普遍的做法是在方程中加入它们的乘积项再做检验。如考察X1、X2间的交互作用,可在模型中加入X1X2项。 同济医学院卫生统计学教研组 2005年11月
56
(六)、残差图(residual plot)
Residuals Homoscedasticity: Residuals appear completely random. No indication of model inadequacy. Curved pattern in residuals resulting from underlying nonlinear relationship. Residuals exhibit a linear trend with time. Time Heteroscedasticity: Variance of residuals changes when x changes.
57
标准化残差(Standardized residual) i = 残差(Residual) i / 剩余标准差
学生化残差的分母的计算 标准化残差(Standardized residual) i = 残差(Residual) i / 剩余标准差 残差标准差 学生化残差(Studentized residual) i = 残差(Residual) i /其标准差 Standard deviation
58
(七)偏相关系数 同济医学院卫生统计学教研组 2005年11月
59
几个相关系数的区别 同济医学院卫生统计学教研组 2005年11月
60
(八)多元回归计算程序 SAS计算程序 SPSS计算见书P448 同济医学院卫生统计学教研组 2005年11月
Similar presentations