Presentation is loading. Please wait.

Presentation is loading. Please wait.

统计软件应用 7 主讲人 陶育纯 http://cc.jlu.edu.cn/ss.html SPSS统计分析 http://cc.jlu.edu.cn/ss.html http://cc.jlu.edu.cn/ms.html 统计软件应用 7 主讲人 陶育纯 2014.6.25 教案.

Similar presentations


Presentation on theme: "统计软件应用 7 主讲人 陶育纯 http://cc.jlu.edu.cn/ss.html SPSS统计分析 http://cc.jlu.edu.cn/ss.html http://cc.jlu.edu.cn/ms.html 统计软件应用 7 主讲人 陶育纯 2014.6.25 教案."— Presentation transcript:

1 统计软件应用 7 主讲人 陶育纯 http://cc.jlu.edu.cn/ss.html
SPSS统计分析 统计软件应用 7 主讲人 陶育纯 教案

2 第七讲 课程名称:统计软件应用 主要教材: «SPSS (PASW) 17.0 马斌荣 编著 科学出版社 年级、专业:2010级放射医学专业
在医学统计中的应用» 马斌荣 编著 科学出版社 年级、专业:2010级放射医学专业 2013级公卫研究生 授课时间:2014年6月25日 授课时数:4h

3 目录 第十章 相关与回归 第十一章 Logistic回归(介绍) 一、一元线性相关与回归 *二、多元相关分析
*三、多元线性回归(包括多元逐步回归) 第十一章 Logistic回归(介绍) * 附加讲

4 一、一元线性相关与回归 第十章 相关与回归 ㈠ 使用命令 ㈡ 例题及分析过程
SPSS通过Analyze → Correlate  → Bivariate…分析完成对某资料的直线相关分析。 SPSS通过Analyze → Regression  → Linear…分析完成对某资料的直线回归分析。 注意:一元线性相关又称直线相关,一元线性回归又称直线回归。 ㈡ 例题及分析过程

5 1. 建立数据文件(见exp10.1.sav) 下面通过对教材第116页例7.1的资料做直线相关与回归分析来讲述操作步骤及结果的判读。
2. 正态性检验及绘制散点图 利用Explore的 Shapiro-Wilk Test分别对发硒变量(hairsi)和血硒变量(bloodsi)做正态性检验,其结果见表10.2。结果表明两变量均服从正态分布。 使用Graphs→ Scatter/Dot…→选择Simple Scatter → Define →打开Simple Scatterplot对话框,将bloodsi变量调入Y Axis:栏中,将hairsi变量调入X Axis:栏中,→ OK完 成散点图的绘制。从图10.1a上可以看出发硒与血硒存在

6 输出结果见表10.3。表中显示了发硒与血硒的相关系数 r = 0.880,P < 0.001。说明发硒与血硒存在直线相关关系。
直线变化趋势。 3. 直线相关 Analyze → Correlate  → Bivariate…打开Bivariate Correlations对话框,将双变量hairsi和bloodsi调入 Variables:栏中,→ OK完成。 4. 结果判读 输出结果见表10.3。表中显示了发硒与血硒的相关系数 r = 0.880,P < 0.001。说明发硒与血硒存在直线相关关系。 5. 直线回归 Analyze → Regression  → Linear…打开Linear

7 6. 结果判读 输出结果见表10.4~10.7。 Regression对话框,将bloodsi变量调入Dependent:栏中,
将hairsi变量调入Independent(s):栏中, → OK完成。 6. 结果判读 输出结果见表10.4~10.7。 表10.4中显示了回归采取的方法。本例采取的是Enter 法,即所有自变量都进行分析。 表10.5显示了用方差分析对回归方程做的假设检验。本例F=34.156,P < 0.001。说明回归方程有意义。 表10.6显示了回归方程中的系数及针对该系数所做的假设检验。本例截距(又称常数项)a=-6.943, hairsi变量 的系数(即直线回归系数)b=0.239,则直线回归方程为:

8 * 二、多元相关分析 表10.7显示了回归分析的一些其它统计信息(相关系数R、决定系数R2等)。本例R2=0.774(双侧)。
关于教材第121页的“三、频数表资料的相关与回归” 的内容自学。 * 二、多元相关分析 教材第130页第二节中所求得的多个变量之间的相关分析实质就是直线相关分析(双变量)的简单扩展。

9 教材第127页例7.3的资料,若只做简单相关分析,操
多个变量之间的相关分析得出的某两个变量之间相关系数只能反映单独某个变量a与单独某个变量b的密切联系程度,而不能考虑其它变量(c、d、…)对某个变量(a或b)的影响效应。 若要扣除其它变量的影响后再求某两个变量之间相关系数,则称此相关系数为偏相关系数(partial correlation coefficient),SPSS可以使用Analyze → Correlate  → Partial …完成偏相关分析。 教材第127页例7.3的资料,若只做简单相关分析,操 作步骤与直线相关分析几乎完全相同,唯一的区别就是把两个变量换成了六个变量(X1~X6)。分析结果见表10.19。

10 其中体重(X1)与上臂围(X4)的Pearson相关系数
r=0.866,P < 0.001。说明二者相关。但如果求二者的偏相关系数=0.540,P = 0.167> 0.05(见表10.19a)。说明在控 制身高、胸围、三头肌和肩胛下角四个变量下,体重与上 臂围二者实际是不相关的。造成二者简单相关有意义的原因在于三头肌与上臂围是相关的,因为二者的 Pearson’s r=0.681, P = < 0.05 ,见表10.19。 建议在进行多个变量之间的相关分析时,要把简单相关分析和偏相关分析结合起来。

11 * 三、多元线性回归(包括多元逐步回归) 多元线性回归是研究一个因变量(Dependent)和多个自变量(Independent)之间线性依存关系的统计方法。 其模型表达式(常称多元线性回归方程)见下: 其中bj为自变量Xj的偏回归系数( partial regression coefficient )。根据最小二乘法(least square method)可 以求出系数bj的大小。 SPSS通过Analyze → Regression  → Linear…分析完成对某资料的多元线性回归分析。

12 1. 建立数据文件(见exp10.4.sav) 3. 多元线性回归分析( Enter ) 4. 结果判读
下面通过对教材第132页例7.4的资料做多元线性回归分析来讲述操作步骤及结果的判读。 1. 建立数据文件(见exp10.4.sav) 2. 适用条件判断 略。 3. 多元线性回归分析( Enter ) Analyze → Regression  → Linear…打开Linear Regression对话框,将y变量(血红蛋白)调入Dependent:栏 中,将x1、x2、x3变量(钙、铁、锰)调入Independent(s):栏 中, → OK完成。 4. 结果判读

13 5. 多元线性回归分析(调整) 输出结果见表10.22~10.25。 表10.22显示了多元回归采取Enter的方法。
表10.24显示了用方差分析对多元回归方程做的假设检验。本例F=9.627,P = < 0.01。说明多元回归方程有意义。 表10.25显示了多元回归方程中的系数及针对每个系数所做的假设检验。本例x2变量( P < )有统计学意义, x1变量( P=0.053 > 0.05 )和 x3变量( P=0.647 > 0.05 )均无统 计学意义。 5. 多元线性回归分析(调整)

14 由于出现两个没有统计学意义的自变量( x1与x3),因此在调整自变量的组成时,最佳策略是首先把最没意义的变量( x3 )去掉,由其余变量( x1与x2 )再重做多元线性回归分析。
具体操作步骤参见3. 。 6. 结果判读 输出结果见表10.26~10.29。 表10.26显示了多元回归仍采取Enter的方法。 表10.27显示了复相关系数R=0.799。 表10.28显示了调整后的多元回归方程的假设检验。本例F=15.023,P < 0.001。说明调整后的多元回归方程仍有

15 意义。 表10.29显示了调整后的多元回归方程中的系数及针对每个系数所做的假设检验。本例 x1变量( P=0.047 < 0.05 )和 x2变量( P < )均有统计学意义。 本例最后得到的优化的多元回归方程为: 注意:在比较x1与x2 的系数(0.053与0.032)对因变量的作用时,不能直接比,而应该选用标准化系数( Standardized Coefficient )进行比较。x1与x2 的标准化系数分别为0.323和0.821,说明x2对因变量的作用要大于x1。

16 * 多元逐步回归 由于多元线性回归分析是研究一个因变量和多个自变
量之间线性依存关系,而在多个自变量中,不一定每一个变量对因变量的影响都有统计学意义,因此需要通过某种 方法寻找出一个最优化的多元回归方程,即能够使方程中的每一个自变量对因变量的影响都有统计学意义。 多元逐步回归就是一个利用逐步(stepwise)选择有统计学意义的自变量的过程来获得最优化的多元回归方程 的统计学方法。 SPSS实现多元逐步回归的方法是在Analyze →

17 1. 打开数据文件(见exp10.4.sav) 2. 多元逐步回归分析( Stepwise )
Regression  → Linear…打开Linear Regression对话框, 通过在Method:下拉框中点击选择stepwise来完成。 下面通过对教材第132页例7.4的资料做多元逐步回归分析来讲述操作步骤及结果的判读。 1. 打开数据文件(见exp10.4.sav) 2. 多元逐步回归分析( Stepwise ) Analyze → Regression  → Linear…打开Linear Regression对话框,将y变量(血红蛋白)调入Dependent:栏 中,将x1、x2、x3变量(钙、铁、锰)调入Independent(s):栏 中,在Method:下拉框中点击选择stepwise ,→OK完成。

18 3. 结果判读 输出结果见表10.30~10.34。 表10.30中显示了多元逐步回归的步骤。第一步引进自
变量x2 , 第二步引进自变量x1 。二者使用的准则( Criteria) 都是:引进的概率P≤0.050,剔除的概率P≥0.100 。 表10.31显示了第一步引进自变量x2 ,R2=0.542;第二步引进自变量x2和 x1,R2=0.639。 表10.32显示了第一步引进自变量x2 后的回归方程有意义(F=21.265,P < );第二步引进自变量x2和 x1后的回归方程也有意义(F=15.023,P < )。 表10.33显示了第一步引进自变量x2 后的回归方程中相

19 表10.34显示了多元逐步回归分析中每步未进入方程的 自变量的情况。
应系数的大小及其假设检验的结果( x2 的系数b2=0.029, P<0.001 ;常数项(Constant)的系数 b0=-0.242,P=0.927); 第二步引进自变量x2和 x1后的回归方程中相应系数的大小及其假设检验的结果( x2 的系数b2=0.032,P<0.001 ;x1 的系数b1=-0.053,P=0.047;常数项的系数 b0=1.567, P= 0.542)。故本例题的回归方程为: 表10.34显示了多元逐步回归分析中每步未进入方程的 自变量的情况。

20 第十一章 Logistic回归(介绍) 前述的多元线性回归分析是研究一个因变量和多个自
变量之间线性依存关系,但它要求因变量和自变量都为定量数据,当因变量和自变量出现分类数据时,多元线性回归分析就不适用了。 Logistic回归是一个分析某个二分类(或多分类)因变量与多个自变量(包括分类变量、等级变量和数值变量)关系的有力工具。它常用于流行病学中研究疾病发生与危 险因素间的关系,还可用于病因学的队列研究、病例-对照研究、临床诊断的判别模型、治疗效果评价等。

21 SPSS通过Analyze → Regression  → Binary Logistic …命令完成二分类的因变量的Logistic回归。
SPSS通过Analyze → Regression  → Multinomial Logistic …命令完成多分类的因变量的Logistic回归。 SPSS提供了六种筛选自变量的方法:forward conditional, forward LR, forward Wald, backward conditional, backward LR, or backward Wald。其作用都差不多,但建议少用Wald检验。 教材第154页例8.1的资料,作者采用先单因素分析对自变量进行筛选,再把筛选出有统计学意义的自变量引入Logistic回归中,选择Enter的方法是不合理的。因为单因

22 因素分析的结果只能作为一个辅助分析的参考。 对于例11.1的资料,作者先采取对定性变量(性别sex、
素分析不能考虑变量之间的交互效应以及变量之间的相关性对因变量的影响。合理的步骤应该是:直接把所有研究者关心的变量列入Logistic回归分析的自变量列表里,选择一个合理的筛选变量的方法(如Forward:LR)进行分析。单 因素分析的结果只能作为一个辅助分析的参考。 对于例11.1的资料,作者先采取对定性变量(性别sex、 手术方式pt、疾病部位da、手术中输血次数bn)分别和感染与否infect变量进行χ2 检验来找出有统计学意义的变量, 对定量变量(年龄age、红细胞压积hct、手术持续时间time、手术中失血量lb、手术中输血量bc)分别以感染与否infect变量分组进行 t 检验来找出有统计学意义的变量,

23 结果得到影响感染与否的自变量有:手术中输血量bc、疾病部位da和手术中输血次数bn 。
注意的是:这里的分析没有考虑到的变量手术中输血次数bn与手术中输血量bc的专业相关性,这就会为以后的分析留下隐患。 作者接着对上述三个变量进行Logistic回归分析,并选择Enter的方法。分析结果显示三个变量的Wald检验概率大小,手术中输血量bc的Wald检验概率P=0.977最大,因此接下来剔除bc再作了一次Logistic回归,结果显示最后剩下的两个变量:手术中输血次数bn和疾病部位da的Wald检验概率P均小于0.05,至此找到了影响感染与否的有统计

24 2. Logistic回归分析(Forward:LR)
学意义的自变量。 若直接把上述作者涉及到的所有自变量列入Logistic回归的自变量列表里,选择一个合理的筛选变量的方法进行分析。操作步骤如下: 1. 打开数据文件(见exp2.1.sav) 2. Logistic回归分析(Forward:LR) Analyze → Regression  → Binary Logistic …打开Logistic Regression对话框,将因变量(infect)调入Dependent:栏中, 将自变量sex、age、hct、pt、da、time、 lb、bn、bc调入Covariates:栏中,在Method:下拉框中点击选择Forward:LR,→OK完成。

25 3. 结果判读 输出主要结果见表11.25~11.28。 表11.25显示了Block 0区引入常数项的统计结果。本例常数项有统计学意义( Wald值=18.669,P < 0.001)。 表10.26显示了Block 0区未引入的所有自变量的得分检验(Score Test)结果 。实质就是单因素分析结果。本例从结果中可以看出bc、da和bn均有统计学意义,结论与作者相同。 表10.27显示了Block 1区也就是采取逐步向前似然比检验法[Forward Stepwise(Likelihood Ratio)]对所有自变量的筛选结果。最后一步(Step 2)的输出结果是Logistic回归

26 表10.28显示了Block 1区每步未引入的所有自变量的得分检验(Score Test)结果 。
分析最重要的,因为它提供了优化后的最终回归方程的相关信息。有最终筛选出的自变量、变量系数(B)、标准误( S.E.)、Wald卡方值(Wald)、自由度(df)、P值(Sig.)以及Exp(B)(即OR值)。本例最终筛选出的自变量是da和bc。 表10.28显示了Block 1区每步未引入的所有自变量的得分检验(Score Test)结果 。 上述结果与作者的做法截然不同。原因在于手术中输血次数bn与手术中输血量bc在专业上是相关的,而选择bc要比bn要科学合理。 关于多分类的Logistic回归分析的实现方法请参见

27 思考题 C 1. 为什么在做直线相关与回归分析时,必须先绘制散 2. 一元线性相关与回归、多元线性相关与回归和 SPSS的相关参考书。
1. 为什么在做直线相关与回归分析时,必须先绘制散 点图(Scatter plot)? 2. 一元线性相关与回归、多元线性相关与回归和 Logistic回归分析的区别。 C

28

29 输出结果 表 10.2

30

31 图 10.1a

32 注意:Pearson Correlation Coefficient就是直线相关系数r。
此项作用为在相关系数上用 符号标记显著性水平。

33 输出结果 发硒与血硒的 r = 0.880,P < 0.01。 注意:只有选择了Flag Significant
Correlations选项才有。 输出结果 表 10.3 发硒与血硒的 r = 0.880,P < 0.01。

34

35 输出结果 表 10.4 表 10.5 F=34.156,P < 0.001。说明回归方程有意义。

36 输出结果 表 10.6 表 10.7 R=0.880, R2=0.774。

37 输出结果 表10.19 体重(X1)与上臂围(X4)的r=0.866,P < 0.001。说明二者相关。

38 输出结果 Partial Corr — 偏相关分析
体重(X1)与上臂围(X4)的偏相关系数=0.540,P = 0.167> 0.05。 说明在控制身高、胸围、三头肌和肩胛下角四个变量下, 体重与上臂围二者不相关。

39

40

41 输出结果 表 10.22 表 10.23 复相关系数R = 0.802

42 Standardized Coefficient — 标准化系数
输出结果 表 10.24 Standardized Coefficient — 标准化系数 表 10.25 钙(X1)与锰(X3)的P均 > 0.05。说明二者均无统计学意义。

43 输出结果 表 10.26 表 10.27 复相关系数R = 0.799

44 钙(X1)与铁(X2)的P均 < 0.05。说明二者都有统计学意义。
输出结果 表 10.28 表 10.29 钙(X1)与铁(X2)的P均 < 0.05。说明二者都有统计学意义。

45

46 输出结果 表 10.30 表 10.31

47 输出结果 表 10.32

48 输出结果 表 10.33 表 10.34

49 Forward: LR — 逐步向前似然比检验

50 输出结果 表 11.25 表 11.26

51 Forward: LR[Forward Stepwise(Likelihood Ratio)] — 逐步向前似然比检验
输出结果 表 11.27

52 输出结果 表 11.28


Download ppt "统计软件应用 7 主讲人 陶育纯 http://cc.jlu.edu.cn/ss.html SPSS统计分析 http://cc.jlu.edu.cn/ss.html http://cc.jlu.edu.cn/ms.html 统计软件应用 7 主讲人 陶育纯 2014.6.25 教案."

Similar presentations


Ads by Google