介绍: 1、回归分析的概念和模型 2、回归分析的过程

Slides:



Advertisements
Similar presentations
一、 一阶线性微分方程及其解法 二、 一阶线性微分方程的简单应用 三、 小结及作业 §6.2 一阶线性微分方程.
Advertisements

第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
第二章 SPSS的基本操作 2-1 SPSS 的簡介 2-2 SPSS 軟體的功能表介紹 2-3 資料的輸入 2-4 資料的分析與輸出結果
多元统计分析 何晓群 中国人民大学出版社 2017/3/4 中国人民大学六西格玛质量管理研究中心.
第六章 回归分析.
第七章 回归分析.
双变量关联性分析.
第十章 相关与回归分析 PowerPoint 统计学.
回归分析法预测 (Regression Analysis)
第五章 二次型. 第五章 二次型 知识点1---二次型及其矩阵表示 二次型的基本概念 1. 线性变换与合同矩阵 2.
生物统计学 林隆慧.
一、能线性化的多元非线性回归 二、多元多项式回归(线性化)
一、二阶行列式的引入 用消元法解二元线性方程组. 一、二阶行列式的引入 用消元法解二元线性方程组.
医学统计学 8 主讲人 陶育纯 医学统计学 8 主讲人 陶育纯
§9.3 线性回归分析 一. 什么是回归分析 相关分析研究变量之间相关的方向和相关的程度,但是相关分析不能指出变量间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。 回归分析则是研究变量之间的数量变化规律的一种方法。
预测与决策分析 Forecasting and Decision Analysis
回归分析 线性回归 Logistic回归 对数线性模型
量化视角下的豆粕投资机会分析 格林期货研发培训中心 郭坤龙.
§5.3 定积分的换元法 和分部积分法 一、 定积分的换元法 二、 定积分的分部积分法 三、 小结、作业.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
2-7、函数的微分 教学要求 教学要点.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
曲 线 回 归 吴库生 汕头大学医学院预防医学教研室.
第15章 相关分析与回归分析 (续).
SPSS 16实用教程 第7章 回归分析.
曲线拟合 Curve fitting 2002级研究生《医学统计学》.
第12章 回归直线.
介绍: 1、回归分析的概念和模型 2、回归分析的过程
Multiple linear regression
十一、簡單相關與簡單直線回歸分析(Simple Correlations and Simple Linear Regression )
统计软件应用 7 主讲人 陶育纯 SPSS统计分析 统计软件应用 7 主讲人 陶育纯 教案.
第六章 因子分分析 §6.1 因子分析的基本理论 §6.2 因子载荷的求解 §6.3 因子分析的步骤与逻辑框图 §6.4 因子分析的上机实现
線性一階微分方程與尤拉法 線性一階微分方程式求解 (Linear First-Order Differential Equations)
Tel: 第11章 SPSS在时间序列预测中的应用 周早弘 旅游与城市管理学院
主講人 陳陸輝 特聘研究員兼主任 政治大學選舉研究中心 美國密西根州立大學博士
计算机数学基础 主讲老师: 邓辉文.
主講人 陳陸輝 特聘研究員兼主任 政治大學 選舉研究中心
線性相關與直線迴歸 基本概念 線性相關:兩個連續變項的共變關係,且有線性關係。所謂 的線性關係乃指兩個變項的關係可以被一條最具
第十章 方差分析.
数据挖掘工具性能比较.
第9章 方差分析 介绍 1、方差分析的概念 2、方差分析的过程.
2 主讲人 陶育纯 MEDICAL MULTIVARIATE STATISTICS ANALYSIS 多元统计分析 教案
第一章 函数与极限.
统 计 学 (第三版) 2008 作者 贾俊平 统计学.
9.1 简单线性相关分析 9.2 一元线性回归分析 9.3 多元线性回归与复相关分析 9.4 变量间非线性关系的回归
模型分类问题 Presented by 刘婷婷 苏琬琳.
第二章 主成分分析 §2.1 主成分分析的基本思想与理论 §2.2 主成分分析的上机实现 2019/4/23 1
用计算器开方.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
正切函数的图象和性质 周期函数定义: 一般地,对于函数 (x),如果存在一个非零常数T,使得当x取定义域内的每一个值时,都有
iSIGHT 基本培训 使用 Excel的栅栏问题
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
第八章 均值比较与检验 2019/5/10.
第三章 函数的微分学 第二节 导数的四则运算法则 一、导数的四则运算 二、偏导数的求法.
学习任务三 偏导数 结合一元函数的导数学习二元函数的偏导数是非常有用的. 要求了解二元函数的偏导数的定义, 掌握二元函数偏导数的计算.
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
概率论与数理统计B.
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
统计软件应用 4 主讲人 陶育纯 SPSS统计分析 统计软件应用 4 主讲人 陶育纯 教案.
统计软件应用 4 主讲人 陶育纯 SPSS统计分析 统计软件应用 4 主讲人 陶育纯 教案.
Logistic回归 Logistic regression 研究生《医学统计学》.
回归分析实验课程 (实验三) 多项式回归和定性变量的处理.
基于列存储的RDF数据管理 朱敏
线性规划 Linear Programming
数学模型实验课(二) 最小二乘法与直线拟合.
庄文忠 副教授 世新大学行政管理学系 复回归分析 庄文忠 副教授 世新大学行政管理学系 SPSS之应用(庄文忠副教授) 2019/8/26.
实习二 方差分析 流行病与卫生统计学系
Presentation transcript:

介绍: 1、回归分析的概念和模型 2、回归分析的过程 SPSS 软件 5.回归分析 介绍: 1、回归分析的概念和模型 2、回归分析的过程

回归分析的概念 寻求有关联(相关)的变量之间的关系 主要内容: 从一组样本数据出发,确定这些变量间的定量关系式 对这些关系式的可信度进行各种统计检验 从影响某一变量的诸多变量中,判断哪些变量的影响显著,哪些不显著 利用求得的关系式进行预测和控制

回归分析的模型 按是否线性分:线性回归模型和非线性回归模型 按自变量个数分:简单的一元回归,多元回归 基本的步骤:利用SPSS得到模型关系式,是否是我们所要的,要看回归方程的显著性检验(F检验)和回归系数b的显著性检验(T检验),还要看拟合程度R2 (相关系数的平方,一元回归用R Square,多元回归用Adjusted R Square)

回归分析的过程 在回归过程中包括: 我们只讲前面3个简单的(一般教科书的讲法) Liner:线性回归 Curve Estimation:曲线估计 Binary Logistic: 二分变量逻辑回归 Multinomial Logistic:多分变量逻辑回归 Ordinal 序回归 Probit:概率单位回归 Nonlinear:非线性回归 Weight Estimation:加权估计 2-Stage Least squares:二段最小平方法 Optimal Scaling 最优编码回归 我们只讲前面3个简单的(一般教科书的讲法)

5.1 线性回归(Liner) 一元线性回归方程: y=a+bx 多元线性回归方程: y=b0+b1x1+b2x2+…+bnxn b1、b2、…、bn称为y对应于x1、x2、…、xn的偏回归系数 用Adjusted R2调整判定系数判定一个多元线性回归方程的拟合程度:用来说明用自变量解释因变量变异的程度(所占比例) 一元线性回归模型的确定:一般先做散点图(Graphs ->Scatter->Simple),以便进行简单地观测(如:Salary与Salbegin的关系) 若散点图的趋势大概呈线性关系,可以建立线性方程,若不呈线性分布,可建立其它方程模型,并比较R2 (-->1)来确定一种最佳方程式(曲线估计) 多元线性回归一般采用逐步回归方法-Stepwise

逐步回归方法的基本思想 对全部的自变量x1,x2,...,xp,按它们对Y贡献的大小进行比较,并通过F检验法,选择偏回归平方和显著的变量进入回归方程,每一步只引入一个变量,同时建立一个偏回归方程。当一个变量被引入后,对原已引入回归方程的变量,逐个检验他们的偏回归平方和。如果由于引入新的变量而使得已进入方程的变量变为不显著时,则及时从偏回归方程中剔除。在引入了两个自变量以后,便开始考虑是否有需要剔除的变量。只有当回归方程中的所有自变量对Y都有显著影响而不需要剔除时,在考虑从未选入方程的自变量中,挑选对Y有显著影响的新的变量进入方程。不论引入还是剔除一个变量都称为一步。不断重复这一过程,直至无法剔除已引入的变量,也无法再引入新的自变量时,逐步回归过程结束。

5.1.6 线性回归分析实例p240 实例:P240Data07-03 建立一个以初始工资Salbegin 、工作经验prevexp 、工作时间jobtime 、工作种类jobcat 、受教育年限edcu等为自变量,当前工资Salary为因变量的回归模型。 先做数据散点图,观测因变量Salary与自变量Salbegin之间关系是否有线性特点 Graphs ->Scatter->Simple X Axis: Salbegin Y Axis: Salary 若散点图的趋势大概呈线性关系,可以建立线性回归模型 Analyze->Regression->Linear Dependent: Salary Independents: Salbegin,prevexp,jobtime,jobcat,edcu等变量 Method: Stepwise 比较有用的结果: 拟合程度Adjusted R2: 越接近1拟合程度越好 回归方程的显著性检验Sig 回归系数表Coefficients的Model最后一个中的回归系数B和显著性检验Sig 得模型: Salary=-15038.6+1.37Salbegin+5859.59jobcat- 19.55prevexp+154.698jobtime+539.64edcu

5.2 曲线估计(Curve Estimation) 对于一元回归,若散点图的趋势不呈线性分布,可以利用曲线估计方便地进行线性拟合(liner)、二次拟合(Quadratic)、三次拟合(Cubic)等。采用哪种拟合方式主要取决于各种拟合模型对数据的充分描述(看修正Adjusted R2 -->1) 不同模型的表示 模型名称 回归方程 相应的线性回归方程 Linear(线性) Y=b0+b1t Quadratic(二次) Y=b0+b1t+b2t2 Compound(复合) Y=b0(b1t) Ln(Y)=ln(b0)+ln(b1)t Growth(生长) Y=eb0+b1t Ln(Y)=b0+b1t Logarithmic(对数) Y=b0+b1ln(t) Cubic(三次) Y=b0+b1t+b2t2+b3t3 S Y=eb0+b1/t Ln(Y)=b0+b1 / t Exponential(指数) Y=b0 * eb1*t Ln(Y)=ln(b0)+b1t Inverse(逆) Y=b0+b1/t Power(幂) Y=b0(tb1 ) Ln(Y)=ln(b0)+b1ln(t) Logistic(逻辑) Y=1/(1/u+b0b1t) Ln(1/Y-1/u)=ln(b0+ln(b1)t)

5.2.3 曲线估计(Curve Estimation)分析实例 实例P247 Data11-01 :有关汽车数据,看mpg(每加仑汽油行驶里程)与weight(车重)的关系 先做散点图(Graphs ->Scatter->Simple):weight(X)、mpg(Y),看每加仑汽油行驶里程数mpg(Y)随着汽车自重weight(X)的增加而减少的关系,也发现是曲线关系 建立若干曲线模型(可试着选用所有模型Models) Analyze->Regression-> Curve Estimation Dependent: mpg Independent: weight Models: 全选(除了最后一个逻辑回归) 选Plot models:输出模型图形 比较有用的结果:各种模型的Adjusted R2,并比较哪个大,结果是指数模型Compound的Adjusted R2=0.70678最好(拟合情况可见图形窗口), 结果方程为:mpg=60.15*0.999664weight 说明:Growth和Exponential的结果也相同,也一样。

5.3二项逻辑回归(Binary Logistic) 在现实中,经常需要判断一些事情是否将要发生,候选人是否会当选?为什么一些人易患冠心病?为什么一些人的生意会获得成功?此问题的特点是因变量只有两个值,不发生(0)和发生(1)。这就要求建立的模型必须因变量的取值范围在0~1之间。 Logistic回归模型 Logistic模型:在逻辑回归中,可以直接预测观测量相对于某一事件的发生概率。包含一个自变量的回归模型和多个自变量的回归模型公式: 其中: z=B0+B1X1+…BpXp(P为自变量个数)。某一事件不发生的概率为Prob(no event)=1-Prob(event) 。因此最主要的是求B0,B1,…Bp(常数和系数) 数据要求:因变量应具有二分特点。自变量可以是分类变量和定距变量。如果自变量是分类变量应为二分变量或被重新编码为指示变量。指示变量有两种编码方式。 回归系数:几率和概率的区别。几率=发生的概率/不发生的概率。如从52张桥牌中抽出一张A的几率为(4/52)/(48/52)=1/12,而其概率值为4/52=1/13 根据回归系数表,可以写出回归模型公式中的z。然后根据回归模型公式Prob(event) 进行预测。

5.3.3二项逻辑回归(Binary Logistic)实例 实例P255 Data11-02 :乳腺癌患者的数据进行分析,变量为:年龄age,患病时间time,肿瘤扩散等级pathscat(3种), 肿瘤大小pathsize, 肿瘤史histgrad(3种)和癌变部位的淋巴结是否含有癌细胞ln_yesno,建立一个模型,对癌变部位的淋巴结是否含有癌细胞ln_yesno的情况进行预测。 Analyze->Regression-> Binary Logistic Dependent: ln_yesno Covariates: age, time,pathscat,pathsize, histgrad 比较有用的结果:在Variables in Equation表中的各变量的系数(B),可以写出z=-0.86-0.331pathscat+0.415pathsize –0.023age+0.311histgrad。 根据回归模型公式Prob(event)=1/(1+e-z),就可以计算一名年龄为60岁、pathsize为1、histgrad为1、pathscat为1的患者,其淋巴结中发现癌细胞的概率为1/(1+e-(-1.845))=0.136 (Prob(event) <0.5 预测事件将不会发生, > 0.5 预测事件将会发生)

定量变量的线性回归分析 对例1(highschoo.sav)的两个变量的数据进行线性回归,就是要找到一条直线来最好地代表散点图中的那些点。

检验问题等 对于系数b1=0的检验 对于拟合的F检验 R2(决定系数)及修正的R2.

多个自变量的回归 如何解释拟合直线? 什么是逐步回归方法?

自变量中有定性变量的回归 例1(highschoo.sav)的数据中,还有一个自变量是定性变量“收入”,以虚拟变量或哑元(dummy variable)的方式出现;这里收入的“低”,“中”,“高”,用1,2,3来代表.所以,如果要用这种哑元进行前面回归就没有道理了. 以例1数据为例,可以用下面的模型来描述:

自变量中有定性变量的回归 现在只要估计b0, b1,和a1, a2, a3即可。

SPSS实现(hischool.sav) Analize-General linear model-Univariate, 在Options中选择Parameter Estimates, 再在主对话框中把因变量(s1)选入Dependent Variable,把定量自变量(j3)选入Covariate,把定量因变量(income)选入Factor中。 然后再点击Model,在Specify Model中选Custom, 再把两个有关的自变量选入右边,再在下面Building Term中选Main effect。 Continue-OK,就得到结果了。输出的结果有回归系数和一些检验结果。

注意 这里进行的线性回归,仅仅是回归的一种,也是历史最悠久的一种。 但是,任何模型都是某种近似; 线性回归当然也不另外。 它被长期广泛深入地研究主要是因为数学上相对简单。 它已经成为其他回归的一个基础。 总应该用批判的眼光看这些模型。

SPSS的回归分析 自变量和因变量都是定量变量时的线性回归分析: 菜单:Analize-Regression-Linear 把有关的自变量选入Independent,把因变量选入Dependent,然后OK即可。如果自变量有多个(多元回归模型,选Method: Stepwise ),只要都选入就行。

SPSS的回归分析 自变量中有定性变量(哑元)和定量变量而因变量为定量变量时的线性回归分析 (hischool.sav) 菜单:Analize-General linear model-Univariate, 在Options中选择Parameter Estimates, 再在主对话框中把因变量(s1)选入Dependent Variable,把定量自变量(j3)选入Covariate,把定性因变量(income)选入Factor中。 点击Model,在Specify Model中选Custom,再把两个有关的自变量选入右边,再在下面Building Term中选Main effect。然后就Continue-OK。