第15章 相关分析与回归分析 (续)
15.5 简单回归分析 15.5.1 方法原理 15.5.2 分析实例 15.5.3 相关与回归分析的联系和区别
15.5.1 方法原理 回归分析是一种基本的并且应用非常广泛的数量分析方法。 15.5.1 方法原理 回归分析是一种基本的并且应用非常广泛的数量分析方法。 它寻求事物(变量)之间的统计关系,侧重考察变量之间的数量变化规律,并通过回归方程的形式描述和反映这种关系,利用求得的关系式进行预测和控制。
15.5.1 方法原理 回归模型分类 按是否线性分:线性回归模型和非线性回归模型,其中线性回归是我们研究最多,应用也最广泛的方法。 15.5.1 方法原理 回归模型分类 按是否线性分:线性回归模型和非线性回归模型,其中线性回归是我们研究最多,应用也最广泛的方法。 按自变量个数分:简单的一元回归,多元回归。
15.5.1 方法原理 发现变量之间的统计关系,并且用此规律来帮助我们进行决策才是统计实践的最终目的。 15.5.1 方法原理 发现变量之间的统计关系,并且用此规律来帮助我们进行决策才是统计实践的最终目的。 一般来说,统计可以根据目前所拥有的信息(数据)来建立人们所关心的变量和其他有关变量的关系。 这种关系一般称为模型(model)。
15.5.1 方法原理 假如用Y表示感兴趣的变量,用X表示其他可能与Y有关的变量(X也可能是若干变量组成的向量)。 15.5.1 方法原理 假如用Y表示感兴趣的变量,用X表示其他可能与Y有关的变量(X也可能是若干变量组成的向量)。 则所需要的是建立一个函数关系 Y=f(X)
15.5.1 方法原理 这里Y称为因变量或响应变量(dependent variable, response variable),而X称为自变量,也称为解释变量或协变量(independent variable, explanatory variable, covariate)。 建立这种关系的过程就叫做回归(regression)。
15.5.1 方法原理 两个变量的数据进行线性回归,就是要找到一条直线来适当地代表散点图中的那些点的趋势。 15.5.1 方法原理 两个变量的数据进行线性回归,就是要找到一条直线来适当地代表散点图中的那些点的趋势。 首先需要确定选择这条直线的标准。这里介绍最小二乘回归(least squares regression)。古汉语“二乘”是平方的意思。
15.5.1 方法原理 这就是寻找一条直线,使得所有点到该直线的竖直距离的平方和最小。 15.5.1 方法原理 这就是寻找一条直线,使得所有点到该直线的竖直距离的平方和最小。 用数据寻找一条直线的过程也叫做拟合(fit)一条直线。 这个直线实际上是对所假设的线性回归模型的估计(这里的e是随机误差):
15.5.1 方法原理 对x和y进行观察试验,得到n组数据(xi,yi),我们的任务是: 估计回归系数a,b,建立回归方程。 15.5.1 方法原理 对x和y进行观察试验,得到n组数据(xi,yi),我们的任务是: 估计回归系数a,b,建立回归方程。 检验回归模型及回归系数的显著性。 利用回归方程进行预测;
15.5.1 方法原理 根据最小二乘原理,选择a,b,使得 达到最小值,由此解得
15.5.1 方法原理 由此得一元线性回归模型 做平方和分解总偏差平方和SST=回归平方和SS回归 +剩余(残差)平方和SS剩余
15.5.1 方法原理 标准误差 复相关系数 修正相关系数 相关系数 S愈小,R(或R拔)越大,模拟拟合度愈好
15.5.1 方法原理 由于不同的样本产生不同的估计,所以估计量是个随机变量,它们也有分布,也可以用由他们构造检验统计量来检验回归模型及回归系数是否显著。 回归模型检验 p=P(F>F值),若p<0.05,则认为一元线性回归模型显著,否则认为不显著。
15.5.1 方法原理 回归变量系数检验(H0: b=0 ) 当b=0时,理论上有 15.5.1 方法原理 回归变量系数检验(H0: b=0 ) 当b=0时,理论上有 Sig.=P(|T|>|T值|),若Sig.<0.05,则系数b显著不为零,从而认为x对y有显著影响,即对y而言是个重要变量。
15.5.1 方法原理 注:对常数项的显著性检验与变量系数的显著性检验类似。原假设是H0:a=0。 15.5.1 方法原理 注:对常数项的显著性检验与变量系数的显著性检验类似。原假设是H0:a=0。 注:对一元线性回归模型,变量系数的显著性检验与回归模型的显著性检验是等价的。
15.5.1 方法原理 回归分析的适用条件 线性趋势 独立性 正态性 方差齐性 自变量与因变量的关系是线性的。 残差间相互独立 15.5.1 方法原理 回归分析的适用条件 线性趋势 自变量与因变量的关系是线性的。 独立性 残差间相互独立 正态性 残差服从正态分布 方差齐性 残差的方差齐
15.5.2 分析实例 例15.1 上海医科大学儿科医院研究某种代乳粉的营养价值是用大白鼠做试验,得大白鼠进食量(g)和体重增重(g)间的关系的原始数据如下,试分析两者有无直线相关关系。数据见corr.sav
15.5.2 分析实例 分析过程: SPSS分析过程: 散点图 用最小二乘法拟合回归方程 对回归系数作假设检验 15.5.2 分析实例 分析过程: 散点图 用最小二乘法拟合回归方程 对回归系数作假设检验 SPSS分析过程: AnalyzeScatter Simple Analyze Regression Linear
15.5.2 分析实例 Dependent框 用于选入回归分析的应变量:体重增量(weight)
15.5.2 分析实例 Block按钮组 由Previous和Next两个按钮组成,用于将下面Independent框中选入的自变量分组。由于多元回归分析中自变量的选入方式有前进、后退、逐步等方法,如果对不同的自变量选入的方法不同,则用该按钮组将自变量分组选入即可。
15.5.2 分析实例 Independent框 用于选入回归分析的自变量:进食量(feed)
15.5.2 分析实例 Method下拉列表:选择自变量的选入方法,共五种,对Independent框中的所有变量均有效。 15.5.2 分析实例 Method下拉列表:选择自变量的选入方法,共五种,对Independent框中的所有变量均有效。 Enter(强行进入法) Stepwise(逐步法) Remove(强制剔除法) Backward(向后法) Forward(向前法)
15.5.2 分析实例 Selection Variable框 Case Labels框 15.5.2 分析实例 Selection Variable框 选入一个筛选变量,并利用右侧的Rules钮建立一个选择条件,这样,只有满足该条件的记录才会进入回归分析。 Case Labels框 选择一个变量,他的取值将作为每条记录的标签。最典型的情况是使用记录ID号的变量。
15.5.2 分析实例 WLS>>钮 Statistics钮 15.5.2 分析实例 WLS>>钮 可利用该按钮进行权重最小二乘法的回归分析。单击该按钮会扩展当前对话框,出现WLS Weight框,在该框内选入权重变量即可。 Statistics钮 弹出Statistics对话框,用于选择所需要的描述统计量。有如下选项:
15.5.2 分析实例 Regression Coefficients复选框组: 15.5.2 分析实例 Regression Coefficients复选框组: 定义回归系数的输出情况,选中Estimates可输出回归系数B及其标准误,t值和p值,还有标准化的回归系数beta;选中Confidence intervals则输出每个回归系数的95%可信区间;选中covariance matrix则会输出各个自变量的相关矩阵和方差、协方差矩阵。以上选项默认只选中Estimates。
15.5.2 分析实例 Residuals复选框组: Model fit复选框: 15.5.2 分析实例 Residuals复选框组: 用于选择输出残差诊断的信息,可选的有Durbin-Watson残差序列相关性检验、超出规定的n倍标准误的残差列表。 Model fit复选框: 模型拟合过程中进入、退出的变量的列表,以及一些有关拟合优度的检验:,R,R2和调整的R2, 标准误及方差分析表。
15.5.2 分析实例 R squared change复选框: Descriptives复选框: 15.5.2 分析实例 R squared change复选框: 显示模型拟合过程中R2、F值和p值的改变情况。 Descriptives复选框: 提供一些变量描述,如有效例数、均数、标准差等,同时还给出一个自变量间的相关矩阵。
15.5.2 分析实例 Part and partial correlations复选框: 15.5.2 分析实例 Part and partial correlations复选框: 显示自变量间的相关、部分相关和偏相关系数。 Collinearity diagnostics复选框: 给出一些用于共线性诊断的统计量,如特征根(Eigenvalues)、方差膨胀因子(VIF)等。 以上各项在默认情况下只有Estimates和Model fit复选框被选中。
15.5.2 分析实例 Plot钮 弹出Plot对话框,用于选择需要绘制的回归分析诊断或预测图。可绘制的有标准化残差的直方图和正态分布图,应变量、预测值和各自变量残差间两两的散点图等。
15.5.2 分析实例 Save钮 许多时候我们需要将回归分析的结果存储起来,然后用得到的残差、预测值等做进一步的分析,Save钮就是用来存储中间结果的。可以存储的有:预测值系列、残差系列、距离(Distances)系列、预测值可信区间系列、波动统计量系列。下方的按钮可以让我们选择将这些新变量存储到一个新的SPSS数据文件或XML中。
15.5.2 分析实例 Options钮 设置回归分析的一些选项,有: 15.5.2 分析实例 Options钮 设置回归分析的一些选项,有: Stepping Method Criteria单选钮组:设置纳入和排除标准,可按P值或F值来设置。 Include constant in equation复选框:用于决定是否在模型中包括常数项,默认选中。
15.5.2 分析实例 Options钮 Missing Values单选钮组:用于选择对缺失值的处理方式,可以是不分析任一选入的变量有缺失值的记录(Exclude cases listwise)而无论该缺失变量最终是否进入模型;不分析具体进入某变量时有缺失值的记录(Exclude cases pairwise);将缺失值用该变量的均数代替(Replace with mean)。
15.5.2 分析实例 拟合过程中变量进入/退出模型的情况记录,由于我们只引入了一个自变量,所以只出现了一个模型1(在多元回归中就会依次出现多个回归模型),该模型中feed为进入的变量,没有移出的变量,具体的进入/退出方法为enter。
15.5.2 分析实例 此表为所拟合模型的情况简报,显示在模型1中相关系数R为0.940,而复相关系数R Square为0.883,修正相关系数为0.886,标准误差S=7.87948.
15.5.2 分析实例 模型的方差分析检验结果,从此表可见所用的回归模型F值为60.197,P值为0.000,因此我们用的这个回归模型是有统计学意义的。
15.5.2 分析实例 此表给出了包括常数项在内的所有系数的检验结果,用的是t检验,同时还会给出标化/未标化系数。可见常数项和进食量都是有统计学意义的。
15.5.2 分析实例 回归方程yˆ = −17.357 + 0.222x,t=7.759 p<0.01,体重与进食量之间存在直线回归关系,即每增加一单位进食量,体重平均会增加0.222个单位。
15.5.3相关与回归分析的联系和区别 线性相关与回归的区别 相关用于说明变量之间的相关关系,回归则说明因变量随自变量变化而变化的数量关系。 对资料要求不同 相关:双变量正态分布 回归:对自变量任意固定取值,因变量服从正态分布。
15.5.3相关与回归分析的联系和区别 线性相关与回归的联系 方向一致: 假设检验等价: 用回归解释相关: 对同一组数据,r和b的正负号一致。 假设检验等价: 对同一样本,r和b的假设检验的结果相同。 用回归解释相关: 决定系数越大,相关系数也越大,相关关系就越强。
15.6 本章小结 相关分析:Correlate菜单 回归分析:Linear过程 15.6 本章小结 相关分析:Correlate菜单 是研究事物或现象之间是有无关系以及关系的方向和密切程度的分析方法。 回归分析:Linear过程 是研究事物或现象之间数量依存关系的统计分析方法,希望了解的是某个变量对另一个变量的影响强度。