曲 线 回 归 吴库生 汕头大学医学院预防医学教研室
回归分析的概念 寻求有关联(相关)的变量之间的关系 主要内容: 从一组样本数据出发,确定这些变量间的定量关系式 对这些关系式的可信度进行各种统计检验 从影响某一变量的诸多变量中,判断哪些变量的影响显著,哪些不显著 利用求得的关系式进行预测和控制
回归分析的模型 按是否线性分:线性回归模型和非线性回归模型 按自变量个数分:简单的一元回归,多元回归
常见回归分析的模型 在回归种类中包括: Liner:线性回归 Curve Estimation:曲线估计 Binary Logistic: 二分变量逻辑回归 Multinomial Logistic:多分变量逻辑回归 Ordinal 序回归 Probit:概率单位回归 Nonlinear:非线性回归 Weight Estimation:加权估计 2-Stage Least squares:二段最小平方法 Optimal Scaling 最优编码回归
一、曲线拟合 Curve fitting
医学研究中,X与Y两变量的数量关系并非总是线性的,如 毒物剂量——动物死亡率 年龄——身高 时间——血药物浓度 可用曲线直线化估计(Curve estimation) 或非线性回归(Nonlinear regression) 方法进行统计学分析。
曲线估计(Curve Estimation) 对于一元回归,若散点图的趋势不呈线性分布,可以利用曲线估计方式方便地进行各种方程拟合,如:指数拟合(Exponential)、二次拟合(Quadratic)、三次拟合(Cubic)等。 采用哪种拟合方式更合理主要取决于各种拟合模型对数据的充分描述(看校正Adjusted R2 →1)
不同模型的表示 模型名称 回归方程 相应的线性回归方程 Linear(线性) Y=b0+b1x Quadratic(二次) Y=b0+b1x+b2x2 Compound(复合) Y=b0(b1x) Ln(Y)=ln(b0)+ln(b1)x Growth(生长) Y=eb0+b1x Ln(Y)=b0+b1x Logarithmic(对数) Y=b0+b1ln(x)
模型名称 回归方程 相应的线性回归方程 Cubic(三次) Y=b0+b1x+b2x2+b3x3 S Y=eb0+b1/x Ln(Y)=b0+b1 / x Exponential(指数) Y=b0 * eb1*x Ln(Y)=ln(b0)+b1x Inverse(逆) Y=b0+b1/x Power(幂) Y=b0(xb1 ) Ln(Y)=ln(b0)+b1ln(x) Logistic(逻辑) Y=1/(1/u+b0b1x) Ln(1/Y-1/u)=ln(b0+ln(b1)x)
选择曲线的基本方法 根据专业知识和过去经验(或文献)选择曲线类型 利用算术格纸、半对数格纸等,将实测数据绘制散点图。根据散点图的特点选择曲线类型 先在普通格纸上绘制散点图,再根据各点分布趋势用试配法来选择曲线类型。
曲线拟合方式 曲线直线化估计 曲线直接拟合
曲线直线化估计的步骤 绘制散点图,根据图形和专业知识选取曲线类型(可同时选取几类) 按曲线类型,作曲线直线化变换 建立变换数据间的直线回归方程 (假设检验,计算决定系数) 比较决定系数选取“最佳”方程 写出曲线方程
二、常见的几种曲线 Y b>0 b<0 X 对数曲线
及其变换形式 Y b<0 b>0 X 指数曲线
Y = b0 + b1 X + b2 X2 Y b2>0 b2<0 X 抛物线
Y = b0 + b1 X + b2 X2 + b3 X3 Y X 3次多项式曲线
SPSS中曲线模型
SPSS中曲线模型
SPSS回归分析的过程 基本的步骤:利用SPSS得到模型关系式,是否是我们所要的,要看回归方程的显著性检验(F 检验)和回归系数b的显著性检验(t 检验),还要看拟合程度R2 (相关系数的平方,一元回归用R Square,多元回归用Adjusted R Square)
常见的曲线回归方程 ①幂函数: 或 ②对数: ③指数函数: 或 ④多项式: ⑤logistic: 或
利用线性回归拟合曲线(例1) 例 上海医科大学微生物学教研室以已知浓度X的免疫球蛋白A(IgA, μg/ml)作火箭电泳, 测得火箭高度Y(mm)如表1所示。试拟合Y关于X的非线性回归方程。 编号 X Y X'=lnX 1 0.2 7.6 -1.6094 2 0.4 12.3 -0.9163 3 0.6 15.7 -0.5108 4 0.8 18.2 -0.2231 5 1.0 18.7 0 6 1.2 21.4 0.1823 7 1.4 22.6 0.3365 8 1.6 23.8 0.4700 合计 140.3 -2.2708
(一)绘制散点图,决定曲线类型 (二)曲线直线化变换 =a+blnX
(三)建立直线回归方程 X Y X'=lnX (lnX)2 Y2 (lnX)Y 0.2 7.6 -1.6094 残差平方 0.2 7.6 -1.6094 0.4 12.3 -0.9163 0.6 15.7 -0.5108 0.8 18.2 -0.2231 1.0 18.7 0 1.2 21.4 0.1823 1.4 22.6 0.3365 1.6 23.8 0.4700 合计140.3 -2.2708 2.5902 57.76 -12.2314 0.8396 151.29 -11.2705 0.2609 246.49 -8.0196 0.0498 331.24 -4.0604 0.0000 349.69 0.0000 0.0332 457.96 3.9012 0.1132 510.76 7.6049 0.2209 566.44 11.1860 4.1078 2671.63 -12.8898 7.23 12.62 15.77 18.01 19.75 21.16 22.36 23.40 0.1380 0.1017 0.0053 0.0361 1.0921 0.0563 0.0566 0.1597 1.6458
(四)比较决定系数,确定“最佳”方程
SPSS实现过程
利用线性回归拟合曲线(例2) 15名重伤病人的住院天数X与预后指数Y 编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 19 26 31 34 38 45 52 53 60 65 Y 54 50 37 35 25 20 16 18
(一)绘制散点图,决定曲线类型
(二)曲线直线化变换
(三)建立线性回归方程 回归方程为: 4.037-0.038X 方差分析有统计学意义,P=0.0000,F=276.38,表明回归方程有贡献。 确定系数为0.9551,表明回归拟合原资料较好。 转换为原方程的另一种形式:
曲线直线化 非线性最小二乘法 比较两个回归方程可见,对同一份样本采用不同估计方法得到的结果并不相同。 主要因为曲线直线化以后的回归只对变换后的Y*(=lnY)负责, 得到的线性方程可使Y*与其估计值 之间的残差平方和最小,并不保证原变量Y与其估计值 之间的残差平方和也是最小。
问题:前一个例子只对自变量作对数变换的对数曲线拟合,能否保证原变量Y与其估计值 之间的残差平方和也是最小?幂函数曲线拟合呢?
问题:如何判断哪个曲线拟合方程更佳? 对于前例,几个常见曲线拟合得到的决定系数R2如下(曲线直线化): 线性(直线)R2:0.8856 (y = 46.4604 -0.7525 x) 幂曲线 R2:0.8293 (y = 159.9297 x-0.7191) 对数曲线 R2:0.9654 (y = 72.2829 -15.9662 Ln(x) ) 指数曲线 R2: 0.9551(y = 56.6651 e-0.0380 x) 二项式曲线 R2:0.9812(y = 55.8221- 1.7103 x +0.0148 x2 )
问题:如何判断那个曲线拟合方程更佳? 对于例2,几个常见曲线拟合得到的决定系数R2如下(非线性回归——迭代法): 线性(直线)R2:0.8856 (y = 46.4604 -0.7525 x) 幂曲线 R2:0.8413 (y = 88.7890 x-0.4662) 对数曲线 R2:0.9654 (y = 72.2829 -15.9662 Ln(x) ) 指数曲线 R2:0.9875(y = 58.6066 e-0.0396 x) 二项式曲线 R2:0.9812(y = 55.8221- 1.7103 x +0.0148 x2 )
散点图辨析
如果条件允许最好采用非线性回归(Nonlinear Regression)拟合幂函数曲线与指数函数曲线 注意绘制散点图,并结合专业知识解释
非线性回归方程 非线性回归与一般线性回归的求解方法不同在于: 需要给定参数(a、b)的初始值 采用迭代方法,不断更新估计的参数,直至稳定在某一值为止。 优点:在需要变换Y时,结果更可靠。 缺点:a.计算复杂;b.初始值不适当时,估计不准确.
采用SPSS进行曲线拟合 曲线直线化 非线性回归 Analyze Regression Curve Estimation …可选Power 、Logarithmic、Exponential、Quadratic、Cubic 等 非线性回归 Analyze Regression Nonlinear … 设置模型: Model Expression 参数赋初值:Parameters…
SPSS曲线拟合实例 一只红铃虫的产卵数与温度有关,下面是有关数据: 温 度 21 23 25 27 29 32 35 温 度 21 23 25 27 29 32 35 产卵数 7 11 21 24 66 115 325 试找出一种较佳的经验回归函数?
拟合曲线图 全选 方差分析表
Exponential ……
系统给出了所有模型的最优拟合结果,可以通过比较相关系数的平方值(Rsq)来比较各模型的优劣。R2越大,则模型越好。 此例给出的模型中,复合模型、生长模型、指数模型和逻辑模型对应的最大,达到0.985,因此采用这4种模型进行拟合是最合适的。
注意:拟合结果要结合专业知识进行判断,对于有背实际规律的模型,尽管拟合程度可能很高,也要放弃使用。
最小二乘估计 1. 选择最佳拟合曲线的标准 从几何意义上说,样本回归曲线应尽可能靠近样本数据点。 选择最佳拟合曲线的标准可以确定为: 1. 选择最佳拟合曲线的标准 从几何意义上说,样本回归曲线应尽可能靠近样本数据点。 选择最佳拟合曲线的标准可以确定为: 使总的拟合误差(即总残差)达到最小。 用最小二乘法描述就是:所选择的回归模型应该使所有观察值的残差平方和达到最小。
最小二乘估计的基本思路 不同的估计方法可得到不同的样本回归参数 和 ,所估计的 也不同。 理想的估计方法应使 和 的差即残差 越小越好。
概率密度 偏倚
⒉最小方差性(有效性) 前提:样本相同、用不同的方法估计参数,可以找到若干个不同的估计式。 目标:努力寻求其抽样分布具有最小方差的估计式——最小方差准则,或称最佳性准则。见下图 既是无偏的同时又具有最小方差的估计式,称为最佳无偏估计式。
概率密度
⒊一致性 思想:当样本容量较小时,有时很难找到最佳无偏估计,需要考虑扩大样本容量 (估计方法不变,样本数逐步扩大,分析性质是否改善) 一致性:当样本容量n趋于无穷大时,如果估计式 按概率收敛于总体参数的真实值,就称这个估计式 是 的一直估计式。 渐进无偏估计式是当样本容量变得足够大时,其偏倚趋于零的估计式。 见下图 →
概率密度
曲线拟合的作用 曲线拟合是给定了空间中的一些点(离散数据),找到一个已知形式未知参数的连续曲线来最大限度地逼近这些点; 曲线拟合就是离散数据的公式化; 曲线拟合是各种实验和统计问题有关量的多次观测值的常用处理方法;
曲线拟合的作用 通过曲线拟合得到变量间的拟合函数就可以对变量间的关系进行分析; 通过拟合函数与观测数据的误差分析干扰因素; 根据变量间的拟合函数制定优化策略;