曲线拟合 Curve fitting 2002级研究生《医学统计学》
医学研究中X和Y的数量关系常常不是线性的,如毒物剂量与动物死亡率,人的生长曲线,药物动力学等,都不是线性的。如果用线性描述将丢失大量信息,甚至得出错误结论。这时可以用曲线直线化估计(Curve estimation)或非线性回归(Nonlinear regression) 方法分析。 第四军医大学卫生统计学教研室 宇传华 2002年12月
曲线直线化估计的步骤 2002年12月 绘制散点图,根据图形和专业知识选取曲线类型(可同时选取几类) 按曲线类型,作曲线直线化变换 建立直线化的直线回归方程;作假设检验,计算决定系数 将变量还原,写出用原变量表达的曲线方程 比较决定系数选取“最佳”曲线方程 第四军医大学卫生统计学教研室 宇传华 2002年12月
第四军医大学卫生统计学教研室 宇传华 2002年12月
曲线形式 (根据生物学机制理论决定) 第四军医大学卫生统计学教研室 宇传华 2002年12月
常见的曲线回归方程 ①幂函数: ②对数: 2002年12月 或 ③指数函数: 或 ④多项式: ⑤logistic: 或 第四军医大学卫生统计学教研室 宇传华 2002年12月
一、利用线性回归拟合曲线(例1) 2002年12月 第四军医大学卫生统计学教研室 宇传华 例 上海医科大学微生物学教研室以已知浓度X的免疫球蛋白A(IgA, μg/ml)作火箭电泳, 测得火箭高度Y(mm)如表1所示。试拟合Y关于X的非线性回归方程。 X Y X'=lnX (lnX)2 Y2 (lnX)Y 残差平方 0.2 7.6 -1.6094 0.4 12.3 -0.9163 0.6 15.7 -0.5108 0.8 18.2 -0.2231 1.0 18.7 0 1.2 21.4 0.1823 1.4 22.6 0.3365 1.6 23.8 0.4700 合计140.3 -2.2708 2.5902 57.76 -12.2314 0.8396 151.29 -11.2705 0.2609 246.49 -8.0196 0.0498 331.24 -4.0604 0.0000 349.69 0.0000 0.0332 457.96 3.9012 0.1132 510.76 7.6049 0.2209 566.44 11.1860 4.1078 2671.63 -12.8898 7.23 12.62 15.77 18.01 19.75 21.16 22.36 23.40 0.1380 0.1017 0.0053 0.0361 1.0921 0.0563 0.0566 0.1597 1.6458 第四军医大学卫生统计学教研室 宇传华 2002年12月
(一)绘制散点图,决定曲线类型 (二)曲线直线化变换 =a+blnX 第四军医大学卫生统计学教研室 宇传华 2002年12月
(三)建立线性回归方程 回归方程为: =19.7451+7.7771 lnX 方差分析有统计学意义,P=0.0000,F=763.50,表明回归方程有贡献。 确定系数为0.99,表明回归拟合原资料很好。 第四军医大学卫生统计学教研室 宇传华 2002年12月
用线性回归拟合曲线(例2) 2002年12月 表9-11 25名重伤病人的住院天数X与预后指数Y 第四军医大学卫生统计学教研室 宇传华 编号 3 4 5 6 7 8 9 10 11 12 13 14 15 X 19 26 31 34 38 45 52 53 60 65 Y 54 50 37 35 25 20 16 18 第四军医大学卫生统计学教研室 宇传华 2002年12月
(一)绘制散点图,决定曲线类型 第四军医大学卫生统计学教研室 宇传华 2002年12月
(二)曲线直线化变换 第四军医大学卫生统计学教研室 宇传华 2002年12月
(三)建立线性回归方程 回归方程为: 4.037-0.038X 方差分析有统计学意义,P=0.0000,F=276.38,表明回归方程有贡献。 确定系数为0.9551,表明回归拟合原资料较好。 转换为原方程的另一种形式: 第四军医大学卫生统计学教研室 宇传华 2002年12月
第四军医大学卫生统计学教研室 宇传华 2002年12月
比较两个回归方程可见,对同一份样本采用不同估计方法得到的结果并不相同。 曲线直线化 非线性最小二乘法 比较两个回归方程可见,对同一份样本采用不同估计方法得到的结果并不相同。 主要因为曲线直线化以后的回归只对变换后的Y*(=lnY)负责, 得到的线性方程可使Y*与其估计值 之间的残差平方和最小,并不保证原变量Y与其估计值 之间的残差平方和也是最小。 第四军医大学卫生统计学教研室 宇传华 2002年12月
问题:前一个例子只对自变量作对数变换的对数曲线拟合,能否保证原变量Y与其估计值 之间的残差平方和也是最小?幂函数曲线拟合呢? 第四军医大学卫生统计学教研室 宇传华 2002年12月
问题:如何判断哪个曲线拟合方程更佳? 对于例9-15,几个常见曲线拟合得到的决定系数R2如下(曲线直线化): 线性(直线)R2:0.8856 (y = 46.4604 -0.7525 x) 幂曲线R2:0.8293 (y = 159.9297 x-0.7191) 对数曲线R2:0.9654 (y = 72.2829 -15.9662 Ln(x) ) 指数曲线R2: 0.9551(y = 56.6651 e-0.0380 x) 二项式曲线R2:0.9812(y = 55.8221- 1.7103 x +0.0148 x2 ) 第四军医大学卫生统计学教研室 宇传华 2002年12月
问题:如何判断那个曲线拟合方程更佳? 对于例9-15,几个常见曲线拟合得到的决定系数R2如下(非线性回归——迭代法): 线性(直线)R2:0.8856 (y = 46.4604 -0.7525 x) 幂曲线R2:0.8413 (y = 88.7890 x-0.4662) 对数曲线R2:0.9654 (y = 72.2829 -15.9662 Ln(x) ) 指数曲线R2: 0.9875(y = 58.6066 e-0.0396 x) 二项式曲线R2:0.9812(y = 55.8221- 1.7103 x +0.0148 x2 ) 第四军医大学卫生统计学教研室 宇传华 2002年12月
R的计算(曲线直线化) 原变量Y与 (直线或曲线方程得到)间相关系数的绝对值=相关指数R 线性(直线)R:=X与Y间相关系数绝对值 幂曲线R: =lnX与lnY间相关系数绝对值 对数曲线R: =lnX与Y间相关系数绝对值 指数曲线R: = X与lnY间相关系数绝对值 二项式曲线R: =√(1-SS残差/SS总) 第四军医大学卫生统计学教研室 宇传华 2002年12月
R的计算(非线性回归) 原变量Y与 (直线或曲线方程得到)间相关系数的绝对值=相关指数R 线性(直线)R:=X与Y间相关系数绝对值 幂曲线R: ≠lnX与lnY间相关系数绝对值 对数曲线R: =lnX与Y间相关系数绝对值 指数曲线R: ≠ X与lnY间相关系数绝对值 二项式曲线R: =√(1-SS残差/SS总) 第四军医大学卫生统计学教研室 宇传华 2002年12月
散点图辨析 第四军医大学卫生统计学教研室 宇传华 2002年12月
注意绘制散点图,并结合专业知识解释 如果条件允许最好采用非线性回归(Nonlinear Regression)拟合幂函数曲线与指数函数曲线 第四军医大学卫生统计学教研室 宇传华 2002年12月
采用SAS进行曲线拟合 第四军医大学卫生统计学教研室 宇传华 2002年12月
采用SPSS进行曲线拟合 曲线直线化 非线性回归 2002年12月 Analyze Regression Curve Estimation …可选Power 、Logarithmic、Exponential、Quadratic、Cubic 等 非线性回归 Analyze Regression Nonlinear … 设置模型: Model Expression 参数赋初值:Parameters… 第四军医大学卫生统计学教研室 宇传华 2002年12月
作业 P168 第6题 第四军医大学卫生统计学教研室 宇传华 2002年12月