曲 线 回 归 吴库生 汕头大学医学院预防医学教研室.

Slides:



Advertisements
Similar presentations
南 通. 南通概述 南通,位于江苏省东部, 东抵黄海,南望长江。 “ 据江 海之会、扼南北之喉 ” ,隔江 与中国经济最发达的上海及 苏南地区相依,被誉为 “ 北上 海 ” 。 南通也是中国首批对 外开放的 14 个沿海城市之一 ,被称为 “ 中国近代第一城 ” 。 南通面临海外和内陆两大经 济辐射扇面,素有.
Advertisements

1 天天 5 蔬果 國立彰化特殊教育學校 延杰股份有限公司營養師:陳婷貽. 2 蔬果彩虹 579 蔬果彩虹 歲以內兒童,每天 攝取五份新鮮蔬菜水 果,其中應有三份蔬 菜兩份水果 蔬菜份數水果份數總份數 兒童 325 女性 437 男性 549.
高等学校英语应用能力考试 考务培训 兰州文理学院教务处 2014 年 12 月. 考务培训 21 日请监考人员上午 8:00 (下午 2:30 )到综合楼 205 教室集合,查看 监考安排,由考务负责人进行考务 培训。
語言與文化通識報告 - 台日年菜差異 - 指導老師 : 葉蓁蓁 小組 : 日本微旅行 組員 :4a21b032 吳采玲 4a21b037 沈立揚 4a 洪雅芳 4a 陳楚貽 4a 王巧稜.
第8章 非线性回归 8.1 可化为线性回归的曲线回归 8.2 多项式回归 8.3 非线性模型 8.4 本章小结与评注.
均衡推进,确保质量 08学年第一学期教学工作会议 广州市培正中学
黑木耳.
投資權證13問 交易所宣導資料(104) 1.以大盤指數為標的之權證,和大盤指數的連動性,為什麼比和期交所期指的連動性差?
如何把作文写具体.
第一章 人口与环境 第一节 人口增长模式.
第一节 人口与人种 第一课时.
解读我党发展史 思索安惠美好明天 主讲人:王辰武.
第5课 长江和黄河.
銓敘部研究規劃自願退休公務人員月退休金起支年齡延後方案座談會
第二章 SPSS的基本操作 2-1 SPSS 的簡介 2-2 SPSS 軟體的功能表介紹 2-3 資料的輸入 2-4 資料的分析與輸出結果
瓦罐湯 “瓦缸煨汤”是流行于南方民间的一种风味菜肴。它采用一种制特的大瓦缸,其缸底可以烧火,缸内置有铁架,厨师将装有汤的小瓦罐一层层地码入缸内的铁架上,然后点燃木炭,借用木炭火产生的高温将瓦罐内的汤煨熟。
1.數學的難題 如下圖所示,你知道表格中的問號應填入什麼數字嗎?
第九章 欧氏空间 §1 定义与基本性质 §2 标准正交基 §3 同构 §4 正交变换 §5 子空间 §6 对称矩阵的标准形
第九章 欧氏空间 §1 定义与基本性质 §6 对称矩阵的标准形 §2 标准正交基 §7 向量到子空间的 距离─最小二乘法 §3 同构
合肥学院外国语言系2012年度 学生工作表彰大会.
105年基北區高中職適性入學宣導 教育會考後相關作業說明
真题模拟 主讲:凌宇 时间:6月9日.
树立信心,沉着应战,吹响中考冲锋号 ——谈语文学科的复习备考及考试技巧.
張偉豪 三星統計服務有限公司 執行長 Amos 亞洲一哥
管理会计 财贸系 会计教研室 王凤锦.
上海体育职业学院 祁社生 一、重视体育科研在提高竞技运动训练水平中的意义和作用
请大家欣赏龙岩, 新罗区 上杭,武平, 连城,长汀, 永定,漳平 小吃和特产.
游 泳 理 论 课 位育中学 高蓉.
二代健保補充保費 代扣項目說明 簡報.
1.某公司需购一台设备,有两个方案,假定公司要求的必要报酬率为10%,有关数据如下:
第4课 “千古一帝”秦始皇.
第一节 人口与人种 光山一中 屈应霞.
社会统计学 Social Statistics
第五章 二次型.
班級老師:潘盈仁 班級:休閒三甲 學號:4A0B0124 學生:柯又瑄
腐败的食物表面有白色小圆斑点,绿色斑点等
教師專業發展評鑑(一) 實施計畫與規準討論
第四章 借贷记账法的应用.
第五章 主要经济业务核算 第一节 筹集资金的核算 第二节 供应过程的核算 第三节 生产过程的核算 第四节 销售过程的核算
试卷 20 14安徽 13全国卷 大纲卷 13山东卷 13浙江卷 2013上海卷 13海 南 卷 13江苏卷 题号 30 32
成本会计 主讲教师:钟小玲 讲师 硕士 主讲教师:钟小玲 讲师 硕士 办公电话: 手机:
赵德成 北京师范大学教育管理学院 让教师成为研究者 赵德成 北京师范大学教育管理学院
医学统计学 主讲人:信息部 林雪君.
上节主要内容回顾 借贷记账法的主要内容: 总分类账户与明细分类账户的平行登记 记账规则 试算平衡 要点:内容相同、方向一致、金额相等
高三地理专题复习 地方时和区时 解题技巧.
房产税纳税申报---全部自用 全部自用 问:该企业应纳多少房产税?每月应纳多少房产税? 案例1(全部自用)
曲线拟合 Curve fitting 2002级研究生《医学统计学》.
邂逅“行程”——行程问题 四年级 数学 周凯.
SPSS軟體與迴歸分析 南台科技大學企管系 呂金河.
騎乘單車如何配速 桃園縣攝影藝術協會 鐵馬車隊 鄭育宏 製作 1/12.
传媒学院2013年度团委工作 总结分析报告
优化试验设计与数据分析 第五章 回归分析方法 本章主要内容 · 一元线性回归方程度建立、显著性检验、预报和控制。非线性回归方程的线性化。
Differentiation 微分 之二 以公式法求函數的微分.
全方位自主學習平台- 教師評鑑平台 操作說明
统计软件应用 7 主讲人 陶育纯 SPSS统计分析 统计软件应用 7 主讲人 陶育纯 教案.
第八章 科研资料的整理与分析.
線性一階微分方程與尤拉法 線性一階微分方程式求解 (Linear First-Order Differential Equations)
第四章 相关分析与回归分析 4.1 简单相关分析 4.2 回归分析 4.3 非线性回归.
主講人 陳陸輝 特聘研究員兼主任 政治大學選舉研究中心 美國密西根州立大學博士
第四单元:可能性 掷一掷 武汉市洪山区教育科学研究培训中心 李桂玲.
主講人 陳陸輝 特聘研究員兼主任 政治大學 選舉研究中心
學生:黃文娟、陳湘茹、吳伊珊、 阮嘉玲、柯昱志 指導老師:鍾懿芳老師
MyLibrary ——数字图书馆的个性化服务
以多項式羅吉斯迴歸推估 土壤有效深度 Classification of Effective Soil Depth by Using Multinomial Logistic Regression Analysis 指導教授 詹勳全 研究生 張建輝.
第三节 实对称矩阵的对角化 一、方阵对角化的条件 二、实对称矩阵的对角化 三、小结与思考 2019/4/6.
票據與生活.
成 本 会 计 学 第七章 产品成本计算的辅助方法.
在山的那边 ——作者: 张家新 —— 小时候,我常伏在窗口痴想 ——山那边是什么呢? 妈妈告诉我:海 哦,山那边是海吗?
分类变量资料的统计推断.
Logistic回归 Logistic regression 研究生《医学统计学》.
Presentation transcript:

曲 线 回 归 吴库生 汕头大学医学院预防医学教研室

回归分析的概念 寻求有关联(相关)的变量之间的关系 主要内容: 从一组样本数据出发,确定这些变量间的定量关系式 对这些关系式的可信度进行各种统计检验 从影响某一变量的诸多变量中,判断哪些变量的影响显著,哪些不显著 利用求得的关系式进行预测和控制

回归分析的模型 按是否线性分:线性回归模型和非线性回归模型 按自变量个数分:简单的一元回归,多元回归

常见回归分析的模型 在回归种类中包括: Liner:线性回归 Curve Estimation:曲线估计 Binary Logistic: 二分变量逻辑回归 Multinomial Logistic:多分变量逻辑回归 Ordinal 序回归 Probit:概率单位回归 Nonlinear:非线性回归 Weight Estimation:加权估计 2-Stage Least squares:二段最小平方法 Optimal Scaling 最优编码回归

一、曲线拟合 Curve fitting

医学研究中,X与Y两变量的数量关系并非总是线性的,如 毒物剂量——动物死亡率 年龄——身高 时间——血药物浓度 可用曲线直线化估计(Curve estimation) 或非线性回归(Nonlinear regression) 方法进行统计学分析。

曲线估计(Curve Estimation) 对于一元回归,若散点图的趋势不呈线性分布,可以利用曲线估计方式方便地进行各种方程拟合,如:指数拟合(Exponential)、二次拟合(Quadratic)、三次拟合(Cubic)等。 采用哪种拟合方式更合理主要取决于各种拟合模型对数据的充分描述(看校正Adjusted R2 →1)

不同模型的表示 模型名称 回归方程 相应的线性回归方程 Linear(线性) Y=b0+b1x Quadratic(二次) Y=b0+b1x+b2x2 Compound(复合) Y=b0(b1x) Ln(Y)=ln(b0)+ln(b1)x Growth(生长) Y=eb0+b1x Ln(Y)=b0+b1x Logarithmic(对数) Y=b0+b1ln(x)

模型名称 回归方程 相应的线性回归方程 Cubic(三次) Y=b0+b1x+b2x2+b3x3 S Y=eb0+b1/x Ln(Y)=b0+b1 / x Exponential(指数) Y=b0 * eb1*x Ln(Y)=ln(b0)+b1x Inverse(逆) Y=b0+b1/x Power(幂) Y=b0(xb1 ) Ln(Y)=ln(b0)+b1ln(x) Logistic(逻辑) Y=1/(1/u+b0b1x) Ln(1/Y-1/u)=ln(b0+ln(b1)x)

选择曲线的基本方法 根据专业知识和过去经验(或文献)选择曲线类型 利用算术格纸、半对数格纸等,将实测数据绘制散点图。根据散点图的特点选择曲线类型 先在普通格纸上绘制散点图,再根据各点分布趋势用试配法来选择曲线类型。

曲线拟合方式 曲线直线化估计 曲线直接拟合

曲线直线化估计的步骤 绘制散点图,根据图形和专业知识选取曲线类型(可同时选取几类) 按曲线类型,作曲线直线化变换 建立变换数据间的直线回归方程 (假设检验,计算决定系数) 比较决定系数选取“最佳”方程 写出曲线方程

二、常见的几种曲线 Y b>0 b<0 X 对数曲线

及其变换形式 Y b<0 b>0 X 指数曲线

Y = b0 + b1 X + b2 X2 Y b2>0 b2<0 X 抛物线

Y = b0 + b1 X + b2 X2 + b3 X3 Y X 3次多项式曲线

SPSS中曲线模型

SPSS中曲线模型

SPSS回归分析的过程 基本的步骤:利用SPSS得到模型关系式,是否是我们所要的,要看回归方程的显著性检验(F 检验)和回归系数b的显著性检验(t 检验),还要看拟合程度R2 (相关系数的平方,一元回归用R Square,多元回归用Adjusted R Square)

常见的曲线回归方程 ①幂函数: 或 ②对数: ③指数函数: 或 ④多项式: ⑤logistic: 或

利用线性回归拟合曲线(例1) 例 上海医科大学微生物学教研室以已知浓度X的免疫球蛋白A(IgA, μg/ml)作火箭电泳, 测得火箭高度Y(mm)如表1所示。试拟合Y关于X的非线性回归方程。 编号 X Y X'=lnX 1 0.2 7.6 -1.6094 2 0.4 12.3 -0.9163 3 0.6 15.7 -0.5108 4 0.8 18.2 -0.2231 5 1.0 18.7 0 6 1.2 21.4 0.1823 7 1.4 22.6 0.3365 8 1.6 23.8 0.4700 合计 140.3 -2.2708

(一)绘制散点图,决定曲线类型 (二)曲线直线化变换 =a+blnX

(三)建立直线回归方程 X Y X'=lnX (lnX)2 Y2 (lnX)Y 0.2 7.6 -1.6094 残差平方 0.2 7.6 -1.6094 0.4 12.3 -0.9163 0.6 15.7 -0.5108 0.8 18.2 -0.2231 1.0 18.7 0 1.2 21.4 0.1823 1.4 22.6 0.3365 1.6 23.8 0.4700 合计140.3 -2.2708 2.5902 57.76 -12.2314 0.8396 151.29 -11.2705 0.2609 246.49 -8.0196 0.0498 331.24 -4.0604 0.0000 349.69 0.0000 0.0332 457.96 3.9012 0.1132 510.76 7.6049 0.2209 566.44 11.1860 4.1078 2671.63 -12.8898 7.23 12.62 15.77 18.01 19.75 21.16 22.36 23.40 0.1380 0.1017 0.0053 0.0361 1.0921 0.0563 0.0566 0.1597 1.6458

(四)比较决定系数,确定“最佳”方程

SPSS实现过程

利用线性回归拟合曲线(例2) 15名重伤病人的住院天数X与预后指数Y 编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 19 26 31 34 38 45 52 53 60 65 Y 54 50 37 35 25 20 16 18

(一)绘制散点图,决定曲线类型

(二)曲线直线化变换

(三)建立线性回归方程 回归方程为: 4.037-0.038X 方差分析有统计学意义,P=0.0000,F=276.38,表明回归方程有贡献。 确定系数为0.9551,表明回归拟合原资料较好。 转换为原方程的另一种形式:

曲线直线化 非线性最小二乘法 比较两个回归方程可见,对同一份样本采用不同估计方法得到的结果并不相同。 主要因为曲线直线化以后的回归只对变换后的Y*(=lnY)负责, 得到的线性方程可使Y*与其估计值 之间的残差平方和最小,并不保证原变量Y与其估计值 之间的残差平方和也是最小。

问题:前一个例子只对自变量作对数变换的对数曲线拟合,能否保证原变量Y与其估计值 之间的残差平方和也是最小?幂函数曲线拟合呢?

问题:如何判断哪个曲线拟合方程更佳? 对于前例,几个常见曲线拟合得到的决定系数R2如下(曲线直线化): 线性(直线)R2:0.8856 (y = 46.4604 -0.7525 x) 幂曲线 R2:0.8293 (y = 159.9297 x-0.7191) 对数曲线 R2:0.9654 (y = 72.2829 -15.9662 Ln(x) ) 指数曲线 R2: 0.9551(y = 56.6651 e-0.0380 x) 二项式曲线 R2:0.9812(y = 55.8221- 1.7103 x +0.0148 x2 )

问题:如何判断那个曲线拟合方程更佳? 对于例2,几个常见曲线拟合得到的决定系数R2如下(非线性回归——迭代法): 线性(直线)R2:0.8856 (y = 46.4604 -0.7525 x) 幂曲线 R2:0.8413 (y = 88.7890 x-0.4662) 对数曲线 R2:0.9654 (y = 72.2829 -15.9662 Ln(x) ) 指数曲线 R2:0.9875(y = 58.6066 e-0.0396 x) 二项式曲线 R2:0.9812(y = 55.8221- 1.7103 x +0.0148 x2 )

散点图辨析

如果条件允许最好采用非线性回归(Nonlinear Regression)拟合幂函数曲线与指数函数曲线 注意绘制散点图,并结合专业知识解释

非线性回归方程 非线性回归与一般线性回归的求解方法不同在于: 需要给定参数(a、b)的初始值 采用迭代方法,不断更新估计的参数,直至稳定在某一值为止。 优点:在需要变换Y时,结果更可靠。 缺点:a.计算复杂;b.初始值不适当时,估计不准确.

采用SPSS进行曲线拟合 曲线直线化 非线性回归 Analyze Regression Curve Estimation …可选Power 、Logarithmic、Exponential、Quadratic、Cubic 等 非线性回归 Analyze Regression Nonlinear … 设置模型: Model Expression 参数赋初值:Parameters…

SPSS曲线拟合实例 一只红铃虫的产卵数与温度有关,下面是有关数据: 温 度 21 23 25 27 29 32 35 温 度 21 23 25 27 29 32 35 产卵数 7 11 21 24 66 115 325 试找出一种较佳的经验回归函数?

拟合曲线图 全选 方差分析表

Exponential ……

系统给出了所有模型的最优拟合结果,可以通过比较相关系数的平方值(Rsq)来比较各模型的优劣。R2越大,则模型越好。 此例给出的模型中,复合模型、生长模型、指数模型和逻辑模型对应的最大,达到0.985,因此采用这4种模型进行拟合是最合适的。

注意:拟合结果要结合专业知识进行判断,对于有背实际规律的模型,尽管拟合程度可能很高,也要放弃使用。

最小二乘估计 1. 选择最佳拟合曲线的标准 从几何意义上说,样本回归曲线应尽可能靠近样本数据点。 选择最佳拟合曲线的标准可以确定为: 1. 选择最佳拟合曲线的标准 从几何意义上说,样本回归曲线应尽可能靠近样本数据点。 选择最佳拟合曲线的标准可以确定为: 使总的拟合误差(即总残差)达到最小。 用最小二乘法描述就是:所选择的回归模型应该使所有观察值的残差平方和达到最小。

最小二乘估计的基本思路 不同的估计方法可得到不同的样本回归参数 和 ,所估计的 也不同。 理想的估计方法应使 和 的差即残差 越小越好。

概率密度 偏倚

⒉最小方差性(有效性) 前提:样本相同、用不同的方法估计参数,可以找到若干个不同的估计式。 目标:努力寻求其抽样分布具有最小方差的估计式——最小方差准则,或称最佳性准则。见下图 既是无偏的同时又具有最小方差的估计式,称为最佳无偏估计式。

概率密度

⒊一致性 思想:当样本容量较小时,有时很难找到最佳无偏估计,需要考虑扩大样本容量 (估计方法不变,样本数逐步扩大,分析性质是否改善) 一致性:当样本容量n趋于无穷大时,如果估计式 按概率收敛于总体参数的真实值,就称这个估计式 是 的一直估计式。 渐进无偏估计式是当样本容量变得足够大时,其偏倚趋于零的估计式。 见下图 →

概率密度

曲线拟合的作用 曲线拟合是给定了空间中的一些点(离散数据),找到一个已知形式未知参数的连续曲线来最大限度地逼近这些点; 曲线拟合就是离散数据的公式化; 曲线拟合是各种实验和统计问题有关量的多次观测值的常用处理方法;

曲线拟合的作用 通过曲线拟合得到变量间的拟合函数就可以对变量间的关系进行分析; 通过拟合函数与观测数据的误差分析干扰因素; 根据变量间的拟合函数制定优化策略;