数据统计分析思路 医学论文写作系列讲座 I 第二部分:回归分析基础 哈佛大学医学院: 陈常中 2012年11月

Slides:



Advertisements
Similar presentations
质数和合数 中心小学 顾禹 人教版小学五年级数学下册 一、激趣导入 提示:密码是一个三位 数,它既是一个偶数, 又是 5 的倍数;最高位是 9 的最大因数;中间一位 是最小的质数。你能打 开密码锁吗?
Advertisements

1 、谁能说说什么是因数? 在整数范围内( 0 除外),如果甲数 能被乙数整除,我们就说甲数是乙数的 倍数,乙数是甲数的因数。 如: 12÷4=3 4 就是 12 的因数 2 、回顾一下,我们认识的自然数可以分 成几类? 3 、其实自然数还有一种新的分类方法, 你知道吗?这就是我们今天这节课的学.
因数与倍数 2 、 5 的倍数的特征
摆一摆,想一想. 棋子个数数的个数 摆出的数 、 10 2 、 11 、 20 3 、 12 、 21 、 30 4 、 13 、 22 、 31 、 40 5 、 14 、 23 、 32 、 41 、
3 的倍数特征 抢三十
质数和合数 富县北教场小学 潘小娟 1 、什么叫因数? 2 、自然数分几类? 奇数和偶数. 3 、自然数还有一种新的分类方法, 就是按一个数的因数个数来分. 4 、写出 1—20 的因数。 前置性作业.

3 的倍数的特征 的倍数有 : 。 5 的倍数有 : 。 既是 2 的倍数又是 5 的倍数有 : 。 12 , 18 , 20 , 48 , 60 , 72 , , 25 , 60 ,
因数与倍数 2 、 5 的倍数的特征 绿色圃中小学教育网 扶余市蔡家沟镇中心小学 雷可心.
2 和 5 的倍数的特征 运动热身 怎样找一个数的倍数? 从小到大写出 2 的倍数( 10 个): 写出 5 的倍数( 6 个) 2 , 4 , 6 , 8 , 10 , 12 , 14 , 16 , 18 , 20 5 , 10 , 15 , 20 , 25 , 30.
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
冀教版四年级数学上册 本节课我们主要来学习 2 、 3 、 5 的倍数特征,同学们要注意观察 和总结规律,掌握 2 、 3 、 5 的倍 数分别有什么特点,并且能够按 要求找出符合条件的数。
因果图. 因果图 因果图的适用范围 如果在测试时必须考虑输入条件的各种 组合,可使用一种适合于描述对于多种 条件的组合,相应产生多个动作的形式 来设计测试用例,这就需要利用因果图。 因果图方法最终生成的就是判定表。它 适合于检查程序输入条件的各种组合情 况。 因果图的适用范围 如果在测试时必须考虑输入条件的各种.
圆的一般方程 (x-a)2 +(y-b)2=r2 x2+y2+Dx+Ey+F=0 Ax2+Bxy+Cy2+Dx+Ey+ F=0.
一、能线性化的多元非线性回归 二、多元多项式回归(线性化)

PET-CT-SUVmax与鼻咽癌放疗过程中原发灶 径线变化的关系
情緒行為障礙之教學與輔導 新竹縣情緒障礙巡迴教師 陳弘念.
流行病学分析思路 哈佛大学医学院 陈常中 2012年11月
第十一章 真理与价值 主讲人:阎华荣.
6.6 单侧置信限 1、问题的引入 2、基本概念 3、典型例题 4、小结.
完全随机设计多样本资料秩和检验.
第七章 固 定 资 产.
第四章 一元函数的积分 §4.1 不定积分的概念与性质 §4.2 换元积分法 §4.3 分部积分法 §4.4 有理函数的积分
第5章 定积分及其应用 基本要求 5.1 定积分的概念与性质 5.2 微积分基本公式 5.3 定积分的换元积分法与分部积分法
不确定度的传递与合成 间接测量结果不确定度的评估
初中数学 九年级(下册) 5.3 用待定系数法确定二次函数表达式.
運輸與空間的交互作用 運輸發展的階段 一、分散的港口 二、侵入路線 三、發展支線 四、初步相互連結 五、完全相互連結 六、高度優越的幹線
行政院國軍退除役官兵輔導委員會 嘉義榮民醫院.
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
第12章 回归直线.
第2章 一元线性回归 2 .1 一元线性回归模型 2 .2 参数 的估计 2 .3 最小二乘估计的性质 2 .4 回归方程的显著性检验
元素替换法 ——行列式按行(列)展开(推论)
用函数观点看方程(组)与不等式 14.3 第 1 课时 一次函数与一元一次方程.
第一章 函数 函数 — 研究对象—第一章 分析基础 极限 — 研究方法—第二章 连续 — 研究桥梁—第二章.
第十章 方差分析.
北师大版三年级数学下册 分数比大小.
第七章 参数估计 7.3 参数的区间估计.
若2002年我国国民生产总值为 亿元,如果 ,那么经过多少年国民生产总值 每年平均增长 是2002年时的2倍? 解:设经过 年国民生产总值为2002年时的2倍, 根据题意有 , 即.
第4章 非线性规划 4.5 约束最优化方法 2019/4/6 山东大学 软件学院.
公立學校教職員退休資遣撫卹條例重點說明 苗栗縣政府人事處編製 主講人:陳處長坤榮 107年5月2日.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
抽样和抽样分布 基本计算 Sampling & Sampling distribution
Partial Differential Equations §2 Separation of variables
6.4不等式的解法举例(1) 2019年4月17日星期三.
模型分类问题 Presented by 刘婷婷 苏琬琳.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
Three stability circuits analysis with TINA-TI
第四章 一次函数 4. 一次函数的应用(第1课时).
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
完全随机设计多组资料的比较 赵耐青 卫生统计教研室.
iSIGHT 基本培训 使用 Excel的栅栏问题
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
第4课时 绝对值.
多层循环 Private Sub Command1_Click() Dim i As Integer, j As Integer
第四节 随机变量函数的概率分布 X 是分布已知的随机变量,g ( · ) 是一个已知 的连续函数,如何求随机变量 Y =g(X ) 的分布?
学习目标 1、如何对结果进行分组 2、分组函数的一些实用方法.
分数再认识三 真假带分数的练习课.
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
SpringerLink数据库使用说明 上海师范大学图书馆
概率论与数理统计B.
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
正弦、余弦函数的性质 华容一中 伍立华 2017年2月24日.
2、5、3的倍数的特征.
第三节 随机区组设计的方差分析 随机区组设计资料的总平方和可以分解为三项: (10.10).
回归分析实验课程 (实验三) 多项式回归和定性变量的处理.
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
找 因 数.
三角 三角 三角 函数 余弦函数的图象和性质.
Presentation transcript:

数据统计分析思路 医学论文写作系列讲座 I 第二部分:回归分析基础 哈佛大学医学院: 陈常中 2012年11月 Mark.chen@empowerstats.com Changzhong_chen@dfci.harvard.edu

回归方程 与 t检验 / 方差分析 /卡方检验等 原来你也能做我的工作,不会抢我的饭碗吧?哈哈! 多组均数比较,用方差分析,也可以用回归分析替代。 两组率或多组率的比较,用卡方检验,也可以用logistic回归分析。 看“回归分析”抢了很多“人”的“饭碗”。

Yi = β0 + β1 * Xi + ei ?β1= 0 X = 0 X = 1 β0 ei β1 ei β0 + β1 先看看回归分析,如何替代t检验: 假定有两组人群,一组x=0,另一组x=1。从两组中各随机抽取若干个体,测量某指标Y,数据如图所示,每个点横坐标的距离,表示所测指标Y的大小。计算两组的均数,这是X=0组的均数,这是X=1组的均数。这两组的均数不同,t 检验就是检验这两组均数的差别是否显著。 现在看回归分析,建立回归方程Y=β0 + β1 * X。从方程中看,当x=0时,Y=β0 + e;当x=1时,Y=β0 + β1+ e。因此,β0是X=0组Y的均数,β0+β1是X=1组Y的均数,β1是两组均数的差,e是残差。回归分析,对β1是否等于0 的检验,等同于t检验两组均数的比较。 现在请大家思考一个问题:线性回归分析,要求X与Y服从正态分布吗? 很多人在这个问题上有误解,认为线性回归分析,要求X与Y服从正态分布。这里X只等于0或1,不服从正态分布;也不要求Y服从正态分布。但要求什么呢? 要求残差e服从正态分布。 ei X = 1 ?β1= 0 β0 + β1

X = 0,1 Y = β0 + β1 * X X=0, Y = β0 X=1, Y = β0 + β1 对回归系数β1 是否等于0的检验,等同于t检验,比较两组均数差别是否显著。 X=1, Y = β0 + β1

X = 0,1,2 I:Y = β0 + β1 * X II:Y = β0 + β1 * (X=1) + β2 * (X=2) X=0, Y = β0 X=1, Y = β0 + β1 X=2, Y = β0 + β1*2 II:Y = β0 + β1 * (X=1) + β2 * (X=2) 当X分三组或多组,现在以三组为例。X取值是0、1、2。 如果建立方程I:Y = β0 + β1 * X; 当X=0时,Y=β0 当X=1时,Y=β0 + β1 当X=2时,Y= β0 + 2*β1 β1表示X每增加一个单位,Y增加多少。这里就有一个假定,假定X是一个等级变量,而且等级间差异相同。 如果X等级间差异不同,或者当X不是等级指标,如职业:0表示工人,1表示农民,2表示干部。这时0、1、2只是代码,没有等级关系,这个方程就不合适。这时就要建立方程II,也就是要产生2个指示变量,一个表示X=1,另一个表示X=2。 从这个方程中可以看出, 当X=2时,Y= β0 + β2 β1是X=1 与X=0两组Y的差,β2是X=2 与X=0两组Y的差。这个方程有两个参数。检验效率就没有方程I 高。 X=0, Y = β0 X=1, Y = β0 + β1 X=2, Y = β0 + β2

Y5 = β0 + β1*(X6=1) + β2*(X6=2) X6 统计量 β(95% CI ) p 值 0 (A) 140 (35%) 1 (B) 2.50 ( 0.07, 4.92) 0.044 2 (C) 120 (30%) 5.26 ( 2.74, 7.79) <0.001 这是根据练习数据中,Y5与X6的关系,计算的结果,X6原取值是A、B、C ,是等级资料,可重新编码成0、1、2。 X6=B组与A组相比,Y的均数差是2.50,p=0.044; X6=C组与A组相比,Y的均数差是5.26,p<0.001; C与A的差近似于,两倍的B与A的差,可以进一步简化方程,分别用0、1、2表示A、B、C,用下面这个回归方程,拟合数据,得出X6每增加一个等级,Y5增加2.63。 这里我们看到,用回归方程替代方差分析,比较多组均数,直接给出了组间比较的均数差,及其95%可信区间。对于等级分组,后面这个方程又等同于趋势检验。 Y5 = β0 + β1*X6 X6 0.95 + 0.81 2.63 ( 1.37, 3.89) <0.001

文献中的回归分析应用 这是从一篇文献中摘录下来的一个表,这是个单因素分析表,分别列出每个因素与出生体重的关系。 以母亲年龄为例,作者把母亲年龄分成3组,第1组20-25岁,有164人,这一组为参照组,第2组26-29岁,有526人,与第1组相比,回归系数是21,95%可信区间-50到91,p值0.559,这个回归系数21表示第2组比第1组出生体重高21克,但统计上差别不显著;第3组30-40岁,有102人,与第1组相比,出生体重高167克,95%可信区间68到266,p值0.001,有显著性差别。 再看看下面的苯暴露与出生体重的关系,苯暴露分两组,0表示无暴露,1表示有暴露。有354人有苯暴露,回归系数-58,表示有暴露组比无暴露组出生体重低58克,95%可信区间-115到-2,p值0.044。 文献中的回归分析应用

f(Y) = β0 + β1*X1+ β2*X2+ β3*X3+ β4*X4+ …… 广义线性回归方程 f(Y) = β0 + β1*X1+ β2*X2+ β3*X3+ β4*X4+ …… Y:收缩压值? f(y)=Y Y: 是否高血压?f(y)=logit(y) 广义线性回归方程: 这是广义线性回归方程表达式。所谓广义,指的是,这里的Y是个函数,最常见的函数有两种,第一种Y是连续性变量,函数就是Y的本事;第二种Y是0、1两分类变量,函数是逻辑Y,即逻辑回归。

三组(X=0、1、2)率的比较 Y=0 Y=1 合计 X=0, n00 n01 N0 X=1, n10 n11 N1 率(p) 比值 X=0, n00 n01 N0 n01/N0 n01/n00 X=1, n10 n11 N1 n11/N1 n11/n10 现在看三组率的比较: 用X=0、1、2分别表示三组 用Y=0 表示事件未发生, Y=1 表示发生(如死亡、发病等) X=0组,n00人未发生事件,n01人发生事件,共N0人, 发生率为:n01/N0,发生比值为: n01/n00 X=1组,n10人未发生,n11人发生,共N1人, 发生率为:n11/N1,发生比值为: n11/n10 X=1组,n20人未发生,n21人发生,共N2人, 发生率为:n21/N2,发生比值为: n21/n20 X=2, n20 n21 N2 n21/N2 n21/n20

率与比值 率: p = N(y=1) / N(total) 0 - 1 比值: odd = N(y=1) / N(y=0) 0 - ∞ odd = p / (1-p) logit(Y) = log( p / (1-p) ) 这里有两个指标,一个是率p,是阳性数除总数,取值范围在0-1之间 另一个是比值odd,是阳性数除阴性数,取值范围是0到无穷大。 比值与率的换算关系是,比值 = 率/(1-率) 逻辑回归,Y的函数是比值的对数,其取值范围是,负无穷大到正无穷大。 两组比值的比, OR,称比值比。 当率(p)较小时,两组率的比p1/p0 与比值比非常接近。 我们常说的危险比,通常指的就是比值比,有时候也用率比。 两组比值比: Odds ratio (OR) =( P1/(1-P1) ) / ( P0/(1-P0 ) )

log(P/(1-P)) = β0 + β1*(X=1) + β2*(X=2) X=0, log(P0/(1-P0)) = β0 X=1, log(P1/(1-P1)) = β0 + β1 X=2, log(P2/(1-P2)) = β0 + β2 log( P1/(1-P1) ) - log( P0/(1-P0) ) = β1 再看看逻辑回归方程,如何比较三组率: 看这个回归方程, X=0组,Y的比值的对数,等于β0 X=1组,Y的比值的对数,等于β0 + β1 X=2组,Y的比值的对数,等于β0 + β2 进一步换算,可以得出: β1的反对数,就是X=1组发生Y的比值,与X=0组发生Y的比值,两个比值的比。 β2的反对数,就是X=2组发生Y的比值,与X=0组发生Y的比值,两个比值的比。 这就是逻辑回归方程中,回归系数的解释。 可以类推,当X是连续性变量时,X的回归系数β的反对数,就是X每增加一个单位,发生事件的比值(或称危险)是前面的多少倍。如体重指数为23的人发生高血压的危险是体重指数22的人的1.1倍。 log( ( P1/(1-P1) ) / ( P0/(1-P0) ) ) = β1 OR(X=1 vs. x=0) = e β1 OR(X=2 vs. x=0) = e β2

文献中的回归分析应用 这是从另一文献中,摘录下来的分析结果: 表中的结果变量,为自然流产(SAB),危险因素为DDE 等,表中Odds Ratio 即比值比。 以DDE为例,DDE每增加一个单位,发生自然流产的比值比是1.13,即发生自然流产的比值增加13%,95%可信区间1.03-1.26,p值0.025。 文献中的回归分析应用

练习 读入 regdd.xls 用单因素分析模块分析X6 与Y5 关系 将X6转换成连续性变量X6.CONT分析其余Y5 的关系 将Y5转换成2分类变量Y5.P80,取最高的20%为1,下面的80%为0。分析X6、X6.CONT 与Y5.P80的关系 现在我给大家做个演示: 打开易侕软件,打开以前的分析项目regdd。 查看一下X6的分布,X6原编码为A、B、C,将X6转换连续性的变量,生成一个新变量X6.CONT 。 查看一下Y5的分布,Y5是个连续性变量,我们将Y5按80%百分位数分成两组,1表示最高的20%,0表示下面的80%,生成一个新变量Y5.P80。 调用单因素分析模块, 结果变量是Y5、Y5.P80,看易侕统计软件,根据变量类型,自动给出这两个变量的联系函数。Y5是连续性的变量,联系函数是其本身,Y5.P80是两分类型的,联系函数是逻辑,即调用逻辑回归。危险因素是X6与X6.CONT。点击查看表格。