Download presentation
Presentation is loading. Please wait.
1
数据统计分析思路 医学论文写作系列讲座 I 第二部分:回归分析基础 哈佛大学医学院: 陈常中 2012年11月
2
回归方程 与 t检验 / 方差分析 /卡方检验等 原来你也能做我的工作,不会抢我的饭碗吧?哈哈!
多组均数比较,用方差分析,也可以用回归分析替代。 两组率或多组率的比较,用卡方检验,也可以用logistic回归分析。 看“回归分析”抢了很多“人”的“饭碗”。
3
Yi = β0 + β1 * Xi + ei ?β1= 0 X = 0 X = 1 β0 ei β1 ei β0 + β1
先看看回归分析,如何替代t检验: 假定有两组人群,一组x=0,另一组x=1。从两组中各随机抽取若干个体,测量某指标Y,数据如图所示,每个点横坐标的距离,表示所测指标Y的大小。计算两组的均数,这是X=0组的均数,这是X=1组的均数。这两组的均数不同,t 检验就是检验这两组均数的差别是否显著。 现在看回归分析,建立回归方程Y=β0 + β1 * X。从方程中看,当x=0时,Y=β0 + e;当x=1时,Y=β0 + β1+ e。因此,β0是X=0组Y的均数,β0+β1是X=1组Y的均数,β1是两组均数的差,e是残差。回归分析,对β1是否等于0 的检验,等同于t检验两组均数的比较。 现在请大家思考一个问题:线性回归分析,要求X与Y服从正态分布吗? 很多人在这个问题上有误解,认为线性回归分析,要求X与Y服从正态分布。这里X只等于0或1,不服从正态分布;也不要求Y服从正态分布。但要求什么呢? 要求残差e服从正态分布。 ei X = 1 ?β1= 0 β0 + β1
4
X = 0,1 Y = β0 + β1 * X X=0, Y = β0 X=1, Y = β0 + β1
对回归系数β1 是否等于0的检验,等同于t检验,比较两组均数差别是否显著。 X=1, Y = β0 + β1
5
X = 0,1,2 I:Y = β0 + β1 * X II:Y = β0 + β1 * (X=1) + β2 * (X=2)
X=0, Y = β0 X=1, Y = β0 + β1 X=2, Y = β0 + β1*2 II:Y = β0 + β1 * (X=1) + β2 * (X=2) 当X分三组或多组,现在以三组为例。X取值是0、1、2。 如果建立方程I:Y = β0 + β1 * X; 当X=0时,Y=β0 当X=1时,Y=β0 + β1 当X=2时,Y= β0 + 2*β1 β1表示X每增加一个单位,Y增加多少。这里就有一个假定,假定X是一个等级变量,而且等级间差异相同。 如果X等级间差异不同,或者当X不是等级指标,如职业:0表示工人,1表示农民,2表示干部。这时0、1、2只是代码,没有等级关系,这个方程就不合适。这时就要建立方程II,也就是要产生2个指示变量,一个表示X=1,另一个表示X=2。 从这个方程中可以看出, 当X=2时,Y= β0 + β2 β1是X=1 与X=0两组Y的差,β2是X=2 与X=0两组Y的差。这个方程有两个参数。检验效率就没有方程I 高。 X=0, Y = β0 X=1, Y = β0 + β1 X=2, Y = β0 + β2
6
Y5 = β0 + β1*(X6=1) + β2*(X6=2) X6 统计量 β(95% CI ) p 值 0 (A) 140 (35%)
1 (B) 2.50 ( 0.07, 4.92) 0.044 2 (C) 120 (30%) 5.26 ( 2.74, 7.79) <0.001 这是根据练习数据中,Y5与X6的关系,计算的结果,X6原取值是A、B、C ,是等级资料,可重新编码成0、1、2。 X6=B组与A组相比,Y的均数差是2.50,p=0.044; X6=C组与A组相比,Y的均数差是5.26,p<0.001; C与A的差近似于,两倍的B与A的差,可以进一步简化方程,分别用0、1、2表示A、B、C,用下面这个回归方程,拟合数据,得出X6每增加一个等级,Y5增加2.63。 这里我们看到,用回归方程替代方差分析,比较多组均数,直接给出了组间比较的均数差,及其95%可信区间。对于等级分组,后面这个方程又等同于趋势检验。 Y5 = β0 + β1*X6 X6 2.63 ( 1.37, 3.89) <0.001
7
文献中的回归分析应用 这是从一篇文献中摘录下来的一个表,这是个单因素分析表,分别列出每个因素与出生体重的关系。
以母亲年龄为例,作者把母亲年龄分成3组,第1组20-25岁,有164人,这一组为参照组,第2组26-29岁,有526人,与第1组相比,回归系数是21,95%可信区间-50到91,p值0.559,这个回归系数21表示第2组比第1组出生体重高21克,但统计上差别不显著;第3组30-40岁,有102人,与第1组相比,出生体重高167克,95%可信区间68到266,p值0.001,有显著性差别。 再看看下面的苯暴露与出生体重的关系,苯暴露分两组,0表示无暴露,1表示有暴露。有354人有苯暴露,回归系数-58,表示有暴露组比无暴露组出生体重低58克,95%可信区间-115到-2,p值0.044。 文献中的回归分析应用
8
f(Y) = β0 + β1*X1+ β2*X2+ β3*X3+ β4*X4+ ……
广义线性回归方程 f(Y) = β0 + β1*X1+ β2*X2+ β3*X3+ β4*X4+ …… Y:收缩压值? f(y)=Y Y: 是否高血压?f(y)=logit(y) 广义线性回归方程: 这是广义线性回归方程表达式。所谓广义,指的是,这里的Y是个函数,最常见的函数有两种,第一种Y是连续性变量,函数就是Y的本事;第二种Y是0、1两分类变量,函数是逻辑Y,即逻辑回归。
9
三组(X=0、1、2)率的比较 Y=0 Y=1 合计 X=0, n00 n01 N0 X=1, n10 n11 N1
率(p) 比值 X=0, n n N0 n01/N0 n01/n00 X=1, n n N1 n11/N1 n11/n10 现在看三组率的比较: 用X=0、1、2分别表示三组 用Y=0 表示事件未发生, Y=1 表示发生(如死亡、发病等) X=0组,n00人未发生事件,n01人发生事件,共N0人, 发生率为:n01/N0,发生比值为: n01/n00 X=1组,n10人未发生,n11人发生,共N1人, 发生率为:n11/N1,发生比值为: n11/n10 X=1组,n20人未发生,n21人发生,共N2人, 发生率为:n21/N2,发生比值为: n21/n20 X=2, n n N2 n21/N2 n21/n20
10
率与比值 率: p = N(y=1) / N(total) 0 - 1 比值: odd = N(y=1) / N(y=0) 0 - ∞
odd = p / (1-p) logit(Y) = log( p / (1-p) ) 这里有两个指标,一个是率p,是阳性数除总数,取值范围在0-1之间 另一个是比值odd,是阳性数除阴性数,取值范围是0到无穷大。 比值与率的换算关系是,比值 = 率/(1-率) 逻辑回归,Y的函数是比值的对数,其取值范围是,负无穷大到正无穷大。 两组比值的比, OR,称比值比。 当率(p)较小时,两组率的比p1/p0 与比值比非常接近。 我们常说的危险比,通常指的就是比值比,有时候也用率比。 两组比值比: Odds ratio (OR) =( P1/(1-P1) ) / ( P0/(1-P0 ) )
11
log(P/(1-P)) = β0 + β1*(X=1) + β2*(X=2)
X=0, log(P0/(1-P0)) = β0 X=1, log(P1/(1-P1)) = β0 + β1 X=2, log(P2/(1-P2)) = β0 + β2 log( P1/(1-P1) ) - log( P0/(1-P0) ) = β1 再看看逻辑回归方程,如何比较三组率: 看这个回归方程, X=0组,Y的比值的对数,等于β0 X=1组,Y的比值的对数,等于β0 + β1 X=2组,Y的比值的对数,等于β0 + β2 进一步换算,可以得出: β1的反对数,就是X=1组发生Y的比值,与X=0组发生Y的比值,两个比值的比。 β2的反对数,就是X=2组发生Y的比值,与X=0组发生Y的比值,两个比值的比。 这就是逻辑回归方程中,回归系数的解释。 可以类推,当X是连续性变量时,X的回归系数β的反对数,就是X每增加一个单位,发生事件的比值(或称危险)是前面的多少倍。如体重指数为23的人发生高血压的危险是体重指数22的人的1.1倍。 log( ( P1/(1-P1) ) / ( P0/(1-P0) ) ) = β1 OR(X=1 vs. x=0) = e β1 OR(X=2 vs. x=0) = e β2
12
文献中的回归分析应用 这是从另一文献中,摘录下来的分析结果:
表中的结果变量,为自然流产(SAB),危险因素为DDE 等,表中Odds Ratio 即比值比。 以DDE为例,DDE每增加一个单位,发生自然流产的比值比是1.13,即发生自然流产的比值增加13%,95%可信区间 ,p值0.025。 文献中的回归分析应用
13
练习 读入 regdd.xls 用单因素分析模块分析X6 与Y5 关系 将X6转换成连续性变量X6.CONT分析其余Y5 的关系
将Y5转换成2分类变量Y5.P80,取最高的20%为1,下面的80%为0。分析X6、X6.CONT 与Y5.P80的关系 现在我给大家做个演示: 打开易侕软件,打开以前的分析项目regdd。 查看一下X6的分布,X6原编码为A、B、C,将X6转换连续性的变量,生成一个新变量X6.CONT 。 查看一下Y5的分布,Y5是个连续性变量,我们将Y5按80%百分位数分成两组,1表示最高的20%,0表示下面的80%,生成一个新变量Y5.P80。 调用单因素分析模块, 结果变量是Y5、Y5.P80,看易侕统计软件,根据变量类型,自动给出这两个变量的联系函数。Y5是连续性的变量,联系函数是其本身,Y5.P80是两分类型的,联系函数是逻辑,即调用逻辑回归。危险因素是X6与X6.CONT。点击查看表格。
Similar presentations