数据统计分析思路医学论文写作系列讲座 I 第二部分：回归分析基础哈佛大学医学院：陈常中 2012年11月

数据统计分析思路医学论文写作系列讲座 I 第二部分：回归分析基础哈佛大学医学院：陈常中 2012年11月

回归方程与 t检验 / 方差分析 /卡方检验等原来你也能做我的工作，不会抢我的饭碗吧？哈哈！
多组均数比较，用方差分析，也可以用回归分析替代。两组率或多组率的比较，用卡方检验，也可以用logistic回归分析。看“回归分析”抢了很多“人”的“饭碗”。

Yi = β0 + β1 * Xi + ei ？β1= 0 X = 0 X = 1 β0 ei β1 ei β0 + β1
先看看回归分析，如何替代t检验：假定有两组人群，一组x=0，另一组x=1。从两组中各随机抽取若干个体，测量某指标Y，数据如图所示，每个点横坐标的距离，表示所测指标Y的大小。计算两组的均数，这是X=0组的均数，这是X=1组的均数。这两组的均数不同，t 检验就是检验这两组均数的差别是否显著。现在看回归分析，建立回归方程Y=β0 + β1 * X。从方程中看，当x=0时，Y=β0 + e；当x=1时，Y=β0 + β1+ e。因此，β0是X=0组Y的均数，β0+β1是X=1组Y的均数，β1是两组均数的差，e是残差。回归分析，对β1是否等于0 的检验，等同于t检验两组均数的比较。现在请大家思考一个问题：线性回归分析，要求X与Y服从正态分布吗？很多人在这个问题上有误解，认为线性回归分析，要求X与Y服从正态分布。这里X只等于0或1，不服从正态分布；也不要求Y服从正态分布。但要求什么呢？要求残差e服从正态分布。 ei X = 1 ？β1= 0 β0 + β1

X = 0，1 Y = β0 + β1 * X X=0， Y = β0 X=1， Y = β0 + β1
对回归系数β1 是否等于0的检验，等同于t检验，比较两组均数差别是否显著。 X=1， Y = β0 + β1

X = 0，1，2 I：Y = β0 + β1 * X II：Y = β0 + β1 * (X=1) + β2 * (X=2)
X=0， Y = β0 X=1， Y = β0 + β1 X=2， Y = β0 + β1*2 II：Y = β0 + β1 * (X=1) + β2 * (X=2) 当X分三组或多组，现在以三组为例。X取值是0、1、2。如果建立方程I：Y = β0 + β1 * X；当X=0时，Y=β0 当X=1时，Y=β0 + β1 当X=2时，Y= β0 + 2*β1 β1表示X每增加一个单位，Y增加多少。这里就有一个假定，假定X是一个等级变量，而且等级间差异相同。如果X等级间差异不同，或者当X不是等级指标，如职业：0表示工人，1表示农民，2表示干部。这时0、1、2只是代码，没有等级关系，这个方程就不合适。这时就要建立方程II，也就是要产生2个指示变量，一个表示X=1，另一个表示X=2。从这个方程中可以看出，当X=2时，Y= β0 + β2 β1是X=1 与X=0两组Y的差，β2是X=2 与X=0两组Y的差。这个方程有两个参数。检验效率就没有方程I 高。 X=0， Y = β0 X=1， Y = β0 + β1 X=2， Y = β0 + β2

Y5 = β0 + β1*(X6=1) + β2*(X6=2) X6 统计量 β（95% CI ） p 值 0 (A) 140 (35%)
1 (B) 2.50 ( 0.07, 4.92) 0.044 2 (C) 120 (30%) 5.26 ( 2.74, 7.79) <0.001 这是根据练习数据中，Y5与X6的关系，计算的结果，X6原取值是A、B、C ，是等级资料，可重新编码成0、1、2。 X6=B组与A组相比，Y的均数差是2.50，p=0.044； X6=C组与A组相比，Y的均数差是5.26，p<0.001； C与A的差近似于，两倍的B与A的差，可以进一步简化方程，分别用0、1、2表示A、B、C，用下面这个回归方程，拟合数据，得出X6每增加一个等级，Y5增加2.63。这里我们看到，用回归方程替代方差分析，比较多组均数，直接给出了组间比较的均数差，及其95%可信区间。对于等级分组，后面这个方程又等同于趋势检验。 Y5 = β0 + β1*X6 X6 2.63 ( 1.37, 3.89) <0.001

文献中的回归分析应用这是从一篇文献中摘录下来的一个表，这是个单因素分析表，分别列出每个因素与出生体重的关系。
以母亲年龄为例，作者把母亲年龄分成3组，第1组20-25岁，有164人，这一组为参照组，第2组26-29岁，有526人，与第1组相比，回归系数是21，95%可信区间-50到91，p值0.559，这个回归系数21表示第2组比第1组出生体重高21克，但统计上差别不显著；第3组30-40岁，有102人，与第1组相比，出生体重高167克，95%可信区间68到266，p值0.001，有显著性差别。再看看下面的苯暴露与出生体重的关系，苯暴露分两组，0表示无暴露，1表示有暴露。有354人有苯暴露，回归系数-58，表示有暴露组比无暴露组出生体重低58克，95%可信区间-115到-2，p值0.044。文献中的回归分析应用

f(Y) = β0 + β1*X1+ β2*X2+ β3*X3+ β4*X4+ ……
广义线性回归方程 f(Y) = β0 + β1*X1+ β2*X2+ β3*X3+ β4*X4+ …… Y：收缩压值？ f(y)=Y Y: 是否高血压？f(y)=logit(y) 广义线性回归方程：这是广义线性回归方程表达式。所谓广义，指的是，这里的Y是个函数，最常见的函数有两种，第一种Y是连续性变量，函数就是Y的本事；第二种Y是0、1两分类变量，函数是逻辑Y，即逻辑回归。

三组（X=0、1、2）率的比较 Y=0 Y=1 合计 X=0， n00 n01 N0 X=1， n10 n11 N1
率(p) 比值 X=0， n n N0 n01/N0 n01/n00 X=1， n n N1 n11/N1 n11/n10 现在看三组率的比较：用X=0、1、2分别表示三组用Y=0 表示事件未发生， Y=1 表示发生（如死亡、发病等） X=0组，n00人未发生事件，n01人发生事件，共N0人，发生率为：n01/N0，发生比值为： n01/n00 X=1组，n10人未发生，n11人发生，共N1人，发生率为：n11/N1，发生比值为： n11/n10 X=1组，n20人未发生，n21人发生，共N2人，发生率为：n21/N2，发生比值为： n21/n20 X=2， n n N2 n21/N2 n21/n20

率与比值率： p = N(y=1) / N(total) 0 - 1 比值： odd = N(y=1) / N(y=0) 0 - ∞
odd = p / (1-p) logit(Y) = log( p / (1-p) ) 这里有两个指标，一个是率p，是阳性数除总数，取值范围在0-1之间另一个是比值odd，是阳性数除阴性数，取值范围是0到无穷大。比值与率的换算关系是，比值 = 率/(1-率) 逻辑回归，Y的函数是比值的对数，其取值范围是，负无穷大到正无穷大。两组比值的比， OR，称比值比。当率（p）较小时，两组率的比p1/p0 与比值比非常接近。我们常说的危险比，通常指的就是比值比，有时候也用率比。两组比值比: Odds ratio (OR) =( P1/(1-P1) ) / ( P0/(1-P0 ) )

log(P/(1-P)) = β0 + β1*(X=1) + β2*(X=2)
X=0， log(P0/(1-P0)) = β0 X=1， log(P1/(1-P1)) = β0 + β1 X=2， log(P2/(1-P2)) = β0 + β2 log( P1/(1-P1) ) - log( P0/(1-P0) ) = β1 再看看逻辑回归方程，如何比较三组率：看这个回归方程， X=0组，Y的比值的对数，等于β0 X=1组，Y的比值的对数，等于β0 + β1 X=2组，Y的比值的对数，等于β0 + β2 进一步换算，可以得出： β1的反对数，就是X=1组发生Y的比值，与X=0组发生Y的比值，两个比值的比。 β2的反对数，就是X=2组发生Y的比值，与X=0组发生Y的比值，两个比值的比。这就是逻辑回归方程中，回归系数的解释。可以类推，当X是连续性变量时，X的回归系数β的反对数，就是X每增加一个单位，发生事件的比值（或称危险）是前面的多少倍。如体重指数为23的人发生高血压的危险是体重指数22的人的1.1倍。 log( ( P1/(1-P1) ) / ( P0/(1-P0) ) ) = β1 OR(X=1 vs. x=0) = e β1 OR(X=2 vs. x=0) = e β2

文献中的回归分析应用这是从另一文献中，摘录下来的分析结果：
表中的结果变量，为自然流产（SAB），危险因素为DDE 等，表中Odds Ratio 即比值比。以DDE为例，DDE每增加一个单位，发生自然流产的比值比是1.13，即发生自然流产的比值增加13%，95%可信区间，p值0.025。文献中的回归分析应用

练习读入 regdd.xls 用单因素分析模块分析X6 与Y5 关系将X6转换成连续性变量X6.CONT分析其余Y5 的关系
将Y5转换成2分类变量Y5.P80，取最高的20%为1，下面的80%为0。分析X6、X6.CONT 与Y5.P80的关系现在我给大家做个演示：打开易侕软件，打开以前的分析项目regdd。查看一下X6的分布，X6原编码为A、B、C，将X6转换连续性的变量，生成一个新变量X6.CONT 。查看一下Y5的分布，Y5是个连续性变量，我们将Y5按80%百分位数分成两组，1表示最高的20%，0表示下面的80%，生成一个新变量Y5.P80。调用单因素分析模块，结果变量是Y5、Y5.P80，看易侕统计软件，根据变量类型，自动给出这两个变量的联系函数。Y5是连续性的变量，联系函数是其本身，Y5.P80是两分类型的，联系函数是逻辑，即调用逻辑回归。危险因素是X6与X6.CONT。点击查看表格。

数据统计分析思路医学论文写作系列讲座 I 第二部分：回归分析基础哈佛大学医学院：陈常中 2012年11月

Similar presentations

Presentation on theme: "数据统计分析思路医学论文写作系列讲座 I 第二部分：回归分析基础哈佛大学医学院：陈常中 2012年11月"— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

数据统计分析思路 医学论文写作系列讲座 I 第二部分：回归分析基础 哈佛大学医学院： 陈常中 2012年11月

Similar presentations

Presentation on theme: "数据统计分析思路 医学论文写作系列讲座 I 第二部分：回归分析基础 哈佛大学医学院： 陈常中 2012年11月"— Presentation transcript:

Similar presentations

About project

反馈

数据统计分析思路医学论文写作系列讲座 I 第二部分：回归分析基础哈佛大学医学院：陈常中 2012年11月

Presentation on theme: "数据统计分析思路医学论文写作系列讲座 I 第二部分：回归分析基础哈佛大学医学院：陈常中 2012年11月"— Presentation transcript: