Download presentation
Presentation is loading. Please wait.
1
流行病学分析思路 哈佛大学医学院 陈常中 2012年11月 Mark.chen@empowerstats.com
哈佛大学医学院 陈常中 2012年11月
2
数据 分析 明确的目的:检验假设 假设 现有 数据 课题 设计 假设 资料 收集 资料 提取
先看看科研的过程,首先我们要有个假设,然后设计课题,收集资料,然后是数据分析,数据分析的目的是什么呢? 验证假设。 另一条路线是,我们从现有数据,如临床日积月累的大量病历资料,提起资料。同样我们首先要有个假设,然后根据假设,提取资料,再做数据分析,数据分析的目的是什么呢?同样是验证假设。 很多时候,数据分析不知道怎么做下去,主要是假设不明确,抓住假设,就抓住了目标,就有方向。 资料 收集 资料 提取
3
明确的假设 实例讨论 很多文章不被接受,主要原因是假设不明确,下面看一个被拒稿的论文摘要:
4
在一篇文章里只说一件事 …… Methods: …… to investigate 1652 mother-infant pairs ……. Cord blood concentrations of Mn, birth weight, birth length, head circumference and NBNA (Neonatal Behavioral Neurological Assessments) were tested……. Results: …….. High level group (≥75th percentile, ) of Mn was associated with lower birth length and lower NBNA scores…… Mn was the only factor inversely correlated with NBNA ……, important contribution factors for Mn exposure were ……. Occupation …… 看这里方法部分:测量了锰、出生体重、出生身长、头围、新生儿神经行为评分。 看结果部分:锰与低出生身长、低新生儿神经行为评分有联系,……,与锰暴露有关的因素有…职业等。 这里说的东西太多,哪个都说不好。要验证的假设太多,也就不明确。 最后作者将文章分成3篇,都发表了。
5
科研假设 科研假设,简单来说,就是有一个X、一个Y,Y是结果变量,X是危险因素, X的变化导致Y的变化,X与Y 有联系,或者说有因果关系。如肥胖与高血压的关系,肥胖是X,高血压是Y。 肥胖 高血压
6
要回答的问题: X与Y 之间是什么样的关系? X对Y有没有作用? 什么因素影响X与Y 之间的关系?影响X对Y的作用?
7
如何提高论文的科学价值: 比较下面这些结论
1.胖子与瘦子两组相比,收缩压有显著差别,P<0.005 2.体重指数与收缩压非常显著相关,P<0.0001 3.体重指数每增加1kg/m2,收缩压增加0.01mmHg,95%可信区间: mmHg,P< 在讨论分析思路之前,我们先比较一下,一篇论文中可能会作的几种结论? 1. 胖子与瘦子相比,收缩压有显著差别,P<0.005。可以想象,这个结论是用t检验,比较两组均数得出来的。 2. 体重指数与收缩压,非常显著相关,P<0.0001。这是用相关分析做出来的。 上面这两个结论,统计上都有非常显著的意义,但有没有临床指导意义呢? 它告诉我们降低体重能降低血压吗?能降多少?这些信息都没有。 3. 体重指数每增加1kg,收缩压增加0.01mmHg,95%可信区间: ,P< 。这是用回归方程做出来的。统计上有非常显著的意义。它也告诉我们,每降低体重1公斤,能降低血压0.01mmHg,这个0.01就没有临床意义了,因为控制体重能导致的降压幅度太小。 4. 在控制了其它因素的作用下,体重指数每增加1kg,收缩压增加1mmHg,95%可信区间 mmHg,统计上有显著意义。而且每降低体重1公斤,能降低血压1mmHg,有临床应用价值。这个结果是用多元回归方程做出来的,控制了其它因素的作用,得出的回归系数1mmHg是体重指数对收缩压的独立作用。可以想象当临床上遇到一个高血压又肥胖的病人,你根据这个结果就可以告诉他仅降低体重这一项就能降低血压多少,这就很有临床价值。 比较这些结论,理解统计意义与临床意义的关系,从而理解如何提高一篇论文的科学价值。上面这些结论中,有t检验得出的、相关分析得出的、回归分析得出的。回归分析,给出有临床意义的回归系数,而且可以控制其它因素,分析X对Y的独立作用。医学研究数据中,大部分问题都可用回归分析解决,掌握回归分析非常有必要。 4.在控制了其它因素作用下,体重指数每增加1kg/m2,收缩压增加1mmHg,95%可信区间: mmHg
8
回归方程 给出回归系数,即危险因素作用(效应)的大小,用多元回归方程能得出“独立作用”的大小 可以替代 t检验 / 方差分析 /卡方检验等
回归分析,给出有临床意义的回归系数,而且可以控制其它因素,分析X对Y的独立作用。 回归分析也可以替代t检验、方差分析、卡方检验等。看“回归分析”抢了很多“人”的“饭碗”。 原来你也能做我的工作,不会抢我的饭碗吧?哈哈!
9
文献中的回归分析应用 http://dx.doi.org/10.1016/j.envres.2012.11.002
文献中回归分析的应用最广。看这篇文章的表1,这里面的结果变量有:出生体重、出生身长、新生儿体重指数、新生儿高体重指数;自变量有锰暴露水平的四等分组、性别、出生孕周等,它们之间的联系都是用回归方程得出来的。
10
分析流程 IV、多元模型: I、人群描述 II、单因素分析: 曲线拟合,线性模型,分段模型 III、分层分析: 混杂、交互作用
分析流程的第一步是人群描述。一般论文中的第一个表,一般都是研究人群的描述。用什么样的人群去检验假设很关键,这一点后面我们会再详细阐述。 第二步一般是做单因素分析。单因素分析就是一对一地“单挑”。常涉及到的分析方法有曲线拟合、线性模型、分段线性模型等。 第三步通常是分层分析。把研究人群按某种特征分组分别分析。分层分析主要是解决混杂与交互作用问题,后面会有详细阐述。 第四步通常是多元回归模型分析。多元回归模型用来控制、调整其它因素的混杂作用,目的是通过控制其它因素作用,确切地评估所研究的X对Y的独立作用大小。 通过这些分析,以达到回答前面说的三个问题: (1) X与Y之间有没有关系,是什么样的关系?(2)什么因素影响X与Y之间的关系?影响X对Y 的作用?(3)X对Y有没有独立作用?独立作用的大小是多少? IV、多元模型: 模型比较,调整与控制 危险因素作用大小的确定
11
数据信息中的“亮点” 非直线性的关系:阈值效应与饱和效应 (实例分析 I) 交互作用(效应修饰因子) (实例分析 II)
数据信息中的亮点也就是有很大科学价值的东西,这些亮点的发现对于人们进一步认识事物内部规律有很大贡献。常见的亮点有(1)阈值效应与饱和效应;(2)交互作用。下面让我们分别举例说明:
12
这是发表在2012年11月“环境研究”杂志上的一篇文章,讲的是锰与新生儿体重指数的关系,这两者之间就存在阈值效应,当对数锰大于0
这是发表在2012年11月“环境研究”杂志上的一篇文章,讲的是锰与新生儿体重指数的关系,这两者之间就存在阈值效应,当对数锰大于0.7时,锰增加导致新生儿体重指数增高。这个结果反映了锰在低水平时被认为是一个微量元素,但高水平时有可能是个有害的重金属。阈值效应在生物医学研究中常出现,如很多激素水平、微量元素等的作用常常都有阈值与饱和值。 Yu, et al. Environmen. Res
13
阈值效应与饱和效应 我今天前3小时工作,后1小时机器坏了休息,还按4小时计算我每小时产出。也好,以后我每干3小时都可以休息1小时!哈哈…!
当X达到一定高度时,X才会对Y有影响,这就是有阈值效应。当X达到一定程度时,X不再对Y有影响,这就是饱和效应。找到这个折点,分析折点前后X对Y的作用大小,这就是阈值效应与饱和效应分析。 生活中一个类似的例子,看图上这个流水线上的工人,前3小时工作,后一小时因机器坏了休息,如仍按4小时,计算她每小时的产出当然不合理。 在分析两因素的关系时,要考虑先作散点图与曲线拟合,再根据拟合曲线看是否需要做阈值效应与饱和效应分析。易侕统计软件设计有“平滑曲线拟合”与“阈值效应与饱和效应分析”模块,自动实现这种分析思路。 X对Y的作用有没有分段效应呢?
14
JAMA. 2008 May 7;299(17):2027-36 hcy.cnkme.com
ACEI与叶酸联用降低心脑血管事件19% 下面举例说明什么是交互作用。这是2008年发表在JAMA杂志上的荟萃分析结果,在有ACEI组中,补充叶酸组发生心脑血管事件的相对危险度是0.81, 在无ACEI组中,补充叶酸组发生心脑血管事件的相对危险度是1.15。有无ACEI,叶酸对降低心脑血管事件的作用有显著性差异,P=0.03,这就是交互作用的P值。 JAMA May 7;299(17): hcy.cnkme.com 14
15
交互作用 让我跟F小姐搭档,比跟M先生搭档,我的产出要高出一倍,这个糊涂的领导怎么就看不出来呢? 哪些因素会影响所分析的X对Y的作用呢?
交互作用分析就是找出哪些因素影响X对Y的作用。看这里有一个比喻,让我跟F小姐搭档,比跟M先生搭档,我的产出要高出一倍。 数据分析的任务,就是要找到有无这样的最佳搭档,做个聪明的领导,千万不能糊涂。 交互作用因素又称效应修饰因子。寻找效应修饰因子,对进一步研究X对Y的作用机制很有帮助,也是论文中的一个亮点。在分析时,有必要对每个可能的协变量,是否对所研究的X对Y的作用有影响,进行交互作用筛查。如果某协变量是连续性变量,可以先将该变量分组,如分为三等分组或二等分组,再做交互作用筛查。易侕统计软件设计有“扫描交互作用”模块,自动对所列出的每个协变量是否与所研究的X有交互作用进行扫描。 哪些因素会影响所分析的X对Y的作用呢?
16
论文中要明确的问题 没有偏性? 没有混杂? 一篇文章不被接受的主要原因常是:偏性问题或混杂问题没有明确。当这两个问题不明确时,你的结论很可能是因为偏性或混杂造成的,也就是错误的,这时候如果发你的文章,只是增加“噪音”,不仅没有科学价值,还会引起误导。
17
DDE 与 自然流产研究 病例:第一次怀孕结局为自然流产 对照:第一次怀孕结局为活产, 无自然流产史 测血清 DDE 水平
Ann Epidemiol 2001; 11(7):
18
作者在数据分析时,正确面对研究设计带来的偏性,增加了敏感性分析,提供了这样的敏感性分析结果:如果每个月的哺乳导致DDE的下降不超过7%,所得出的DDE导致自然流产危险增高的结果仍然有显著性。这个结果就有一定的科研价值,所以文章得以发表。
19
再看个混杂的例子,这个图描绘的是练习数据(regdd. xls 下载地址:http://www. empowerstats
再看个混杂的例子,这个图描绘的是练习数据(regdd.xls 下载地址: 随X1 增加而增加。回归系数为0.4899,p值= 。
20
现在把整个数据根据X5分成两组,一组X5=0,黑色表示,这一组中,Y1 与X1 的散点图如上所示,线性回归分析结果:回归系数β1为0
现在把整个数据根据X5分成两组,一组X5=0,黑色表示,这一组中,Y1 与X1 的散点图如上所示,线性回归分析结果:回归系数β1为 ,p值=0.843,不显著,表示在X5=0这一组中,Y1与X1 无关。 再看看另一组X5=1,红色表示,这一组中,Y1 与X1 的散点图如上所示,线性回归分析结果:回归系数β1为0.2616,p值=0.273,也不显著,表示在X5=1这一组中,Y1与X1 也无关。 按X5分组分析,Y1与X1都无关,而合到一起做线性回归分析,得出回归线是中间这条虚线,斜率是0.4899,p值= 非常显著,这是为什么呢? 仔细观察这些红点与黑点就可以看出:(1) 红点位置偏高,表示X5=1组Y1 高,也就是X5与Y1有关;(2)红点偏右,表示X5=1组X1 高,也就是X5 与X1 也有关。 因为X5与X1有关,也与Y1 有关,所以观察到X1 与Y1有关,但当控制了X5 后,即当X5 都是0 或都是1 的情况下看,X1与Y1都无关。这就是发现了原来X1与Y1 的关系是由X5这个混杂因素引起的,X1是X5的“替罪羊”。 分层分析是发现混杂,找到“替罪羊”的最有效的方法。
21
混 杂 找个“替罪羊”还不容易,就栽赃给“他”吧?没人能查出来! 哪个才是真正的危险因素?
混 杂 找个“替罪羊”还不容易,就栽赃给“他”吧?没人能查出来! 通过单因素分析,发现了某因素X与结局变量Y有关,这个X就要被盖上“致病因子”、“危险因素”的帽子了。 请等一下,看看它是不是“冒名顶替”的或被“栽赃陷害”的,真正的凶手可能“另有其人”。这是流行病学数据分析中最重要的一个任务。 哪个才是真正的危险因素?
22
Am J Epidemiol 2001;153:1206–12. Science News: 2001 June 20
这是从文献中截下来的一个分层分析表。X是吃豆腐量,分成4组,Y是血铅水平。看随吃豆腐量增高,血铅水平下降。 再看不同的性别,不同的地区,不同的职业、文化程度等分层分析的结果,每层中观察到的结果都一致。说明所观察到的吃豆腐与血铅的关系,不是这些因素混杂造成。 大家思考一下,作者列出此表的目的是什么? 是要强调其文中所发现的吃豆腐量与血铅的关系,不是这些因素混杂造成的。同时,在各层内观察到相同的规律,也表明这个结果不太可能是偶然因素的发现。 Am J Epidemiol 2001;153:1206–12. Science News: 2001 June 20
24
Y= β0 + β1*X1+ β2*X2+ β3*X3+ β4*X4+ ……
调整与控制 Y= β0 + β1*X1+ β2*X2+ β3*X3+ β4*X4+ …… 既然你做的不计了,那就把你的加到我身上吧,这样我的业绩就更高了,嘿嘿! 可不能把你干的坏事算到我的头上!哈哈! 调整与控制是最容易混淆的问题,很多人不清楚为什么要调整其它因素?哪些因素要调整?哪些因素不需要调整?很多人用逐步回归法筛选变量,发现向前的与向后的方法,得出的结果不同;变量顺序不同,结果也不同。不知道怎么做才对。 这些问题都是因为,没有完全理解调整的意义,对多元回归方程,不能正确解读的缘故。 看图上两个人的对话,一人说,如果你做的业务不计了,就算到我头上吧,这样我的业绩就提高了。这就是把别人的功劳记到了自己的头上。 多元回归分析,比较不同的模型,目的是看X对Y作用中,有没有其它因素的作用在内,有没有把其它因素的功劳,记到了X的头上(即有没有不完全混杂)。调整的目的是,把其它因素的作用剥离出去,正确评价X对Y的作用大小。 X对Y的作用有没有包含其它因素的作用在内呢?
25
结局变量: Y2 β(95% CI ) p 值 单因素分析 X1 0.30 (-0.28, 0.87) 0.311 X2
0.47 ( 0.36, 0.59) <0.001 X3 0.41 ( 0.13, 0.68) 0.004 X4 3.32 ( 0.37, 6.27) 0.028 X5 5.22 ( 2.91, 7.53) <0.001 多因素分析 0.11 ( -0.42, 0.65) 0.679 0.47 ( 0.36, 0.58) <0.001 0.28 ( 0.01, 0.55) 0.044 2.30 ( -0.59, 5.19) 0.119 4.81 ( 2.60, 7.02) <0.001 看这个例子:这里结局变量是练习数据(regdd.xls 下载地址: 与X1、X2、X3、X4、X5的关系逐个做单因素分析。除X1 外,其它4个X与Y2均有显著性关系。再作多元回归模型,把5个X同时放入模型中,结果X1 还是不显著,X2、X3、X5仍然显著,X4变得不显著了。 这里请大家注意每个回归系数的变化: X2没变化;X3变化较大,从0.41变成0.28;X4变化也较大,从3.32变成2.30;X5有一点变化,但不很大。 问题是:X3的回归系数为什么会变化很大呢?
26
多因素回归方程的比较 方程一 方程二 方程三 X1 : 0.11 ( -0.42, 0.65) 0.679
0.47 ( 0.36, 0.57) <0.001 0.28 ( 0.01, 0.55) 0.046 2.28 ( -0.60, 5.17) 0.122 4.93 ( 2.80, 7.06) <0.001 0.47 ( 0.36, 0.58) <0.001 0.36 ( 0.11, 0.61) 0.005 4.77 ( 2.65, 6.90) <0.001 接着看,X1不显著,把X1从模型中剔出,看方程二:X2 的回归系数还是没变化;X3 也没变;X4、X5变化很小。 鉴于X4不显著,再把X4从模型中剔出,得方程三:X2回归系数还是没变,X3 的回归系数从0.28升到0.36,变化很大,X5有一点变化。 不论调整什么,X2的回归系数都没变化,这是为什么呢?是因为X2 与X1、X3、X4、X5都没有关系。 X5的回归系数有变化,但不大,是为什么?是因为X5与其它X有相关,但关系不强。 调整X4 与不调整X4,X3 的回归系数变化很大,这是为什么呢?是因为X3 与X4 关系较大,不调整X4,X4 的作用就加到X3身上去了;调整了X4 ,就是把X4 的作用从X3中剥离出来,这时看到X3 的回归系数就变小了。 如果分析的目的是确定X3对Y2的作用,就应该选方程二,因为方程二中的回归系数更确切地表达了X3对Y2的作用。而不能因为X4 的p值不显著,就不调整X4,因为p值受样本量的影响。 因此在建立多元回归方程评估X对Y的独立作用大小时,如何确定某个因素是否需要调整呢?答案是:要看调整这个因素与否对X的回归系数影响有多大,而不是看这个因素的p值。这就需要运行很多个回归方程,比较X的回归系数的变化。易侕统计设计有“协变量检查与筛选”模块,自动对所列的每个协变量调整与否对X的回归系数的影响进行比较,将结果整理成表格供我们查询,并根据预先设定的标准(如导致X的回归系数改变10%以上)筛选出要调整的协变量。
27
研究人群 适合用来检验你的假设吗? 分层分析实例讨论 最后要说明的一点是,往往初步分析没有显著性结果,是不是就此灰心、放弃了呢?
往往“金子”就在离你3尺的地方,通过分层分析往往能有意外的发现。为什么分层分析会有意外发现呢?下面看个例子。
28
例:被动吸烟与痛经关系 被动吸烟 ---〉是否痛经 跟踪387妇女,1492个月经周期
被动吸烟 ---〉是否痛经 跟踪387妇女,1492个月经周期 Environmental Health Perspectives. November 2000; 108(11): 这是个前瞻性研究,研究被动吸烟与痛经的关系,跟踪了387个新婚妇女,每天记日记,记录是否有被动吸烟、是否来月经、是否有痛经。总共观察了1492个月经周期。下面看看分析结果:
29
被动吸烟 与 痛经 高 无 1.0 低 0.9 中 1.1 被动吸烟 月经周期 % OR P 370 25 373 .49 376 27
被动吸烟 与 痛经 被动吸烟 月经周期 % OR P 无 370 25 1.0 低 373 0.9 .49 中 376 27 1.1 .67 高 31 .54 这是最初的分析结果。被动吸烟分成四组,以无被动吸烟组为参照,高暴露组发生痛经的危险比是1.1 ,P值0.54,这完全是个阴性结果。 这个结论是否正确?下一步分析该如何做? 你如何下结论? 下一步怎么做?
30
高 无 1.0 低 1.1 中 2.1 2.4 没有痛经史妇女中:被动吸烟与痛经 被动吸烟 月经周期 % OR P 145 9 160 10
.84 中 14 2.1 .15 高 17 2.4 .07 看进一步的分析,按研究人群入选时有无痛经史分层,在没有痛经史的妇女中,高暴露组发生痛经的危险是无暴露组的2.4倍。而且看到暴露越高,风险越大,趋势检验得出P<=0.03。这个结论就完全不同。 仔细分析一下,这完全可以理解,在原来已有痛经的妇女中,我们是不可能观察到被动吸烟与痛经的关系的。这个发现也是通过分层分析得出来的。 趋势检验: OR=1.4, P<=0.03
32
检验 X Y 有X (X=1) (A) X + f + d Y (B) a + b + c Y (C) d + e + f Y 无X (X=0) (A) X + f + d Y (B) a + b + c Y (C) d + e + f Y 让我们先看看,我们要验证的假设:X影响Y,X与Y有因果关系。可以想象,可能有几种途径,都会导致Y的发生,假设当有X时,可以有3种途径: 通路A:X加f加d能导致Y的发生;通路B:a加b加c能导致Y的发生;通路C:d加e加f能导致Y的发生。 当没有X时,通路A就不可能发生,只有通过通路B和C 导致Y。流行病学验证假设,X与Y有联系,就是验证通路A是否存在。如果有X组与无X组相比,其它因素f、d、a、b、c等出现的比例相同,也就是说,两组通过通路B和C发生Y的概率相同。这时如果通路A存庄,有X组发生Y的概率就比无X组高。 如果X是Y的一个危险因素,即通路A存在,但你所用的研究人群,不一定能验证出来,为什么呢? 可以想象一下,如果所有的人都没有因素d,你就不能验证出通路A的存在;再如所有的人都有a、b、c呢?即所有的人都会通过通路B发生Y,你也不能验证通路A是否存在。这样一来,你应该明白为什么研究人群很重要,分层分析能帮我们找到特定的人群,能验证我们的假设。 总结一下,分层分析能帮助我们发现混杂、发现效应修饰因子、找到特定的人群适合验证假设。易侕统计设计有“分层分析”模块,自动对所列分层变量逐个分层,在每层内分析所研究的X与Y的关系,最后把结果整理成表格。可以设定表格中的行分层变量与列分层变量(即按两个因素的联合分层分析)。 通路 (A)存在吗? 如果每个人都没有 d, … ? 如果每个人都有 a、 b 、 c, … ?
33
要回答的问题: X与Y 之间是什么样的关系? X对Y有没有作用? 什么因素影响X与Y 之间的关系?影响X对Y的作用?
最后总结一下: 我们的假设是,X影响Y,X与Y有联系,要验证这个假设,需要回答: 第一个问题是: X与Y之间,是什么样的关系?X对Y有没有作用? 其次是:什么因素影响,X与Y之间的关系?什么因素影响,X对Y 的作用? 最后是:X对Y有没有独立作用?独立作用的大小是多少?所谓独立作用,是排除了其它因素的混杂作用后,X对Y的作用。 把这三个问题回答清楚了,就是一篇好文章。 X对Y 有没有独立作用? 独立作用的大小到底是多少?
Similar presentations