流行病学数据分析哈佛大学医学院陈常中 2014年4月

流行病学数据分析哈佛大学医学院陈常中 2014年4月 Mark.chen@empowerstats.com

What you are going to hear from me？
统计方法？统计软件？论文写作？今天大家期望从我这里听到什么呢？特别的统计方法？特别的统计软件？怎么做论文？还是如何做课题设计？等等那到底我将讲的是什么？课题设计？ ……

Of course, there is a secret …
It is hard to explain … 这也是一两句话说不清，至少，大家会从我这里听到一个秘密吧！ Of course, there is a secret …

极度干旱只有11%临床治疗建议有确凿证据 16个指南；2711条建议；确凿证据的仅占11%；半数以上来自于专家意见
极度干旱只有11%临床治疗建议有确凿证据《美国医学会杂志》刊发的一篇文章认为，在目前国际上最有影响力的16个指南共2711条建议中，具有确凿证据的仅占11%，半数以上建议仅来自于专家意见，难以满足临床需要。大量的临床实践需要决策依据，但现在的证据还严重不足。中国有独特而丰富的人群资源，完全有能力成为证据输出国。 16个指南；2711条建议；确凿证据的仅占11%；半数以上来自于专家意见引自《美国医学会杂志》

中国科研论文现状--数量低、质量更低 2012年5月28日在Thomson Reuters 上发表的一篇报告《Insight: China rises in science, but equation may have flaws》 28.5 （0.2/1000人） 47.3 （1.6/1000人）发表论文总数（万篇）顶级杂志论文% 2012年5月28日在汤母斯若特（Thomson Reuters）上发表的一篇题为：“深入的剖析：中国科研在崛起，但模式仍有缺陷的报告中，指出：根据经济合作和发展组织收集的资料，中国2009年发表了二十八万五千篇论文，相当于每千人口0.2篇，其中0.05%发表在高级杂志上。与此相比，美国发表了四十七万三千篇论文，相当于每千人口1.6篇，其中50%以上发表在高级杂志上。英国发表了十三万四千篇论文，相当于每千人口2篇，其中50%以上发表在高级杂志上。文中还指出，据经济合作和发展组织估计，中国每年科研投入1540亿美元，美国每年4000亿美元，欧盟3000亿美元。 50% 0.05%

面粉变不成面包：我国临床医学研究难在哪？
面粉变不成面包：我国临床医学研究难在哪？拥有13亿人口的大国，我国患者数量多，疾病谱系广，有丰富的临床研究资源。与国际同行相比，我国的临床研究能力却相形见绌。我们有广袤的麦田，但要将面粉变成餐桌上的面包，还缺少面包房和面包师。健康报：作者：谭嘉王丹

美国国家科学院院士、耶鲁大学医疗结果评价研究中心哈伦·克鲁姆霍尔兹教授指出：
当前，中国应用的临床指南绝大多数出自西方，少有源于中国的一手证据。这可能使得中国的临床实践对中国患者的危害比发达国家更大。

数据分析：将面粉变成面包的瓶颈数据分析我们知道的
这里有一个园，园内表示我们知道的东西，科学上称已知的，园外是未知的。再仔细看看园外，我们说沿着周长的部分，是我们知道“我们不知道”的东西，而再外面的部分是我们不知道“我们不知道”的东西。科学的发展就是这个园不断扩大。我们看到园越大，周长越长，这代表，当我们知道的越多，我们知道“自己不知道”的东西也越多。怎么才能使园扩大呢？靠的是对我们知道的东西分析、外推，这就是信息的分析利用。数据分析就是将经验、数据转换为证据，应该是由临床工作者主导，根据现有认识对数据从不同角度进行统计分析，对中间结果进行解释、归纳，逐步形成新认识。这相当于“揉面”的过程。

数据分析困难背景知识—研究流程研假究设现有数据课题设计研究假设资料收集资料提取临床医生难以完成
先看看科研的过程，首先我们要有个假设，然后设计课题，收集资料，再就是数据分析，数据分析的目的是什么呢？验证假设。另一条路线是，我们现有数据，如临床日积月累的，大量病历资料，从这些资料中，分析提取科学信息。同样我们先要有个假设，然后根据假设，提取资料，再做数据分析，数据分析的目的是什么呢？同样是验证假设。很多时候，数据分析不知道怎么做下去，主要是假设不明确，抓住假设，就抓住了目标，就有方向。资料收集资料提取

背景知识—数据分析流程建立科研假设（确定数据）编程、调试摘录结果图表结果运行、分析制作图表确定分析思路分析讨论
建立科研假设（确定数据）编程、调试摘录结果图表结果运行、分析制作图表确定分析思路（确定图表）分析讨论结果解释让我们先看看原来数据分析流程，首先有科研假设与数据，确定分析思路，接下来是编程、调试程序，或要调用一个个统计模块，运行程序得出结果后，需要摘录结果制成图表，然后是对图表结果进行分析讨论解释，修改分析思路，对出现的结果需要从不同的角度补充分析、反复论证，这样重复前面的流程，直到形成了比较清晰的结论与完整的解释为止。这也就是说需要有揉面的过程才能生产出好面包。这个流程中，中间这些环节从编程到制作图表是最费时费力的，还需要有相当的统计学水平与计算机编程能力的人才能实现。如果没有团队协作，让临床专家既要懂医学专业，又要懂统计、计算机、软件编程，这是不现实的。看看易侕带来了什么呢？修改分析思路

数据分析：中美主要差异团队合作 vs. 流水线作业
在西方发达国家，临床科研团队都是由有丰富临床实践经验的医务人员为主导，命题、设计、结果分析与归纳总结一般都是由他们提出思路，由流行病学、生物统计、数据管理与分析人员辅助实现。在我国没有象西方那样形成医学、流行病学、统计学、数据管理与数据分析多学科联合的团队，数据统计分析与科研实践相脱节，一批数据往往交给统计人员做一次分析，没有“揉面”的过程，因此生产不出好面包。 vs. 流水线作业

背景知识—数据分析流程建立科研假设（确定数据）编程、调试摘录结果图表结果运行、分析制作图表确定分析思路分析讨论
建立科研假设（确定数据）编程、调试摘录结果图表结果运行、分析制作图表确定分析思路（确定图表）分析讨论结果解释易侕完全取代了从编程到制作图表这些复杂、费时费力的过程，它象机器人，费时费力的事、复杂繁琐的事，由它来作，不仅快上了几千倍几万倍，而且不会出错。现在我们有一个分析思路，只要一个点击，就出来了图表结果。从心想到事成只在一个点击之间。修改分析思路

流行病学分析思路哈佛大学医学院陈常中 2014年4月 Mark.chen@empowerstats.com
数据分析关键是要有分析思路，分析思路如同指导路线，路线正确，才会有好的结果。流行病学研究类型很多，最常用的是危险因素研究，是下面我们主要讨论危险因素研究的数据分析思路。

明确的科研假设科研假设，简单来说，就是有一个X、一个Y，Y是结果变量，X是危险因素， X的变化导致Y的变化，X与Y 有联系，或者说有因果关系。如肥胖与高血压的关系，肥胖是X，高血压是Y。肥胖高血压

Study Design Assigned exposure X? Observational Experimental
No Yes Observational Experimental Descriptive Case report Case series Survey No Randomized? Comparison? No Yes Quasi Analytic Cross sectional Case-control Cohort studies Yes Randomized controlled trials

Time Cohort study Exposure Outcome Case-control study Outcome Exposure Exposure Cros-sectional study Outcome

Clinical Trial Study Population Treatment Group Outcomes Randomize
Comparison Blindness ? Control Group Outcomes

Distinguishes observational from experiments?
Ability to control for confounding Confounder Eg. alcohol, stress, … Predictors Eg. Smoking Outcome Eg. dysmenorrheal

A sample data format from cross-sectional study
ID AGE SEX HT WT SBP DBP SMK HYP …… 1 25 165 55 148 86 2 39 168 60 128 78 3 27 170 63 116 76 4 34 172 69 110 70 5 28 64 114 72 6 46 171 142 92 7 32 167 71 122 8 50 163 66 9 166 74 10 47 173 126 82 Potential hypothesis to test: BMI with SBP/DBP, SMK with SBP/DBP, ……

A sample data format from case-control study
ID CASE AGE SEX HT WT SBP DBP SMK ALH …… 1 25 165 55 148 86 2 39 168 60 128 78 3 27 170 63 116 76 4 34 172 69 110 70 5 28 64 114 72 6 46 171 142 92 7 32 167 71 122 8 50 163 66 9 166 74 10 47 173 126 82 Potential hypothesis to test: SMK with CASE, BMI/SBP/DBP with CASE, ……

横断面与病例对照研究数据特点例：分析BMI与SBP/DBP关系分析SMK与SBP/DBP关系分析基因型与SBP/DBP关系
1、X与Y的先后次序很难明确 2、偏性

A sample data format from cohort study
ID EXPO AGE SEX HT WT SBP DBP SMK ALH …… 1 25 165 55 148 86 2 39 168 60 128 78 3 27 170 63 116 76 4 34 172 69 110 70 5 28 64 114 72 6 46 171 142 92 7 32 167 71 122 8 50 163 66 9 166 74 10 47 173 126 82 Potential hypothesis to test: EXPO with BMI, BMI with SBP/DBP, ……

A sample data format from RCT
ID Treatment AGE SEX HT WT SBP DBP SMK ALH …… 1 25 165 55 148 86 2 39 168 60 128 78 3 27 170 63 116 76 4 34 172 69 110 70 5 28 64 114 72 6 46 171 142 92 7 32 167 71 122 8 50 163 66 9 166 74 10 47 173 126 82 Hypothesis to test: TREATMENT with outcomes ……

研究人群的选取偏性代表性下面看一个偏性的例子：这是个病例对照研究，第一次怀孕结局为自然流产的属病例组，第一次怀孕结局是活产且无自然流产史的为对照组，确定了病例与对照后，采血测血清里的DDE水平，分析DDE是否与自然流产有关。因为对照组是活产，活产后就会有哺乳，哺乳会排泄DDE，所以这个研究设计会导致对照组DDE倾向性的低，这就有偏性。

偏性：DDE 与自然流产研究病例：第一次怀孕结局为自然流产对照：第一次怀孕结局为活产，无自然流产史测血清 DDE 水平
Ann Epidemiol 2001; 11(7):

作者在数据分析时，正确面对研究设计带来的偏性，增加了敏感性分析，提供了这样的敏感性分析结果：如果每哺乳一个月，导致DDE的下降不超过7%，本文所得出的DDE导致自然流产危险增高的结果，仍然有显著性。这个敏感性分析结果就有一定的科研价值，所以文章得以发表。

科研假设明确的假设在一篇文章里只说一件事很多文章不被接受，主要原因是假设不明确。在一篇文章里只说一件事是关键。肥胖高血压

实例1：被拒稿的文章 …… Methods: …… to investigate 1652 mother-infant pairs ……. Cord blood concentrations of Mn, birth weight, birth length, head circumference and NBNA (Neonatal Behavioral Neurological Assessments) were tested……. Results: …….. High level group (≥75th percentile, ) of Mn was associated with lower birth length and lower NBNA scores…… Mn was the only factor inversely correlated with NBNA ……, important contribution factors for Mn exposure were ……. Occupation …… 下面看一个被拒稿的论文摘要：看这里方法部分：测量了锰、出生体重、出生身长、头围、新生儿神经行为评分。看结果部分：锰与低出生身长、低新生儿神经行为评分有联系，……，与锰暴露有关的因素有…职业等。这里说的东西太多，哪个都说不好。要验证的假设太多，也就不明确。

明确的假设在一篇文章里只说一件事修改后发表三篇论文
最后作者将文章分成3篇，都发表了。因此在一篇文章里只说一件事，把它说清楚了，就是好文章。

比较这些结论, 理解论文的科学价值体重指数与收缩压非常显著相关，P<0.0001; 胖子与瘦子两组相比，
挖掘数据在控制了其它因素作用下，体重指数每增加1kg/m2，收缩压增加1mmHg，95%CI: mmHg; 临床意义统计学显著体重指数每增加1kg/m2，收缩压增加0.01mmHg, 95%CI: mmHg，P< ; 体重指数与收缩压非常显著相关，P<0.0001; 在讨论分析思路之前，我们先比较一下，一篇论文中可能的几种结论？ 1. 胖子与瘦子相比，收缩压有显著差别，P<0.005。可以想象，这个结论是用t检验，比较两组均数得出来的。 2. 体重指数与收缩压，非常显著相关，P<0.0001。也可以想象，这是用相关分析做出来的。上面这两个结论，统计上都有非常显著的意义，但有没有临床指导意义呢？它告诉我们降低体重能降低血压吗？能降多少？这些信息都没有。 3. 体重指数每增加1kg，收缩压增加0.01mmHg，95%可信区间：，P< 。这是用回归方程做出来的。统计上有非常显著的意义。它也告诉我们，每降低体重1公斤，能降低血压0.01mmHg，这个0.01就没有临床意义了，因为控制体重能导致的降压幅度太小。 4. 在控制了其它因素的作用下，体重指数每增加1kg，收缩压增加1mmHg，95%可信区间 mmHg，统计上有显著意义。而且每降低体重1公斤，能降低血压1mmHg，有临床应用价值。这个结果是用多元回归方程做出来的，控制了其它因素的作用，得出的回归系数1mmHg是体重指数对收缩压的独立作用。可以想象当临床上遇到一个高血压又肥胖的病人，你根据这个结果就可以告诉他仅降低体重这一项就能降低血压多少，这就很有临床价值。比较这些结论，理解统计意义与临床意义的关系，从而理解如何提高一篇论文的科学价值。上面这些结论中，有t检验得出的、相关分析得出的、回归分析得出的。回归分析，给出有临床意义的回归系数，而且可以控制其它因素，分析X对Y的独立作用。医学研究数据中，大部分问题都可用回归分析解决，掌握回归分析非常有必要。胖子与瘦子两组相比，收缩压有显著差别，P<0.005;

控制了哪些混杂因素的作用？研究人群的描述
控制了哪些混杂因素的作用？研究人群的描述课题设计从选定研究人群开始数据分析也是从选定研究人群，选定要分析的变量开始。

人群基本特征：性别、年龄等与 X 可能有关的变量与 Y 可能有关的变量
这是从文献中摘录下来的，一个典型的研究人群描述表一，这是个病例对照研究，研究的是血清DDE水平，与自然流产关系，表中列分病例组与对照组。在这个表中，需要考虑的是要描述哪些变量？简单来说，要描述的变量分三类：一是人群的基本特征如：性别、年龄、种族、文化程度等；二是与Y可能有关的变量：这里如吸烟、饮酒、轮班作业、粉尘、噪音、振动等，都可能与自然流产有关。三是与X可能有关的变量：这里如哺乳及哺乳时间。哺乳能排泄体内DDE。哪些变量与X和Y可能有关呢？这就要看文献了，已有的研究报道中，提到的与X和Y可能有关的因素，在你的研究中要尽可能收集到，并在研究人群的描述中列出来。研究人群描述，表中列分组，一般根据研究类型，如果是队列研究，分暴露组与非暴露组；病例对照研究，分病例组与对照组；也有不分组的。与 Y 可能有关的变量

X对Y有没有独立作用？什么因素影响X与Y之间的关系？独立作用的大小到底是多少？ X与Y之间是什么样的关系？影响X对Y的作用？
要回答的问题 3 X对Y有没有独立作用？独立作用的大小到底是多少？什么因素影响X与Y之间的关系？影响X对Y的作用？ 2 1 X与Y之间是什么样的关系？ X对Y有没有作用？我们的假设是，X影响Y，X与Y有联系，如何分析X与Y的关系呢？一般我们需要回答这样三个问题：第一个问题是： X与Y之间是什么样的关系？X对Y有没有作用？第二个问题是：什么因素影响X与Y之间的关系？什么因素影响X对Y 的作用？最后是：X对Y有没有独立作用？独立作用的大小是多少？所谓独立作用，是排除了其它因素的混杂作用后，X对Y的作用。

背景：一个大型队列研究数据：基线问卷调查（>200个变量）血铅检测数据例一

例一

被动吸烟 ---〉是否痛经跟踪387妇女，1492个月经周期
Environmental Health Perspectives. November 2000; 108(11): 例二被动吸烟 ---〉是否痛经跟踪387妇女，1492个月经周期

例二

实战篇

78654390278 * 2387549568= ? 手工算，算盘计算器怎么算？ SAS,R,SPSS,… 怎么分析？
这两个大数相乘，你用手算或算盘算，需要学习怎么手算，学习怎么打算盘，然后要一步步算。要花一点时间才能得出结果，还有可能出错。有了一个数据文件，你怎么统计分析？用SAS或R或SPSS等，需要学习统计知识，学习这些软件怎么用，然后是一步步分析，同样要花一点时间才能得出结果，还有可能出错。 SAS,R,SPSS,… EmpowerStats 怎么分析？

易侕统计—特点 1分钟玩转统计图表两大特点区别于传统软件高质量 SCI论文全面扫描深挖数据信息

X对Y有没有独立作用？什么因素影响X与Y之间的关系？独立作用的大小到底是多少？ X与Y之间是什么样的关系？影响X对Y的作用？
要回答的问题 3 X对Y有没有独立作用？独立作用的大小到底是多少？什么因素影响X与Y之间的关系？影响X对Y的作用？ 2 1 X与Y之间是什么样的关系？ X对Y有没有作用？我们的假设是，X影响Y，X与Y有联系，如何分析X与Y的关系呢？一般我们需要回答这样三个问题：第一个问题是： X与Y之间是什么样的关系？X对Y有没有作用？第二个问题是：什么因素影响X与Y之间的关系？什么因素影响X对Y 的作用？最后是：X对Y有没有独立作用？独立作用的大小是多少？所谓独立作用，是排除了其它因素的混杂作用后，X对Y的作用。

X与Y 之间是什么样的关系？如 X：BMI，Y：SBP，用什么方法统计？ X：是否吸烟，Y：SBP，什么方法？ X：BMI，Y：是否患高血压，什么方法？ X：是否吸烟，Y：是否患高血压，什么方法？分析两个变量之间的关系，用什么统计方法，取决于变量的类型，如X是BMI、Y是SBP，两者都是连续性变量，可以用线性回归，曲线拟合，还可以把X即BMI分组，用方差分析。如X是是否吸烟，两分类变量，Y是连续性变量SBP，用什么方法呢？如果X是连续性变量BMI，Y是两分类变量是否有高血压，又应该用什么方法呢？如果X、Y都是分类变量又该用什么方法呢？这需要我们懂统计方法，会应用，这对很多人来说是很困难的事？

Quick plot and tests 变量图示与统计检验
哪有那么复杂… 1分钟玩转统计现在多因素分析直线回归曲线拟合单因素分析一般人群描述 Quick plot and tests 变量图示与统计检验但如果你用易侕统计，哪有那么复杂，你只要告诉它你要看哪两者之间的关系就可以了，不需要你选择统计方法。看看这个演示。

哪有那么简单… 很多时候它不是直线性的这是发表在2012年11月“环境研究”杂志上的一篇文章，讲的是锰与新生儿体重指数的关系，这两者之间就存在阈值效应，当对数锰大于0.7时，锰增加导致新生儿体重指数增高。这个结果反映了锰在低水平时被认为是一个微量元素，但高水平时有可能是个有害的重金属。阈值效应在生物医学研究中常出现，如很多激素水平、微量元素等的作用常常都有阈值与饱和值。 Yu, X., L. Cao and X. Yu, Elevated cord serum manganese level is associated with a neonatal high ponderal index. Environ Res, : p

OMICS Group Conferences, August, 26,2014
还是那么简单… 即使它不是直线性的 “阈值效应和饱和效应分析模块”—新技术；用于寻找生物医学研究中的“拐点”；该模块因其独特性，受到国内外研究者的好评； Dr. Chen OMICS Group Conferences, August, 26,2014 当X是连续性变量时，随X的变化，Y是否呈直线性的变化趋势呢？不一定，通常我们用线性回归都是假定是直线性的变化，这可能掩盖了数据内部的真实规律。看看下面这个例子。再看看易侕统计数据挖掘功能模块：平滑曲线拟合与阈值效应与饱和效应分析平滑曲线拟合、阈值效应与饱和效应分析

什么因素影响X与Y 之间的关系？

可以假想这样一种情况，X影响Y，在吸烟的人群中，X增加Y也增加，在过去吸烟现在不吸烟的人群中，X增加Y也增加，在从不吸烟的人群中，X增加Y也增加，大家有没有看到X与Y的关系在这三组人群中有什么不同呀？
对了，斜率不同，X每增加一个单位，Y增加的幅度不一样，如果统计检验这三组斜率有显著性差异，就表示X与吸烟状态有交互作用。吸烟影响X对Y的作用。 Y Y Y x x x

交互作用： X1 & X2 (1) d + e + f  Y (2) X1 + f + d  Y (3) X2 + b + c  Y (4) X1 + X2 + g  Y 在讨论研究人群描述之前，让我们先看看，我们要验证的假设：X影响Y，X与Y有因果关系。可以想象，可能有几种途径，都会导致Y的发生，假设当有X时，可以有3种途径：通路A是：X加f加d，能导致Y的发生；通路B是：a加b加c，能导致Y的发生；通路C是：d加e加f，能导致Y的发生。当没有X时，通路A就不可能发生，只有通过通路B和C 导致Y。流行病学验证假设，X与Y有联系，就是验证通路A是否存在。如果有X组与无X组相比，其它因素f、d、a、b、c等出现的比例相同，也就是说，两组通过通路B和C，发生Y的概率相同。这时，如果通路A存庄，有X组发生Y的概率，就比无X组高。如果X是Y的一个危险因素，即通路A存在，但你所用的研究人群，不一定能验证出来，为什么呢？可以想象一下，如果所有的人，都没有因素d，你就不能验证出通路A的存在；再如所有的人都有a、b、c呢？即所有的人都会通过通路B发生Y，你也不能验证通路A是否存在。这样一来，你应该明白，为什么研究人群很重要。

实例2：SCI论文数据挖掘—交互作用篇

阴性结果—怎么办？

ACEI与叶酸联用降低心脑血管事件19%

具体操作 1分钟玩转统计多因素分析直线回归曲线拟合单因素分析一般人群描述易侕统计—交互作用检验模块

X对Y 有没有独立作用？独立作用的大小到底是多少？
独立作用大小的意义独立作用大小的评价

？玩转统计图表挖掘数据挽救研究实例3：SCI论文数据挖掘—混杂作用篇临床问题使用抗生素哮喘研究设计
瑞典婴幼儿的前瞻性队列研究，选取健康注册的40万名幼儿，其中包括18万名同胞幼儿。分析结果

玩转统计图表挖掘数据挽救研究实例3：SCI论文数据挖掘—混杂作用篇结论替罪羊混杂因素临床新发现使用抗生素哮喘真凶
结论替罪羊混杂因素临床新发现使用抗生素哮喘真凶危险因素家庭因素呼吸道感染发表论文 BMJ, : p. g6979. SCI IF=

吸烟：N=146 不吸烟：N=276 Height = 1.563 + 0.092*Smoke
再看这个分析：在年龄20-40岁的人群中观察吸烟与身高的关系。单因素回归分析得出回归系数为0.092，即吸烟者比不吸烟者高9cm，P值小于0.001。再看这276个不吸烟者与146个吸烟者的性别构成如何： Height = *Smoke

Height = 1.747 + 0.015*Smoke - 0.103*Female
276个不吸烟者里219个是女性，57个是男性，也就是说不吸烟者主要是女性；146个吸烟者中139个是男性，只有7个是女性，也就是说吸烟者主要是男性。因此前面观察到的吸烟的差异里包含有性别的差异。用多元回归模型，调整性别后，也就是把性别的作用剥离出来，得出这样一个回归方程式，它告诉我们男女之间身高相差10.3cm，吸烟比不吸烟者相差1.5cm。 N=57 N=139 N=219 N=7 Height = *Smoke *Female

Y= β0 + β1*X1+ β2*X2+ β3*X3+ β4*X4+ ……
调整与控制 Y= β0 + β1*X1+ β2*X2+ β3*X3+ β4*X4+ …… X对Y的作用有没有包含其它因素的作用在内呢？调整与控制是最容易混淆的问题，很多人不清楚为什么要调整其它因素？哪些因素要调整？哪些因素不需要调整？很多人用逐步回归法筛选变量，发现向前的与向后的方法，得出的结果不同；变量顺序不同，结果也不同。不知道怎么做才对。这些问题都是因为，没有完全理解调整的意义，对多元回归方程，不能正确解读的缘故。多元回归分析，比较不同的模型，目的是看X对Y作用中，有没有其它因素的作用在内，有没有把其它因素的功劳，记到了X的头上（即有没有不完全混杂）。调整的目的是，把其它因素的作用剥离出去，正确评价X对Y的作用大小。

结局变量: Y2 β（95% CI ） p 值单因素分析 X1 0.30 (-0.28, 0.87) 0.311 X2
0.47 ( 0.36, 0.59) <0.001 X3 0.41 ( 0.13, 0.68) 0.004 X4 3.32 ( 0.37, 6.27) 0.028 X5 5.22 ( 2.91, 7.53) <0.001 多因素分析 0.11 ( -0.42, 0.65) 0.679 0.47 ( 0.36, 0.58) <0.001 0.28 ( 0.01, 0.55) 0.044 2.30 ( -0.59, 5.19) 0.119 4.81 ( 2.60, 7.02) <0.001 看这个例子：这里结局变量是练习数据（regdd.xls 下载地址：与X1、X2、X3、X4、X5的关系逐个做单因素分析。除X1 外，其它4个X与Y2均有显著性关系。再作多元回归模型，把5个X同时放入模型中，结果X1 还是不显著，X2、X3、X5仍然显著，X4变得不显著了。这里请大家注意每个回归系数的变化： X2没变化；X3变化较大，从0.41变成0.28；X4变化也较大，从3.32变成2.30；X5有一点变化，但不很大。问题是：X3的回归系数为什么会变化很大呢？

多因素回归方程的比较方程一方程二方程三 X1 : 0.11 ( -0.42, 0.65) 0.679
0.47 ( 0.36, 0.57) <0.001 0.28 ( 0.01, 0.55) 0.046 2.28 ( -0.60, 5.17) 0.122 4.93 ( 2.80, 7.06) <0.001 0.47 ( 0.36, 0.58) <0.001 0.36 ( 0.11, 0.61) 0.005 4.77 ( 2.65, 6.90) <0.001 接着看，X1不显著，把X1从模型中剔出，看方程二：X2 的回归系数还是没变化；X3 也没变；X4、X5变化很小。鉴于X4不显著，再把X4从模型中剔出，得方程三：X2回归系数还是没变，X3 的回归系数从0.28升到0.36，变化很大，X5有一点变化。不论调整什么，X2的回归系数都没变化，这是为什么呢？是因为X2 与X1、X3、X4、X5都没有关系。 X5的回归系数有变化，但不大，是为什么？是因为X5与其它X有相关，但关系不强。调整X4 与不调整X4，X3 的回归系数变化很大，这是为什么呢？是因为X3 与X4 关系较大，不调整X4，X4 的作用就加到X3身上去了；调整了X4 ，就是把X4 的作用从X3中剥离出来，这时看到X3 的回归系数就变小了。如果分析的目的是确定X3对Y2的作用，就应该选方程二，因为方程二中的回归系数更确切地表达了X3对Y2的作用。而不能因为X4 的p值不显著，就不调整X4，因为p值受样本量的影响。因此在建立多元回归方程评估X对Y的独立作用大小时，如何确定某个因素是否需要调整呢？答案是：要看调整这个因素与否对X的回归系数影响有多大，而不是看这个因素的p值。这就需要运行很多个回归方程，比较X的回归系数的变化。

分析X对Y的作用，要调整C吗？ Y = β0 + β1 C C 的P 值？ Y = β0 + β1 X
Y = β0 + β1 X + β2 C β1的变化？完整模型中剔除C 在分析X对Y的作用时，是否要调整 “C” 呢？回答要不要调整“C” ，先看“C”与Y有没有联系，用单因素分析，看“C”的P值。再看调整“C”与不调整“C”，X对Y的作用是否有变化。我们先运行基本模型，记录β1 ，再在该模型中加入“C”，看β1变化多大？再运行一个完整的模型，即调整所有可能的因素，然后从模型中剔除“C”，看X的回归系数β1 的变化。 Y = β0 + β1 X + β2 C + β3 A2 + …… Y = β0 + β1 X + β2 C + β3 A2+ …… β1的变化？

到底要调整哪些因素？ EmpowerStats 协变量检查与筛选模块

这是易侕统计协变量检查与筛选模块输入界面，给出研究假设中的结果变量Y，这里如SBP、DBP，与危险因素X变量，这里如体重指数。要分析的是体重指数对SBP、DBP的独立作用大小，作者认为年龄是固定要调整的变量，放在固定要调整的变量处。其它变量如是否吸烟、文化程度、被动吸烟、职业、饮酒是否需要调整呢？放在要检查与筛选的变量处，点击查看结果即可。

这是输出结果，看表头：Y是结果变量，这里以SBP为例，X是危险因素，C是可能要调整的变量。按照前面与大家讨论的，先看C与Y的关系的P值。接着看在基本模型中引进C，看X的回归系数的变化，这里基本模型是SBP=BMI+AGE，在这个模型中，BMI的回归系数是0.615，引进是否吸烟后，变成了0.609，变化了0.9%。再看在完整模型中剔除C，这里完整模型是SBP=BMI+AGE+所有可能要调整的变量，在这个模型中BMI的回归系数是0.710，剔除是否吸烟后，变成了0.721，变化了1.5%。依此类推。最后软件建议要调整EDU与OCCU。

数据挖掘

数据挖掘— 非直线性关系（阈值效应/饱和效应
数据挖掘— 非直线性关系（阈值效应/饱和效应这是发表在2012年11月“环境研究”杂志上的一篇文章，讲的是锰与新生儿体重指数的关系，这两者之间就存在阈值效应，当对数锰大于0.7时，锰增加导致新生儿体重指数增高。这个结果反映了锰在低水平时被认为是一个微量元素，但高水平时有可能是个有害的重金属。阈值效应在生物医学研究中常出现，如很多激素水平、微量元素等的作用常常都有阈值与饱和值。 Yu, X., L. Cao and X. Yu, Elevated cord serum manganese level is associated with a neonatal high ponderal index. Environ Res, : p

被动吸烟 ---〉是否痛经数据挖掘— 分层分析/扫描交互作用跟踪387妇女，1492个月经周期
数据挖掘— 分层分析/扫描交互作用 Environmental Health Perspectives. November 2000; 108(11): 看这个研究，分析被动吸烟与痛经的关系。这是个前瞻性研究，跟踪了387个新婚妇女，每天记日记，记录是否有被动吸烟、是否来月经、是否有痛经。总共观察了1492个月经周期。文章发表在环境卫生展望 2000年11月。下面看看分析结果：被动吸烟 ---〉是否痛经跟踪387妇女，1492个月经周期

被动吸烟与痛经高无 1.0 低 0.9 中 1.1 被动吸烟月经周期 % OR P 370 25 373 .49 376 27
被动吸烟与痛经被动吸烟月经周期 % OR P 无 370 25 1.0 低 373 0.9 .49 中 376 27 1.1 .67 高 31 .54 这是最初的分析结果。被动吸烟分成四组，以无被动吸烟组为参照，高暴露组发生痛经的危险比是1.1 ，P值0.54，这完全是个阴性结果。这个结论是否正确？下一步分析该如何做呢？你如何下结论？下一步怎么做？

高无 1.0 低 1.1 中 2.1 2.4 没有痛经史妇女中：被动吸烟与痛经被动吸烟月经周期 % OR P 145 9 160 10
.84 中 14 2.1 .15 高 17 2.4 .07 看进一步的分析，按研究人群入选时有无痛经史分层，在没有痛经史的妇女中，高暴露组发生痛经的危险是无暴露组的2.4倍。而且看到暴露越高，风险越大，趋势检验得出P<=0.03。这个结论就完全不同。看现在所用的样本量：各暴露组只有160个周期，而原来包括所有人在内有370多个周期，现在的样本量不到原来的二分之一，但却能得出阳性结果。为什么呢？仔细分析一下，这完全可以理解，在原来已有痛经的妇女中，我们是不可能观察被动吸烟与痛经的关系的。把她们放在里面分析只会稀释被动吸烟的作用。这个例子告诉我们，所用的研究人群是否适合验证你的假设，这个问题至关重要。趋势检验: OR=1.4, P<=0.03

这篇文章发表后，science news 于2000年10月21日报道了该研究结果。

具体操作 “分层分析”模块 “交互作用检验”模块 “扫描交互作用”模块 1分钟玩转统计直线回归单因素分析曲线拟合一般人群描述
多因素分析直线回归曲线拟合单因素分析一般人群描述 “分层分析”模块 “交互作用检验”模块 “扫描交互作用”模块

数据挖掘— 诊断/扫描数据内部关联关系背景：一个大型队列研究数据：基线问卷调查（>200个变量）血铅检测数据
数据挖掘— 诊断/扫描数据内部关联关系背景：一个大型队列研究数据：基线问卷调查（>200个变量）血铅检测数据从200多个变量里扫描找到吃豆腐量（分成4组）与血铅水平的关系。

这篇文章发表后不久，science news 于2001年6月20日报道了这个发现。

诊断数据关联关系模块，融合现代计算机软件技术，实现了数据可视化、自动化分析。
自动化：自动扫描哪些变量与所关注的分析变量有关可视化：图示原始数据、选点分组，即时分析比较。易侕统计—诊断数据关联关系模块

易侕 = 巨人的肩膀易侕等于巨人的肩膀：如果你是数据分析的新手，对很多统计方法不了解，不会编程，对分析思路掌握也不多，用上易侕，你就像一步登上了巨人的肩膀，你的数据分析水平会在很短的时间内达到国际先进水平。

易侕 --- 让你腾飞易侕助你快速飞越：如果你有多年数据分析的经验，有很强的统计功底与编程技巧，熟练使用SAS、R、SPSS等统计软件，现在用上易侕，就像从骑自行车换乘飞机，你的数据分析将更快、更深入、更全面。

用户体验用易侕软件分析数据，是一种享受！用易侕一年，发8篇SCI论文！ — 上海交大余晓丹副教授易侕统计，让一切变得简单明了！
— 武汉协和医院陈星霖博士用易侕一年，发8篇SCI论文！ — 上海交大余晓丹副教授易侕统计，让一切变得简单明了！ — 温州医学院毛广运副教授

What Secrete Do You Get? 工欲善其事，必先利其器

省力成就更多免费下载试用易侕软件中文网址：http://empowerstats.com/cn/
BBS：用户交流QQ群：学生版授课教程：Empower U 盘成就更多省力省时

学习平台扫此二维码或搜索 “易侕统计”

流行病学数据分析哈佛大学医学院陈常中 2014年4月

Similar presentations

Presentation on theme: "流行病学数据分析哈佛大学医学院陈常中 2014年4月"— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

流行病学数据分析 哈佛大学医学院陈常中 2014年4月

Similar presentations

Presentation on theme: "流行病学数据分析 哈佛大学医学院陈常中 2014年4月"— Presentation transcript:

Similar presentations

About project

反馈

流行病学数据分析哈佛大学医学院陈常中 2014年4月

Presentation on theme: "流行病学数据分析哈佛大学医学院陈常中 2014年4月"— Presentation transcript: