医学科研设计与统计学思维
医学统计学要说它简单吧,其实也挺简单的,常见的 统计方法也就十余种,在教科书上都能找到,只要熟练掌握了, 虽不敢夸下海口说可以“以秋风扫落叶的气概横扫四海之内的杂 志”,但足以轻车熟路地应付一般的科学研究。要说它复杂吧, 也挺复杂的,毫不夸张地说,绝大部分国内期刊,甚至在SCI 杂志上,乱用统计学的现象多如牛毛。很多人在学习医学统计 学时,都在抱怨自己很难走出“一学就会,一会就用,一用就错, 一错就懵”的怪圈。究其原因,主要是我们在学习医学统计学时 都抱着一副“依葫芦画瓢”的态度,试图“套用统计学方法”来解决 自己面临的问题,而不去仔细思考统计学方法的本身的特点。
没有设计的临床干预试验 1685年抢救英国国王查理二世(Charles II ,1630-1685):
有设计的临床干预试验 1747年5月20日,英国的J. Lind医生将12名病情相同似的患者带到一艘船上。患者的主要症状是牙龈溃烂,皮肤有出血点,双膝无力。Lind将12名患者分为6组,分别给予下列主要干预: A组:每天饮1夸脱(1.136L)苹果汁; B组:服25滴硫酸丹剂(elixir vitriol),每天3次; C组:服2匙醋,每天3次; D组:每天饮约半品脱海水,服缓和的泻药; E组:每天食2个桔子,一个柠檬; F组:每天服由大蒜、芥子等成份组成的干药。 当6月16日船返回英国Plymouth港时,所有患者的病情都有好转,其中E组恢复的最快、最好,其中一人到第6天就可以工作了。B组也有一人比登船时健康。Lind医生的试验并没有得出明确的结论,直到160年后,通过动物实验才真正从科学意义上解释了E组疗效最好的真正原因。
J.Lind医生的研究有二点符合统计学的设计: 1、设立了对照(相互对照); 2、质量控制(消除了一些混杂)。 如果我们今天重复J.Lind的研究,在统计设计的上 还需要做到以下几点: 1、研究对象的定义与纳入标准和排除标准 2、足够多的观察对象 3、效应指标的选择 4、结论是否能外推
统计学方法用于干预试验 1835年,法国医生P.C.A. Louis 对当时流行的“放血”疗法治疗肺炎的效果进行了比较,发现“放血”的疗效不象预期的那么好,而且早期“放血”和晚期“放血”组比较,患者的诊断、病情、病程、年龄等方面的差异很大,比较平均治愈时间意义不大。因为晚期“放血”组的平均治愈时间长,但该组患者病情重、病程长、年龄大。 Louis对医学研究的方法学作出了很大贡献: (1)用数字的方法表示不同疾病患者的特征和预后; (2)提出了临床疗效对比的前瞻性原则; (3)提出抽样误差和混杂(confounding)概念。其中前瞻性研究和减少混杂,分别成为当今临床试验和流行病学研究的基本研究方法; (4)在J. Gavarret 的协助下,Louis的数字方法发展为“概率框架”,Gavarret也于1840年在巴黎出版了世界第一部医学统计学教科书。
“非常痛心地看到,因为数据分析的缺陷和错误,那么多好的生物研究工作面临着被葬送的危险” F. Yates,M.J.R. Healy 医学论文中的统计问题 统计知识的运用 撰写论文:报告自己观察或实验的研究结果 阅读论文:吸收新知识,了解学术进展 1996年,对申报科技成果的4586篇科研论文分析, 统计方法使用率为76%。 医学论文中统计运用错误,除了影响论文的科学性,还可能导致严重的伦理学问题。
“调查结果反映了医学论文作者统计知识和统计水平的低下,也再次强调了生物统计学者不是令人生畏的检查官。恰恰相反,生物统计学者是我们的可贵盟友。生物统计学不是远离我们的数学,而是现代医学的一门基本学科,就像大厦中的一个支柱” ---JAMA的编辑部 60年代到80年代,国外医学杂志调查结果:有统计错误的论文20%~72%。 1984年对《中华医学杂志》、《中华内科杂志》、《中华外科杂志》、《中华妇产科杂志》、《中华儿科杂志》595篇论文的调查结果: 相对数误用为11.2% 抽样方法误用15.9% 统计图表误用11.7% 1996年对4586篇论文统计(中华医学会系列杂志占6.9%),数据分析方法误用达55.7%。
科学容不得半点虚假,造假者一旦被揭露就背上了永远洗脱不掉的耻辱 。 伪造统计数据违反科学道德 据1976年New Science 杂志关于科研舞弊行为的调查74%的调查表反映有不正当修改数据的情况,其中,17%拼凑实验结果,7%凭空捏造数据,2%故意曲解结果。 就统计学本身来说,正确实验设计得出的统计结果,是用P值作为“重现性”的概率保证。P<0.05,就是说实验结果显示的差别是机遇所致的可能性不足5%,或者说,别人在同样的条件下重复同样的试验,得出相反结论的可能性不足5%。
统计推断 statistical inference 内容: 参数估计(estimation of parameters) 包括:点估计与区间估计 2. 假设检验(test of hypothesis) 总体 样本 抽取部分观察单位 统计量 参 数 统计推断 如:样本均数 样本标准差S 样本率 P 如:总体均数 总体标准差 总体率
抽样误差 抽样误差 (sampling error) :由于个体差异导致的样本统计量与总体参数间的差别。 总体 参 数 统计推断 统计量 抽取部分观察单位 统计量 参 数 统计推断 如:样本均数 样本标准差S 样本率 P 如:总体均数 总体标准差 总体率
统计的结论是推断而不是证明,正确的统计结论必须 建立在科学的设计和合适的统计方法上,否则得到是不恰 当或是错误的结论。 1、收集数据的方法(研究假说、调查或实验设计、误 差和偏倚的控制等) 2、分析数据的方法(变量的类型、数据的分布、研究 目的和因素等) 3、结论的外推(统计结论是否适合所有研究对象)
一、为什么要学统计学? 1. 采用统计学方法,发现不确定现象背后隐藏的规律。 变异(variation)是社会和生物医学中的普遍现象。 变异使得实验或观察的结果具有不确定性,如每个人的身高、体重、血压等各有不同。
最大值=6.18, 最小值=3.29, 极差=2.89。 算术均数=4.72,标准差=0.57。
案例一:两个指标诊断疾病的问题 路人甲做了一个研究,旨在比较两个指标(A和B)对肝癌的诊断价值。路人甲以A和B的参考范围上限作为诊断界值,得出了A和B在该界值下对应的诊断敏感性和特异性。结果表明,A的诊断敏感性为0.80,特异性为0.90;B的诊断敏感性为0.85,特异性为0.87。路人甲很快撰写论文报道了自己的研究成果,指出B诊断肝癌的敏感性高于A,而特异性低于A。 路人乙是这篇文章的审稿人,当他看见这个结论后,毫不犹豫地在审稿意见中写道:就敏感性而言,B高于A;就特异性而言,A高于B。诊断敏感性和特异性与所采用的界值密切相关,作者得出的敏感性和特异性仅仅代表了一个诊断界点下面的诊断效能,无法从全局上反映A和B的诊断价值。文章的结论到底是想说明A优秀还是B优秀呢Reject! 这个例子说明:统计指标选错了,统计出来的东西往往难以“自圆其说”。
这个例子说明:在医学科研中,没有经过统计学检验的结论杂志社多半认为是不科学的。 稿件被退了,路人甲有些许郁闷。经过认真学习科研设计与统计学知识后,路人甲终于明白了一个问题:两个指标诊断性能的比较是不能比较敏感性和特异性的,而应该比较ROC的曲线下面积,因为曲线下面积才是衡量整体诊断效率的最佳指标。路人甲很快绘制了ROC曲线,统计结果表明,A的曲线下面积为0.80,B的曲线下面积为0.82。路人甲欣喜若狂,赶紧动笔写论文,并且理直气壮地给文章定了一个结论:B的诊断效率是优于A的,其理由就是因为B的曲线下面积大于A。 路人丙是这篇文章的审稿人,当他看见这个结论后,脸色铁青,毫不犹豫地在审稿意见中写道:从表面上看,B的曲线下面积高于A,但是导致这种差异的原因有两种,一种是随机误差,一种是试验效应,即B确实是高于A的。你怎么能确定这不是抽样误差呢?在统计学上,要确定0.82是否高于0.80,就一定要经过统计学检验的。又Reject! 这个例子说明:在医学科研中,没有经过统计学检验的结论杂志社多半认为是不科学的。
这个例子说明:实(试)验设计有缺陷,即便是统计学方法准确也于事无补。 稿件又被退了,路人甲很是郁闷。他吸取了经验教训,自学了很多统计学理论,终于弄清楚了采用何种方法去比较曲线下面积。接下来的事情就是改稿,然后另选杂志继续投稿。路人甲在文稿中特别注明了,曲线下面积是经过了统计学检验的,B的曲线下面积(0.82)与A的曲线下面积(0.80)之间的差异是有统计学意义的,而且还大摇大摆地在后面加了个括号,写明P=0.01。路人甲仰天长叹了一口气,很郑重地给自己的研究下了结论:本研究表明B的诊断效率是优于A的。 路人丁是这篇文章的审稿人,当他看见这个结论后,脸色铁青,毫不犹豫地在审稿意见写道:B是常见的诊断指标,其检测结果并不对临床医师设盲,在很大程度上可以检测影响临床医师对疾病的诊断。A是新进发现的诊断指标,其结果完全对临床医师设盲,不可能影响医生的诊断。所以作者的结论(B比A优秀)是不可靠的。再说得通俗点,如果把A和B分别理解成法庭上的原稿和被告,那B无疑既充当了辩护律师,又充当了法官的角色。在这种情况下,A输掉了官司是十分正常的。如果换一个公平的、独立的法官来断案,B能否胜出就不好说了。再一次Reject! 这个例子说明:实(试)验设计有缺陷,即便是统计学方法准确也于事无补。
稿件又一次被退了,路人甲的心情极度郁闷。思来想去,决定把实验重做一遍,让A和B在一个公平的环境中比较(为便于描述,此处忽略医学伦理学问题)。在新开展的研究中,A和B都是对临床医生设盲的,不可能影响金标准。这下A和B的比较结果应该比较可靠了吧,路人甲又仰天长叹了一口气,感觉自己如释重负了。科研太折腾人了,太不容易了!统计结果很快出来,A的曲线下面积是0.80,B的曲线下面积则变成了0.77,经过统计学检验后发现,A的诊断效能确实是高于B的。整个研究的试验设计滴水不漏,统计学过程天衣无缝,我就不信还有人敢拒这篇稿件,路人甲心中开始暗喜。
路人戊是这篇文章的审稿人,当他看见这个结论后,脸色铁青,毫不犹豫地在审稿意见写道:A和B的检测并不矛盾,他们之间的关系不应该是竞争关系,而应该是合作关系。读者最关心的问题显然不是A和B“孰强孰弱”的问题,虽然这个问题有一定的专业价值。如果我是坐诊医生,我会说:A和B谁强谁弱关我什么事?总之来一个病人我就A和B都检测,我的患者都不差钱!作者的研究重点应该是明确A和B能否互补,联合使用是否能有助于提高诊断准确性的问题,而非A和B“孰强孰弱”的问题。简单地说,就是明确1+1是否大于1的问题。还是被Reject!(作者吐血) 这个例子说明:研究方向错了,即使是无懈可击的实(试)验设计和天衣无缝的统计方法,也是无济于事。 这四个例子说明:医学科研是很痛苦的,不重视统计学和科研设计,会走很多弯路的。
2. 用统计学思维方式考虑有关医学研究中的问题 “阳性”结果是否是虚假联系? 某感冒药治疗1周后,治愈率为90%,能否说该感冒药十分有效? 以前的许多研究表明,血清甘油三酯的含量与冠心病危险性有关,即甘油三酯的含量越高,患冠心病的危险性就越大。有的医生以此筛选危险人群? 甘油三酯 虚假联系 冠心病 胆固醇+ 高密度脂蛋白
这个例子说明:统计学阳性的结果未必是“好结果”。 案例二,如何看待统计学结果 路人甲经历数十年的研究,动用了各种高精尖的研究手段,发现了一个新的蛋白(命名为蛋白A)。在肝癌患者中展开的研究表明,蛋白A和甲胎蛋白(AFP)有很好的相关性,其相关程度之好,几乎可以用“一塌糊涂”来形容,相关系数达到了0.99(P<0.0001)。路人甲欣喜若狂,尽管蛋白A的检测过程还十分繁琐,检测费用还十分高,但是路人甲还是把持不住内心的激动,日夜兼程地撰写论文,宣称自己找到了一个新的肝癌标志物。 路人乙是这篇文章的审稿人,当他看见这个结论后,脸色铁青,毫不犹豫地在审稿意见写道:统计结果表明蛋白A和AFP的相关性十分明显。如果是这样,在临床实践中,通过检测AFP完全就可以得知蛋白A的浓度了,蛋白A在肝癌中的临床价值完全可以被AFP代替,还不说蛋白A的检测过程繁琐,费用太高的问题,你说蛋白A还有什么价值? Reject! 这个例子说明:统计学阳性的结果未必是“好结果”。
另外,在运用统计学中,稍有不慎都可能犯这样或那样的错误。因此,统计结论的可靠性仍需通过实践去检验。 有统计学(差异)意义,并不代表有生物学、临床意义 如:当专业上有一定联系的两个变量之间的变化呈“S型”或“倒S型”曲线趋势时,若错误地用直线方程去描述,从统计学角度看效果也很好,但在专业上是解释不通的。再比如,某两个统计量(如均值、率等)之间的差别在统计学上有显著性意义,有时在专业上并无实用价值。如某种新的降压药,平均降低血压 2 mmHg,若样本含量较大,误差又较小,统计检验可能会得到“P<0.05”的结果,但在临床上却认为此新药的疗效没有多大提高。 另外,在运用统计学中,稍有不慎都可能犯这样或那样的错误。因此,统计结论的可靠性仍需通过实践去检验。 所以,应当牢记:运用统计学时必须结合医学实际,才能真正发挥统计学应有的作用。 组别 N 基线血压(mmHg) 治疗后血压(mmHg) 标准差(mmHg) P值 95%CI (mmHg) 统计学意义 临床意义 治疗组 200 160 142 6 <0.05 0.8~3.2 有 无 对照组 144
案例三,降糖药的研究、学生自杀事件 某医生长期从事降糖药的研究,最近他发现了一种药物,可以降低患者的血糖。为了评价该药的降糖效果,路人甲费尽心机地设计了一个看似完美的随机对照试验(RCT),为了保证结果可靠,路人甲严格遵守RCT设计准则,包括随机、双盲、安慰剂对照等措施。研究结果表明,实验组和对照组在接受药物治疗前血糖浓度的均值都是10mmol/L,差异无统计学意义,表明两组研究对象的基线特征具有可比性。对照组未经任何药物治疗(为便于描述,此处忽略医学伦理学问题),血糖浓度还是10mmol/L;实验组经过药物干预后,血糖浓度变成了9mmol/L,统计学检验结果表明,实验组和对照组治疗后的血糖浓度的差异是有统计学意义的(P<0.01)。路人甲赶紧撰写论文,并毫不客气地给研究下了个结论:该药可以降低患者血糖。
路人乙是这篇文章的审稿人,当他看见这个结论后,脸色铁青,毫不犹豫地在审稿意见写道:却要确实可以降低血糖,但是一个只能降低1mmol/L的降糖药有何临床价值?Reject! 这个例子说明:有统计学意义不一定有专业意义。
某CDC做了一个调查,同处一地的A和B两所中学,各有1000名学生,过去的一年,A校有5名学生自杀(自杀率为0 某CDC做了一个调查,同处一地的A和B两所中学,各有1000名学生,过去的一年,A校有5名学生自杀(自杀率为0.5%),B校没有学生自杀(自杀率为0%)。统计学结果表明,两校自杀率的差异无统计学意义(P=0.07,Fisher确切概率法)。于是写论文得出结论:A和B两校的自杀率是没有统计学上的差异,A校5名学生自杀纯属小概率事件。 路人乙是这篇文章的审稿人,当他看见这个结论后,脸色铁青,毫不犹豫地在审稿意见写道:5个鲜活的生命就这样没有了,5个家庭就这样毁了,你却告诉我这纯属小概率事件,你就不怕“人神共愤”吗?Reject! 这个故事说明:有专业意义不一定有统计学意义。 这两个故事说明:统计学只是方法学,医学科研中需要借助统计学方法来发现事物的规律性,但不能死磕统计。
“阴性”结果是否是样本含量不足? 有人曾对发表在Lancet, N Engl J Med,JAMA等著名医学杂志上的71 篇阴性结果的论文作过分析,发现其中有62篇( 93%)可能是由于样本含 量不足造成的假阴性。 例:某医生用一种新的治疗某病的疗法(简称治疗组),用现在公认的疗法作为对照(简称对照组),经临床试验,对照组和治疗组的疗效分别为P1=75%与P2=95%。问:能认为这两个有效率之间的差别有显著性意义吗?答:这两个有效率之间的差别可能有统计学意义,也可能没有统计学意义。因为其结论不仅取决于二者之差的绝对值大小,更主要的是取决于随机误差的大小和样本大小,千万不可轻率地作出统计推断。现假定这两个有效率分别来自下列甲、乙、丙三批实验的结果,则具有下列3种不同的统计检验结果。
表1、两个有效率的比较 甲实验中,P1与P2之间的差别无统计学意义(校正χ2 =1.765,P>0.05) 乙实验中,P1与P2之间的差别有统计学意义(χ2=6.275,0.01<P<0.05); 丙实验中,P1与P2之间的差别也有统计学意义(χ2=9.412,P<0.01)。
这个例子说明:统计学阴性的结果未必是“坏结果”。 案例四:路人甲发明了两套诊断肺癌的方案,分别命名为A和B。为了明确这两种方到底谁“更胜一筹”,路人甲找了100个肺癌患者和100个疑似肺癌患者(结核、肺炎等),分别用A、B两套方案去进行鉴别诊断。在200个研究对象中(100个肺癌和100个非肺癌),方案A正确了100例,准确率50%,方案B仅仅正确了50例,准确率仅为25%。卡方检验结果:方案A和B准确率之间的差异有统计学意义(P<0.01)。很明显,方案A的准确性要高于方案B。路人甲赶紧发表论文,指出:方案A诊断肺癌的准确性优于方案B。 路人乙是这篇文章的审稿人,当他看见这个结论后,脸色铁青,毫不犹豫地在审稿意见写道:如果我(审稿人本人)是坐诊医生,他就会反着看方案B的结果,凡是方案B认为是肺癌的,他就认为病人不是肺癌;反之亦然。这样下来,200个病人中,方案B应该能正确识别150个人,准确率为75%,统计学结果表明,方案B的准确率(75%)是高于方案A(50%)的,所以真实的情况是方案B优于方案A。实际上,当面对这200名患者的时候,随便到城隍庙找个瞎子来“算命(猜患者是否患病)”,按照统计学理论,准确率也应该是50%,方案A的价值可以说是“一无是处”。Reject! 这个例子说明:统计学阴性的结果未必是“坏结果”。
3. 保证你的研究论文能通过统计学审查 据国外60~80年代对不同医学杂志发表论文的调查,有统计错误的论文的百分比最高达72%,最低也有20%。 国内1984年对《中华医学杂志》、《中华内科杂志》、《中华外科杂志》、《中华妇产科杂志》、《中华儿科杂志》595篇论文的调查结果,相对数误用为11.2%,抽样方法误用15.9%,统计图表误用11.7%。某研究者1996年对4586篇论文统计(中华医学会系列杂志仅占6.9%),数据分析方法误用达55.7%。
JAMA,新英格兰医学杂志(NEJM)、英国医学杂志、中华医学会杂志对来稿都有统计学要求或统计学指导。 国际生物医学杂志编辑协会在其《生物医学期刊投稿的统一要求》中也包含了统计学要求。 Uniform Requirements for Manuscripts Submitted to Biomedical Journals http:// www.acponline.org
《中华医学杂志》对来稿中统计学处理的有关要求 1.统计研究设计:应交代统计研究设计的名称和主要做法。如调查设计(分为前瞻性、回顾性或横断面调查研究);实验设计(应交代具体的设计类型,如自身配对设计、成组设计、交叉设计、析因设计、正交设计等);临床试验设计(应交代属于第几期临床试验,采用了何种盲法措施等)。主要做法应围绕4个基本原则(随机、对照、重复、均衡)概要说明,尤其要交代如何控制重要非试验因素的干扰和影响。 2.资料的表达与描述:用x 和s表达近似服从正态分布的定量资料,用M(Q )表达呈偏态分布的定量资料;用统计表时,要合理安排纵横标目,并将数据的含义表达清楚;用统计图时,所用统计图的类型应与资料性质相匹配,并使数轴上刻度值的标法符合数学原则;用相对数时,分母不宜小于2O,要注意区分百分率与百分比。 3.统计分析方法的选择:对于定量资料,应根据所采用的设计类型、资料所具备的条件和分析目的,选用合适的统计分析方法,不应盲目套用t检验和单因素方差分析;对于定性资料,应根据所采用的设计类型、定性变量的性质和频数所具备的条件以及分析目的,选用合适的统计分析方法,不应盲目套用χ2 检验。对于回归分析,应结合专业知识和散布图,选用合适的回归类型,不应盲目套用简单直线回归分析,对具有重复实验数据的回归分析资料,不应简单化处理;对于多因素、多指标资料,要在一元分析的基础上,尽可能运用多元统计分析方法,以便对因素之间的交互作用和多指标之间的内在联系进行全面、合理的解释和评价。 4.统计结果的解释和表达:当P<0.05(或P<0.01)时,应说明对比组之间的差异有统计学意义,而不应说对比组之间具有显著性(或非常显著性)的差别;应写明所用统计分析方法的具体名称(如:成组设计资料的t检验、两因素析因设计资料的方差分析、多个均数之间两两比较的q检验等),统计量的具体值(如t=3.45,X2=4.68,F=6.79等)应尽可能给出具体的P值(如P=0.0238);当涉及到总体参数(如总体均数 总体率等)时,在给出显著性检验结果的同时,再给出95%置信区间。
这个例子说明:同一统计学结果,从不同的专业角度去解释,结论是完全不同的。 还是那个AFP与蛋白A的例子。路人甲发现蛋白A和甲胎蛋白(AFP)之间有很好的相关性,也开始撰写论文,但是他的结论并不是“蛋白A是诊断肝癌的标记物”。他认为,既然蛋白A与AFP之间有很强的相关性,那提示AFP和蛋白A之间可能存在十分密切的“调节”或者“被调节”关系。最终,路人甲围绕“蛋白A与AFP之间的调节或者被调节关系”做了很多分子生物学试验,指出蛋白A是调节AFP表达的唯一(注意“唯一”这两个字)因子,因此二者之间才会呈现如此强烈的相关性。这是一项基础研究,虽然未能直截了当地地指出蛋白A的临床价值,但是这个研究形象生动地讲述了一个完整的分子生物学事件,丰富了我们对于肝癌发生与发展分子机制的认识。最终,论文“堂而皇之”地accept了。 这个例子说明:同一统计学结果,从不同的专业角度去解释,结论是完全不同的。 以上所有案例说明:对统计学结果的解读一定要结合专业!从专业中来,到专业中去!
4. 获得循证医学证据的主要手段 “良好愿望的医学”(well-meaning medicine)转入“以证据为基础的医学” (evidence-based medicine,EBM)需要有统计学方法的支持。 全世界的医学期刊每年大约刊登600万学术论文,但能作为可靠“证据”的论文并不多。
二、 医学科研的基本要素 医学科研由三个基本部分组成,即处理因素(study factor)、受试对象(study object)和实验效应(experimental effect)。例如,观察流甲丙脯酸对肾性高血压患者的疗效。其中,疏甲丙脯酸为处理因素,肾性高血压患者为受试对象,动脉压变化为试验效应。通常将这三个组成部分称为医学科研的基本要素。如何正确选择三个要素,是科研设计的关键问题。 Study factor Study object Experimental effect
T+S=e 基本模式: 1、医学研究设计的基本原理: 降压药 高血压病人 血压值 T+s1=e1=20mmHg O+s2=e2=5mmHg (暴露) (发病风险) (目标人群) T s e 基本模式: T+S=e 统计分析的思维: 在排除或控制了一些可能 影响实验效应的因素后,以概率 为基础计算其差异是否为随机误差 (偶然性结果),从而推断处理因 素(或暴露)的效应是否不为零。 处理组: T+s1=e1=20mmHg 对照组: O+s2=e2=5mmHg T-O=e1-e2=20-5 研究假说:处理效应不为零 统计假设:处理效应为零 处理效应 T e=15mmHg 处理因素的作用被单独的显示
医学科研类型由于不同的科研目的,有多种不同的分类方法。如,按科技活动类型分为基础研究、应用研究和开发研究(发展研究);按照医学中各专业的属性,可分为:基础医学科研、临床医学科研、预防医学科研、社会医学科研(包括卫生事业管理学研究和医学心理学科)。 一般来说,医学科研的分类,常按设计类型的不同,分为以下几种基本类型。(图1-1)
观察性研究 医学科研方法 图1-1 医学科研方法基本类型 普查 抽样调查 典型调查 横断面研究(现况研究) 常规资料分析报告 描述性研究 个案调查(病例、病例家属、周围概况)) 生态学研究(相关研究) 病例对照研究(探索性、验证性) 队列研究(历史性、同时性) 观察性研究 医学科研方法 巢式病例对照研究 病例-病例研究 病例队列研究 多阶段复合设计研究 分析性研究 实验室试验 临床试验 社区试验 实验性研究 理论性研究(数学模型研究) 图1-1 医学科研方法基本类型
2 、 医学研究设计的4个基本原则 重复、随机、对照、均衡是实验设计的4个基本原则,在实验设计中务必要严格遵守。否则,实验研究结果的可靠性将大受影响。 所谓重复,就是实验因素各水平组合下要有足够的样本含量。因为统计学研究的是随机现象的变化规律性,重复次数少,内在规律表现不出来。在统计学上可根据设计类型选用相应的样本含量估算公式进行计算。 所谓随机,就是每一个实验单位都有同等的机会被分配到任何一个组中去,分组的结果不受人为因素的干扰和影响。在统计学上有许多实现随机化的具体方法,应当严格实施。千万不可用“随便”取代随机。
所谓对照,就是要设立参照物。因为没有对比,就无法鉴别优劣。例如,要考察一种新的抗癌药的疗效如何,必须设立一个对照组。在对照组里的癌症患者,可以什么抗癌药都不用(称为空白对照,在临床上应当慎用这种对照),亦可以用现在公认的最好抗癌药作为对照药(称为标准对照)。 在研究干预措施的效果时,直接观察到的往往是多种因素的效应交织在一起的综合作用,而合理的对照能成功地将措施的真实效应客观、充分地识别出来,使研究者得以做出正确评价。一般来说,设立对照可以最大可能地避免下列因素或现象对临床试验研究结果的影响: ①不能预知的结局(unpredictable outcome),由于人类认识的局限性,干预效应受一些目前未被认识的潜在未知因素的影响。 ②向均数回归(regression to the mean)在临床实践中,有些极端的临床症状或体征有向均数回归的现象。 所谓均衡,就是要设法使各条件(即实验因素的各水平组合)下的受试对象受到非实验因素的干扰和影响的机会和数量基本相等。这样一来,由各组受试对象反映出来的实验效应才能较为客观地体现出实验因素取不同水平时所产生的效果。
三、统计分析的意义: 有些论文中的资料十分丰富,既有多因素又有多指标。遗憾的是有些作者未对资料作统计分析就作出了结论;有些虽然作了统计分析,但一般仅作单因素分析,并且,所选用的分析方法还不完全得当。由于统计软件日趋普及,人们可以利用科学的统计分析方法,对同一份资料进行更深入的的分析,这有助于更好地发掘资料中所蕴藏的信息,揭示资料间的相互关系和内在规律性。对于同一份实际资料,由于研究的目的、观察的角度不同,所选用的统计处理方法也会不尽相同。用多种统计分析方法对资料进行多层次、多侧面的综合处理,尽量挖掘各方面的信息是十分必要的,也是完全可能的。
对资料作统计分析时,可从以下几个方面考虑如何合理选择各种统计分析方法。 其一,资料类型与描述统计量的选择。资料一般可分为定量与定性两大类,定量资料可细分为计量和计数两种;定性资料可细分为有序和无序(名义)两种。描述定量资料常用的统计指标有:平均指标、变异指标、分位数等;描述定性资料常用的统计指标有绝对数和相对数等。 按变量测量的精确程度由低到高, 将数据分类为:名义数据(如性别、 婚姻状况)、有序变量(如疗效, 类别间差别大小难以度量)、区间 变量(如摄氏体温,类别间差别有 实际意义)、比变量(如身高,除 具有区间变量的特征外,还具有真 实意义的零点。摄氏温度的零点为 水结冰时温度,并非绝对意义的零 点,所以它不属于比变量)
其二,资料类型与区间估计的选择。常用于定量资料的区间估计方法有个体值的容许区间(医学上亦称“正常值范围”)及总体均值(或其他特定参数)的可信区间;常用于定性资料的区间估计方法是总体率的可信区间。 其三,资料类型与统计分析方法的选择。一般来说,当分组变量为定性变量,指标(或结果)变量为定量变量时,常用的统计分析方法有t检验、Z检验、方差分析(亦称F检验)和秩和检验等;当分组变量和指标(或结果)变量均为定性变量(包括由定量变量转化而产生的)时,常用的统计分析方法有卡方检验、秩和检验、Ridit分析、线性趋势检验等。 其四,处理多因素多元资料的常见统计分析方法有多元回归分析、多元方差和协方差分析、聚类分析、主成分分析、因子分析、典型相关分析等。
四、资料统计分析中的错误: 在对实际资料进行分析时,从统计分析的角度看,常见的错误是:对资料未作统计处理就下结论;多元(或多因素)的资料用一元(或单因素)统计分析方法处理,导致资料的利用率低,不能反映资料的整体情况,不能很好地揭示变量之间的交互作用和内在联系。
当暴露变量为一个分类变量时,为单因素设计,常见的设计类型有单组设计、两组的成组设计和配对设计及多组的完全随机设计。若满足参数检验条件,分别选用单样本t检验、成组两样本t检验、配对t检验及单因素多水平方差分析(one-way ANOVA);若不满足参数检验条件,分别选用ilcoxon秩和检验(或Mann-Whitney U检验)、Wilcoxon符号秩和检验或Kruskal-Wallis H检验。 常见错误在做检验前,不对结局变量的分布和方差齐性进行检验,在不满足参数检验的前提条件下对定量资料盲目套用参数检验方法。 错误举例 某项研究评价治疗前后膝关节功能(表1),从结果来看,部分指标的标准差是均数的2倍,提示呈偏态分布, 而原作者用单因素方差分析检验治疗前后的功能得分。正确做法是,选用非参数检验的办法,这个研究是自 身配对设计,可选用Wilcoxon符号秩和检验,或对结局变量进行变换,满足参数检验的要求。
用Pearson卡方检验分析有序结局变量的数据? 某项研究探讨原发性肝癌肝动脉碘油化疗栓塞(TACE)和三维适形放疗 (3DCRT)综合治疗价值(见表5)。原文将不同水平的疗效进行了合并, 采用Pearson卡方检验比较两组的有效率分别为71%和45%,P值为0.0097, 这样合并没有充分利用资料的有序信息;而若用2×C表卡方检验,P值为 0.0827,没有考虑疗效的递减关系。所以,应选用CMH卡方检验行平均得 分差的分析结果,P值为0.0160,(或用Ridit检验)才能做出正确的评价。
重复测量的数据用单因素分析: 某研究探讨重型颅脑创伤患者硫酸镁治疗与患者血清丙二醛(MDA)含量及预后关系。治疗组和对照组 患者分别在入院时、用药后24、48和72小时抽取静脉血,检测MDA浓度(表3)。原文采用成组t检验在 不同时间点进行两组比较,割裂了整体设计,没有考虑到对于同一观测对象,不同时间点上的数据是不 独立的。该研究可选用重复测量设计的方差分析。对于较复杂的重复测量设计资料,可选择混合模型 (Mixedmodel)或广义估计方程(GEE)等方法进行分析。
不能充分利用数据的信息,缺乏深入分析(浙江预防医学2012 年第24 卷第4期) 男童行为因子均数比较( x ± s ) 女童行为因子均数比较( x ± s ) 作者分别对男童和女童的每项因子作了t检验,没有很好的利用数据中隐藏的 分布信息,另外,多次重复t检验会增加I型错误的概率。
对于这类数据可以 考虑采用轮廓分析 (Profile Analysis) 方法: 1、平行检验 2、相合检验 3、水平检验
笔误?统计学知识的缺乏?或杂志社审稿的错误?
五、多变量分析与单变量分析 多变量分析是对m个反应变量进行一次假设检验(Hotelling T2检验或MANOVA),对组间差别作出推断。在大多数情况下,多变量假设检验结论与对m个反应变量进行m次单变量假设检验(t检验或ANOVA)的结论是一致的,即多变量假设检验拒绝H0,m次单变量假设检验至少有一次拒绝H0,SPSS、SAS等统计软件也是先给出多变量假设检验结果,再给出单变量假设检验结果,作为多变量分析的补充。
例: 某妇幼保健院将孕妇随机分两组,一组接受孕期保健教育,另一组作为对照。表14-3是同一日出生的13名顺产婴儿的体重和身长,问孕期保健教育对婴儿生长发育有无促进作用? 表中用两个指标反映婴儿的生长发育状况,通过孕期保健教育组和对照组婴儿样本均数比较,推论两组总体均数μ1和μ2是否相等,进而得出孕期保健教育对婴儿体格发育有无影响的结论。
体重:t=2.35,p=0.038 身高:t=1.99,p=0.071
理论上单变量假设检验不能代替多变量假设检验,主要理由: ①m次单变量假设检验增加假阳性错误的概率,设每次单变量假设检验的检验水准定为a,做完m次检验I类错误的概率增加为am=1-(1-a)m。 ②单变量假设检验只说明某一变量在数轴分布上的组间差别,不能反映多个变量在平面或空间上的差别,两者的意义不同,各自说明各自的问题,不能相互代替。如表14-8的两组数据,分别对两组新生儿出生时的体重与身长做单变量t检验:体重t=2.35,p=0.038,身长t=1.99,p=0.071,结论不明确。但多变量的Hotelling T2检验:T2=9.87,F=4 .58,P=0.03,拒绝H0:μ1= μ2,两组在平面分布上差别如图所示。
二组的平面分布
二组的空间分布
六、充分利用现有的临床或体检数据 1、描述性研究: 临床或体检资料描述性研究包括体检人群的健康现况分布、 疾病的筛检、生态学比较等 。 2、分析性研究: 分析性研究可利用监测或体检数据所蕴藏的信息再分 析研究,以提高研究证据的强度主要包括病例对照研究和 队列研究。病例对照研究资料的特点是回顾性资料、产生 偏倚的可能性较大。队列研究资料属前瞻性,没有回忆性 偏倚,但存在失访偏倚,与病例对照研究相比偏倚较少。 队列研究可直接估计危险度指标等 。
图1 病例对照研究原理示意图 a + 病例 c - b + 对照 - d 调查方向:收集回顾性资料 比较 人数 暴露 疾病 a + 病例 c - b + 对照 - d OR:(a/c)/(b/d)=ad/bc(反映暴露与疾病关联大小与方向的指标) 图1 病例对照研究原理示意图
脂肪肝的病例-对照研究(一果多因) 结局 暴露因素 正常 ALT 甘油三酯 高密度脂蛋白 脂肪肝 异常 正常 ALT 甘油三酯 高密度脂蛋白 对照组 异常
表2 脂肪肝Logistic回归分析的结果 变量 参数估计值 Wald χ2值 P OR值 OR值的95%CI Lower Upper 常数项 -0.9285 1.0529 0.3048 / ALT 0.0299 10.6557 0.0011 1.030 1.012 1.049 甘油三酯 0.5983 9.7347 0.0018 1.819 1.249 2.649 高密度脂蛋白 -1.4036 5.3036 0.0213 0.246 0.074 0.811 从表1看出,各参数估计值的Wald χ2检验,均有P<0.05,都有统计显著性。且三者的OR值分别为1.030、1.819和0.246。
时间顺序 Yes 暴露组 No Yes 非暴露组 No 结局(疾病) 是否暴露某个危险因子 代表性样本 目标人群 未患某研究 疾病 图2 队列研究的结构模式图
时间顺序 现在 将来 过去 历史性队列 双向性队列 前瞻性队列 图3 队列研究类型示意图 回顾性收集已有的历史资料 回顾性收集已有的历史资料 继续前瞻性收集资料 前瞻性队列 前瞻性收集资料 图3 队列研究类型示意图
Thank you for time Q&A!