Dept. of Medical Statistics General Hospital Of PLA MULTIVARIATE STATISTICS ANALYSIS 多元统计分析 Dept. of Medical Statistics General Hospital Of PLA
多元统计分析简介 客观世界中的任何事物的形成, 变化和发展都是受多种因素的影响。 各种因素之间又存在着广泛而又错综复杂的联系. 例如疾病的产生就受到多种因素的支配, 各种病因之间也常存在着一定的内在联系和相互制约. 需要分析哪些是主要的, 本质的, 哪些是次要的, 片面的, 它们之间的相互关系怎样等问题. 多元统计分析正是为了解决这些问题而产生的 。
统计学基础知识的回顾 什么是统计学? 统计学是一门关于如何收集、分析、解释和表达数据的科学。 温故而知新 统计学基础知识的回顾 什么是统计学? 统计学是一门关于如何收集、分析、解释和表达数据的科学。 ---《Webster’s International Dictionary》 统计学是研究随机现象规律性的方法学。
三类现象 自然界和人类社会活动中,普遍存在三类现象。 确定性现象:在相同的条件下出现相同的结果,称为确定性现象或必然现象。如地球的运动。 自然界和人类社会活动中,普遍存在三类现象。 确定性现象:在相同的条件下出现相同的结果,称为确定性现象或必然现象。如地球的运动。 随机性现象:在相同的条件下出现不同的结果,但结果是确定的,称为随机性现象。如掷硬币。 模糊性现象:在相同的条件下出现不确定的结果,称为模糊性现象。 如美人与丑人。
不同现象与研究方法 现象 研究方法 确定性现象 --- 经典数学 随机性现象 --- 概率统计学 模糊性现象 --- 模糊数学
统计学两个方面的作用 一.是培养统计思维方法 二.学以至用,解决实际问题 统计学的知识已渗透到自然科学、社会科学以及人类生活的各个领域。
统计学应用的普适性 经典应用1:牛顿的自由落体运动 自由落体运动规律: 公式: h=1/2 g*t2 公式是怎样产生的? <中学物理课实验的回顾> h
牛顿的自由落体运动实验 牛顿发现定律方法的探究 时间 t 高度 h 1 4.9 2 39.1 3 88.3 … …. 多次重复实验,测量计录每 次下落的高度与时间数据: 采用什么方法找规律呢? 运用了统计学思想 回归分析 直线回归方程: y = a+b*x h 1/2 g t h
h 。 。 。 。 。 。 0 1 2 3 4 t 散 点 图
牛顿的自由落体定律的产生 自由落体定律的探究 回归方程的构造: 回归方程: y = a+b*x h 0 1/2 g t2 灵感 影响定律公式的因素: 测量误差 模型的选择
肾脏体积的经验公式 经典应用2:肾脏体积的测量 肾脏体积计算公式: 经验公式: V=π/4*长*宽*高 公式怎样产生的? 肾脏为不规则体,怎样测量? 立方体体积规律: 公式: V=长*宽*高=abc 肾脏体积计算公式: 经验公式: V=π/4*长*宽*高 公式怎样产生的? c b a
肾脏体积测量实验 实验的回顾 用20个肾脏标本,测量计录每 个体积及其长,宽,高的数据: 采用什么方法找规律呢? 回归方程的构造: 编号 体积 V 长 a 宽 b 高 c 1 100 10 5 2.5 2 110 6 2.6 3 105 11 2.1 … …. 实验的回顾 用20个肾脏标本,测量计录每 个体积及其长,宽,高的数据: 采用什么方法找规律呢? 回归方程的构造: y = a+b*x V=π/4*长*宽*高 影响公式的因素: 测量误差 模型的选择
不同科学间相互协作的重要性 历史上很多非统计专业人员,通过对统计学的学习和研究,在专业和统计学取得有很深的造诣。 物理学家爱因斯坦学习和研究统计,将统计学思想应用于他的物理学和哲学研究中。 生物学家达尔文学习和研究统计,进化论方面的工作在本质而言是属于生物统计学。 护理学的奠基人 Nightingale学习和研究统计,出版世界上第一部医院统计的专著《医院统计与医院规划》。
统计学是“对令人困惑费解的问题做出数字设想的艺术。” ---美国 David Freedman 统计学是一门处理数据中变异性的科学和艺术。 --- John M.Last《A Dictionary of Epidemiology》 科学与艺术的不同在于不同的人处理相同的问题可能得到不同的结果
现代统计学的基本内容 实验设计 一、试验设计 二、数据管理 三、统计分析 临床试验设计 调查研究设计 数据管理 质量控制 统计描述 统计推断
一、 试验设计 进行一项科研如同建造一座大厦,其设计、质量控制、分析、验收等都十分重要。如果大厦没有良好的设计和质量控制,就会出现问题,甚至倒塌,负责人会受到国家法律惩治。科研工作若没有良好的设计和质量控制,就会失败,得出错误的结果,对后来的科研产生误导作用。 科研设计如同建筑设计一样举足轻重。
1 试验设计的三要素 1)、试验因素 2)、试验对象 3)、试验效应
2 实验设计的三原则 随机 对照 重复 (均衡)
二、 数据管理 数据管理 质量控制
三、 数据分析 统计描述 统计推断
1 统计描述 通过统计描述不仅可以对数据的概貌,分布,变量间的关系等有大致的了解,而且可发现数据中的异常现象。因此,统计描述 在统计分析中占有相当重要的地位。
率、构成比 统计量 均数、中位数 相关回归系数 统计表 统计图 条图、直方图、线图等
2.统计推断 用样本的信息来推断总体的特征叫统计推断. 统计分析的目的是由样本推断总体,故统计学的主体是统计推断
实验设计的模型1 1 因果关系: 试验对象 试验因素 试验效应 (自变量) (因变量) F X Y y=f(x)+e
实验设计的模型2 2 相互关联: 试验对象 A因素 B因素 (X1变量) (X2变量) F X1 X2 X2=f(x1)+e
参数 点估计 估计 区间估计 统 u检验 计 参数 t检验 推 F检验 断 假设 相关与回归 检验 卡方检验 非参 秩和检验 秩相关检验
统计软件的重要作用 “计算机软件给统计学带来革命性变化” 发表论文或进行科研课题时,注明统计软件和采用的统计分析方法. 统计分析工具的选择: CHISS SAS, SPSS,STATA
混杂因素 实例解析3 这中间存在混杂因素---吸烟 携带火柴和发生肺癌间的关系的研究。 人们观察发现那些携带火柴的人更有可能发生肺癌。 难道这表明携带火柴可能引起肺癌? 客观事实,携带火柴不可能引起肺癌。 这中间存在混杂因素---吸烟
混杂因素的影响 图1.1 危险因素、混杂因素和结果的关系 携带火柴 肺癌 吸烟
[实例解析4] 喝咖啡与心肌梗塞MI关系的研究。 有人观察发现喝咖啡的人,很多人患MI,这种现象是表象还是内在因果关系的?
研究者调查MI及非MI病人各150例,得到如下数据。表1.1 MI NoMI % Coffee 90 60 60 No coffee 60 90 40 优势比 : OR=90*90/(60*60)=2.25 Pearson chi2(1) = 12.0,P = 0.001。 说明喝咖啡人MI发生的危险性是不喝的2.25倍。 两组MI发生率差异有显著意义。 结论:喝咖啡与心肌梗塞MI有关!对否?
Smoker Nosmoker MI NoMI % MI NoMI % Coffee 80 40 67 10 20 33 表 控制吸烟因素的干扰后结果 Smoker Nosmoker MI NoMI % MI NoMI % Coffee 80 40 67 10 20 33 Noffee 20 10 67 40 80 33 优势比 OR=1 , OR=1 P = 1.00, P = 1.00
说明当存在混杂因素时,单因素分析结论并不科学。 喝咖啡与心肌梗塞MI关系 表明,在吸烟组和不吸烟组中。喝咖啡与不喝咖啡的MI发生的相对危险度相同的。 说明当存在混杂因素时,单因素分析结论并不科学。
案例:研究生招生与性别的关系研究
<案例讨论> 研究生招生与性别的关系研究 美国加州贝克莱分校1973年研究生的录取情况如上表. <案例讨论> 研究生招生与性别的关系研究 美国加州贝克莱分校1973年研究生的录取情况如上表. 结果显示,男生报考人数据2691人,录取1197人,录取比例44.5%,女生报考人数据1835人,录取556人,录取比例30.3%。 有人认为该校在研究生录取中存在性别歧视。试对此进行讨论与分析。
混杂因素的定义 当某一危险因素和结果的相关性受 第三个变量和危险因素及结果之间关系的影响,这第三个变量称为混杂因素。 当某一危险因素和结果的相关性受 第三个变量和危险因素及结果之间关系的影响,这第三个变量称为混杂因素。 上两例中,混杂因素是吸烟
排除混杂因素的两种方法 1、分层分析 2、多元统计分析
1 分层分析方法 分层分析是在其它影响因素保持恒定情况下,评价某一危险因素对结果的影响。 -----控制混杂因素对结果的影响 分层分析是在其它影响因素保持恒定情况下,评价某一危险因素对结果的影响。 例如,上面我们可以分别在吸烟者和非吸烟者之中,比较喝啡咖与和不喝啡咖的人。这可使我们在不依赖于吸烟的情况下,分析喝啡咖对MI的影响。
分层分析的优缺点 优点:直观简洁。 缺点:当考虑因素较多时分组数量倍增, 需要例数较多,有时无法实现。
运动与寿命关系的研究 [实例解析5] ‘生命在于运动。’ ‘运动有利于长寿’ 流水不腐。。。 这是人类长期经验的总结,但事实果真如此吗?是科学的结论,还是事物的假象呢?
运动与人的寿命的关系 许多研究表明长期运动人的寿命比久坐型生活方式人的寿命长。 但是,如果运动者寿命长的真正原因是他不吸烟,没有家族病史,好的生活环境等,那么运动将不能改变一个人的寿命。
美国Aerobics中心的追踪研究 在1970-1989年间,它们追踪观察25,341男性和7084女性, 研究运动和死亡率的关系。男性参加者被追踪观察平均8.4年,女性平均7.5年。 所有参加者接受了基线检查,这些检查包括体检、实验室检测及踏车试验评价身体适宜运动量。结果如表1.1。 Blair, S.N., Kampert, J.B., Kohl, H.W., et al. ”Influences of cardiorespiratory fitness and other precursors on cardiovascular disease and all-cause mortality in men and women.” JAMA 1996;276:205-10
表1.3 Aerobics 中心追踪研究过程中生存与死亡者基线特征(男性组) 指标 生存 死亡 (n=24,740) ( n=601) 年龄(SD) 42.7 (9.7) 52.1(11.4)* 体重指数 26.0 (3.6) 26.3 ( 3.5) 收缩压 121.1(13.5) 130.4(19.1)* 总胆固醇 213.1(40.6) 228.9(45.4) 空腹血糖 100.4(16.3) 108.1(32.0)
运动量(%) 低 20.1 41.6 中 42.0 39.1 高 37.9 19.3* 冠心病家族史 25.4 33.8* 吸烟 26.3 36.9* 异常心电图 6.9 26.3* 慢性病 18.4 40.3*
分析发现,存活者和死亡者之间是有明显区别的。特点是存活者较年轻,血压较低,低胆固醇,很少吸烟并且高运动量(基于他们踏车试验时间长短及程度)。 但表1.1并没有回答我们的基本问题: 运动是否独立地延长寿命? 它并没有回答这个问题是由于虽然高运动量组很少在研究期间死亡,但他们或者较很少吸烟,或年轻,或有较低的血压。 我们应排除排除混杂因素 的影响。
[分层分析法] 表1.4 Aerobics 中心追踪研究中全因死亡患者吸烟和体质的分层分析 每万人年 分层相对危险度 死亡数 (95%CI) 吸烟 低运动量 48.0 1.63(1.26-2.13)* 中/高运动量 29.4 1.0(参照组) 不吸烟 低运动量 44.0 2.19(1.77-2.70)* 中/高运动量 20.1 1.0(参照组) 可见低运动量组死亡率高于中/高运动量组的死亡率 ,这一分层分析表明运动的作用不依赖于吸烟状态。
但是,有可能影响运动和长寿之间关系的其它变量是怎样的? 你可以层层分析每一原因,来证明运动对长寿的影响不但不依赖于吸烟状态,也不依赖于年龄、性别、高血脂、高血压等等。 如果分层分析3个变量[吸烟状态、年龄、体重(正常/异常)],你将需要在8个组中分析运动和死亡率的关系。 如果分层分析6个变量[吸烟状态、年龄、性别、体重、胆固醇水平、高血压状态(是/不是)],你将需要在64个组中分析运动和死亡率的关系。
[多因素分析法] 为判断运动是否独立地与死亡有关,研究者们运用了COX比例风险分析(proportional hazards analysis)的多元分析方法,结果如表1.2。
表1.5 Aerobics 中心追踪研究全死亡率危险因素的多元分析 自变量 死亡率 调整相对危险度RR (百万分数) (95%CI) 运动量 低 38.1 1.52(1.28-1.82)* 中/高 25.0 1.0(参照组) 吸烟状况 吸烟 39.4 1.65(1.39-1.97)* 不吸烟 23.9 1.0(参照组)
收缩压 ≥140 mmHg 35.6 1.30(1.08-1.58)* < 140 mmHg 26.1 1.0(参照组) 胆固醇 ≥240 mg/dl 35.1 1.34(1.13-1.59)* < 240 mg/dl 26.1 1.0(参照组) 冠心病家族史 有 29.9 1.07(0.90-1.29) 无 27.8 1.0(参照组) 体重指数 ≥ 27 Kg/m2 28.8 1.02(0.86-1.22) < 27 Kg/m2 28.2 1.0(参照组)
空腹血糖 ≥120 mg/dl 34.4 1.24(0.98-1.56) < 120 mg/dl 27.9 1.0(参照组) 异常心电图 有 44.4 1.64(1.34-2.01)* 无 27.1 1.0(参照组) 慢性疾病 有 41.2 1.63(1.37-1.95)* 无 25.3 1.0(参照组)
这显示运动与生存率有关,它并不依赖于吸烟、高血压、高胆固醇及家族史。 运动与人的寿命的关系 表明,如果你比较男性中每千人年死亡数,你可以看出在低运动组(38.1)比中/高运动量组(25.0)有较高的死亡数。其相对危险度为38.1/25.0=1.52。说明低运动量的人死亡的危险性是高运动人的1.52倍。 这显示运动与生存率有关,它并不依赖于吸烟、高血压、高胆固醇及家族史。
吸烟和冠状血管疾病再通术后的预后间的关系 [实例解析6] 吸烟和冠状血管疾病再通术后的预后间的关系 Aerobics中心的追踪研究,他们追踪了5437例冠状血管疾病并接受再通手术(用线和球打开阻塞的冠状血管)的病人,将病人分为不吸烟、以前吸烟(至少在手术前6个月戒掉)、刚戒烟(因手术后刚戒掉)、及持续吸 烟4个组。结果见表1.4.
表1.6 吸烟状况和死亡危险性的 两变量关系 组别 死亡相对危险度RR ( 95%CI) 不吸烟 1.0 (参照组) 以前吸烟 1.08 (0.92-1.26) 刚戒烟 0.56 (0.40-0.77)* 持续吸烟 0.74 (0.59-0.94)*
持续吸烟组的死亡相对危险度怎么比不吸烟组低呢?(烟草公司希望) 在你假定在此研究中可能有差错之前,一些其它研究发现在冠状动脉疾病血栓溶解治疗中,吸烟和预后具有同样的关系,这一作用被称为“吸烟者悖论” 是什么原因导致这一“悖论”呢?
表1.5 人口学及临床因素与吸烟状况的关系 不吸烟 以前吸烟 刚戒烟 持续吸烟 年龄±SD (年) 67±11 65±10 56±10 55±11 心绞痛病程 ( 月) 41±66 51±72 21±46 29±55 糖尿病,% 21 18 8 10 高血压,% 54 48 38 39 冠状动脉疾病,% 一枝血管 50 51 57 55 二枝血管 36 36 34 36 三枝血管 14 13 10 9
表1.5可以看到,相比于吸烟者和以前吸烟者,刚戒烟者和持续吸烟者更年轻,心绞痛时间更短,较少有糖尿病和高血压,较少有严重的冠心病。看到这些,你对刚戒烟者和持续吸烟者的死亡率低于不吸烟者和以前吸烟者就不会奇怪了。因为他们比不吸烟者和以前吸烟者年轻,而且很少有医学隐患。
表1.6 比较一元统计与多元统计吸烟状况与死亡危险性的关系 不吸烟 以前吸烟 刚戒烟 持续吸烟 一元统计的 危险相对度 1.0 1.08 0.56 0.74 9 5%CI (参照组) (0.92-1.26) (0.40-0.77) (0.59-0.94) 多元统计的 相对危险度 1.0 1.34 1.21 1.76 9 5%CI ( 参照组) (1.14-1.57) (0.87-1.70) (1.37-2.26)
表1.6 将一元分析死亡危险性(未校正)和多元统计分析死亡危险性相比. 在多元统计分析中,研究者校正了4组中存在的如年龄、心绞痛时间等差别。 通过对这4组基线差别的统计学校正,刚戒烟者和持续吸烟者的死亡危险显著高于不吸烟者――更加灵敏的结果。 一元统计和多元分析的差别表明混杂因素是存在的。
多因素分析与分层分析的比较 当你用分层分析每增加一个变量,你将倍增分组的数量。 一方面产生大量的打印结果、需要整本书报告你的结果。 另一方面即使在开始时有很大的样本量,可能在某些分组中样本量还是不足。有时无法分层的。
多因素分析与分层分析的比较 多因素分析克服了这方面的限制,它将使你同时评价各种不同因素对结果的不同作用。 但多因素分析需要前提条件,模型对数据的性质要作一些假定,这些假定有时候是很难证实的。
*混杂因素与干预因素关系 当危险因素和结果的相关性受第三个因素和危险因素及结果之间关系的影响,这第三个变量称为混杂因素。 一个干预因素是出现结果的原因。
Camango及其同事们在研究中度酒精消费和心脏病危险性关系时校正了年龄、吸烟、运动、糖尿病及心脏病家族史,但是他们没有校正血压、体重指数、高胆固醇血症。为什么不? 这些因素符合混杂因素的定义,它们与危险因素(酒精消费)有关并与结果(心肌梗塞)有因果关系,问题是酒精消费可加重导致高血压、体重指数增加及高胆固醇血症。因此,如图1.3所示。这些变量可能通过其它致病途径导致心肌梗塞,应考虑为干预变量,不应考虑为混杂因素,如果将混杂因素作为干预变量来校正,那么你需要重新考虑你的结果。
血压升高 体重指数增加 高胆固醇血症 酒精消费 心肌梗塞
统计学不能区别混杂和干预变量 统计学并不能告诉你什么是混杂因素,什么是干预变量。从统计上讲,混杂因素与干预变量是一回事。在你的模型中,是因为有混杂因素而引入该变量,还是因为有干预变量而排除该变量呢?这一决定必须根据以前的研究和生物学上的可解释性作出。
一 多元统计分析的概念 多元统计分析是研究客观事物中多种指标间相互依赖, 相互影响的统计规律性的一个数理统计学分支. 一 多元统计分析的概念 多元统计分析是研究客观事物中多种指标间相互依赖, 相互影响的统计规律性的一个数理统计学分支. 医用多元统计分析是多元统计分析在医学领域的应用.
二、学习多元统计分析的重要性 为什么开这门课? 多元统计分析与已学的医学统计学的区别在哪呢?
多元统计分析能使我们对所研究的问题更全面, 更深刻的认识. 帮助我们透过现象看本质,发观事物之间内在的本质规律,从而推动医学科学的发展。
三. 多元统计分析的特点 优点有两个: 一 多元统计分析的资料较容易取得; 二 多元统计分析可以从整体上分析结果.
四、开展多元统计教学的可能性 ①多元统计分析的数学理论十分复杂; ②多元统计分析的计算量很大; ③教学工作开展不够. 个人电子计算机的飞速发展,对多元统计学产生重大影响。 常用的统计软件包有CHISS,SAS、SPSS、STATISTCA, Stata等.
五 关于多元统计选修课 一 选修课的目的 二 课时按排 , 30学时,1.5学分
六 多元统计的教与学 一 了解各种多元统计学方法的适用前提条件和用应范围 二 掌握一种统计软件 三 正确解释软件输出结果及结论 二 掌握一种统计软件 三 正确解释软件输出结果及结论 讲授与上机实习结合 三 成绩考核
七. 多元统计分析的前提条件 1. 多元统计对资料的分布有一定的要求; 2. 需要有足够大的样本,一般认为, 例数m是研究因素个数P的10倍左右。
为什么在统计学常常需要足够多的观测例数呢?
例甲、乙两研究者分别 用某新药治疗10例和403例老年性气管炎患者, 其疗效如下表。 甲 治疗结果 例 数 % 临床治愈 7 70 未治愈 3 30 合计 10 100 乙 治疗结果 例 数 % 临床治愈 83 20 未治愈 320 80 合计 403 100
那么应用20%,还是70%, 以估计新药治疗老年性气管炎治愈率呢? 临床上感兴趣的问题是新药治疗老年性气管炎治愈率是多少, 而不是10和403例的治愈频率, 那么应用20%,还是70%, 以估计新药治疗老年性气管炎治愈率呢?
概率与频率的关系 什么是概率? 概率是度量随机事件A发生可能性大小的一个数量. 记为P(A)。 什么是频率? 频率 若在n次同样的随机试验, 事件A发生了k次, 则比值k/n 称为频率
频率与概率的关系: 抛掷硬币的试验结果 ━━━━━━━━━━━━━━━━━━━━━ 试验者 抛掷次数(n) 正面次数(k) 频率(k/n) ───────────────────── TONG 3 3 1.00 5 4 0.80 10 3 0.30 20 7 0.35 50 27 0.54 100 52 0.52 500 246 0.492
历史上许多著名科学家做过抛掷硬币的试验, 抛掷硬币试验结果如表 ━━━━━━━━━━━━━━━━━━━━━ 试验者 抛掷次数(n) 正面次数(k) 频率(k/n) ───────────────────── De Morgan 2048 1061 0.518 Buffon 4,040 2,048 0.5069 Pearson 12,000 6,019 0.5016 Pearson 24,000 12,012 0.5005
观测例数越少,抽样误差越大,样本的对研究总体的代表性就小。 所以,医学试验中需要足够多的例数。
定理: 若当试验次数n充分大以后, 频率k/n稳定地在某一确定值P的附近摆动。即: Lim (k/n)=P n ∞ 频率与概率的关系 定理: 若当试验次数n充分大以后, 频率k/n稳定地在某一确定值P的附近摆动。即: Lim (k/n)=P n ∞ 实际工作中,常用频率求概率的近似值: P(A)≈f(A)=k/n.
八. 变量类型及数量化方法 在医学研究中,常常存在许多反映个体变异性的指标,统计学上称为变量, 如年龄、病情、性别等。可分三类。
是对研究单位的定量特征的描述。诸如个体年龄、身高、体重等变量均可经测量取得数值。将这类变量视为连续型变量, 或定量变量。 ⑴ 定量变量 是对研究单位的定量特征的描述。诸如个体年龄、身高、体重等变量均可经测量取得数值。将这类变量视为连续型变量, 或定量变量。 对于定量指标, 在通常情况下以原始观察值的形式出现。有时可分段处理。如年龄分60以上、以下。
⑵ 定性变量是对研究单位的定性特征的描述,有类别。 亦称分类变量 ⑵ 定性变量是对研究单位的定性特征的描述,有类别。 亦称分类变量. 如性别分男、女为二分类变量。血型可分为A、B、 AB、 O四类型, 为四分类变量。
二项分类变量 如性别,用一个变量表示,一般可赋值为0和1,或1和2。 1 女 X= 0 男
无序多分类 变量 如血型分为A、B、 AB、 O四类型。 需用三个哑变量来区分。 1 A型 1 B型 1 O型 X1= X2= X3= 0 其它 0 其它 0 其它 当X1=0,X2=0,X3=0时,为AB型 一般N分类,需要N-1个哑变量表示。
⑶ 等级变量:是对研究单位的等级特征的描述。如病情分轻、中,重三个等级。 ⑶ 等级变量:是对研究单位的等级特征的描述。如病情分轻、中,重三个等级。 数值化法: 只须用一个X作为分类变量, 然后按等级顺序分别赋值。b例如,用X表示病情, 其赋值方法分为: 0 轻 X= 1 中 2 重
九, 如何收集和整理多元分析资料 设研究问题中含有p个指标变量x1, x2,…,xp. 及n个观察对象. 其数据结构为: 编号 X1 X2 X3 …. XP 1 x11 x21 x31 … x1p 2 x12 x22 x32 … x2p 3 x13 x23 x33 … x3p … … … … … … n x1n x2n x3n … xnp ━━━━━━━━━━━━━━━━━━
实验数据要求完整、准确、真实。 若某一观测指标的值, 有空缺, 应注明。在SAS中用“.”表示空缺。切忌凭主观愿望填写, 在计算机中, 常采用EPI, CHISS DBASE、Excel、 SAS等建立数据库.
十 常用的多元统计方法
1 多元回归分析
多元回归分析简介 直线回归分析一个自变量和一个因变量间的关系, 在医学实践中,常会遇到一个应变量与多个自变量数量关系的问题。如医院住院人数不仅与门诊人数有关, 而且可能与病床周转次数, 床位数等有关. 多元回归分析正是为解决这些问题而产生的 。
多元回归分析 多元线性回归是研究多个自变量与一个因变量之间数量关系的一种统计方法。
实例分析 肾小球滤过率的影响因素研究 临床观测61例患者的肾小球滤过率y,及10种观察指标:年龄X1,糖化血红蛋白X2, 饭后两小时血糖X3, 胰岛素X4, 胆固醇X5, 肌肝X6, 平均动脉压X7, 体重X8, 肾脏体积X9, 尿白蛋白排泄率X10。 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 病例 X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 y ───────────────────────────── 1 36 9 16 31 5 53 101 304 355 1 177 2 39 14 24 17 7 69 90 25 310 23 130 3 42 14 29 7 4 82 96 24 293 3 101 . . . . . . . . . . . . . . . . . . . . . . . . 61 45 20 22 10 3 101 90 20 310 1 116 试分析这10项指标与肾小球滤过率间的关系。
P值可以看出,在十个变量中, X3饭后两小时血糖, X6肌肝 t和 X9 肾脏体积对肾小球滤过率影响有显 变量 系数 标准误 t值 P值 截距 71.02 27.66 2.567 0.0133 X1 0.14 0.27 0.510 0.6124 X2 -0.62 0.95 -0.656 0.5149 X3 1.01 0.48 2.084 0.0423 * X4 0.06 0.16 0.382 0.7039 X5 2.33 1.86 1.255 0.2153 X6 -0.64 0.19 -3.369 0.0015 ** X7 0.02 0.18 0.157 0.8757 X8 -0.24 0.78 -0.308 0.7594 X9 0.23 0.04 5.008 0.0001 ** X10 -0.21 0.14 -1.524 0.1337 P值可以看出,在十个变量中, X3饭后两小时血糖, X6肌肝 t和 X9 肾脏体积对肾小球滤过率影响有显 著性意义, 其它的7个变量没有显著性意义。
2 曲线拟合 . 1)多项式曲线 一般多项式曲线的方程为 n=2时, 二次多项式曲线,即抛物线.
3 Logistic回归分析
Logistic回归分析能较好地解决这类问题。 在医学研究中, 经常要分析某种结果的产生与哪些因素有关。 例如:生存与死亡, 发病与未发病, 阴性与阳性等结果的产生可能与病人的年龄、性别、生活习惯、体质、遗传等许多因素有关。 如何找出其中哪些因素对结果的产生有显著性影响呢? Logistic回归分析能较好地解决这类问题。
Logistic 回归是一种概率模型, 它是以疾病、死亡等结果发生的概率为因变量, 影响疾病发生的因素为自变量建立模型。它适用于因变量为二项, 多项分类的资料。在临床医学中多用于鉴别诊断, 评价治疗措施的好坏及分析与疾病预后有关的因素等。
例号 是否患病 性别 吸烟 年龄 地区 1 0 1 0 30 0 2 0 0 1 46 1 3 0 0 1 30 1 . . . . 29 1 0 0 25 0 30 1 0 0 26 1
单因素Logistic回归分析结果 模型 变量 系数 标准误 卡方 P值 1 X1 1.704 0.80 4.53 0.0332 2 X2 2.564 0.93 7.50 0.0062 3 X3 0.142 0.04 9.34 0.0022 4 X4 -0.271 0.73 0.13 0.7128 结果表明, 性别, 吸烟, 年龄三个因素都与肺癌有关. 由于在对某一因素进行单因素分析时没有控制其它因素的干扰, 因此结果不可靠.
多元Logistic回归分析结果 变量 系数 标准误 Wald 卡方 P值 INTERCPT -9.75 4.09 5.66 0.02 X1 2.52 1.82 1.92 0.17 X2 3.98 1.98 4.06 0.04 X3 0.19 0.08 5.67 0.02 X4 -1.30 1.58 0.68 0.41 由上最大似然估计分析知因素X2(吸烟), X3(年龄)对肺癌的发生有显著的影响。 所得的回归方程为: Logit(P)=-9.7544+2.5152X1+3.9849X2+0.1884X3-1.3037X4. Logistic回归模型可以用于进行预测 和判断工作.
Survival Analysis 4. 生存分析
生存分析简介 疾病治疗的预后情况,一方面看结局好坏,另一方面还要看出现这种结局所经历的时间长短,这类资料一般通过随访收集。随访资料常因中途退出,失访,中止观察等原因造成某些数据观察不完全,须要用专门的方法进行统计处理,这类方法起源于对寿命资料的统计分析,故称为生存分析。
Multi-ANOVA Analysis 5. 多元方差分析*
多元方差分析简介 医学工作中常从多个指标不同的角度去研究同一个问题。 若用一元方差分析时, 当不同的指标所表现的趋势不一致时, 就得不出一个概括性的结论, 难以作出明确的判断。若用多元方差分析则能作出明确的判断。使我们对所研究的问题更全面、更深刻的认识。所得到的结论更可靠、更科学。
例1 调查某中学同年级22名男女生, 测量其身高(cm)、体重(kg)和胸围(cm),数据见表88。试检验该中学全体男女生的身体发育状况有无差别。
───────────────────────── 1 171 58.5 81.0 1 152 44.8 74 某中学22名男、女生身体测量资料 ───────────────────────────── 男 生 女 生 ──────── ─────────── 编号 身高 体重 胸围 编号 身高 体重 胸围 ───────────────────────── 1 171 58.5 81.0 1 152 44.8 74 2 175 65 87 2 153 46.5 80 3 159 38 71 3 158 48.5 73.5 4 155.3 45 74 4 150 50.5 87 5 152 35 63 5 144 36.3 68 6 158.3 44.5 75 6 160.5 54.7 86 7 154.8 44.5 74 7 158 49 84 8 164 51 72 8 154 50.8 76 9 165.2 55 79 9 153 40 70 10 164.5 46 71 10 159.6 52 76 11 159.1 48 72.5 12 164.2 46.5 73 ────────────────────────────
一元方差分析的结果 ━━━━━━━━━━━━━━━━━━━━━━━━━ 身高 体重 胸围 ── ─────── ────── ────── 组别 平均值 标准差 平均值 标准差 平均值 标准差 ───────────────────────── 男 161.9 6.8 48.1 8.3 74.4 5.9 女 154.2 5.0 47.3 5.6 77.4 6.6 F值 8.7** 0.1 1.3 ** P<0.01
从表可以看出,该校男、女生的身高差异有显著性意义,而体重、胸围差异无显著性意义。那么, 该年级全体男女生的身体发育状况有无差别,我们不能得到一个明确的结论。 我们可以采用Hotelling T2 或Wilks’ Lamba检验进行多元方差分析 .
表有三个指标反映身体发育状况, 可用男、女生的身高、体重、胸围组成的样本均数向量推论该年级男、女生身体发育指标的总体均数向量μ1和μ2相等与否, 进而可推论该年级男女生身体发育状况有无差别。 采用SAS软件分析得到Wilks' Lambda=0.40371,转化为F值,F=8.8622,P=0.0008。拒绝该年级男女生身体发育指标的总体均数向量相等的假设,从而可认为该校男女生身体发育状况不同。
本讲课的主要内容 混杂因素的影响 单因素分析中的问题 多元分析的重要性 科研数据的全面分析
谢谢