Dept. of Medical Statistics General Hospital Of PLA

Slides:

Advertisements

Similar presentations

糖尿病知多少 ? 台北市立聯合醫院陽明院區家庭醫學科林儀蒂醫師什麼是糖尿病 ?(1) 正常情況下, 身體會將吃進去的澱粉類食物轉變成葡萄糖, 做為身體的燃料。胰島素是由胰臟製造的一種荷爾蒙, 它可以幫助葡萄糖進入細胞內, 提供熱能。

Advertisements

运动与生命阳光、空气、水和体育运动是生命和健康的源泉有氧运动在美国高血压发病率下降 30 ％以上高血压发病率下降 30 ％以上心梗死亡率下降 37 ％心梗死亡率下降 37 ％脑卒中死亡率下降 50 ％脑卒中死亡率下降 50 ％人均寿命延长了 6 年人均寿命延长了 6 年.

腎臟保健桃園榮民總醫院社區團體衛教報告者 : 林大雅醫師. 腎臟的功能  清除、排泄廢物  調整水分、體液、調整血壓  維持電解質與酸鹼度平衡  製造與分泌賀爾蒙.

疾病离我们有多远？张晓林. 我们的健康出了什么问题？高科技、高收入带来了什么？ “ 五高现象 ” 长寿命、老龄化催生着什么？健康维护快节奏、快经济发达影响着什么？心理健康高血压、高血糖、高血脂、高体重、高尿酸生活指导、健康咨询、康复训练、有效防护适应生活工作的节奏、正确处理人际关系、恰当.

吉林大学护理学院儿科护理教研室主讲教师刘晓丹教授. 吉林大学护理学院儿科护理教研室第一节生长发育概述一、生长发育规律一、生长发育规律二、生长发育的影响因素二、生长发育的影响因素第二节生长发育评估一、体格生长发育评估一、体格生长发育评估二、神经心理发育评估二、神经心理发育评估.

健康教育的目的：使病人了解到高血压的相关知识，增强自我保健意识，提高配合治疗的目的。并且能够做到合理膳食、适量运动及其他健康生活方式，以达到降低血压及减少高血压危险因素的目的。

社區公共衛生護理主題九：慢性疾病的護理 ( 共 26 題 ). B 01. 當護理人員在衛教丁太太有關其先生中風後的飲食調理時，發現丁太太在調理時，傾向高油、高鹽，此時護理人員衛教的對象應為： (A) 中風的丁先生 (B) 丁先生一家七口 (C) 與丁先生同樣罹患中風的病人及其家屬 (D)

四、后期物理复习备考建议不同阶段复习课教学设计（知识建构）的目的复习课教学设计的目的理解 · 对某知识的全面、抽象理解 · 抽象知识和具体情景的转化综合 · 多知识点联合解决问题基本素质 · 审题、表达、审视答案等基本能力复习 ( 一 ) 复习（二） ☆ ☆☆☆ ☆☆  进行科学规划.

据卫生署数据显示, 自民国 71 年起, 癌症一直都是国人死因第一位。近日英国《每日邮报》及印度《印度时报》等外国媒体, 综合了世界卫生组织国际癌症研究机构、美国国家癌症研究所、美国哈佛大学、英国牛津大学等近几年的研究指出, 以下有 7 种人罹癌机率高, 应尽早防范。

刘小清广东省心血管病研究所先心流行病学研究. 流行学美国 2006 年 -- 全球出生缺陷报告全球每年新增出生缺陷 >800 万人 90% 发生在中低收入国家每年大约有 330 万 5 岁以下儿童死于出生缺陷 320 万的儿童终生残疾其中，先天性心脏病位居出生缺陷的首位.

大象報告製作：周泓宇圖片：姚勝騰、柯俊安資料：林岑祐. 大象的食物大象吃青草、樹皮、樹葉等多種不同的食物。大象用長鼻攀折樹枝、把樹連根拔起，還把另一些樹的樹皮剝光，讓樹木枯萎。大象就這樣把森林變為開闊的林地，使燎原野火易於發生，終於把那個地帶變為無樹平原。大象喜愛有樹的地方。從前大象.

急性心肌梗塞.  急性心肌梗塞是由於冠狀動脈粥樣硬化、血栓形成或冠狀動脈持續痙攣，導致冠狀動脈或分枝閉塞，導致心肌因持久缺血缺氧而發生壞死。

中国部分农村地区肺结核发病因素的病例对照研究陈伟中国疾控中心结核病预防控制中心北京.

第十三章医学统计学方法的基本概念和基本步骤

开远市第一中学 2014年高考志愿填报指导会 2014年6月26日.

全民健康生活方式行动出版物健康生活方式核心信息第一册（试用版）卫生部疾病预防控制局中国疾病预防控制中心.

第5章增值税的其他筹划策略主讲人：张睿

狗的種類作者:麥澤洋.

自我介紹班級：運促一甲學號：D 姓名：張晉輔.

血壓血糖異常.

The application of medical statistics methods

成品成本计算鞠传英.

2011年10月31日是一个令人警醒的日子,世界在10月31日迎来第70亿人口。当日凌晨,成为象征性的全球第70亿名成员之一的婴儿在菲律宾降生。？

成人肥胖定義 BMI ＜ ≦BMI＜24 過重：24≦BMI＜27 輕度肥胖：27≦BMI＜30

白酒生产工艺项目三酒曲生产技术.

血压测量及练习.

愛錢又搞笑的日本警察兩津勘吉.

初级会计实务第八章产品成本核算主讲人：杨菠.

防治高血压护理新举措.

现代屋顶绿化简介. 城市化进程的加速使城市生态环境不断遭受破坏，营造以崇尚自然、回归自然为主旨的绿色生态型城市，已成为城市人居环境建设的发展趋势。目前城市用地日趋紧张，城市绿地的发展受到限制，有学者提出了向 “ 第五面 ” （即城市屋顶）索取绿色的设想，屋顶绿化的概念应运而生。

烟草栽培学南平农校杨志和.

牛品种介绍及繁殖技术张金山研究员新疆畜牧科学院畜牧研究所二0一三年三月.

中考阅读复习备考交流西安铁一中分校向连吾.

高考新改革与过渡怀化市铁路第一中学向重新.

走进哆啦A梦的生活.

危害辨識、分析講解及實作演練.

第九章 Logistic回归分析.

保育员职业技能鉴定.

組員:簡年佑組員:xxx 組員:xxx組員:xxx

七種人癌症風險最高.

中央广播电视大学开放教育成本会计（补修）期末复习

血压偏高护士人群的饮食行为研究学生：吴修龙指导老师：胡传来教授专业：预防医学学号：

人教版义务教育课程标准实验教科书小学数学四年级上册第七单元《数学广角》合理安排时间 248.

机械性损伤病人的护理 ——胸部损伤病人的护理

初中《思想品德》课程改革回顾·现状·展望

拒绝危险驾驶安全文明出行 2015全国交通安全日专题课件.

冠心病的预防保健知识新疆医科大学一附院刘华主任医师.

第二章植物病害的病原物第一节植物病原真菌

早在公元5世纪的北魏古籍中，就有关于腐乳生产工艺的记载“于豆腐加盐成熟后为腐乳”。

中考语文积累永宁县教研室步正军 2015．9.

河北省部分社区建档高血压患者血压与体重基线水平分析

歡迎來認識黃金獵犬黃金獵犬的神祕小世界.

小学数学知识讲座应用题.

倒装句之其他句式.

10.2 直方图.

第 22 课孙中山的民主追求 1 ．近代变法救国主张的失败教训： “师夷之长技以制夷”“中体西用”、兴办洋务、变法维新等的失败，使孙中山

一元一次方程式的意義一元一次方程式的解等量公理與移項法則自我評量.

自我介紹大同國中湯晴雯.

公共关系主编：谢苏.

静定结构位移计算 ——互等定理主讲教师：戴萍.

第 6 課總結.

例　一导体球半径为 R ，带电量 q ，在离球心 O

1.3.1 柱体、锥体、台体的表面积和体积.

畢氏定理(百牛大祭)的故事張美玲製作資料來源：探索數學的故事（凡異出版社）.

第三节物体的浮与沉.

102年人事預算編列說明邁向頂尖大學辦公室製作.

Presentation transcript:

Dept. of Medical Statistics General Hospital Of PLA MULTIVARIATE STATISTICS ANALYSIS 多元统计分析 Dept. of Medical Statistics General Hospital Of PLA

多元统计分析简介　　客观世界中的任何事物的形成, 变化和发展都是受多种因素的影响。各种因素之间又存在着广泛而又错综复杂的联系. 例如疾病的产生就受到多种因素的支配, 各种病因之间也常存在着一定的内在联系和相互制约. 需要分析哪些是主要的, 本质的, 哪些是次要的, 片面的, 它们之间的相互关系怎样等问题. 多元统计分析正是为了解决这些问题而产生的。

统计学基础知识的回顾什么是统计学？统计学是一门关于如何收集、分析、解释和表达数据的科学。温故而知新统计学基础知识的回顾什么是统计学？统计学是一门关于如何收集、分析、解释和表达数据的科学。 ---《Webster’s International Dictionary》统计学是研究随机现象规律性的方法学。

三类现象自然界和人类社会活动中，普遍存在三类现象。确定性现象：在相同的条件下出现相同的结果，称为确定性现象或必然现象。如地球的运动。自然界和人类社会活动中，普遍存在三类现象。　　　　　　　确定性现象：在相同的条件下出现相同的结果，称为确定性现象或必然现象。如地球的运动。随机性现象：在相同的条件下出现不同的结果，但结果是确定的，称为随机性现象。如掷硬币。模糊性现象：在相同的条件下出现不确定的结果，称为模糊性现象。　　如美人与丑人。

不同现象与研究方法　现象　　　　　　　研究方法确定性现象　－－－　经典数学随机性现象　－－－　概率统计学模糊性现象　－－－　模糊数学

统计学两个方面的作用一.是培养统计思维方法二.学以至用,解决实际问题统计学的知识已渗透到自然科学、社会科学以及人类生活的各个领域。

统计学应用的普适性经典应用1:牛顿的自由落体运动自由落体运动规律: 公式: h=1/2 g*t2 公式是怎样产生的? <中学物理课实验的回顾> h

牛顿的自由落体运动实验牛顿发现定律方法的探究时间 t 高度 h 1 4.9 2 39.1 3 88.3 … …. 多次重复实验,测量计录每次下落的高度与时间数据: 采用什么方法找规律呢? 运用了统计学思想回归分析直线回归方程: y = a+b*x h 1/2 g t h

h 。　　　。　　　　　　。　　。　　　。。 0 1 2 3 4 t 散点图

牛顿的自由落体定律的产生自由落体定律的探究回归方程的构造: 回归方程: y = a+b*x h 0 1/2 g t2 灵感影响定律公式的因素: 测量误差模型的选择

肾脏体积的经验公式经典应用2:肾脏体积的测量肾脏体积计算公式: 经验公式: V=π/4*长*宽*高公式怎样产生的? 肾脏为不规则体,怎样测量? 立方体体积规律: 公式: V=长*宽*高=abc 肾脏体积计算公式: 经验公式: V=π/4*长*宽*高公式怎样产生的? c b a

肾脏体积测量实验实验的回顾用20个肾脏标本,测量计录每个体积及其长,宽,高的数据: 采用什么方法找规律呢? 回归方程的构造: 编号体积 V 长 a 宽 b 高 c 1 100 10 5 2.5 2 110 6 2.6 3 105 11 2.1 … …. 实验的回顾用20个肾脏标本,测量计录每个体积及其长,宽,高的数据: 采用什么方法找规律呢? 回归方程的构造: y = a+b*x V=π/4*长*宽*高影响公式的因素: 测量误差模型的选择

不同科学间相互协作的重要性历史上很多非统计专业人员，通过对统计学的学习和研究，在专业和统计学取得有很深的造诣。物理学家爱因斯坦学习和研究统计，将统计学思想应用于他的物理学和哲学研究中。生物学家达尔文学习和研究统计，进化论方面的工作在本质而言是属于生物统计学。护理学的奠基人 Nightingale学习和研究统计，出版世界上第一部医院统计的专著《医院统计与医院规划》。

统计学是“对令人困惑费解的问题做出数字设想的艺术。” ---美国 David Freedman 统计学是一门处理数据中变异性的科学和艺术。　　---　John M.Last《A Dictionary of Epidemiology》　　科学与艺术的不同在于不同的人处理相同的问题可能得到不同的结果

现代统计学的基本内容实验设计一、试验设计二、数据管理三、统计分析临床试验设计调查研究设计数据管理质量控制统计描述统计推断

一、试验设计进行一项科研如同建造一座大厦，其设计、质量控制、分析、验收等都十分重要。如果大厦没有良好的设计和质量控制，就会出现问题，甚至倒塌，负责人会受到国家法律惩治。科研工作若没有良好的设计和质量控制，就会失败，得出错误的结果，对后来的科研产生误导作用。科研设计如同建筑设计一样举足轻重。

1 试验设计的三要素 1)、试验因素 2)、试验对象 3)、试验效应

2 实验设计的三原则随机对照重复 (均衡)

二、数据管理数据管理质量控制

三、数据分析统计描述统计推断

1 统计描述通过统计描述不仅可以对数据的概貌，分布，变量间的关系等有大致的了解，而且可发现数据中的异常现象。因此，统计描述在统计分析中占有相当重要的地位。

率、构成比统计量均数、中位数相关回归系数统计表统计图条图、直方图、线图等

2．统计推断用样本的信息来推断总体的特征叫统计推断. 统计分析的目的是由样本推断总体，故统计学的主体是统计推断

实验设计的模型1 1 因果关系: 试验对象试验因素试验效应 (自变量) (因变量) F X Y y=f(x)+e

实验设计的模型2 2 相互关联: 试验对象 A因素 B因素 (X1变量) (X2变量) F X1 X2 X2=f(x1)+e

参数点估计估计区间估计统 u检验计参数 t检验推 F检验断假设相关与回归检验卡方检验非参秩和检验秩相关检验

统计软件的重要作用 “计算机软件给统计学带来革命性变化” 发表论文或进行科研课题时,注明统计软件和采用的统计分析方法. 统计分析工具的选择: CHISS SAS, SPSS,STATA

混杂因素实例解析3 这中间存在混杂因素---吸烟携带火柴和发生肺癌间的关系的研究。人们观察发现那些携带火柴的人更有可能发生肺癌。难道这表明携带火柴可能引起肺癌？客观事实，携带火柴不可能引起肺癌。这中间存在混杂因素---吸烟

混杂因素的影响图1.1 危险因素、混杂因素和结果的关系携带火柴肺癌吸烟

[实例解析4] 喝咖啡与心肌梗塞MI关系的研究。有人观察发现喝咖啡的人，很多人患MI，这种现象是表象还是内在因果关系的？

研究者调查MI及非MI病人各150例，得到如下数据。表1.1 MI NoMI % Coffee 90 60 60 No coffee 60 90 40 优势比： OR=90*90/(60*60)=2.25 Pearson chi2(1) = 12.0，P = 0.001。说明喝咖啡人MI发生的危险性是不喝的2.25倍。两组MI发生率差异有显著意义。结论：喝咖啡与心肌梗塞MI有关！对否？

Smoker Nosmoker MI NoMI % MI NoMI % Coffee 80 40 67 10 20 33 表控制吸烟因素的干扰后结果 Smoker Nosmoker MI NoMI % MI NoMI % Coffee 80 40 67 10 20 33 Noffee 20 10 67 40 80 33 优势比 OR=1 ， OR=1 P = 1.00， P = 1.00

说明当存在混杂因素时,单因素分析结论并不科学。喝咖啡与心肌梗塞MI关系表明，在吸烟组和不吸烟组中。喝咖啡与不喝咖啡的MI发生的相对危险度相同的。说明当存在混杂因素时,单因素分析结论并不科学。

案例:研究生招生与性别的关系研究

＜案例讨论＞研究生招生与性别的关系研究美国加州贝克莱分校1973年研究生的录取情况如上表. ＜案例讨论＞　研究生招生与性别的关系研究美国加州贝克莱分校1973年研究生的录取情况如上表. 结果显示，男生报考人数据2691人，录取1197人，录取比例44.5%，女生报考人数据1835人，录取556人，录取比例30.3%。有人认为该校在研究生录取中存在性别歧视。试对此进行讨论与分析。

混杂因素的定义  当某一危险因素和结果的相关性受第三个变量和危险因素及结果之间关系的影响，这第三个变量称为混杂因素。  当某一危险因素和结果的相关性受第三个变量和危险因素及结果之间关系的影响，这第三个变量称为混杂因素。上两例中，混杂因素是吸烟

排除混杂因素的两种方法 1、分层分析 2、多元统计分析

1 分层分析方法分层分析是在其它影响因素保持恒定情况下，评价某一危险因素对结果的影响。 -----控制混杂因素对结果的影响分层分析是在其它影响因素保持恒定情况下，评价某一危险因素对结果的影响。例如，上面我们可以分别在吸烟者和非吸烟者之中，比较喝啡咖与和不喝啡咖的人。这可使我们在不依赖于吸烟的情况下，分析喝啡咖对MI的影响。

分层分析的优缺点优点：直观简洁。缺点：当考虑因素较多时分组数量倍增，需要例数较多，有时无法实现。

运动与寿命关系的研究 [实例解析5] ‘生命在于运动。’ ‘运动有利于长寿’ 流水不腐。。。这是人类长期经验的总结，但事实果真如此吗？是科学的结论，还是事物的假象呢？

运动与人的寿命的关系许多研究表明长期运动人的寿命比久坐型生活方式人的寿命长。但是，如果运动者寿命长的真正原因是他不吸烟，没有家族病史，好的生活环境等，那么运动将不能改变一个人的寿命。

美国Aerobics中心的追踪研究在1970－1989年间，它们追踪观察25,341男性和7084女性, 研究运动和死亡率的关系。男性参加者被追踪观察平均8.4年，女性平均7.5年。所有参加者接受了基线检查，这些检查包括体检、实验室检测及踏车试验评价身体适宜运动量。结果如表1.1。 Blair, S.N., Kampert, J.B., Kohl, H.W., et al. ”Influences of cardiorespiratory fitness and other precursors on cardiovascular disease and all-cause mortality in men and women.” JAMA 1996;276:205-10

表1.3 Aerobics 中心追踪研究过程中生存与死亡者基线特征（男性组）指标生存死亡 (n=24,740) ( n=601) 年龄（SD） 42.7 (9.7) 52.1(11.4)* 体重指数 26.0 (3.6) 26.3 ( 3.5) 收缩压 121.1(13.5) 130.4(19.1)* 总胆固醇 213.1(40.6) 228.9(45.4) 空腹血糖 100.4(16.3) 108.1(32.0)

运动量（%）低 20.1 41.6 中 42.0 39.1 高 37.9 19.3* 冠心病家族史 25.4 33.8* 吸烟 26.3 36.9* 异常心电图 6.9 26.3* 慢性病 18.4 40.3*

分析发现，存活者和死亡者之间是有明显区别的。特点是存活者较年轻，血压较低，低胆固醇，很少吸烟并且高运动量（基于他们踏车试验时间长短及程度）。但表1.1并没有回答我们的基本问题：运动是否独立地延长寿命？它并没有回答这个问题是由于虽然高运动量组很少在研究期间死亡，但他们或者较很少吸烟，或年轻，或有较低的血压。我们应排除排除混杂因素的影响。

[分层分析法] 表1.4 Aerobics 中心追踪研究中全因死亡患者吸烟和体质的分层分析每万人年分层相对危险度死亡数（９５％CI）吸烟低运动量 48.0 1.63(1.26-2.13)* 中/高运动量 29.4 1.0(参照组) 不吸烟低运动量 44.0 2.19(1.77-2.70)* 中/高运动量 20.1 1.0(参照组) 可见低运动量组死亡率高于中/高运动量组的死亡率，这一分层分析表明运动的作用不依赖于吸烟状态。

但是，有可能影响运动和长寿之间关系的其它变量是怎样的？你可以层层分析每一原因，来证明运动对长寿的影响不但不依赖于吸烟状态，也不依赖于年龄、性别、高血脂、高血压等等。如果分层分析3个变量[吸烟状态、年龄、体重（正常/异常）]，你将需要在8个组中分析运动和死亡率的关系。如果分层分析6个变量[吸烟状态、年龄、性别、体重、胆固醇水平、高血压状态（是／不是）]，你将需要在64个组中分析运动和死亡率的关系。

[多因素分析法] 为判断运动是否独立地与死亡有关，研究者们运用了COX比例风险分析(proportional hazards analysis)的多元分析方法，结果如表1.2。

表1.5 Aerobics 中心追踪研究全死亡率危险因素的多元分析自变量死亡率调整相对危险度RR （百万分数）（95%CI）运动量低 38.1 1.52(1.28-1.82)* 中/高 25.0 1.0(参照组) 吸烟状况吸烟 39.4 1.65(1.39-1.97)* 不吸烟 23.9 1.0(参照组)

收缩压 ≥140 mmHg 35.6 1.30(1.08-1.58)* < 140　mmHg 26.1 1.0(参照组) 胆固醇 ≥240 mg/dl 35.1 1.34(1.13-1.59)* < 240 mg/dl 26.1 1.0(参照组) 冠心病家族史　有 29.9 1.07(0.90-1.29) 　无 27.8 1.0(参照组) 体重指数 ≥ 27 Kg/m2 28.8 1.02(0.86-1.22) < 27 Kg/m2 28.2 1.0(参照组)

空腹血糖 ≥120 mg/dl 34.4 1.24(0.98-1.56) < 120 mg/dl 27.9 1.0(参照组) 异常心电图　有 44.4 1.64(1.34-2.01)* 　无 27.1 1.0(参照组) 慢性疾病　有 41.2 1.63(1.37-1.95)* 　无 25.3 1.0(参照组)

这显示运动与生存率有关，它并不依赖于吸烟、高血压、高胆固醇及家族史。运动与人的寿命的关系表明，如果你比较男性中每千人年死亡数，你可以看出在低运动组（38.1）比中/高运动量组（25.0）有较高的死亡数。其相对危险度为38.1/25.0=1.52。说明低运动量的人死亡的危险性是高运动人的1.52倍。这显示运动与生存率有关，它并不依赖于吸烟、高血压、高胆固醇及家族史。

吸烟和冠状血管疾病再通术后的预后间的关系 [实例解析6] 吸烟和冠状血管疾病再通术后的预后间的关系 Aerobics中心的追踪研究，他们追踪了5437例冠状血管疾病并接受再通手术（用线和球打开阻塞的冠状血管）的病人，将病人分为不吸烟、以前吸烟（至少在手术前6个月戒掉）、刚戒烟(因手术后刚戒掉)、及持续吸烟4个组。结果见表1.4.

表1.6 吸烟状况和死亡危险性的两变量关系组别死亡相对危险度RR （ 95%CI）不吸烟 1.0 (参照组) 以前吸烟 1.08 (0.92-1.26) 刚戒烟 0.56 (0.40-0.77)* 持续吸烟 0.74 (0.59-0.94)*

持续吸烟组的死亡相对危险度怎么比不吸烟组低呢？（烟草公司希望）在你假定在此研究中可能有差错之前，一些其它研究发现在冠状动脉疾病血栓溶解治疗中，吸烟和预后具有同样的关系，这一作用被称为“吸烟者悖论” 是什么原因导致这一“悖论”呢？

表1.5 人口学及临床因素与吸烟状况的关系不吸烟以前吸烟刚戒烟持续吸烟年龄±SD （年） 67±11 65±10 56±10 55±11 心绞痛病程（月） 41±66 51±72 21±46 29±55 糖尿病，% 21 18 8 10 高血压，% 54 48 38 39 冠状动脉疾病,% 一枝血管 50 51 57 55 二枝血管 36 36 34 36 三枝血管 14 13 10 9

表1.5可以看到，相比于吸烟者和以前吸烟者，刚戒烟者和持续吸烟者更年轻，心绞痛时间更短，较少有糖尿病和高血压，较少有严重的冠心病。看到这些，你对刚戒烟者和持续吸烟者的死亡率低于不吸烟者和以前吸烟者就不会奇怪了。因为他们比不吸烟者和以前吸烟者年轻，而且很少有医学隐患。

表1.6 比较一元统计与多元统计吸烟状况与死亡危险性的关系不吸烟以前吸烟刚戒烟持续吸烟一元统计的危险相对度 1.0 1.08 0.56 0.74 9 5%CI (参照组) (0.92-1.26) (0.40-0.77) (0.59-0.94) 多元统计的相对危险度 1.0 1.34 1.21 1.76 9 5%CI ( 参照组) (1.14-1.57) (0.87-1.70) (1.37-2.26)

表1.6 将一元分析死亡危险性（未校正）和多元统计分析死亡危险性相比. 在多元统计分析中，研究者校正了4组中存在的如年龄、心绞痛时间等差别。通过对这4组基线差别的统计学校正，刚戒烟者和持续吸烟者的死亡危险显著高于不吸烟者――更加灵敏的结果。一元统计和多元分析的差别表明混杂因素是存在的。

多因素分析与分层分析的比较当你用分层分析每增加一个变量，你将倍增分组的数量。一方面产生大量的打印结果、需要整本书报告你的结果。另一方面即使在开始时有很大的样本量，可能在某些分组中样本量还是不足。有时无法分层的。

多因素分析与分层分析的比较多因素分析克服了这方面的限制，它将使你同时评价各种不同因素对结果的不同作用。但多因素分析需要前提条件，模型对数据的性质要作一些假定，这些假定有时候是很难证实的。

*混杂因素与干预因素关系当危险因素和结果的相关性受第三个因素和危险因素及结果之间关系的影响，这第三个变量称为混杂因素。一个干预因素是出现结果的原因。

Camango及其同事们在研究中度酒精消费和心脏病危险性关系时校正了年龄、吸烟、运动、糖尿病及心脏病家族史，但是他们没有校正血压、体重指数、高胆固醇血症。为什么不？这些因素符合混杂因素的定义，它们与危险因素（酒精消费）有关并与结果（心肌梗塞）有因果关系，问题是酒精消费可加重导致高血压、体重指数增加及高胆固醇血症。因此,如图1.3所示。这些变量可能通过其它致病途径导致心肌梗塞，应考虑为干预变量，不应考虑为混杂因素，如果将混杂因素作为干预变量来校正，那么你需要重新考虑你的结果。

血压升高体重指数增加高胆固醇血症酒精消费心肌梗塞

统计学不能区别混杂和干预变量统计学并不能告诉你什么是混杂因素，什么是干预变量。从统计上讲，混杂因素与干预变量是一回事。在你的模型中，是因为有混杂因素而引入该变量，还是因为有干预变量而排除该变量呢？这一决定必须根据以前的研究和生物学上的可解释性作出。

一多元统计分析的概念多元统计分析是研究客观事物中多种指标间相互依赖, 相互影响的统计规律性的一个数理统计学分支. 一多元统计分析的概念多元统计分析是研究客观事物中多种指标间相互依赖, 相互影响的统计规律性的一个数理统计学分支. 医用多元统计分析是多元统计分析在医学领域的应用.

二、学习多元统计分析的重要性为什么开这门课？多元统计分析与已学的医学统计学的区别在哪呢？

多元统计分析能使我们对所研究的问题更全面, 更深刻的认识. 帮助我们透过现象看本质,发观事物之间内在的本质规律,从而推动医学科学的发展。

三. 多元统计分析的特点优点有两个: 一多元统计分析的资料较容易取得; 二多元统计分析可以从整体上分析结果.

四、开展多元统计教学的可能性 ①多元统计分析的数学理论十分复杂; ②多元统计分析的计算量很大; ③教学工作开展不够. 个人电子计算机的飞速发展，对多元统计学产生重大影响。常用的统计软件包有CHISS,SAS、SPSS、STATISTCA, Stata等.

五关于多元统计选修课一选修课的目的二课时按排， 30学时，1.5学分

六多元统计的教与学一了解各种多元统计学方法的适用前提条件和用应范围二掌握一种统计软件三正确解释软件输出结果及结论二掌握一种统计软件三正确解释软件输出结果及结论讲授与上机实习结合三成绩考核

七. 多元统计分析的前提条件 1. 多元统计对资料的分布有一定的要求; 2. 需要有足够大的样本，一般认为，例数m是研究因素个数P的10倍左右。

为什么在统计学常常需要足够多的观测例数呢？

例甲、乙两研究者分别用某新药治疗10例和403例老年性气管炎患者, 其疗效如下表。甲治疗结果例数 % 临床治愈 7 70 未治愈 3 30 合计 10 100 乙治疗结果例数 % 临床治愈 83 20 未治愈 320 80 合计 403 100

那么应用20%，还是70%, 以估计新药治疗老年性气管炎治愈率呢？临床上感兴趣的问题是新药治疗老年性气管炎治愈率是多少, 而不是10和403例的治愈频率, 那么应用20%，还是70%, 以估计新药治疗老年性气管炎治愈率呢？

概率与频率的关系什么是概率？概率是度量随机事件A发生可能性大小的一个数量. 记为P（A）。什么是频率？频率若在n次同样的随机试验, 事件A发生了k次, 则比值k/n 称为频率

频率与概率的关系：抛掷硬币的试验结果 ━━━━━━━━━━━━━━━━━━━━━ 试验者抛掷次数(n) 正面次数(k) 频率(k/n) ───────────────────── TONG 3 3 1.00 5 4 0.80 10 3 0.30 20 7 0.35 50 27 0.54 100 52 0.52 500 246 0.492

历史上许多著名科学家做过抛掷硬币的试验, 抛掷硬币试验结果如表 ━━━━━━━━━━━━━━━━━━━━━ 试验者抛掷次数(n) 正面次数(k) 频率(k/n) ───────────────────── De Morgan 2048 1061 0.518 Buffon 4,040 2,048 0.5069 Pearson 12,000 6,019 0.5016 Pearson 24,000 12,012 0.5005

观测例数越少，抽样误差越大，样本的对研究总体的代表性就小。所以,医学试验中需要足够多的例数。

定理: 若当试验次数n充分大以后, 频率k/n稳定地在某一确定值P的附近摆动。即: Lim (k/n)=P n ∞ 频率与概率的关系定理: 若当试验次数n充分大以后, 频率k/n稳定地在某一确定值P的附近摆动。即: Lim (k/n)=P n ∞ 实际工作中,常用频率求概率的近似值: P(A)≈f(A)=k/n.

八. 变量类型及数量化方法在医学研究中，常常存在许多反映个体变异性的指标，统计学上称为变量, 如年龄、病情、性别等。可分三类。

是对研究单位的定量特征的描述。诸如个体年龄、身高、体重等变量均可经测量取得数值。将这类变量视为连续型变量, 或定量变量。 ⑴ 定量变量是对研究单位的定量特征的描述。诸如个体年龄、身高、体重等变量均可经测量取得数值。将这类变量视为连续型变量, 或定量变量。对于定量指标, 在通常情况下以原始观察值的形式出现。有时可分段处理。如年龄分60以上、以下。

⑵ 定性变量是对研究单位的定性特征的描述，有类别。亦称分类变量 ⑵ 定性变量是对研究单位的定性特征的描述，有类别。亦称分类变量. 如性别分男、女为二分类变量。血型可分为A、B、 AB、 O四类型, 为四分类变量。

二项分类变量如性别，用一个变量表示，一般可赋值为0和1，或1和2。 1 女 X= 0 男

无序多分类变量如血型分为A、B、 AB、 O四类型。需用三个哑变量来区分。 1 A型 1 B型 1 O型 X1= X2= X3= 0 其它 0 其它 0 其它当X1=0，X2=0，X3=0时，为AB型一般N分类，需要N-1个哑变量表示。

⑶ 等级变量：是对研究单位的等级特征的描述。如病情分轻、中，重三个等级。 ⑶ 等级变量：是对研究单位的等级特征的描述。如病情分轻、中，重三个等级。数值化法：只须用一个X作为分类变量, 然后按等级顺序分别赋值。b例如，用X表示病情, 其赋值方法分为: 0 轻 X= 1 中 2 重

九，如何收集和整理多元分析资料设研究问题中含有p个指标变量x1, x2,…,xp. 及n个观察对象. 其数据结构为: 编号 X1 X2 X3 …. XP 1 x11 x21 x31 … x1p 2 x12 x22 x32 … x2p 3 x13 x23 x33 … x3p … … … … … … n x1n x2n x3n … xnp ━━━━━━━━━━━━━━━━━━

实验数据要求完整、准确、真实。若某一观测指标的值, 有空缺, 应注明。在SAS中用“.”表示空缺。切忌凭主观愿望填写，在计算机中, 常采用EPI, CHISS DBASE、Excel、 SAS等建立数据库.

十常用的多元统计方法

1 多元回归分析

多元回归分析简介直线回归分析一个自变量和一个因变量间的关系, 在医学实践中，常会遇到一个应变量与多个自变量数量关系的问题。如医院住院人数不仅与门诊人数有关, 而且可能与病床周转次数, 床位数等有关. 多元回归分析正是为解决这些问题而产生的。

多元回归分析多元线性回归是研究多个自变量与一个因变量之间数量关系的一种统计方法。

实例分析肾小球滤过率的影响因素研究临床观测61例患者的肾小球滤过率y,及10种观察指标:年龄X1,糖化血红蛋白X2, 饭后两小时血糖X3, 胰岛素X4, 胆固醇X5, 肌肝X6, 平均动脉压X7, 体重X8, 肾脏体积X9, 尿白蛋白排泄率X10。 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 病例 X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 y ───────────────────────────── 1 36 9 16 31 5 53 101 304 355 1 177 2 39 14 24 17 7 69 90 25 310 23 130 3 42 14 29 7 4 82 96 24 293 3 101 . . . . . . . . . . . . . . . . . . . . . . . . 61 45 20 22 10 3 101 90 20 310 1 116 试分析这10项指标与肾小球滤过率间的关系。

P值可以看出，在十个变量中, X3饭后两小时血糖, X6肌肝 t和 X9 肾脏体积对肾小球滤过率影响有显变量系数标准误 t值 P值截距 71.02 27.66 2.567 0.0133 X1 0.14 0.27 0.510 0.6124 X2 -0.62 0.95 -0.656 0.5149 X3 1.01 0.48 2.084 0.0423 * X4 0.06 0.16 0.382 0.7039 X5 2.33 1.86 1.255 0.2153 X6 -0.64 0.19 -3.369 0.0015 ** X7 0.02 0.18 0.157 0.8757 X8 -0.24 0.78 -0.308 0.7594 X9 0.23 0.04 5.008 0.0001 ** X10 -0.21 0.14 -1.524 0.1337 P值可以看出，在十个变量中, X3饭后两小时血糖, X6肌肝 t和 X9 肾脏体积对肾小球滤过率影响有显著性意义, 其它的7个变量没有显著性意义。

2 曲线拟合． 1)多项式曲线一般多项式曲线的方程为 n＝２时, 二次多项式曲线，即抛物线.

3 Logistic回归分析

Logistic回归分析能较好地解决这类问题。在医学研究中, 经常要分析某种结果的产生与哪些因素有关。例如：生存与死亡, 发病与未发病, 阴性与阳性等结果的产生可能与病人的年龄、性别、生活习惯、体质、遗传等许多因素有关。如何找出其中哪些因素对结果的产生有显著性影响呢？ Logistic回归分析能较好地解决这类问题。

Logistic 回归是一种概率模型, 它是以疾病、死亡等结果发生的概率为因变量, 影响疾病发生的因素为自变量建立模型。它适用于因变量为二项, 多项分类的资料。在临床医学中多用于鉴别诊断, 评价治疗措施的好坏及分析与疾病预后有关的因素等。

例号是否患病性别吸烟年龄地区 1 0 1 0 30 0 2 0 0 1 46 1 3 0 0 1 30 1 . . . . 29 1 0 0 25 0 30 1 0 0 26 1

单因素Logistic回归分析结果模型变量系数标准误卡方 P值 1 X1 1.704 0.80 4.53 0.0332 2 X2 2.564 0.93 7.50 0.0062 3 X3 0.142 0.04 9.34 0.0022 4 X4 -0.271 0.73 0.13 0.7128 结果表明, 性别, 吸烟, 年龄三个因素都与肺癌有关. 由于在对某一因素进行单因素分析时没有控制其它因素的干扰, 因此结果不可靠.

多元Logistic回归分析结果变量系数标准误 Wald 卡方 P值 INTERCPT -9.75 4.09 5.66 0.02 X1 2.52 1.82 1.92 0.17 X2 3.98 1.98 4.06 0.04 X3 0.19 0.08 5.67 0.02 X4 -1.30 1.58 0.68 0.41 由上最大似然估计分析知因素X2(吸烟), X3(年龄)对肺癌的发生有显著的影响。所得的回归方程为: Logit(P)=-9.7544+2.5152X1+3.9849X2+0.1884X3-1.3037X4. Logistic回归模型可以用于进行预测和判断工作.

Survival Analysis 4. 生存分析

生存分析简介　　疾病治疗的预后情况，一方面看结局好坏，另一方面还要看出现这种结局所经历的时间长短，这类资料一般通过随访收集。随访资料常因中途退出,失访,中止观察等原因造成某些数据观察不完全，须要用专门的方法进行统计处理，这类方法起源于对寿命资料的统计分析，故称为生存分析。

Multi-ANOVA Analysis 5. 多元方差分析*

多元方差分析简介医学工作中常从多个指标不同的角度去研究同一个问题。若用一元方差分析时, 当不同的指标所表现的趋势不一致时, 就得不出一个概括性的结论, 难以作出明确的判断。若用多元方差分析则能作出明确的判断。使我们对所研究的问题更全面、更深刻的认识。所得到的结论更可靠、更科学。

例1 调查某中学同年级22名男女生, 测量其身高（cm）、体重(kg)和胸围(cm),数据见表88。试检验该中学全体男女生的身体发育状况有无差别。

───────────────────────── 1 171 58.5 81.0 1 152 44.8 74 某中学22名男、女生身体测量资料 ───────────────────────────── 男生女生 ──────── ─────────── 编号身高体重胸围编号身高体重胸围 ───────────────────────── 1 171 58.5 81.0 1 152 44.8 74 2 175 65 87 2 153 46.5 80 3 159 38 71 3 158 48.5 73.5 4 155.3 45 74 4 150 50.5 87 5 152 35 63 5 144 36.3 68 6 158.3 44.5 75 6 160.5 54.7 86 7 154.8 44.5 74 7 158 49 84 8 164 51 72 8 154 50.8 76 9 165.2 55 79 9 153 40 70 10 164.5 46 71 10 159.6 52 76 11 159.1 48 72.5 12 164.2 46.5 73 ────────────────────────────

一元方差分析的结果 ━━━━━━━━━━━━━━━━━━━━━━━━━ 身高体重胸围 ── ─────── ────── ────── 组别平均值标准差平均值标准差平均值标准差 ───────────────────────── 男 161.9 6.8 48.1 8.3 74.4 5.9 女 154.2 5.0 47.3 5.6 77.4 6.6 F值 8.7** 0.1 1.3 ** P<0.01

从表可以看出，该校男、女生的身高差异有显著性意义，而体重、胸围差异无显著性意义。那么, 该年级全体男女生的身体发育状况有无差别,我们不能得到一个明确的结论。我们可以采用Hotelling T2 或Wilks’ Lamba检验进行多元方差分析 .

表有三个指标反映身体发育状况, 可用男、女生的身高、体重、胸围组成的样本均数向量推论该年级男、女生身体发育指标的总体均数向量μ1和μ2相等与否, 进而可推论该年级男女生身体发育状况有无差别。采用SAS软件分析得到Wilks' Lambda=0.40371，转化为F值，F=8.8622，P=0.0008。拒绝该年级男女生身体发育指标的总体均数向量相等的假设，从而可认为该校男女生身体发育状况不同。

本讲课的主要内容混杂因素的影响单因素分析中的问题多元分析的重要性科研数据的全面分析

谢谢