Dept. of Medical Statistics General Hospital Of PLA

Slides:



Advertisements
Similar presentations
糖尿病知多少 ? 台北市立聯合醫院陽明院區 家庭醫學科 林儀蒂 醫師 什麼是糖尿病 ?(1) 正常情況下, 身體會將吃進去的澱粉 類食物轉變成葡萄糖, 做為身體的燃 料 。 胰島素是由胰臟製造的一種荷爾蒙, 它可以幫助葡萄糖進入細胞內, 提供 熱能 。
Advertisements

运动与生命 阳光、空气、水和体育 运动是生命和健康的源 泉 有氧运动在美国 高血压发病率下降 30 %以上 高血压发病率下降 30 %以上 心梗死亡率下降 37 % 心梗死亡率下降 37 % 脑卒中死亡率下降 50 % 脑卒中死亡率下降 50 % 人均寿命延长了 6 年 人均寿命延长了 6 年.
腎臟保健 桃園榮民總醫院 社區團體衛教 報告者 : 林大雅 醫師. 腎臟的功能  清除、排泄廢物  調整水分、體液、調整血壓  維持電解質與酸鹼度平衡  製造與分泌賀爾蒙.
疾病离我们有多远? 张晓林. 我们的健康出了什么问题? 高科技、高收入带来了什么? “ 五高现象 ” 长寿命、老龄化催生着什么? 健康维护 快节奏、快经济发达影响着什么? 心理健康 高血压、高血糖、高血脂、高体重、高尿酸 生活指导、健康咨询、康复训练、有效防护 适应生活工作的节奏、正确处理人际关系、恰当.
吉林大学护理学院儿科护理教研室 主讲教师 刘晓丹 教授. 吉林大学护理学院儿科护理教研室 第一节 生长发育概述 一、生长发育规律 一、生长发育规律 二、生长发育的影响因素 二、生长发育的影响因素 第二节 生长发育评估 一、体格生长发育评估 一、体格生长发育评估 二、神经心理发育评估 二、神经心理发育评估.
健康教育的目的: 使病人了解到高血压的相关知识,增强自 我保健意识,提高配合治疗的目的。并且 能够做到合理膳食、适量运动及其他健康 生活方式,以达到降低血压及减少高血压 危险因素的目的。
社區公共衛生護理 主題九: 慢性疾病的護理 ( 共 26 題 ). B 01. 當護理人員在衛教丁太太有關其先生中風後的 飲食調理時,發現丁太太在調理時,傾向高油、 高鹽,此時護理人員衛教的對象應為: (A) 中 風的丁先生 (B) 丁先生一家七口 (C) 與丁先 生同樣罹患中風的病人及其家屬 (D)
四、后期物理复习备考建议 不同阶段复习课教学设计(知识建构)的目的 复习课教学 设计的目的 理 解 · 对某知识的全面、抽 象理解 · 抽象知识和具体情景 的转化 综 合 · 多知识点联合解决问 题 基本素质 · 审题、表达、审视答 案等基本能力 复习 ( 一 ) 复习(二) ☆ ☆☆☆ ☆☆  进行科学规划.
据卫生署数据显示, 自民国 71 年起, 癌症一直都是国 人死因第一位。近日英国《每日邮报》及印度《印 度时报》等外国媒体, 综合了世界卫生组织国际癌 症研究机构、美国国家癌症研究所、美国哈佛大学、 英国牛津大学等近几年的研究指出, 以下有 7 种人罹 癌机率高, 应尽早防范。
刘小清 广东省心血管病研究所 先心流行病学研究. 流行学 美国 2006 年 -- 全球出生缺陷报告 全球每年新增出生缺陷 >800 万人 90% 发生在中低收入国家 每年大约有 330 万 5 岁以下儿童死于出生缺陷 320 万的儿童终生残疾 其中,先天性心脏病位居出生缺陷的首位.
大象報告 製作:周泓宇圖片:姚勝騰、柯俊安資料:林岑祐. 大象的食物 大象吃青草、樹皮、樹葉等多種不同的食 物。大象用長鼻攀折樹枝、把樹連根拔起, 還把另一些樹的樹皮剝光,讓樹木枯萎。 大象就這樣把森林變為開闊的林地,使燎 原野火易於發生,終於把那個地帶變為無 樹平原。大象喜愛有樹的地方。從前大象.
急性心肌梗塞.  急性心肌梗塞是由於冠狀 動脈粥樣硬化、血栓形成 或冠狀動脈持續痙攣,導 致冠狀動脈或分枝閉塞, 導致心肌因持久缺血缺氧 而發生壞死。
中国部分农村地区肺结核发病因素 的病例对照研究 陈 伟 中国疾控中心结核病预防控制中心 北京.
第十三章 医学统计学方法的基本概念和基本步骤
开远市第一中学 2014年高考志愿填报指导会 2014年6月26日.
全民健康生活方式行动出版物 健康生活方式 核心信息 第一册(试用版) 卫生部疾病预防控制局 中国疾病预防控制中心.
得獎作品.
6.5 密 度.
第5章 增值税的其他筹划策略 主 讲 人:张 睿
狗的種類 作者:麥澤洋.
自我介紹 班級:運促一甲 學號:D 姓名:張晉輔.
血壓血糖異常.
The application of medical statistics methods
成品成本计算 鞠传英.
2011年10月31日是一个令人警醒的日子,世界在10月31日迎来第70亿人口。当日凌晨,成为象征性的全球第70亿名成员之一的婴儿在菲律宾降生。 ?
腎臟疾病.
成人肥胖定義 BMI < ≦BMI<24 過重:24≦BMI<27 輕度肥胖:27≦BMI<30
白酒生产工艺 项目三 酒曲生产技术.
血压测量及练习.
愛錢又搞笑的日本警察 兩津勘吉.
初级会计实务 第八章 产品成本核算 主讲人:杨菠.
防治高血压 护理新举措.
现代屋顶绿化简介. 城市化进程的加速使城市生态环境不断遭 受破坏,营造以崇尚自然、回归自然为主旨的 绿色生态型城市,已成为城市人居环境建设的 发展趋势。目前城市用地日趋紧张,城市绿地 的发展受到限制,有学者提出了向 “ 第五面 ” (即城市屋顶)索取绿色的设想,屋顶绿化的 概念应运而生。
烟草栽培学 南平农校 杨志和.
牛品种介绍及繁殖技术 张金山 研究员 新疆畜牧科学院畜牧研究所 二0一三年三月.
中考阅读 复习备考交流 西安铁一中分校 向连吾.
高考新改革与过渡 怀化市铁路第一中学 向重新.
走进哆啦A梦的生活.
危害辨識、分析講解及實作演練.
第九章 Logistic回归分析.
保育员职业技能鉴定.
組員:簡年佑組員:xxx 組員:xxx組員:xxx
七種人癌症風險最高.
中央广播电视大学开放教育 成本会计(补修)期末复习
血压偏高护士人群的饮食行为研究 学 生:吴修龙 指导老师:胡传来 教授 专 业:预防医学 学 号:
人教版义务教育课程标准实验教科书 小学数学四年级上册第七单元《数学广角》 合理安排时间 248.
机械性损伤病人的护理 ——胸部损伤病人的护理
初中《思想品德》课程改革 回顾·现状·展望
拒绝危险驾驶  安全文明出行 2015全国交通安全日专题课件.
冠心病的预防保健 知识 新疆医科大学一附院 刘华主任医师.
第二章 植物病害的病原物 第一节 植物病原真菌
早在公元5世纪的北魏古籍中,就有关于腐乳生产工艺的记载“于豆腐加盐成熟后为腐乳”。
中考语文积累 永宁县教研室 步正军 2015.9.
河北省部分社区建档高血压患者血压与体重基线水平分析
歡迎來認識黃金獵犬 黃金獵犬的神祕小世界.
小学数学知识讲座 应用题.
倒装句之其他句式.
10.2 直方图.
第 22 课 孙中山的民主追求 1 .近代变法救国主张的失败教训: “师夷之长技以制 夷”“中体西用”、兴办洋务、变法维新等的失败,使孙中山
一元一次方程式的意義 一元一次方程式的解 等量公理與移項法則 自我評量.
自我介紹 大同國中 湯晴雯.
公 共 关 系 主编:谢苏.
静定结构位移计算 ——互等定理 主讲教师:戴萍.
第 6 課 總結.
例  一导体球半径为 R ,带电量 q ,在离球心 O
1.3.1 柱体、锥体、台体的表面积和体积.
畢氏定理(百牛大祭)的故事 張美玲 製作 資料來源:探索數學的故事(凡異出版社).
第三节 物体的浮与沉.
102年人事預算編列說明 邁向頂尖大學辦公室製作.
Presentation transcript:

Dept. of Medical Statistics General Hospital Of PLA MULTIVARIATE STATISTICS ANALYSIS 多元统计分析 Dept. of Medical Statistics General Hospital Of PLA

 多元统计分析简介   客观世界中的任何事物的形成, 变化和发展都是受多种因素的影响。 各种因素之间又存在着广泛而又错综复杂的联系. 例如疾病的产生就受到多种因素的支配, 各种病因之间也常存在着一定的内在联系和相互制约. 需要分析哪些是主要的, 本质的, 哪些是次要的, 片面的, 它们之间的相互关系怎样等问题. 多元统计分析正是为了解决这些问题而产生的 。

统计学基础知识的回顾 什么是统计学? 统计学是一门关于如何收集、分析、解释和表达数据的科学。 温故而知新 统计学基础知识的回顾 什么是统计学? 统计学是一门关于如何收集、分析、解释和表达数据的科学。 ---《Webster’s International Dictionary》 统计学是研究随机现象规律性的方法学。

三类现象 自然界和人类社会活动中,普遍存在三类现象。 确定性现象:在相同的条件下出现相同的结果,称为确定性现象或必然现象。如地球的运动。 自然界和人类社会活动中,普遍存在三类现象。        确定性现象:在相同的条件下出现相同的结果,称为确定性现象或必然现象。如地球的运动。 随机性现象:在相同的条件下出现不同的结果,但结果是确定的,称为随机性现象。如掷硬币。 模糊性现象:在相同的条件下出现不确定的结果,称为模糊性现象。  如美人与丑人。

不同现象与研究方法  现象       研究方法 确定性现象 --- 经典数学 随机性现象 --- 概率统计学 模糊性现象 --- 模糊数学

统计学两个方面的作用 一.是培养统计思维方法 二.学以至用,解决实际问题 统计学的知识已渗透到自然科学、社会科学以及人类生活的各个领域。

统计学应用的普适性 经典应用1:牛顿的自由落体运动 自由落体运动规律: 公式: h=1/2 g*t2 公式是怎样产生的? <中学物理课实验的回顾> h

牛顿的自由落体运动实验 牛顿发现定律方法的探究 时间 t 高度 h 1 4.9 2 39.1 3 88.3 … …. 多次重复实验,测量计录每 次下落的高度与时间数据: 采用什么方法找规律呢? 运用了统计学思想 回归分析 直线回归方程: y = a+b*x h 1/2 g t h

h 。     。          。     。      。 。 0 1 2 3 4 t 散 点 图

牛顿的自由落体定律的产生 自由落体定律的探究 回归方程的构造: 回归方程: y = a+b*x h 0 1/2 g t2 灵感 影响定律公式的因素: 测量误差 模型的选择

肾脏体积的经验公式 经典应用2:肾脏体积的测量 肾脏体积计算公式: 经验公式: V=π/4*长*宽*高 公式怎样产生的? 肾脏为不规则体,怎样测量? 立方体体积规律: 公式: V=长*宽*高=abc 肾脏体积计算公式: 经验公式: V=π/4*长*宽*高 公式怎样产生的? c b a

肾脏体积测量实验 实验的回顾 用20个肾脏标本,测量计录每 个体积及其长,宽,高的数据: 采用什么方法找规律呢? 回归方程的构造: 编号 体积 V 长 a 宽 b 高 c 1 100 10 5 2.5 2 110 6 2.6 3 105 11 2.1 … …. 实验的回顾 用20个肾脏标本,测量计录每 个体积及其长,宽,高的数据: 采用什么方法找规律呢? 回归方程的构造: y = a+b*x V=π/4*长*宽*高 影响公式的因素: 测量误差 模型的选择

不同科学间相互协作的重要性 历史上很多非统计专业人员,通过对统计学的学习和研究,在专业和统计学取得有很深的造诣。 物理学家爱因斯坦学习和研究统计,将统计学思想应用于他的物理学和哲学研究中。 生物学家达尔文学习和研究统计,进化论方面的工作在本质而言是属于生物统计学。 护理学的奠基人 Nightingale学习和研究统计,出版世界上第一部医院统计的专著《医院统计与医院规划》。

统计学是“对令人困惑费解的问题做出数字设想的艺术。” ---美国 David Freedman 统计学是一门处理数据中变异性的科学和艺术。   --- John M.Last《A Dictionary of Epidemiology》    科学与艺术的不同在于不同的人处理相同的问题可能得到不同的结果

现代统计学的基本内容 实验设计 一、试验设计 二、数据管理 三、统计分析 临床试验设计 调查研究设计 数据管理 质量控制 统计描述 统计推断

一、 试验设计 进行一项科研如同建造一座大厦,其设计、质量控制、分析、验收等都十分重要。如果大厦没有良好的设计和质量控制,就会出现问题,甚至倒塌,负责人会受到国家法律惩治。科研工作若没有良好的设计和质量控制,就会失败,得出错误的结果,对后来的科研产生误导作用。 科研设计如同建筑设计一样举足轻重。

1 试验设计的三要素 1)、试验因素 2)、试验对象 3)、试验效应

2 实验设计的三原则 随机 对照 重复 (均衡)

二、 数据管理 数据管理 质量控制

三、 数据分析 统计描述 统计推断

1 统计描述   通过统计描述不仅可以对数据的概貌,分布,变量间的关系等有大致的了解,而且可发现数据中的异常现象。因此,统计描述 在统计分析中占有相当重要的地位。

率、构成比 统计量 均数、中位数 相关回归系数 统计表 统计图 条图、直方图、线图等

2.统计推断 用样本的信息来推断总体的特征叫统计推断. 统计分析的目的是由样本推断总体,故统计学的主体是统计推断

实验设计的模型1 1 因果关系: 试验对象 试验因素 试验效应 (自变量) (因变量) F X Y y=f(x)+e

实验设计的模型2 2 相互关联: 试验对象 A因素 B因素 (X1变量) (X2变量) F X1 X2 X2=f(x1)+e

参数 点估计 估计 区间估计 统 u检验 计 参数 t检验 推 F检验 断 假设 相关与回归 检验 卡方检验 非参 秩和检验 秩相关检验

统计软件的重要作用 “计算机软件给统计学带来革命性变化” 发表论文或进行科研课题时,注明统计软件和采用的统计分析方法. 统计分析工具的选择: CHISS SAS, SPSS,STATA

混杂因素 实例解析3 这中间存在混杂因素---吸烟 携带火柴和发生肺癌间的关系的研究。 人们观察发现那些携带火柴的人更有可能发生肺癌。 难道这表明携带火柴可能引起肺癌? 客观事实,携带火柴不可能引起肺癌。 这中间存在混杂因素---吸烟

混杂因素的影响 图1.1 危险因素、混杂因素和结果的关系 携带火柴 肺癌   吸烟

[实例解析4] 喝咖啡与心肌梗塞MI关系的研究。 有人观察发现喝咖啡的人,很多人患MI,这种现象是表象还是内在因果关系的?

研究者调查MI及非MI病人各150例,得到如下数据。表1.1 MI NoMI % Coffee 90 60 60 No coffee 60 90 40 优势比 : OR=90*90/(60*60)=2.25 Pearson chi2(1) = 12.0,P = 0.001。 说明喝咖啡人MI发生的危险性是不喝的2.25倍。 两组MI发生率差异有显著意义。 结论:喝咖啡与心肌梗塞MI有关!对否?

Smoker Nosmoker MI NoMI % MI NoMI % Coffee 80 40 67 10 20 33 表 控制吸烟因素的干扰后结果 Smoker Nosmoker MI NoMI % MI NoMI % Coffee 80 40 67 10 20 33 Noffee 20 10 67 40 80 33 优势比 OR=1 , OR=1 P = 1.00, P = 1.00

说明当存在混杂因素时,单因素分析结论并不科学。 喝咖啡与心肌梗塞MI关系 表明,在吸烟组和不吸烟组中。喝咖啡与不喝咖啡的MI发生的相对危险度相同的。 说明当存在混杂因素时,单因素分析结论并不科学。

案例:研究生招生与性别的关系研究

<案例讨论> 研究生招生与性别的关系研究 美国加州贝克莱分校1973年研究生的录取情况如上表. <案例讨论> 研究生招生与性别的关系研究 美国加州贝克莱分校1973年研究生的录取情况如上表. 结果显示,男生报考人数据2691人,录取1197人,录取比例44.5%,女生报考人数据1835人,录取556人,录取比例30.3%。 有人认为该校在研究生录取中存在性别歧视。试对此进行讨论与分析。

混杂因素的定义  当某一危险因素和结果的相关性受 第三个变量和危险因素及结果之间关系的影响,这第三个变量称为混杂因素。  当某一危险因素和结果的相关性受 第三个变量和危险因素及结果之间关系的影响,这第三个变量称为混杂因素。 上两例中,混杂因素是吸烟

排除混杂因素的两种方法 1、分层分析 2、多元统计分析

1 分层分析方法 分层分析是在其它影响因素保持恒定情况下,评价某一危险因素对结果的影响。 -----控制混杂因素对结果的影响 分层分析是在其它影响因素保持恒定情况下,评价某一危险因素对结果的影响。 例如,上面我们可以分别在吸烟者和非吸烟者之中,比较喝啡咖与和不喝啡咖的人。这可使我们在不依赖于吸烟的情况下,分析喝啡咖对MI的影响。

分层分析的优缺点 优点:直观简洁。 缺点:当考虑因素较多时分组数量倍增, 需要例数较多,有时无法实现。

运动与寿命关系的研究 [实例解析5] ‘生命在于运动。’ ‘运动有利于长寿’ 流水不腐。。。 这是人类长期经验的总结,但事实果真如此吗?是科学的结论,还是事物的假象呢?

运动与人的寿命的关系 许多研究表明长期运动人的寿命比久坐型生活方式人的寿命长。 但是,如果运动者寿命长的真正原因是他不吸烟,没有家族病史,好的生活环境等,那么运动将不能改变一个人的寿命。

美国Aerobics中心的追踪研究 在1970-1989年间,它们追踪观察25,341男性和7084女性, 研究运动和死亡率的关系。男性参加者被追踪观察平均8.4年,女性平均7.5年。 所有参加者接受了基线检查,这些检查包括体检、实验室检测及踏车试验评价身体适宜运动量。结果如表1.1。 Blair, S.N., Kampert, J.B., Kohl, H.W., et al. ”Influences of cardiorespiratory fitness and other precursors on cardiovascular disease and all-cause mortality in men and women.” JAMA 1996;276:205-10

表1.3 Aerobics 中心追踪研究过程中生存与死亡者基线特征(男性组) 指标 生存 死亡 (n=24,740) ( n=601) 年龄(SD) 42.7 (9.7) 52.1(11.4)* 体重指数 26.0 (3.6) 26.3 ( 3.5) 收缩压 121.1(13.5) 130.4(19.1)* 总胆固醇 213.1(40.6) 228.9(45.4) 空腹血糖 100.4(16.3) 108.1(32.0)

运动量(%) 低 20.1 41.6 中 42.0 39.1 高 37.9 19.3* 冠心病家族史 25.4 33.8* 吸烟 26.3 36.9* 异常心电图 6.9 26.3* 慢性病 18.4 40.3*

分析发现,存活者和死亡者之间是有明显区别的。特点是存活者较年轻,血压较低,低胆固醇,很少吸烟并且高运动量(基于他们踏车试验时间长短及程度)。 但表1.1并没有回答我们的基本问题: 运动是否独立地延长寿命? 它并没有回答这个问题是由于虽然高运动量组很少在研究期间死亡,但他们或者较很少吸烟,或年轻,或有较低的血压。 我们应排除排除混杂因素 的影响。

[分层分析法] 表1.4 Aerobics 中心追踪研究中全因死亡患者吸烟和体质的分层分析 每万人年 分层相对危险度 死亡数 (95%CI) 吸烟 低运动量 48.0 1.63(1.26-2.13)* 中/高运动量 29.4 1.0(参照组) 不吸烟  低运动量 44.0 2.19(1.77-2.70)* 中/高运动量 20.1 1.0(参照组) 可见低运动量组死亡率高于中/高运动量组的死亡率 ,这一分层分析表明运动的作用不依赖于吸烟状态。

但是,有可能影响运动和长寿之间关系的其它变量是怎样的? 你可以层层分析每一原因,来证明运动对长寿的影响不但不依赖于吸烟状态,也不依赖于年龄、性别、高血脂、高血压等等。 如果分层分析3个变量[吸烟状态、年龄、体重(正常/异常)],你将需要在8个组中分析运动和死亡率的关系。 如果分层分析6个变量[吸烟状态、年龄、性别、体重、胆固醇水平、高血压状态(是/不是)],你将需要在64个组中分析运动和死亡率的关系。

[多因素分析法] 为判断运动是否独立地与死亡有关,研究者们运用了COX比例风险分析(proportional hazards analysis)的多元分析方法,结果如表1.2。

表1.5 Aerobics 中心追踪研究全死亡率危险因素的多元分析 自变量 死亡率 调整相对危险度RR (百万分数) (95%CI) 运动量 低 38.1 1.52(1.28-1.82)* 中/高 25.0 1.0(参照组) 吸烟状况    吸烟 39.4 1.65(1.39-1.97)* 不吸烟 23.9 1.0(参照组)

收缩压   ≥140 mmHg 35.6 1.30(1.08-1.58)* < 140 mmHg 26.1 1.0(参照组) 胆固醇 ≥240 mg/dl 35.1 1.34(1.13-1.59)* < 240 mg/dl 26.1 1.0(参照组) 冠心病家族史   有 29.9 1.07(0.90-1.29)  无 27.8 1.0(参照组) 体重指数   ≥ 27 Kg/m2 28.8 1.02(0.86-1.22) < 27 Kg/m2 28.2 1.0(参照组)

空腹血糖   ≥120 mg/dl 34.4 1.24(0.98-1.56) < 120 mg/dl 27.9 1.0(参照组) 异常心电图   有 44.4 1.64(1.34-2.01)*  无 27.1 1.0(参照组) 慢性疾病   有 41.2 1.63(1.37-1.95)*  无 25.3 1.0(参照组)

这显示运动与生存率有关,它并不依赖于吸烟、高血压、高胆固醇及家族史。 运动与人的寿命的关系 表明,如果你比较男性中每千人年死亡数,你可以看出在低运动组(38.1)比中/高运动量组(25.0)有较高的死亡数。其相对危险度为38.1/25.0=1.52。说明低运动量的人死亡的危险性是高运动人的1.52倍。 这显示运动与生存率有关,它并不依赖于吸烟、高血压、高胆固醇及家族史。

吸烟和冠状血管疾病再通术后的预后间的关系 [实例解析6] 吸烟和冠状血管疾病再通术后的预后间的关系 Aerobics中心的追踪研究,他们追踪了5437例冠状血管疾病并接受再通手术(用线和球打开阻塞的冠状血管)的病人,将病人分为不吸烟、以前吸烟(至少在手术前6个月戒掉)、刚戒烟(因手术后刚戒掉)、及持续吸 烟4个组。结果见表1.4.

表1.6 吸烟状况和死亡危险性的 两变量关系 组别 死亡相对危险度RR ( 95%CI) 不吸烟 1.0 (参照组) 以前吸烟 1.08 (0.92-1.26) 刚戒烟 0.56 (0.40-0.77)* 持续吸烟 0.74 (0.59-0.94)*

持续吸烟组的死亡相对危险度怎么比不吸烟组低呢?(烟草公司希望) 在你假定在此研究中可能有差错之前,一些其它研究发现在冠状动脉疾病血栓溶解治疗中,吸烟和预后具有同样的关系,这一作用被称为“吸烟者悖论” 是什么原因导致这一“悖论”呢?

表1.5 人口学及临床因素与吸烟状况的关系 不吸烟 以前吸烟 刚戒烟 持续吸烟 年龄±SD (年) 67±11 65±10 56±10 55±11 心绞痛病程 ( 月) 41±66 51±72 21±46 29±55 糖尿病,% 21 18 8 10 高血压,% 54 48 38 39 冠状动脉疾病,% 一枝血管 50 51 57 55 二枝血管 36 36 34 36 三枝血管 14 13 10 9

表1.5可以看到,相比于吸烟者和以前吸烟者,刚戒烟者和持续吸烟者更年轻,心绞痛时间更短,较少有糖尿病和高血压,较少有严重的冠心病。看到这些,你对刚戒烟者和持续吸烟者的死亡率低于不吸烟者和以前吸烟者就不会奇怪了。因为他们比不吸烟者和以前吸烟者年轻,而且很少有医学隐患。

表1.6 比较一元统计与多元统计吸烟状况与死亡危险性的关系 不吸烟 以前吸烟 刚戒烟 持续吸烟 一元统计的 危险相对度 1.0 1.08 0.56 0.74 9 5%CI (参照组) (0.92-1.26) (0.40-0.77) (0.59-0.94) 多元统计的 相对危险度 1.0 1.34 1.21 1.76 9 5%CI ( 参照组) (1.14-1.57) (0.87-1.70) (1.37-2.26)

表1.6 将一元分析死亡危险性(未校正)和多元统计分析死亡危险性相比. 在多元统计分析中,研究者校正了4组中存在的如年龄、心绞痛时间等差别。 通过对这4组基线差别的统计学校正,刚戒烟者和持续吸烟者的死亡危险显著高于不吸烟者――更加灵敏的结果。 一元统计和多元分析的差别表明混杂因素是存在的。

多因素分析与分层分析的比较 当你用分层分析每增加一个变量,你将倍增分组的数量。 一方面产生大量的打印结果、需要整本书报告你的结果。 另一方面即使在开始时有很大的样本量,可能在某些分组中样本量还是不足。有时无法分层的。

多因素分析与分层分析的比较 多因素分析克服了这方面的限制,它将使你同时评价各种不同因素对结果的不同作用。 但多因素分析需要前提条件,模型对数据的性质要作一些假定,这些假定有时候是很难证实的。

*混杂因素与干预因素关系 当危险因素和结果的相关性受第三个因素和危险因素及结果之间关系的影响,这第三个变量称为混杂因素。 一个干预因素是出现结果的原因。

Camango及其同事们在研究中度酒精消费和心脏病危险性关系时校正了年龄、吸烟、运动、糖尿病及心脏病家族史,但是他们没有校正血压、体重指数、高胆固醇血症。为什么不? 这些因素符合混杂因素的定义,它们与危险因素(酒精消费)有关并与结果(心肌梗塞)有因果关系,问题是酒精消费可加重导致高血压、体重指数增加及高胆固醇血症。因此,如图1.3所示。这些变量可能通过其它致病途径导致心肌梗塞,应考虑为干预变量,不应考虑为混杂因素,如果将混杂因素作为干预变量来校正,那么你需要重新考虑你的结果。

血压升高 体重指数增加 高胆固醇血症 酒精消费 心肌梗塞

统计学不能区别混杂和干预变量 统计学并不能告诉你什么是混杂因素,什么是干预变量。从统计上讲,混杂因素与干预变量是一回事。在你的模型中,是因为有混杂因素而引入该变量,还是因为有干预变量而排除该变量呢?这一决定必须根据以前的研究和生物学上的可解释性作出。

一 多元统计分析的概念 多元统计分析是研究客观事物中多种指标间相互依赖, 相互影响的统计规律性的一个数理统计学分支. 一 多元统计分析的概念   多元统计分析是研究客观事物中多种指标间相互依赖, 相互影响的统计规律性的一个数理统计学分支. 医用多元统计分析是多元统计分析在医学领域的应用.

二、学习多元统计分析的重要性 为什么开这门课? 多元统计分析与已学的医学统计学的区别在哪呢?

多元统计分析能使我们对所研究的问题更全面, 更深刻的认识. 帮助我们透过现象看本质,发观事物之间内在的本质规律,从而推动医学科学的发展。

三. 多元统计分析的特点 优点有两个: 一 多元统计分析的资料较容易取得; 二 多元统计分析可以从整体上分析结果.

四、开展多元统计教学的可能性 ①多元统计分析的数学理论十分复杂; ②多元统计分析的计算量很大; ③教学工作开展不够. 个人电子计算机的飞速发展,对多元统计学产生重大影响。 常用的统计软件包有CHISS,SAS、SPSS、STATISTCA, Stata等.

五 关于多元统计选修课 一 选修课的目的 二 课时按排 , 30学时,1.5学分

六 多元统计的教与学 一 了解各种多元统计学方法的适用前提条件和用应范围 二 掌握一种统计软件 三 正确解释软件输出结果及结论 二 掌握一种统计软件 三 正确解释软件输出结果及结论 讲授与上机实习结合 三 成绩考核

七. 多元统计分析的前提条件 1. 多元统计对资料的分布有一定的要求; 2. 需要有足够大的样本,一般认为, 例数m是研究因素个数P的10倍左右。

为什么在统计学常常需要足够多的观测例数呢?

例甲、乙两研究者分别 用某新药治疗10例和403例老年性气管炎患者, 其疗效如下表。 甲 治疗结果 例 数 % 临床治愈 7 70 未治愈 3 30 合计 10 100 乙 治疗结果 例 数 % 临床治愈 83 20 未治愈 320 80 合计 403 100

那么应用20%,还是70%, 以估计新药治疗老年性气管炎治愈率呢? 临床上感兴趣的问题是新药治疗老年性气管炎治愈率是多少, 而不是10和403例的治愈频率, 那么应用20%,还是70%, 以估计新药治疗老年性气管炎治愈率呢?

概率与频率的关系 什么是概率? 概率是度量随机事件A发生可能性大小的一个数量. 记为P(A)。 什么是频率? 频率 若在n次同样的随机试验, 事件A发生了k次, 则比值k/n 称为频率

频率与概率的关系: 抛掷硬币的试验结果 ━━━━━━━━━━━━━━━━━━━━━ 试验者 抛掷次数(n) 正面次数(k) 频率(k/n) ───────────────────── TONG 3 3 1.00 5 4 0.80 10 3 0.30 20 7 0.35 50 27 0.54 100 52 0.52 500 246 0.492

历史上许多著名科学家做过抛掷硬币的试验, 抛掷硬币试验结果如表 ━━━━━━━━━━━━━━━━━━━━━ 试验者 抛掷次数(n) 正面次数(k) 频率(k/n) ───────────────────── De Morgan 2048 1061 0.518 Buffon 4,040 2,048 0.5069 Pearson 12,000 6,019 0.5016 Pearson 24,000 12,012 0.5005

观测例数越少,抽样误差越大,样本的对研究总体的代表性就小。 所以,医学试验中需要足够多的例数。

定理: 若当试验次数n充分大以后, 频率k/n稳定地在某一确定值P的附近摆动。即: Lim (k/n)=P n ∞ 频率与概率的关系 定理: 若当试验次数n充分大以后, 频率k/n稳定地在某一确定值P的附近摆动。即: Lim (k/n)=P n ∞ 实际工作中,常用频率求概率的近似值: P(A)≈f(A)=k/n.

八. 变量类型及数量化方法 在医学研究中,常常存在许多反映个体变异性的指标,统计学上称为变量, 如年龄、病情、性别等。可分三类。

是对研究单位的定量特征的描述。诸如个体年龄、身高、体重等变量均可经测量取得数值。将这类变量视为连续型变量, 或定量变量。 ⑴ 定量变量 是对研究单位的定量特征的描述。诸如个体年龄、身高、体重等变量均可经测量取得数值。将这类变量视为连续型变量, 或定量变量。 对于定量指标, 在通常情况下以原始观察值的形式出现。有时可分段处理。如年龄分60以上、以下。

⑵ 定性变量是对研究单位的定性特征的描述,有类别。 亦称分类变量 ⑵ 定性变量是对研究单位的定性特征的描述,有类别。 亦称分类变量. 如性别分男、女为二分类变量。血型可分为A、B、 AB、 O四类型, 为四分类变量。

二项分类变量 如性别,用一个变量表示,一般可赋值为0和1,或1和2。 1 女 X= 0 男

无序多分类 变量 如血型分为A、B、 AB、 O四类型。 需用三个哑变量来区分。 1 A型 1 B型 1 O型 X1= X2= X3= 0 其它 0 其它 0 其它 当X1=0,X2=0,X3=0时,为AB型 一般N分类,需要N-1个哑变量表示。

⑶ 等级变量:是对研究单位的等级特征的描述。如病情分轻、中,重三个等级。 ⑶ 等级变量:是对研究单位的等级特征的描述。如病情分轻、中,重三个等级。 数值化法: 只须用一个X作为分类变量, 然后按等级顺序分别赋值。b例如,用X表示病情, 其赋值方法分为: 0 轻 X= 1 中 2 重

九, 如何收集和整理多元分析资料 设研究问题中含有p个指标变量x1, x2,…,xp. 及n个观察对象. 其数据结构为: 编号 X1 X2 X3 …. XP 1 x11 x21 x31 … x1p 2 x12 x22 x32 … x2p 3 x13 x23 x33 … x3p … … … … … … n x1n x2n x3n … xnp ━━━━━━━━━━━━━━━━━━

实验数据要求完整、准确、真实。 若某一观测指标的值, 有空缺, 应注明。在SAS中用“.”表示空缺。切忌凭主观愿望填写, 在计算机中, 常采用EPI, CHISS DBASE、Excel、 SAS等建立数据库.

十 常用的多元统计方法

1 多元回归分析

 多元回归分析简介 直线回归分析一个自变量和一个因变量间的关系, 在医学实践中,常会遇到一个应变量与多个自变量数量关系的问题。如医院住院人数不仅与门诊人数有关, 而且可能与病床周转次数, 床位数等有关. 多元回归分析正是为解决这些问题而产生的 。

多元回归分析 多元线性回归是研究多个自变量与一个因变量之间数量关系的一种统计方法。

实例分析 肾小球滤过率的影响因素研究 临床观测61例患者的肾小球滤过率y,及10种观察指标:年龄X1,糖化血红蛋白X2, 饭后两小时血糖X3, 胰岛素X4, 胆固醇X5, 肌肝X6, 平均动脉压X7, 体重X8, 肾脏体积X9, 尿白蛋白排泄率X10。 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 病例 X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 y ───────────────────────────── 1 36 9 16 31 5 53 101 304 355 1 177 2 39 14 24 17 7 69 90 25 310 23 130 3 42 14 29 7 4 82 96 24 293 3 101 . . . . . . . . . . . . . . . . . . . . . . . . 61 45 20 22 10 3 101 90 20 310 1 116 试分析这10项指标与肾小球滤过率间的关系。

P值可以看出,在十个变量中, X3饭后两小时血糖, X6肌肝 t和 X9 肾脏体积对肾小球滤过率影响有显 变量 系数 标准误 t值 P值 截距 71.02 27.66 2.567 0.0133 X1 0.14 0.27 0.510 0.6124 X2 -0.62 0.95 -0.656 0.5149 X3 1.01 0.48 2.084 0.0423 * X4 0.06 0.16 0.382 0.7039 X5 2.33 1.86 1.255 0.2153 X6 -0.64 0.19 -3.369 0.0015 ** X7 0.02 0.18 0.157 0.8757 X8 -0.24 0.78 -0.308 0.7594 X9 0.23 0.04 5.008 0.0001 ** X10 -0.21 0.14 -1.524 0.1337   P值可以看出,在十个变量中, X3饭后两小时血糖, X6肌肝 t和 X9 肾脏体积对肾小球滤过率影响有显 著性意义, 其它的7个变量没有显著性意义。

2 曲线拟合 . 1)多项式曲线 一般多项式曲线的方程为 n=2时, 二次多项式曲线,即抛物线.

3 Logistic回归分析

Logistic回归分析能较好地解决这类问题。 在医学研究中, 经常要分析某种结果的产生与哪些因素有关。 例如:生存与死亡, 发病与未发病, 阴性与阳性等结果的产生可能与病人的年龄、性别、生活习惯、体质、遗传等许多因素有关。 如何找出其中哪些因素对结果的产生有显著性影响呢? Logistic回归分析能较好地解决这类问题。

Logistic 回归是一种概率模型, 它是以疾病、死亡等结果发生的概率为因变量, 影响疾病发生的因素为自变量建立模型。它适用于因变量为二项, 多项分类的资料。在临床医学中多用于鉴别诊断, 评价治疗措施的好坏及分析与疾病预后有关的因素等。

例号 是否患病 性别 吸烟 年龄 地区 1 0 1 0 30 0 2 0 0 1 46 1 3 0 0 1 30 1 . . . . 29 1 0 0 25 0 30 1 0 0 26 1

单因素Logistic回归分析结果 模型 变量 系数 标准误 卡方 P值 1 X1 1.704 0.80 4.53 0.0332 2 X2 2.564 0.93 7.50 0.0062 3 X3 0.142 0.04 9.34 0.0022 4 X4 -0.271 0.73 0.13 0.7128   结果表明, 性别, 吸烟, 年龄三个因素都与肺癌有关. 由于在对某一因素进行单因素分析时没有控制其它因素的干扰, 因此结果不可靠.

多元Logistic回归分析结果 变量 系数 标准误 Wald 卡方 P值 INTERCPT -9.75 4.09 5.66 0.02 X1 2.52 1.82 1.92 0.17 X2 3.98 1.98 4.06 0.04 X3 0.19 0.08 5.67 0.02 X4 -1.30 1.58 0.68 0.41 由上最大似然估计分析知因素X2(吸烟), X3(年龄)对肺癌的发生有显著的影响。 所得的回归方程为: Logit(P)=-9.7544+2.5152X1+3.9849X2+0.1884X3-1.3037X4. Logistic回归模型可以用于进行预测 和判断工作.

Survival Analysis 4. 生存分析

 生存分析简介   疾病治疗的预后情况,一方面看结局好坏,另一方面还要看出现这种结局所经历的时间长短,这类资料一般通过随访收集。随访资料常因中途退出,失访,中止观察等原因造成某些数据观察不完全,须要用专门的方法进行统计处理,这类方法起源于对寿命资料的统计分析,故称为生存分析。

Multi-ANOVA Analysis 5. 多元方差分析*

 多元方差分析简介 医学工作中常从多个指标不同的角度去研究同一个问题。 若用一元方差分析时, 当不同的指标所表现的趋势不一致时, 就得不出一个概括性的结论, 难以作出明确的判断。若用多元方差分析则能作出明确的判断。使我们对所研究的问题更全面、更深刻的认识。所得到的结论更可靠、更科学。

例1 调查某中学同年级22名男女生, 测量其身高(cm)、体重(kg)和胸围(cm),数据见表88。试检验该中学全体男女生的身体发育状况有无差别。

───────────────────────── 1 171 58.5 81.0 1 152 44.8 74 某中学22名男、女生身体测量资料 ───────────────────────────── 男 生 女 生 ──────── ─────────── 编号 身高 体重 胸围 编号 身高 体重 胸围 ───────────────────────── 1 171 58.5 81.0 1 152 44.8 74 2 175 65 87 2 153 46.5 80 3 159 38 71 3 158 48.5 73.5 4 155.3 45 74 4 150 50.5 87 5 152 35 63 5 144 36.3 68 6 158.3 44.5 75 6 160.5 54.7 86 7 154.8 44.5 74 7 158 49 84 8 164 51 72 8 154 50.8 76 9 165.2 55 79 9 153 40 70 10 164.5 46 71 10 159.6 52 76 11 159.1 48 72.5 12 164.2 46.5 73 ────────────────────────────

一元方差分析的结果 ━━━━━━━━━━━━━━━━━━━━━━━━━ 身高 体重 胸围 ── ─────── ────── ────── 组别 平均值 标准差 平均值 标准差 平均值 标准差 ───────────────────────── 男 161.9 6.8 48.1 8.3 74.4 5.9 女 154.2 5.0 47.3 5.6 77.4 6.6 F值 8.7** 0.1 1.3 ** P<0.01

从表可以看出,该校男、女生的身高差异有显著性意义,而体重、胸围差异无显著性意义。那么, 该年级全体男女生的身体发育状况有无差别,我们不能得到一个明确的结论。 我们可以采用Hotelling T2 或Wilks’ Lamba检验进行多元方差分析 .

表有三个指标反映身体发育状况, 可用男、女生的身高、体重、胸围组成的样本均数向量推论该年级男、女生身体发育指标的总体均数向量μ1和μ2相等与否, 进而可推论该年级男女生身体发育状况有无差别。 采用SAS软件分析得到Wilks' Lambda=0.40371,转化为F值,F=8.8622,P=0.0008。拒绝该年级男女生身体发育指标的总体均数向量相等的假设,从而可认为该校男女生身体发育状况不同。

本讲课的主要内容 混杂因素的影响 单因素分析中的问题 多元分析的重要性 科研数据的全面分析

谢谢