第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 6 主讲人 陶育纯 医学统计学方法 6 主讲人 陶育纯 流行病与卫生统计学教研室

Slides:



Advertisements
Similar presentations
考试 1. 时间 :2011 年 11 月 14 日 18:30 2. 地点 : 待定 3. 方式 : 开卷考试 4. 题目类型:待定 5. 计算机操作要求:会用 spss 录数据、计算机 操作、认读结果、制作统计表、按假设检 验步骤进行假设检验.
Advertisements

中国旅游研究院武汉分院成果展示 ——2011年武汉市旅游市场调研成果简报 华中师范大学 中国旅游研究院武汉分院 二〇一一年十二月.
第九章 均數檢定.
问卷调查的规范与技术 问卷调查的规范与技术.
第五讲 非参数统计分析 吴成秋 南华大学公共卫生学院
單元七、spss與相關係數 沈瑞棋.
The application of medical statistics methods
人群健康研究的统计方法 预防医学系 指导教师:方亚 电话:
社会统计学 Social Statistics
双变量关联性分析.
应用回归分析 信计学院统计系 沈菊红.
How to Use SPSS in Biomedical Data analysis
第3节 体内物质的运输.
Pro. Xuezhong SHI, College of Public Health
中小企業新增租稅優惠介紹 (研究發展支出適用投資抵減辦法 、增僱員工薪資費用加成減除辦法及智慧財產權讓與所得之減免規定)
凉山州2015届高考情况分析 暨2016届高三复习建议 四川省凉山州教育科学研究所 谌业锋.
全省水产技术推广补助项目 信息员培训 河南省农业厅水产局 2013年11月17日.
DOE & EXCEL, SPSS application
国家和我省禽业发展政策 和扶持项目解读 安徽省畜牧兽医局
第3节 体内物质的运输.
§9.3 线性回归分析 一. 什么是回归分析 相关分析研究变量之间相关的方向和相关的程度,但是相关分析不能指出变量间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。 回归分析则是研究变量之间的数量变化规律的一种方法。
  秩转换的非参数检验 吴成秋 公共卫生学院预防医学系.
第四章 多样本分类数据模型 在参数检验中,我们常常对三个或三个以上的总体的均值进行相等性检验,使用的方法是方差分析,在非参数分析中也会遇到同样的问题,检验多个总体的分布是否相同。更严密的说,当几个总体的分布相同的条件下,讨论其位置参数是否相等。方差分析过程需要假定条件,F检验才有效。可有时候所采集的数据常常不能满足这些条件,像多样本比较时一样,我们不妨尝试将数据转化为秩统计量,因为秩统计量的分布与总体分布无关,可以摆脱总体分布的束缚。秩方法在方差分析中的应用。
课标教材下教研工作的 实践与思考 山东临沂市教育科学研究中心 郭允远.
STATISTICA統計軟體的應用 第二講:廻歸與ANOVA
Dr. Hamda Qotba, B.Med.Sc, M.D, ABCM 翻译:acred(DXY)
Chapter 8 Liner Regression and Correlation 第八章 直线回归和相关
第十七章 SPSS系统在传播学研究中的应用
無母數統計方法 符號檢定法 W-符號等級檢定法 W-等級和檢定法 K-W檢定法 連檢定 結論
Chapter 2 簡單迴歸模型.
第 14 章 複迴歸與相關分析.
第十二章 相关与回归分析 第一节 相关关系及种类 第二节 定类变量的相关分析 第三节 定序变量的相关分析 第四节 定距变量的相关分析
优化试验设计与数据分析 第五章 回归分析方法 本章主要内容 · 一元线性回归方程度建立、显著性检验、预报和控制。非线性回归方程的线性化。
第十六章 無母數統計.
第十六章 無母數統計 陳順宇 教授 成功大學統計系.
第七章 SPSS的非参数检验.
相關分析 Correlation Analysis
第一章.
Stochastic Relationships and Scatter Diagrams
第十一章. 簡單直線迴歸與簡單相關 Simple Linear Regression and Simple Correlation
十一、簡單相關與簡單直線回歸分析(Simple Correlations and Simple Linear Regression )
建國國小英語教學線上課程 字母拼讀篇(一) 製作者:秦翠虹老師、林玉川老師.
统计软件应用 7 主讲人 陶育纯 SPSS统计分析 统计软件应用 7 主讲人 陶育纯 教案.
Chapter 14 Simple Linear Regression
4 統計分析程序的選擇.
自我介紹  黃郁哲 (Jeff) (阿哲)  高雄人  求學經歷 逢甲大學運管系畢業 交通大學運管系碩一 交通大學逕博生  興趣 吃遍美食、看歷史劇  許巧鶯老師研究室(許lab)  未來研究方向 海運業產業結構動態變化 各產業結構貨運量預測.
線性相關與直線迴歸 基本概念 線性相關:兩個連續變項的共變關係,且有線性關係。所謂 的線性關係乃指兩個變項的關係可以被一條最具
规范教学,提升质量,迎接评估 ——学校教学管理制度解读
直线相关.
Linear Regression 一元线性回归分析.
探討口腔衛生教育方案 對5-6歲幼兒口腔保健知識和行為之影響
数据分析的统计方法选择小结.
第1章 数据的描述性分析 1.1 数据的数字特征 数据分析研究的对象是数据,一元数据是 个观测值
第十四章 迴歸.
Simple Regression (簡單迴歸分析)
相關分析 7.1 連續變項之相關係數:Pearson 積差相關 7.2 質化變項之相關係數
Correlation using EXCEL
社会研究方法 第7讲:社会统计2.
配对资料的t检验和秩和检验.
研究所生物統計課程整合說明 課程規劃及修課建議 楊奕馨 高雄醫學大學 藥學系 研究所生統課程授課教師
自我介紹 羅啟倫 學歷: 經歷: 東華大學 電機工程系
實驗設計 出處:邱皓政,量化研究方法(一),2005 台師大管院,台灣統計方法學學會理事長
统计工具的使用方法 主讲人 陶育纯 统计工具的使用方法 主讲人 陶育纯
Excel 2010电子 表格制作案例教程.
第一章 概說.
成组两样本资料的秩和检验.
Chapter 1 函數 1.1 函數的定義 1.2 基本函數 1.3 函數的運算 1.4 函數的圖形.
簡單迴歸分析與相關分析 莊文忠 副教授 世新大學行政管理學系 計量分析一(莊文忠副教授) 2019/8/3.
成本會計 在決策中的功能 第四課 1.
婚姻與戀愛的經濟分析 第十章 感情的波動起伏
Presentation transcript:

第三篇 医学统计学方法

医学统计学方法 6 主讲人 陶育纯 http://cc.jlu.edu.cn/ss.html http://cc.jlu.edu.cn/ms.html 医学统计学方法 6 主讲人 陶育纯 流行病与卫生统计学教研室 2013.11.26

第八讲 课程名称:预防医学 主要教材: «卫生学» 第7版 仲来福 主编 人民卫生出版社 年级、专业:2011级医学五年制第一教班 仲来福 主编 人民卫生出版社 年级、专业:2011级医学五年制第一教班 授课时间:2013年11月27日 授课时数:4h 2013.11.26

目录 第十一章 秩和检验 第一节 配对资料的符号秩和检验 (Wilcoxon配对法) 第二节 两样本比较的秩和检验 第十一章 秩和检验 第一节 配对资料的符号秩和检验 (Wilcoxon配对法) 第二节 两样本比较的秩和检验 (Wilcoxon两样本比较法) 第三节 多个样本比较的秩和检验 (Kruskal-Wallis法,即H检验) 第四节 多个样本间两两比较的秩和检验 2013.11.26

目录 * 第十二章 直线相关与回归 第一节 直线相关 第二节 直线回归 一、直线相关的概念 一、直线回归的概念 二、相关系数的计算 三、相关系数的假设检验 第二节 直线回归 一、直线回归的概念 二、直线回归方程的求法 2013.11.26

目录 第三节 直线相关与回归的区别和联系 第四节 等级相关 四、直线回归方程的应用 一、Spearman相关系数的计算 三、回归系数的假设检验 四、直线回归方程的应用 五、应用直线回归分析时应注意的问题 第三节 直线相关与回归的区别和联系 第四节 等级相关 一、Spearman相关系数的计算 二、Spearman相关系数的假设检验 2013.11.26

目录 第十三章 医学科研设计 第一节 医学科研设计的基本原则 ★ 第二节 实验设计 ★ 第三节 调查设计 第四节 常用统计软件包介绍 (略) 第十三章 医学科研设计 第一节 医学科研设计的基本原则 ★ 第二节 实验设计 ★ 第三节 调查设计 第四节 常用统计软件包介绍 (略) 2013.11.26

第十一章 秩和检验 前面讲述的统计推断方法,通常要求样本来自的总体分布类型是已知的,在此种假设基础上,对总体参数进行估计或检验,称为参数统计(parametric statistics)。在实际工作中,有许多资料不满足参数统计的要求,如总体分布类型不清、总体分布偏态且无法通过数据转换使其符合参数 统计的要求等,此时参数统计已不适用,需用一 种不依赖于总体分布类型,也不对总体参数进行 统计推断的统计分析方法,称为非参数统计(nonparametric statistics)。 2013.11.26

非参数统计的主要优点是不受总体分布类型的限制,适用范围广。非参数统计方法对数据的 要求也不高。不论研究的是何种类型的数据,包 括那些难以精确测定、只能以严重程度、优劣等 级、次序先后等表示的数据;或有的数据出现不 确定数值,如“>20岁”或“<80岁”等,均可用非参数统计。 非参数统计的不足之处是,当符合参数统计 的资料,若用非参数统计处理,因未能充分利用 资料提供的信息,检验效率常低于参数统计,犯 II 型错误的概率增大。 2013.11.26

(Wilcoxon 配对法) 第一节 配对资料的符号秩和检验 在实际应用中,符合参数统计条件的资料,要首选参数统计的方法。当参数统计的应用条件 得不到满足时,应选用非参数统计。 非参数统计方法很多,本讲选用其中检验效率较高的、理论体系比较完整的、常用的秩和检验(rank sum test)。 第一节 配对资料的符号秩和检验 (Wilcoxon 配对法) 2013.11.26

一、基本原理和方法 对于配对设计的定量资料,Wilcoxon 配对法通过检验配对资料的差值是否来自中位数为零的总体作出推断结论。 例11-1a 为研究出生前后的孪生兄弟间智力是否存在差异,选用12对孪生兄弟对其智力进行了测试,结果见下表11-1a。 本研究属于异源配对中两观察者分别施加同种处理,看观察者的个体差异对实验指标(即智力得分)的影响。 2013.11.26

2013.11.26

本检验的基本思想是:计算每对观察值差数的绝对值,省略所有差数为零的对子,然后根据余下的差数的绝对值的大小,由小到大排秩,遇有相同者,取平均秩次;将所排的秩次标以原差数的符号,分别求正秩和T+与负秩和T-。 假设本例中孪生兄弟间智力无差别,即H0: Md =0(差值总体中位数等于零),T+与T-一般相差不大;若相差较大,则拒绝H0。通过统计学家制作的相应T界值表,获得H0成立与否的概率P值,再根据检验水准作出推断结论。 2013.11.26

H0: Md =0 即孪生兄弟间得分差值的总体中位数等于0 H1: Md ≠0 α= 0.05 ② 求差值 本例的检验步骤如下: ① 检验假设 H0: Md =0 即孪生兄弟间得分差值的总体中位数等于0 H1: Md ≠0 α= 0.05 ② 求差值 di=Yi–Xi 见表11-1a中的(4) 。 ③ 编秩 按差值的绝对值由小到大排秩,并依 差值的正负给秩次标正负号。差值为0者,不 参于排秩,同时对子数减1;差值相等,取平 均秩次。见表11-1a中的(5) 。 2013.11.26

和T+与负秩和T-。见表11-1a中的(6)、(7)。 ④ 求秩和并确定检验统计量 分别求正秩 和T+与负秩和T-。见表11-1a中的(6)、(7)。 取T+和T-绝对值较小者为检验统计量T。 本例T+= T=24.5。 ⑤ 确定P值和作出推断结论 当n(对子数) ≤25时,查表11-2 T界值表(配对比较的符号秩和 检验用)[Tα(n),α为检验水准,n为对子数]。 若检验统计量T值大于界值,则P >α;T值小于 界值,则P <α;T值等于界值;则P =α。 本例双侧Tα(n)=T0.05(11)=10,而T =24.5>10, 故P >0.05。 2013.11.26

二、正态近似法 则按α=0.05水准尚不能拒绝H0,认为 孪生兄弟间智力无统计学差异。 当对子数n>25,则T的分布已较好地近似以均数为n(n+1)/4,方差为n(n+1)(2n+1)/24的正态分布,可用u检验。当相同的秩次不多时,可用下式计算u值: 式(11-1) 2013.11.26

式中0.5 为连续性校正系数。因为T分布为离散型,而u分布为连续型,故需校正。 式(11-2) 式中tj 为第j ( j = 1, 2, 3, …)个相同差值个数。 假定差值中有2个1,3个5,4个3,则t1=2, t2 = 3, t3=4, 2013.11.26

(Wilcoxon两样本比较法) 第二节 两样本比较的秩和检验 一、原始数据的两样本比较(直接法) 第二节 两样本比较的秩和检验 (Wilcoxon两样本比较法) 对于完全随机设计的两样本比较资料,当参数检验的条件得不到满足或资料为频数表形式,可用一种非参检验方法--Wilcoxon两样本比较法处理。 一、原始数据的两样本比较(直接法) 例11-2a 某实验室观察局部温热治疗小鼠移植肿瘤的疗效,以生存日数作为观察指标,实验结果见下表11-2a。试检验两组小鼠生存日数有无差别。 2013.11.26

2013.11.26

本例为完全随机设计的两样本比较,由于实验组的生存日数出现不确定数值(>90),故选用Wilcoxon两样本比较法。 本例的检验步骤如下: ① 检验假设 H0: 两组小鼠生存日数总体分布相同 H1: 两组小鼠生存日数总体分布不同 α= 0.05 ② 编秩 先将两组数据分别由小到大排序,再 统一由小到大编秩。相同数值取平均秩次。 见表11-2a中的秩次项 。 2013.11.26

表(两样本比较的秩和检验用, n1<n2)[Tα(n1, n2-n1), α为检验水准,n1为样本例数较小者, n2–n1 ③ 求秩和并确定检验统计量 分别求每组秩 次和T1与T2。见表11-2a中的下列项。 取样本例数较小组的秩和作为检验统计量T, 若例数相等,可任取一组的秩和为T 。 本例n1=10较小,则 T1= T =170。 ④ 确定P值和作出推断结论 查表11-4 T界值 表(两样本比较的秩和检验用, n1<n2)[Tα(n1, n2-n1), α为检验水准,n1为样本例数较小者, n2–n1 为两组例数差]。若检验统计量T值在界值 范围内,则P >α;T值在界值范围外,则 P <α;T值等于界值;则P =α。 2013.11.26

二、正态近似法 本例Tα(n1, n2-n1) =T0.05(10,2)=84-146,而T= 170在界值范围外,故P < 0.05,按α= 0.05水准拒绝H0。认为实验组生存日数较 对照组长。 二、正态近似法 若n1或n2–n1超出表11-4 T界值表(两样本比较的秩和检验用, n1<n2)的范围,可按下式进行近似的u 检验。 式(11-3) 2013.11.26

三、频数表法 当相同的秩次较多时,用式(11-3)求得的u值偏小,应改用下式校正。 式中0.5 为连续性校正系数。 当相同的秩次较多时,用式(11-3)求得的u值偏小,应改用下式校正。 式(11-4) 式中tj 为第j ( j = 1, 2, 3, …)个相同秩次的个数。计算 方法与Wilcoxon配对法相同。 三、频数表法 2013.11.26

例11-3a 某研究者为比较不同肝炎婴儿的血清总胆红质有无差别,收集了一般组和重症组病人的血清总胆红质数据见下表11-3a。 问两组婴儿的血清总胆红质有无统计学意义。 2013.11.26

H0: 两组肝炎婴儿的血清总胆红质总体含量分布相同 H1: 两组肝炎婴儿的血清总胆红质总体含量分布不同 本例的检验步骤如下: ① 检验假设 H0: 两组肝炎婴儿的血清总胆红质总体含量分布相同 H1: 两组肝炎婴儿的血清总胆红质总体含量分布不同 α= 0.05 平均秩次=(秩次范围下限+秩次范围上限)/2 ② 编秩 先计算两组合计人数,见表11-3a中的 (4) ,再确定各组段秩次范围,见表11-3a中的(5) , 然后计算各组段平均秩次。见表11-3a中的(6) 。 ③ 求秩和 用各组段的平均秩次分别与每组的人 数相乘,可得每组在各组段的秩和,再将各组段的 秩和相加即得每组的秩和。见表11-3a中的(7) , (8) 。 2013.11.26

T界值表范围,需用u检验[式(11-3)],由于 相同秩次较多,还需校正[式(11-4)]。 ④ 计算检验统计量 本例n1=19, T1=745; n2 =30, T2=480, 则T=T1=745。n1=19, 超出表11-4 T界值表范围,需用u检验[式(11-3)],由于 相同秩次较多,还需校正[式(11-4)]。 2013.11.26

(Kruskal-Wallis 法, 即H检验) ⑤ 确定P值和作出推断结论 本例uc=5.710 >u0.05=1.96,则P <0.05,按α=0.05水准拒 绝H0,认为两组肝炎婴儿的血清总胆红质总 体含量分布不同,重症组高于一般组。 第三节 多个样本比较的秩和检验 (Kruskal-Wallis 法, 即H检验) 一、原始数据的多样本比较(直接法) 例11-4a 试推断下表11-4a中三组人群的血浆总皮质醇含量 (μg/L)的差别有无统计学意义。 2013.11.26

2013.11.26

本例为完全随机设计的多样本比较,可选用Kruskal-Wallis 法(又称K-W 检验)。 本例的检验步骤如下: ① 检验假设 H0: 三组人群的血浆总皮质醇含量总体分布相同 H1: 三组人群的血浆总皮质醇含量总体分布不同 或不全相同 α= 0.05 ② 编秩 先将三组数据分别由小到大排序,再将 三组数据统一由小到大编秩。相同数值取平均秩次。 见表11-4a中的秩次项 。 2013.11.26

式中Ti为各组的秩和,ni 为各组的例数,N=∑ni 。 ③ 求秩和并计算检验统计量 分别求每组秩 次和T1、T2与T3。见表11-4a中的下列项。 按下列公式(11-5)计算检验统计量H 。 式(11-5) 式中Ti为各组的秩和,ni 为各组的例数,N=∑ni 。 本例H为: 2013.11.26

本例k=3,n1=n2=n3=10,ν =k-1=3-1=2, 查χ2界值表χ2α(ν)= χ20.05(2)=5.99,今求得H= ④ 确定P值和作出推断结论 当组数k≥3, ni≥5时,H分布近似服从ν = k-1的χ2分布, 可查χ2界值表以得到P值大小。 本例k=3,n1=n2=n3=10,ν =k-1=3-1=2, 查χ2界值表χ2α(ν)= χ20.05(2)=5.99,今求得H= 18.12>5.99,故P < 0.05,按α=0.05水准 拒绝H0。认为三组人群的血浆总皮质醇含 量不同或不全相同。 当相同的秩次较多时,用式(11-5)求得的H 值偏小,需按下式校正。 2013.11.26

二、频数表法 式中tj 为第j ( j = 1, 2, 3, …)个具有相同秩次的个数。 式(11-6) 例11-5a 某医师观察药物治疗慢性、亚急性、急性颈动脉炎眩晕患者的疗效,数据见下表11-5a。试分析该药物对三种类型颈动脉炎眩晕患者的疗效有无差别? 本研究为三组样本的定性指标(疗效的四分级)的频数表资料。 2013.11.26

平均秩次=(秩次范围下限+秩次范围上限)/2 2013.11.26

H0: 三种类型颈动脉炎眩晕患者的疗效分布相同 H1: 三种类型颈动脉炎眩晕患者的疗效分布不同或不全相同 本例的检验步骤如下: ① 检验假设 H0: 三种类型颈动脉炎眩晕患者的疗效分布相同 H1: 三种类型颈动脉炎眩晕患者的疗效分布不同或不全相同 α= 0.05 ② 编秩 先计算三组合计人数,见表11-5a中的 (4) ,再确定各级别秩次范围,见表11-5a中的(5) , 然后计算各级别平均秩次。见表11-5a中的(6) 。 ③ 求秩和 用各级别的平均秩次分别与每组的人 数相乘,可得每组在各级别的秩和,再将各级别的 秩和相加即得每组的秩和。见表11-5a中的(7)~(9)。 2013.11.26

④ 计算检验统计量 代入[式(11-5)]计算H, 由于相同秩次较多,还需校正[式(11-6)]。 2013.11.26

第四节 多个样本间两两比较的秩和检验 ⑤ 确定P值和作出推断结论 本例Hc服从于 ν =k-1=3-1=2的χ2分布,查χ2界值表 χ20.05(2)=5.99,今求得Hc =73.87>5.99,故P <0.05,按α=0.05水准拒绝H0。认为三种类 型颈动脉炎眩晕患者的疗效不同或不全相同。 第四节 多个样本间两两比较的秩和检验 多组设计资料,经秩和检验后,若拒绝H0,则意味着各组样本指标所代表的总体指标间不同或不全相同。当要了解任意两总体指标间是否存在差别时,需做多组样本间的多重比较。 2013.11.26

t 检验,本法不仅适用于例数相等,也适用于例数 不等的情况。检验统计量t 按下式计算: 多重比较的方法很多。这里介绍一种推广的 t 检验,本法不仅适用于例数相等,也适用于例数 不等的情况。检验统计量t 按下式计算: 式(11-7a) 式中 为任意两比较组A与B的平均秩和,nA 、 nB为各组样本含量,k 为处理组数,N 为处理组的总例数, H 为秩和检验中算得的统计量H 或Hc,t 值的自由度为 N-k 。 2013.11.26

H0: 两比较组血浆总皮质醇含量总体分布相同 例11-6a 以例11-4a的资料说明该检验方法的分析步骤。 ① 检验假设 H0: 两比较组血浆总皮质醇含量总体分布相同 H1: 两比较组血浆总皮质醇含量总体分布不同 α= 0.05 ② 计算各比较组平均秩和 用 计算。 ③ 两两比较 利用式(11-7a)通过下表11-6a计算得 出任意两处理组间的比较结果。 2013.11.26

计算1与2组的t 值,已知H=18.12,N=30, k=3,nA = nB = 10。仿此可得其它t 值。 2013.11.26

N-k=30-3=27的t 界值表得tα(ν)=t0.05(27) = 2.052,与表11-6a中的(5)中各项比较得出P 值。 本例各项P值见表11-6a中的(6) 。在α=0.05 水准上,认为正常人组与单纯性肥胖组相比 血浆总皮质醇测定值无统计学差异,而皮质 醇增多症组与正常人组、单纯性肥胖组相比 血浆总皮质醇测定值均有统计学意义。 2013.11.26

一、直线相关的概念 * 第十二章 直线相关与回归 第一节 直线相关 第一节 直线相关 一、直线相关的概念 直线相关(linear correlation)是描述两个变量间互依关系的一种统计分析方法。此法又称简单相关(simple correlation)。此法通过直线相关系数(linear correlation coefficient)描述两个变量直线关系的大小和方向。此法要求两个变量服从双变量正态分布。 2013.11.26

相关系数无单位,其取值范围为-1≤r≤1。r 值为正表示正相关,为负表示负相关,为零表示零相关。r = 1为完全正相关,r = -1为完全负 相关系数又称积差相关系数,也称Pearson相关系数,用r 表示。它是说明具有直线关系的两个变量间,相关关系的密切程度和相关方向的指标。用r 的大小表示密切程度,用r 的正负表示相关方向。其计算公式为: 式(12-1) 相关系数无单位,其取值范围为-1≤r≤1。r 值为正表示正相关,为负表示负相关,为零表示零相关。r = 1为完全正相关,r = -1为完全负 2013.11.26

相关。相关系数r 的直观含义见下图13-7a、图13-7b 。 2013.11.26

图13-7b 相关系数含义图 2013.11.26

二、相关系数的计算 式中lXX 和lXY分别表示离均差平方和与离均差积和。 式(12-2) 例13.1 某研究者为探讨女性的年龄与收缩压的关系,收集了某地12名妇女的年龄与收缩压数据见下表13-1的(2)、(3)。试求年龄与收缩压的直线回归方程。 2013.11.26

2013.11.26

1. 先根据原始数据绘制散点图(scatter plot),大致判断两变量之间是否有直线趋势。 本例的散点图见下图13-1,可见年龄与收缩压呈直线趋势,故可进行直线相关分析。 2013.11.26

2. 计算∑X、∑Y、∑X2、∑Y2、∑XY 见表13-1中的(2)~(6)合计项。 3. 计算 lXX 、lYY、lXY 。 2013.11.26

4. 计算相关系数。由前面计算可知: lXX=1550.7,lYY=44.04,lXY=233.7,代入式(12-1)得相关系数为: 三、相关系数的假设检验 前面所求相关系数r 是样本相关系数,它实为总体相关系数ρ 的估计值。我们知道即使X、Y的总体相关系数ρ为零,由于抽样误差的存在,样 2013.11.26

本相关系数r 也不一定为零。因此需要对相关系数r 进行假设检验,以此推断X、Y是否存在直线相关关系。常用t 检验,其检验统计量公式如下: 式(12-3) 式中Sr 为样本相关系数的标准误,自由度ν=n-2。 例13.2 就例13.1求得的r 值,检验妇女年龄与收缩压间是否存在直线相关关系。 2013.11.26

H0: ρ = 0 即年龄与收缩压之间无直线相关关系 ① 检验假设 H0: ρ = 0 即年龄与收缩压之间无直线相关关系 H1: ρ≠0 即年龄与收缩压之间有直线相关关系 α= 0.05 ② 计算检验统计量 本例n = 12, r = 0.8943, 代入式(12-3)求t 。 2013.11.26

③ 确定P值和作出推断结论 由α=0.05,ν=n-2=12-2=10,查t 界值表 得t α,ν=t 0.05,10=2.228,今求得t=6.32>2.228, 则P<0.05,按α=0.05水准拒绝H0,可认为妇女 年龄与收缩压之间有直线相关关系。 You may use Excel’s functions CORREL() or PEARSON() to get r easily. 2013.11.26

第二节 直线回归 一、直线回归的概念 直线回归(linear regression)是描述两个变量间依存关系的一种统计分析方法。此法又称简单回归(simple regression)。此法通过直线回归方程(linear regression equation)描述一个变量Y[常称为应变量(dependent variable)]依存另一个变量X[常称为自变量(independent variable)]变化的数量关系。由此方程可确定一条回归直线。 2013.11.26

二、直线回归方程的求法 直线回归方程的表达式为 式(12-4) 式中X为自变量, 为应变量Y的估计值,a 为回归直线在Y轴上的截距(intercept),b为回归系数(regression coefficient),也即回归直线的斜率(slope)。根据数学上的最小二乘法的原理计算a和b 。计算公式如下: 2013.11.26

式中lXX 和lXY分别表示离均差平方和与离均差积和。 式(12-5) 式中lXX 和lXY分别表示离均差平方和与离均差积和。 式(12-6) 最小二乘法原理的含义是保证各实测点至直线的纵向距离的平方和最小 。 例13.3 根据例13.1妇女年龄与收缩压的数据计算二者的直线回归方程。以年龄为自变量,收缩压为因变量。 2013.11.26

2013.11.26

1. 先根据原始数据绘制散点图(scatter plot),大致判断两变量之间是否有直线趋势。 本例的散点图见下图13-1,可见年龄与收缩压呈直线趋势,故可进行直线回归分析。 2013.11.26

2. 计算∑X、∑Y、∑X2、∑Y2、∑XY 见表13-1中的(2)~(6)合计项。 3. 计算 和lXX 、lYY、lXY 2013.11.26

4. 求回归系数b和截距a 按式(12-5)求回归系数b,按式(12-6)求截距a。 5. 列直线回归方程 为了直观分析或实际需要,可按求出的直线回归方程作图。在X的实测全距范围内任取相距较远且易读数的两个X值,代入方程得到两个Y值, 2013.11.26

以直线连接两点即得回归直线。本例可取X1=42,得Y1=17. 14;取X2=72,得Y2=21 以直线连接两点即得回归直线。本例可取X1=42,得Y1=17.14;取X2=72,得Y2=21.66。连接两点即得本资料的回归直线。见下图13-1a。 2013.11.26

三、回归系数的假设检验 我们知道即使X、Y的总体回归系数β为零, 由于抽样误差的存在,样本回归系数b 也不一定为零。因此需要对回归系数进行假设检验,以此推断X、Y是否存在直线关系。可用方差分析或t检验。 ㈠ 方差分析 应变量Y的纵坐标被回归直线 与均数 截为三段:第一段 ,表示P点与回归直线的纵向距离,即实际值Y 与估计值 之差,称为剩余或 2013.11.26

残差(residual)。第二段 ,即估计值 与均数 之差,与回归系数的大小有关。第三段 , 是所有实际值Y 的均数。见下图13-1b。 2013.11.26

移项: 变换: 上式用符号表示为: 从图13-1b中可以看出上述三段有下述关系: 式中SS总为Y的离均差平方和,反映Y的总变异。SS回为回归平方和,反映在Y的总变异中由于X与Y的直线关系而使Y的总变异减少的部分,即在Y的总变异中可以用X解释的部分,SS回越大, 2013.11.26

自由度分别为:ν总= n-1,ν回= 1,ν剩= n-2 ν总 = ν回+ ν剩 说明回归效果越好。SS剩为剩余平方和,反映X对Y的线性影响之外的一切因素对Y的变异的作用,即在Y的总变异中无法用X解释的部分,SS剩越小,说明直线回归的估计误差越小。 自由度分别为:ν总= n-1,ν回= 1,ν剩= n-2 ν总 = ν回+ ν剩 公式(13.4) 2013.11.26

方差分析的步骤如下: ① 检验假设 H0: β= 0 即年龄与收缩压之间无直线关系 H1: β≠0 即年龄与收缩压之间有直线关系 公式(13.5) 例13.4 对例13.1求得的回归系数进行假设检验。 方差分析的步骤如下: ① 检验假设 H0: β= 0 即年龄与收缩压之间无直线关系 H1: β≠0 即年龄与收缩压之间有直线关系 α= 0.05 2013.11.26

② 计算检验统计量 按公式(13.4)、公式(13.5) 计算检验统计量F 。 2013.11.26

④ 确定P值和作出推断结论 由α=0.05,ν1=ν回=1,ν2=ν剩=10,查附表9-2,得 ,今求得F=39.94> 列出方差分析表如下: ④ 确定P值和作出推断结论 由α=0.05,ν1=ν回=1,ν2=ν剩=10,查附表9-2,得 ,今求得F=39.94> 4.96,则P<0.05,按α=0.05水准拒绝H0,有 统计学意义。可认为年龄与收缩压之间有直线 关系。 2013.11.26

㈡ t 检验 式中Sb 为样本回归系数的标准误 。 检验统计量t的计算公式为: 式(12-7) 式(12-7a) 例13.5 对例13.1求得的回归系数进行假设检验。 2013.11.26

H0: β= 0 即年龄与收缩压之间无直线关系 H1: β≠0 即年龄与收缩压之间有直线关系 α= 0.05 前已算得lXX=1550.7,lYY=44.04,lXY=233.7, b=0.1507, 代入式(12-7)和式(12-7a)得 2013.11.26

由α=0.05,ν=n-2=12-2=10,查t 界值表 得t α,ν=t 0.05,10=2.228,今求得t=6.32>2.228, 则P<0.05,按α=0.05水准拒绝H0,可认为年龄 与收缩压之间有直线关系。 2013.11.26

四、直线回归方程的应用 ㈠ 描述两变量依存关系 通过回归系数的假设检验,若认为两变量间存在直线回归关系,则可用直线回归方程来描述两变量间依存的直线定量关系。如例13.1求得的直线回归方程 就是该地女性年龄对收缩压的直线定量表达式。 ㈡ 利用回归方程进行统计预测 这是回归方程的重要应用方面。所谓统计预 2013.11.26

测(statistical forecast)就是把预报因子(自变量X)代入回归方程对预报量(应变量Y)进行估计,其波动范围可按求个体Y 值的容许区间方法计算。 例13.6 某地卫生防疫站根据10年来乙脑发病率(1/10万,预报量Y )与相应前一年7月份日照时间(小时,预报因子X )建立回归方程,将乙脑发病率作平方根反正弦变换(即取 ),求得回归方程为 ,SY =0.0243,n=10。1990年7月份日照时间X0=260小时,试估计1991年该地的乙脑发病率。(α=0.05) 已知当X0=260时, 按公式(13.17)计算95%容许区间为: (0.5150, 0.6270) 2013.11.26

取反函数,Y=(sin y)2,得(0. 0000808, 0. 0001197),故可预测该地1991年乙脑发病率有95%的可能在0 ㈢ 利用回归方程进行统计控制 统计控制(statistical control)就是利用回归方 程进行逆估计,如要求应变量Y在一定范围内波动,可以通过自变量X的取值来实现。 例13.7 某市环境监测站在某交通点连续测定30天,每天定时采样3次,测得大气中NO2浓度Y(mg/m3)与当时汽车流量X(辆/小时),共90对数据,求得回归方程 2013.11.26

已知本例YU=0.15,即个体Y 值的95%容许区间的上限,按公式(13.17)应为: SY=0.032522,若NO2的最大容许浓度为0.15mg/m3,则汽车流量应如何控制?(α=0.05) 已知本例YU=0.15,即个体Y 值的95%容许区间的上限,按公式(13.17)应为: 本例ν=90-2=88,查t 界值表得单侧t α,ν= t 0.05,88 =1.6624,SY=0.032522, -0.064866+ 0.000133X,代入上式有: 2013.11.26

解得X=1209(辆/小时) ,即只要把汽车流量控制在1209辆/小时以下,那么就有95%的可能使NO2不超过最大容许浓度0 解得X=1209(辆/小时) ,即只要把汽车流量控制在1209辆/小时以下,那么就有95%的可能使NO2不超过最大容许浓度0.15mg/m3 。 五、应用直线回归分析的注意事项 1. 作回归分析要有实际意义 不能把毫无关联的两个事物或现象拿来作回归分析,如身高与血压之间作回归分析,即便二者有回归关系,也不一定是因果关系,或者这种回归关系没有实际意义。 2013.11.26

2. 作直线回归分析前,应绘制散点图 只有当点的分布具有直线趋势时,才适合作直线回归分析。散点图还可提示数据中有无异常点(outlier),即对应于残差绝对值特别大的观测点数据。异常点的存在往往对回归方程中的系数a、b的估计影响较大。下面通过一个实例来说明此问题。 例13.8 有四组双变量X与Y的数据,其中第一、二、三组的X值相同,具体数据见下表13-4。试对这四组数据分别做直线回归分析,并加以讨论。 2013.11.26

首先根据原始数据分别绘制此四组数据的散点图,见下图12-3、图12-4、图12-5和图12-6。 2013.11.26

通过四组数据的散点图可以看出,第一组数据无明显异常点, X1与Y1之间有明显的直线趋势,见图12-3a ;第二组数据无明显异常点,但X2与Y2之间有明显的曲线趋势,若作直线回归分析,见图12-4a ,若作曲线拟合分析,见图12-4b ;第三组数据有一明显异常点(13.0, 12.74),若此点参与回归分析,则会影响X3与Y3之间直线关系的精度,见图12-5a ,若此点更改为(13.0, 8.54)再作直线回归分析,见图12-5b ;第四组数据有一明显异常点(19.0, 12.50),若此点参与回归分析,则会使得X4与Y4之间本无直线趋势变成有直线关系,见图12-6a。 2013.11.26

2013.11.26

2013.11.26

2013.11.26

2013.11.26

2013.11.26

2013.11.26

2013.11.26

2013.11.26

2013.11.26

2013.11.26

3. 直线回归方程的适用范围一般以自变量的取值范围为限,应避免外延 因为在自变量取值范围以外,两变量之间不一定存在同样的直线关系。 3. 直线回归方程的适用范围一般以自变量的取值范围为限,应避免外延 因为在自变量取值范围以外,两变量之间不一定存在同样的直线关系。 下面的动画演示了异常点对回归分析的影响 2013.11.26

第三节 直线回归与相关的区别和联系 回归与相关是两个既有区别又有联系的统计分析方法,若研究目的是想定量地描述两个变量间的依存关系,常用来由一个变量的数值去推算另一个变量的数值,则应作回归分析;若目的是想定量地描述两个变量间互依关系的密切程度和方向,则应作相关分析。 ㈠ 区别 1. 资料要求不同 回归要求应变量Y 服从正态分布,X 是可精确测量或严格控制的变量,一般称I 型回归。相关要求两个变量服从双变量正 2013.11.26

态分布,此时若作回归分析,称II 型回归。 2. 分析目的不同 回归用来描述两个变量间的依存关系,相关用来描述两个变量间的互依关系。 ㈡ 联系 1. 符号相同 对一组数据若同时计算r 与b , 它们的正负号相同。 r 为正说明两个变量间的相互关系是同向变化的;b 为正说明X 增(减)一个单位,Y 平均增(减) b 个单位。 2013.11.26

3. 用回归解释相关 r 的平方称为决定系数( coefficient of determination) 2. 假设检验等价 对同一样本,样本回归系数b 的t 检验与样本相关系数r 的t 检验的t 值相等,即tb = tr 。由于b 的假设检验较繁,故在实际应用中常用r 的t 检验代替。 3. 用回归解释相关 r 的平方称为决定系数( coefficient of determination) 式(12-11) 上式说明当SS总固定不变时,回归平方和SS回的大小决定了r2 的大小。SS回越接近SS总,则r2 越 2013.11.26

第四节 等级相关 一、Spearman相关系数的计算 接近1,则回归效果越好。 第四节 等级相关 等级相关又称秩相关(rank correlation),是推断两个变量间相关关系的一种非参统计分析方法。常用于下列资料:①不服从双变量正态分布资料;②总体分布类型未知;③等级资料。 一、Spearman相关系数的计算 2013.11.26

rS 值介于-1与1之间,rS 为正表示正相关,为负表示负相关,为零表示零相关。 等级相关是用Spearman相关系数rS 来描述两个变量间相关关系的一种非参统计分析方法。其计算方法是:首先将双变量的观测值分别由小到大编秩次,遇相同观测值,取平均秩次,然后计算每对观测值的秩次差d 及d2 ,再按下式计算rS: 式(12-12a) 式中d 为每对观测值X、Y 的秩次差;n 为对子数。 rS 值介于-1与1之间,rS 为正表示正相关,为负表示负相关,为零表示零相关。 2013.11.26

二、Spearman相关系数的假设检验 样本等级相关系数rS 是总体等级相关系数ρS 的点估计值。对rS 的假设检验,当n<50时,可通过直接查rS 界值表得出推断结论,当n>50时,可作u 检验,按下式计算u 值: 例12-3a 某护士为探讨手术前病人的身体状况综合评分与病人生存期(天)的关系,对10个手术的病人进行了调查研究,研究数据见下表12-3a。试分析病人的健康状况与其生存期有无关系。 2013.11.26

2013.11.26

H0: ρS = 0 病人的健康状况与其生存期无关系 H1: ρS≠0 病人的健康状况与其生存期有关系 本例的检验步骤如下: ① 检验假设 H0: ρS = 0 病人的健康状况与其生存期无关系 H1: ρS≠0 病人的健康状况与其生存期有关系 α= 0.05 ② 编秩 将两个变量X、Y 分别由小到大编秩, 相同数值取平均秩次。见表12-3a中的(3)、(5) 。 ③ 求∑d2 计算每对观测值秩次差d、d2 及∑d2。 见表12-3a中的(6)、(7)及合计项。 ④ 计算检验统计量rS 代入公式 (12-12a)计算rS : 2013.11.26

二、相同秩次较多时rS的校正 ⑤ 确定P值和作出推断结论 本例n=10,查 rS 界值表得r0.05,10=0.648,今求得rS=0.8545> 0.648,则P <0.05,按α=0.05水准拒绝H0, 认为病人的健康状况与其生存期有关系。 二、相同秩次较多时rS的校正 当相同的秩次较多时,需对rS 进行校正,其校正公式为: 2013.11.26

式中TX (或TY)=∑(t3-t)/12;t 为X (或Y)中相同秩次的个数 。 (12-12a) 式中TX (或TY)=∑(t3-t)/12;t 为X (或Y)中相同秩次的个数 。 注意:若把秩次作为原始数据代入Pearson相关系数的计算公式,得到的数值就是等级相关系数rS 的大小。 2013.11.26

第十三章 医学科研设计 医学科学研究是推动医学理论和技术发展与进步、促进知识更新的主要手段。只有通过医学科学研究,我们才有可能解决困扰人类健康的种种疾病或难题,从而更好地为人类服务。 医学科研设计是在掌握专业知识的基础上,根据统计学的原理,为某项医学调查或实验制定具体的工作计划。科研设计的好坏,不但影响整个科研工作的成果质量,而且也会影响统计分析结论的优劣。好的科研设计可起到事半功倍的作用。 2013.11.26

第一节 医学科研设计的基本原则 一、对照的原则 第一节 医学科研设计的基本原则 一、对照的原则 科学研究的目的是验证研究假设正确与否,只有经过比较才能鉴别真伪、优劣,设立对照(control)是比较的基础,只有通过对比才能鉴别研究结果的特异性和差异性。 科学研究除了研究因素外,还会受到一些非研究因素的影响。设立对照也是控制科研中非研究因素的影响和偏倚的重要手段。 2013.11.26

常见的对照形式有: ㈠ 空白对照 ㈡ 实验对照 ㈢ 标准对照 ㈣ 自身对照 ㈤ 安慰剂对照 ㈥ 历史对照 2013.11.26

二、随机的原则 科学研究常常为抽样研究,随机化 原则(randomization)是保证样本具有总体的代表性的必要条件。 随机化也是控制科研中非研究因素的影响和偏倚的重要手段。 随机化的方法有很多。如抽签、随机数字表和随机排列表。 2013.11.26

三、重复的原则 科学研究常常研究变异的事物,重复(replication)是保证研究数据的稳定性和可靠性的重要手段。 重复的程度表现在研究例数(样本含量)的大小和重复次数的多少。 样本含量的估计需通过专门的公式求得。不同的研究方法有不同的计算公式。 2013.11.26

第二节 实验设计 一、实验设计的意义 实验研究是研究者根据研究目的(或研究假设),采取干预措施以期达到预期结果的研究方法。实验设计(experimental design)是对实验研究所作的计划和安排。 良好的实验设计能够合理地安排各种实验因素,正确地估计样本含量,严格地控制实验误差和混杂因素,从而用较少的人力、物力、财力和时间获得最可靠、最丰富的结论。 2013.11.26

二、实验研究的特点和分类 实验研究的特点是对实验对象主动施加干预措施。 实验研究可分三类: ㈠ 动物实验 ㈡ 临床试验 ㈢ 社区干预试验 2013.11.26

三、实验设计的基本要素 根据实验研究的特点决定了任何一项实验都要包含以下三个基本要素: ㈠ 处理因素 是指实验研究中的干预措施。如某种药剂、某种新疗法、某种毒物等。 ㈡ 受试对象 是指实验研究中干预措施施加的对象。如人或动物、某种材料等。 2013.11.26

- + ++ √× 四、几种常用的实验设计方法 ㈢ 实验效应 是指实验研究中受试对象接受处理因素后的实验结果,通常用某种指标来反映。如某种临床诊断的指标、人体某种生理、生化指标等。 四、几种常用的实验设计方法 ㈠ 完全随机设计 将受试对象随机地分配到各个处理组或对照组中进行实验,或者从不同的总体中随机地抽样进行观察的实验方法。 2013.11.26

是配对设计的扩展,是把受试对象按某种条件配成一组,再随机将其中某一对象分配到某个处理组中的实验方法。配伍组的受试对象数取决于处理组数。 ㈡ 配对设计 是把受试对象按某种条件一比一配成对子(或自身配对),再随机将其中之一分配到实验组,另一个到对照组的实验方法。配对的因素常为影响实验效应的主要非处理因素。 ㈢ 配伍组设计 是配对设计的扩展,是把受试对象按某种条件配成一组,再随机将其中某一对象分配到某个处理组中的实验方法。配伍组的受试对象数取决于处理组数。 2013.11.26

第三节 调查设计 一、调查设计的意义 ㈣ 交叉设计 是一种特殊的自身对照设计。先将条件相近的受试对象配成对,再用随机分配的方法将A、B两种处理因素先后施加于同一批受试对象,使得半数对象先接受A,再接受B;另一半对象个先接受B,再接受A。两种处理因素在实验过程中交叉进行,故称为交叉设计。 第三节 调查设计 一、调查设计的意义 2013.11.26

调查研究又称为横断面研究(调查)或现况研究。通过横断面调查,可以了解某一特定时间断面上特定人群中疾病或卫生服务的现状以及与之相联系的各种因素(如某病的发病率、人体的各种生理生化或病理指标、卫生资源状况等)的分布状况。特点是不采取干预措施。 调查设计是调查研究能够取得科学可靠结论的重要保证。是根据研究的预定目的,采用科学的方法,有组织有计划地从客观实际现象中收集资料并进行统计学分析的工作过程。 2013.11.26

二、调查设计的内容 1. 调查目的 2. 调查对象 3. 调查范围 4. 调查方法 5. 调查单位 6. 调查项目(调查表或问卷) 7. 调查的组织计划 8. 调查的资料整理方法 9. 调查资料的统计分析方法 2013.11.26

三、常用调查方法 ㈠ 普查 ㈡ 抽样调查 1. 单纯(简单)随机抽样 2. 系统抽样 3. 整群抽样 4. 分层抽样 ㈢ 典型调查 2013.11.26

第四节 常用统计软件包介绍* 一、SAS 二、SPSS 三、Stata 四、Excel E ㈣ 病例对照研究(回顾性研究) ㈤ 定群研究(队列研究、前瞻性研究) 第四节 常用统计软件包介绍* 一、SAS 二、SPSS 三、Stata 四、Excel 13944158756 taoyuchun@163.com QQ:570261292 E 2013.11.26