Presentation is loading. Please wait.

Presentation is loading. Please wait.

第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 6 主讲人 陶育纯 医学统计学方法 6 主讲人 陶育纯 流行病与卫生统计学教研室

Similar presentations


Presentation on theme: "第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 6 主讲人 陶育纯 医学统计学方法 6 主讲人 陶育纯 流行病与卫生统计学教研室"— Presentation transcript:

1

2 第三篇 医学统计学方法

3 医学统计学方法 6 主讲人 陶育纯 http://cc.jlu.edu.cn/ss.html
医学统计学方法 6 主讲人 陶育纯 流行病与卫生统计学教研室

4 第八讲 课程名称:预防医学 主要教材: «卫生学» 第7版 仲来福 主编 人民卫生出版社 年级、专业:2011级医学五年制第一教班
仲来福 主编 人民卫生出版社 年级、专业:2011级医学五年制第一教班 授课时间:2013年11月27日 授课时数:4h

5 目录 第十一章 秩和检验 第一节 配对资料的符号秩和检验 (Wilcoxon配对法) 第二节 两样本比较的秩和检验
第十一章 秩和检验 第一节 配对资料的符号秩和检验 (Wilcoxon配对法) 第二节 两样本比较的秩和检验 (Wilcoxon两样本比较法) 第三节 多个样本比较的秩和检验 (Kruskal-Wallis法,即H检验) 第四节 多个样本间两两比较的秩和检验

6 目录 * 第十二章 直线相关与回归 第一节 直线相关 第二节 直线回归 一、直线相关的概念 一、直线回归的概念 二、相关系数的计算
三、相关系数的假设检验 第二节 直线回归 一、直线回归的概念 二、直线回归方程的求法

7 目录 第三节 直线相关与回归的区别和联系 第四节 等级相关 四、直线回归方程的应用 一、Spearman相关系数的计算
三、回归系数的假设检验 四、直线回归方程的应用 五、应用直线回归分析时应注意的问题 第三节 直线相关与回归的区别和联系 第四节 等级相关 一、Spearman相关系数的计算 二、Spearman相关系数的假设检验

8 目录 第十三章 医学科研设计 第一节 医学科研设计的基本原则 ★ 第二节 实验设计 ★ 第三节 调查设计 第四节 常用统计软件包介绍 (略)
第十三章 医学科研设计 第一节 医学科研设计的基本原则 ★ 第二节 实验设计 ★ 第三节 调查设计 第四节 常用统计软件包介绍 (略)

9 第十一章 秩和检验 前面讲述的统计推断方法,通常要求样本来自的总体分布类型是已知的,在此种假设基础上,对总体参数进行估计或检验,称为参数统计(parametric statistics)。在实际工作中,有许多资料不满足参数统计的要求,如总体分布类型不清、总体分布偏态且无法通过数据转换使其符合参数 统计的要求等,此时参数统计已不适用,需用一 种不依赖于总体分布类型,也不对总体参数进行 统计推断的统计分析方法,称为非参数统计(nonparametric statistics)。

10 非参数统计的主要优点是不受总体分布类型的限制,适用范围广。非参数统计方法对数据的 要求也不高。不论研究的是何种类型的数据,包 括那些难以精确测定、只能以严重程度、优劣等 级、次序先后等表示的数据;或有的数据出现不 确定数值,如“>20岁”或“<80岁”等,均可用非参数统计。 非参数统计的不足之处是,当符合参数统计 的资料,若用非参数统计处理,因未能充分利用 资料提供的信息,检验效率常低于参数统计,犯 II 型错误的概率增大。

11 (Wilcoxon 配对法) 第一节 配对资料的符号秩和检验
在实际应用中,符合参数统计条件的资料,要首选参数统计的方法。当参数统计的应用条件 得不到满足时,应选用非参数统计。 非参数统计方法很多,本讲选用其中检验效率较高的、理论体系比较完整的、常用的秩和检验(rank sum test)。 第一节 配对资料的符号秩和检验 (Wilcoxon 配对法)

12 一、基本原理和方法 对于配对设计的定量资料,Wilcoxon 配对法通过检验配对资料的差值是否来自中位数为零的总体作出推断结论。
例11-1a 为研究出生前后的孪生兄弟间智力是否存在差异,选用12对孪生兄弟对其智力进行了测试,结果见下表11-1a。 本研究属于异源配对中两观察者分别施加同种处理,看观察者的个体差异对实验指标(即智力得分)的影响。

13

14 本检验的基本思想是:计算每对观察值差数的绝对值,省略所有差数为零的对子,然后根据余下的差数的绝对值的大小,由小到大排秩,遇有相同者,取平均秩次;将所排的秩次标以原差数的符号,分别求正秩和T+与负秩和T-。 假设本例中孪生兄弟间智力无差别,即H0: Md =0(差值总体中位数等于零),T+与T-一般相差不大;若相差较大,则拒绝H0。通过统计学家制作的相应T界值表,获得H0成立与否的概率P值,再根据检验水准作出推断结论。

15 H0: Md =0 即孪生兄弟间得分差值的总体中位数等于0 H1: Md ≠0 α= 0.05 ② 求差值
本例的检验步骤如下: ① 检验假设 H0: Md =0 即孪生兄弟间得分差值的总体中位数等于0 H1: Md ≠0 α= 0.05 ② 求差值 di=Yi–Xi 见表11-1a中的(4) 。 ③ 编秩 按差值的绝对值由小到大排秩,并依 差值的正负给秩次标正负号。差值为0者,不 参于排秩,同时对子数减1;差值相等,取平 均秩次。见表11-1a中的(5) 。

16 和T+与负秩和T-。见表11-1a中的(6)、(7)。
④ 求秩和并确定检验统计量 分别求正秩 和T+与负秩和T-。见表11-1a中的(6)、(7)。 取T+和T-绝对值较小者为检验统计量T。 本例T+= T=24.5。 ⑤ 确定P值和作出推断结论 当n(对子数) ≤25时,查表11-2 T界值表(配对比较的符号秩和 检验用)[Tα(n),α为检验水准,n为对子数]。 若检验统计量T值大于界值,则P >α;T值小于 界值,则P <α;T值等于界值;则P =α。 本例双侧Tα(n)=T0.05(11)=10,而T =24.5>10, 故P >0.05。

17 二、正态近似法 则按α=0.05水准尚不能拒绝H0,认为 孪生兄弟间智力无统计学差异。
当对子数n>25,则T的分布已较好地近似以均数为n(n+1)/4,方差为n(n+1)(2n+1)/24的正态分布,可用u检验。当相同的秩次不多时,可用下式计算u值: 式(11-1)

18 式中0.5 为连续性校正系数。因为T分布为离散型,而u分布为连续型,故需校正。
式(11-2) 式中tj 为第j ( j = 1, 2, 3, …)个相同差值个数。 假定差值中有2个1,3个5,4个3,则t1=2, t2 = 3, t3=4,

19 (Wilcoxon两样本比较法) 第二节 两样本比较的秩和检验 一、原始数据的两样本比较(直接法)
第二节 两样本比较的秩和检验 (Wilcoxon两样本比较法) 对于完全随机设计的两样本比较资料,当参数检验的条件得不到满足或资料为频数表形式,可用一种非参检验方法--Wilcoxon两样本比较法处理。 一、原始数据的两样本比较(直接法) 例11-2a 某实验室观察局部温热治疗小鼠移植肿瘤的疗效,以生存日数作为观察指标,实验结果见下表11-2a。试检验两组小鼠生存日数有无差别。

20

21 本例为完全随机设计的两样本比较,由于实验组的生存日数出现不确定数值(>90),故选用Wilcoxon两样本比较法。
本例的检验步骤如下: ① 检验假设 H0: 两组小鼠生存日数总体分布相同 H1: 两组小鼠生存日数总体分布不同 α= 0.05 ② 编秩 先将两组数据分别由小到大排序,再 统一由小到大编秩。相同数值取平均秩次。 见表11-2a中的秩次项 。

22 表(两样本比较的秩和检验用, n1<n2)[Tα(n1, n2-n1), α为检验水准,n1为样本例数较小者, n2–n1
③ 求秩和并确定检验统计量 分别求每组秩 次和T1与T2。见表11-2a中的下列项。 取样本例数较小组的秩和作为检验统计量T, 若例数相等,可任取一组的秩和为T 。 本例n1=10较小,则 T1= T =170。 ④ 确定P值和作出推断结论 查表11-4 T界值 表(两样本比较的秩和检验用, n1<n2)[Tα(n1, n2-n1), α为检验水准,n1为样本例数较小者, n2–n1 为两组例数差]。若检验统计量T值在界值 范围内,则P >α;T值在界值范围外,则 P <α;T值等于界值;则P =α。

23 二、正态近似法 本例Tα(n1, n2-n1) =T0.05(10,2)=84-146,而T=
170在界值范围外,故P < 0.05,按α= 0.05水准拒绝H0。认为实验组生存日数较 对照组长。 二、正态近似法 若n1或n2–n1超出表11-4 T界值表(两样本比较的秩和检验用, n1<n2)的范围,可按下式进行近似的u 检验。 式(11-3)

24 三、频数表法 当相同的秩次较多时,用式(11-3)求得的u值偏小,应改用下式校正。
式中0.5 为连续性校正系数。 当相同的秩次较多时,用式(11-3)求得的u值偏小,应改用下式校正。 式(11-4) 式中tj 为第j ( j = 1, 2, 3, …)个相同秩次的个数。计算 方法与Wilcoxon配对法相同。 三、频数表法

25 例11-3a 某研究者为比较不同肝炎婴儿的血清总胆红质有无差别,收集了一般组和重症组病人的血清总胆红质数据见下表11-3a。
问两组婴儿的血清总胆红质有无统计学意义。

26 H0: 两组肝炎婴儿的血清总胆红质总体含量分布相同 H1: 两组肝炎婴儿的血清总胆红质总体含量分布不同
本例的检验步骤如下: ① 检验假设 H0: 两组肝炎婴儿的血清总胆红质总体含量分布相同 H1: 两组肝炎婴儿的血清总胆红质总体含量分布不同 α= 0.05 平均秩次=(秩次范围下限+秩次范围上限)/2 ② 编秩 先计算两组合计人数,见表11-3a中的 (4) ,再确定各组段秩次范围,见表11-3a中的(5) , 然后计算各组段平均秩次。见表11-3a中的(6) 。 ③ 求秩和 用各组段的平均秩次分别与每组的人 数相乘,可得每组在各组段的秩和,再将各组段的 秩和相加即得每组的秩和。见表11-3a中的(7) , (8) 。

27 T界值表范围,需用u检验[式(11-3)],由于 相同秩次较多,还需校正[式(11-4)]。
④ 计算检验统计量 本例n1=19, T1=745; n2 =30, T2=480, 则T=T1=745。n1=19, 超出表11-4 T界值表范围,需用u检验[式(11-3)],由于 相同秩次较多,还需校正[式(11-4)]。

28 (Kruskal-Wallis 法, 即H检验)
⑤ 确定P值和作出推断结论 本例uc=5.710 >u0.05=1.96,则P <0.05,按α=0.05水准拒 绝H0,认为两组肝炎婴儿的血清总胆红质总 体含量分布不同,重症组高于一般组。 第三节 多个样本比较的秩和检验 (Kruskal-Wallis 法, 即H检验) 一、原始数据的多样本比较(直接法) 例11-4a 试推断下表11-4a中三组人群的血浆总皮质醇含量 (μg/L)的差别有无统计学意义。

29

30 本例为完全随机设计的多样本比较,可选用Kruskal-Wallis 法(又称K-W 检验)。
本例的检验步骤如下: ① 检验假设 H0: 三组人群的血浆总皮质醇含量总体分布相同 H1: 三组人群的血浆总皮质醇含量总体分布不同 或不全相同 α= 0.05 ② 编秩 先将三组数据分别由小到大排序,再将 三组数据统一由小到大编秩。相同数值取平均秩次。 见表11-4a中的秩次项 。

31 式中Ti为各组的秩和,ni 为各组的例数,N=∑ni 。
③ 求秩和并计算检验统计量 分别求每组秩 次和T1、T2与T3。见表11-4a中的下列项。 按下列公式(11-5)计算检验统计量H 。 式(11-5) 式中Ti为各组的秩和,ni 为各组的例数,N=∑ni 。 本例H为:

32 本例k=3,n1=n2=n3=10,ν =k-1=3-1=2, 查χ2界值表χ2α(ν)= χ20.05(2)=5.99,今求得H=
④ 确定P值和作出推断结论 当组数k≥3, ni≥5时,H分布近似服从ν = k-1的χ2分布, 可查χ2界值表以得到P值大小。 本例k=3,n1=n2=n3=10,ν =k-1=3-1=2, 查χ2界值表χ2α(ν)= χ20.05(2)=5.99,今求得H= 18.12>5.99,故P < 0.05,按α=0.05水准 拒绝H0。认为三组人群的血浆总皮质醇含 量不同或不全相同。 当相同的秩次较多时,用式(11-5)求得的H 值偏小,需按下式校正。

33 二、频数表法 式中tj 为第j ( j = 1, 2, 3, …)个具有相同秩次的个数。 式(11-6)
例11-5a 某医师观察药物治疗慢性、亚急性、急性颈动脉炎眩晕患者的疗效,数据见下表11-5a。试分析该药物对三种类型颈动脉炎眩晕患者的疗效有无差别? 本研究为三组样本的定性指标(疗效的四分级)的频数表资料。

34 平均秩次=(秩次范围下限+秩次范围上限)/2

35 H0: 三种类型颈动脉炎眩晕患者的疗效分布相同 H1: 三种类型颈动脉炎眩晕患者的疗效分布不同或不全相同
本例的检验步骤如下: ① 检验假设 H0: 三种类型颈动脉炎眩晕患者的疗效分布相同 H1: 三种类型颈动脉炎眩晕患者的疗效分布不同或不全相同 α= 0.05 ② 编秩 先计算三组合计人数,见表11-5a中的 (4) ,再确定各级别秩次范围,见表11-5a中的(5) , 然后计算各级别平均秩次。见表11-5a中的(6) 。 ③ 求秩和 用各级别的平均秩次分别与每组的人 数相乘,可得每组在各级别的秩和,再将各级别的 秩和相加即得每组的秩和。见表11-5a中的(7)~(9)。

36 ④ 计算检验统计量 代入[式(11-5)]计算H, 由于相同秩次较多,还需校正[式(11-6)]。

37 第四节 多个样本间两两比较的秩和检验 ⑤ 确定P值和作出推断结论 本例Hc服从于 ν =k-1=3-1=2的χ2分布,查χ2界值表
χ20.05(2)=5.99,今求得Hc =73.87>5.99,故P <0.05,按α=0.05水准拒绝H0。认为三种类 型颈动脉炎眩晕患者的疗效不同或不全相同。 第四节 多个样本间两两比较的秩和检验 多组设计资料,经秩和检验后,若拒绝H0,则意味着各组样本指标所代表的总体指标间不同或不全相同。当要了解任意两总体指标间是否存在差别时,需做多组样本间的多重比较。

38 t 检验,本法不仅适用于例数相等,也适用于例数 不等的情况。检验统计量t 按下式计算:
多重比较的方法很多。这里介绍一种推广的 t 检验,本法不仅适用于例数相等,也适用于例数 不等的情况。检验统计量t 按下式计算: 式(11-7a) 式中 为任意两比较组A与B的平均秩和,nA 、 nB为各组样本含量,k 为处理组数,N 为处理组的总例数, H 为秩和检验中算得的统计量H 或Hc,t 值的自由度为 N-k 。

39 H0: 两比较组血浆总皮质醇含量总体分布相同
例11-6a 以例11-4a的资料说明该检验方法的分析步骤。 ① 检验假设 H0: 两比较组血浆总皮质醇含量总体分布相同 H1: 两比较组血浆总皮质醇含量总体分布不同 α= 0.05 ② 计算各比较组平均秩和 用 计算。 ③ 两两比较 利用式(11-7a)通过下表11-6a计算得 出任意两处理组间的比较结果。

40 计算1与2组的t 值,已知H=18.12,N=30, k=3,nA = nB = 10。仿此可得其它t 值。

41 N-k=30-3=27的t 界值表得tα(ν)=t0.05(27) = 2.052,与表11-6a中的(5)中各项比较得出P 值。
本例各项P值见表11-6a中的(6) 。在α=0.05 水准上,认为正常人组与单纯性肥胖组相比 血浆总皮质醇测定值无统计学差异,而皮质 醇增多症组与正常人组、单纯性肥胖组相比 血浆总皮质醇测定值均有统计学意义。

42 一、直线相关的概念 * 第十二章 直线相关与回归 第一节 直线相关
第一节 直线相关 一、直线相关的概念 直线相关(linear correlation)是描述两个变量间互依关系的一种统计分析方法。此法又称简单相关(simple correlation)。此法通过直线相关系数(linear correlation coefficient)描述两个变量直线关系的大小和方向。此法要求两个变量服从双变量正态分布。

43 相关系数无单位,其取值范围为-1≤r≤1。r 值为正表示正相关,为负表示负相关,为零表示零相关。r = 1为完全正相关,r = -1为完全负
相关系数又称积差相关系数,也称Pearson相关系数,用r 表示。它是说明具有直线关系的两个变量间,相关关系的密切程度和相关方向的指标。用r 的大小表示密切程度,用r 的正负表示相关方向。其计算公式为: 式(12-1) 相关系数无单位,其取值范围为-1≤r≤1。r 值为正表示正相关,为负表示负相关,为零表示零相关。r = 1为完全正相关,r = -1为完全负

44 相关。相关系数r 的直观含义见下图13-7a、图13-7b 。

45 图13-7b 相关系数含义图

46 二、相关系数的计算 式中lXX 和lXY分别表示离均差平方和与离均差积和。 式(12-2)
例13.1 某研究者为探讨女性的年龄与收缩压的关系,收集了某地12名妇女的年龄与收缩压数据见下表13-1的(2)、(3)。试求年龄与收缩压的直线回归方程。

47

48 1. 先根据原始数据绘制散点图(scatter plot),大致判断两变量之间是否有直线趋势。
本例的散点图见下图13-1,可见年龄与收缩压呈直线趋势,故可进行直线相关分析。

49 2. 计算∑X、∑Y、∑X2、∑Y2、∑XY 见表13-1中的(2)~(6)合计项。
3. 计算 lXX 、lYY、lXY 。

50 4. 计算相关系数。由前面计算可知: lXX=1550.7,lYY=44.04,lXY=233.7,代入式(12-1)得相关系数为:
三、相关系数的假设检验 前面所求相关系数r 是样本相关系数,它实为总体相关系数ρ 的估计值。我们知道即使X、Y的总体相关系数ρ为零,由于抽样误差的存在,样

51 本相关系数r 也不一定为零。因此需要对相关系数r 进行假设检验,以此推断X、Y是否存在直线相关关系。常用t 检验,其检验统计量公式如下:
式(12-3) 式中Sr 为样本相关系数的标准误,自由度ν=n-2。 例13.2 就例13.1求得的r 值,检验妇女年龄与收缩压间是否存在直线相关关系。

52 H0: ρ = 0 即年龄与收缩压之间无直线相关关系
① 检验假设 H0: ρ = 0 即年龄与收缩压之间无直线相关关系 H1: ρ≠0 即年龄与收缩压之间有直线相关关系 α= 0.05 ② 计算检验统计量 本例n = 12, r = , 代入式(12-3)求t 。

53 ③ 确定P值和作出推断结论 由α=0.05,ν=n-2=12-2=10,查t 界值表
得t α,ν=t 0.05,10=2.228,今求得t=6.32>2.228, 则P<0.05,按α=0.05水准拒绝H0,可认为妇女 年龄与收缩压之间有直线相关关系。 You may use Excel’s functions CORREL() or PEARSON() to get r easily.

54 第二节 直线回归 一、直线回归的概念 直线回归(linear regression)是描述两个变量间依存关系的一种统计分析方法。此法又称简单回归(simple regression)。此法通过直线回归方程(linear regression equation)描述一个变量Y[常称为应变量(dependent variable)]依存另一个变量X[常称为自变量(independent variable)]变化的数量关系。由此方程可确定一条回归直线。

55 二、直线回归方程的求法 直线回归方程的表达式为 式(12-4)
式中X为自变量, 为应变量Y的估计值,a 为回归直线在Y轴上的截距(intercept),b为回归系数(regression coefficient),也即回归直线的斜率(slope)。根据数学上的最小二乘法的原理计算a和b 。计算公式如下:

56 式中lXX 和lXY分别表示离均差平方和与离均差积和。
式(12-5) 式中lXX 和lXY分别表示离均差平方和与离均差积和。 式(12-6) 最小二乘法原理的含义是保证各实测点至直线的纵向距离的平方和最小 。 例13.3 根据例13.1妇女年龄与收缩压的数据计算二者的直线回归方程。以年龄为自变量,收缩压为因变量。

57

58 1. 先根据原始数据绘制散点图(scatter plot),大致判断两变量之间是否有直线趋势。
本例的散点图见下图13-1,可见年龄与收缩压呈直线趋势,故可进行直线回归分析。

59 2. 计算∑X、∑Y、∑X2、∑Y2、∑XY 见表13-1中的(2)~(6)合计项。
3. 计算 和lXX 、lYY、lXY

60 4. 求回归系数b和截距a 按式(12-5)求回归系数b,按式(12-6)求截距a。
5. 列直线回归方程 为了直观分析或实际需要,可按求出的直线回归方程作图。在X的实测全距范围内任取相距较远且易读数的两个X值,代入方程得到两个Y值,

61 以直线连接两点即得回归直线。本例可取X1=42,得Y1=17. 14;取X2=72,得Y2=21
以直线连接两点即得回归直线。本例可取X1=42,得Y1=17.14;取X2=72,得Y2=21.66。连接两点即得本资料的回归直线。见下图13-1a。

62 三、回归系数的假设检验 我们知道即使X、Y的总体回归系数β为零, 由于抽样误差的存在,样本回归系数b 也不一定为零。因此需要对回归系数进行假设检验,以此推断X、Y是否存在直线关系。可用方差分析或t检验。 ㈠ 方差分析 应变量Y的纵坐标被回归直线 与均数 截为三段:第一段 ,表示P点与回归直线的纵向距离,即实际值Y 与估计值 之差,称为剩余或

63 残差(residual)。第二段 ,即估计值 与均数 之差,与回归系数的大小有关。第三段 , 是所有实际值Y 的均数。见下图13-1b。

64 移项: 变换: 上式用符号表示为: 从图13-1b中可以看出上述三段有下述关系:
式中SS总为Y的离均差平方和,反映Y的总变异。SS回为回归平方和,反映在Y的总变异中由于X与Y的直线关系而使Y的总变异减少的部分,即在Y的总变异中可以用X解释的部分,SS回越大,

65 自由度分别为:ν总= n-1,ν回= 1,ν剩= n-2 ν总 = ν回+ ν剩
说明回归效果越好。SS剩为剩余平方和,反映X对Y的线性影响之外的一切因素对Y的变异的作用,即在Y的总变异中无法用X解释的部分,SS剩越小,说明直线回归的估计误差越小。 自由度分别为:ν总= n-1,ν回= 1,ν剩= n-2 ν总 = ν回+ ν剩 公式(13.4)

66 方差分析的步骤如下: ① 检验假设 H0: β= 0 即年龄与收缩压之间无直线关系 H1: β≠0 即年龄与收缩压之间有直线关系
公式(13.5) 例13.4 对例13.1求得的回归系数进行假设检验。 方差分析的步骤如下: ① 检验假设 H0: β= 0 即年龄与收缩压之间无直线关系 H1: β≠0 即年龄与收缩压之间有直线关系 α= 0.05

67 ② 计算检验统计量 按公式(13.4)、公式(13.5) 计算检验统计量F 。

68 ④ 确定P值和作出推断结论 由α=0.05,ν1=ν回=1,ν2=ν剩=10,查附表9-2,得 ,今求得F=39.94>
列出方差分析表如下: ④ 确定P值和作出推断结论 由α=0.05,ν1=ν回=1,ν2=ν剩=10,查附表9-2,得 ,今求得F=39.94> 4.96,则P<0.05,按α=0.05水准拒绝H0,有 统计学意义。可认为年龄与收缩压之间有直线 关系。

69 ㈡ t 检验 式中Sb 为样本回归系数的标准误 。 检验统计量t的计算公式为: 式(12-7) 式(12-7a)
例13.5 对例13.1求得的回归系数进行假设检验。

70 H0: β= 0 即年龄与收缩压之间无直线关系 H1: β≠0 即年龄与收缩压之间有直线关系 α= 0.05
前已算得lXX=1550.7,lYY=44.04,lXY=233.7, b=0.1507, 代入式(12-7)和式(12-7a)得

71 由α=0.05,ν=n-2=12-2=10,查t 界值表 得t α,ν=t 0.05,10=2.228,今求得t=6.32>2.228,
则P<0.05,按α=0.05水准拒绝H0,可认为年龄 与收缩压之间有直线关系。

72 四、直线回归方程的应用 ㈠ 描述两变量依存关系
通过回归系数的假设检验,若认为两变量间存在直线回归关系,则可用直线回归方程来描述两变量间依存的直线定量关系。如例13.1求得的直线回归方程 就是该地女性年龄对收缩压的直线定量表达式。 ㈡ 利用回归方程进行统计预测 这是回归方程的重要应用方面。所谓统计预

73 测(statistical forecast)就是把预报因子(自变量X)代入回归方程对预报量(应变量Y)进行估计,其波动范围可按求个体Y 值的容许区间方法计算。
例13.6 某地卫生防疫站根据10年来乙脑发病率(1/10万,预报量Y )与相应前一年7月份日照时间(小时,预报因子X )建立回归方程,将乙脑发病率作平方根反正弦变换(即取 ),求得回归方程为 ,SY =0.0243,n=10。1990年7月份日照时间X0=260小时,试估计1991年该地的乙脑发病率。(α=0.05) 已知当X0=260时, 按公式(13.17)计算95%容许区间为: (0.5150, )

74 取反函数,Y=(sin y)2,得(0. 0000808, 0. 0001197),故可预测该地1991年乙脑发病率有95%的可能在0
㈢ 利用回归方程进行统计控制 统计控制(statistical control)就是利用回归方 程进行逆估计,如要求应变量Y在一定范围内波动,可以通过自变量X的取值来实现。 例13.7 某市环境监测站在某交通点连续测定30天,每天定时采样3次,测得大气中NO2浓度Y(mg/m3)与当时汽车流量X(辆/小时),共90对数据,求得回归方程

75 已知本例YU=0.15,即个体Y 值的95%容许区间的上限,按公式(13.17)应为:
SY= ,若NO2的最大容许浓度为0.15mg/m3,则汽车流量应如何控制?(α=0.05) 已知本例YU=0.15,即个体Y 值的95%容许区间的上限,按公式(13.17)应为: 本例ν=90-2=88,查t 界值表得单侧t α,ν= t 0.05,88 =1.6624,SY= , X,代入上式有:

76 解得X=1209(辆/小时) ,即只要把汽车流量控制在1209辆/小时以下,那么就有95%的可能使NO2不超过最大容许浓度0
解得X=1209(辆/小时) ,即只要把汽车流量控制在1209辆/小时以下,那么就有95%的可能使NO2不超过最大容许浓度0.15mg/m3 。 五、应用直线回归分析的注意事项 1. 作回归分析要有实际意义 不能把毫无关联的两个事物或现象拿来作回归分析,如身高与血压之间作回归分析,即便二者有回归关系,也不一定是因果关系,或者这种回归关系没有实际意义。

77 2. 作直线回归分析前,应绘制散点图 只有当点的分布具有直线趋势时,才适合作直线回归分析。散点图还可提示数据中有无异常点(outlier),即对应于残差绝对值特别大的观测点数据。异常点的存在往往对回归方程中的系数a、b的估计影响较大。下面通过一个实例来说明此问题。 例13.8 有四组双变量X与Y的数据,其中第一、二、三组的X值相同,具体数据见下表13-4。试对这四组数据分别做直线回归分析,并加以讨论。

78 首先根据原始数据分别绘制此四组数据的散点图,见下图12-3、图12-4、图12-5和图12-6。

79 通过四组数据的散点图可以看出,第一组数据无明显异常点, X1与Y1之间有明显的直线趋势,见图12-3a ;第二组数据无明显异常点,但X2与Y2之间有明显的曲线趋势,若作直线回归分析,见图12-4a ,若作曲线拟合分析,见图12-4b ;第三组数据有一明显异常点(13.0, 12.74),若此点参与回归分析,则会影响X3与Y3之间直线关系的精度,见图12-5a ,若此点更改为(13.0, 8.54)再作直线回归分析,见图12-5b ;第四组数据有一明显异常点(19.0, 12.50),若此点参与回归分析,则会使得X4与Y4之间本无直线趋势变成有直线关系,见图12-6a。

80

81

82

83

84

85

86

87

88

89

90 3. 直线回归方程的适用范围一般以自变量的取值范围为限,应避免外延 因为在自变量取值范围以外,两变量之间不一定存在同样的直线关系。
3. 直线回归方程的适用范围一般以自变量的取值范围为限,应避免外延 因为在自变量取值范围以外,两变量之间不一定存在同样的直线关系。 下面的动画演示了异常点对回归分析的影响

91 第三节 直线回归与相关的区别和联系 回归与相关是两个既有区别又有联系的统计分析方法,若研究目的是想定量地描述两个变量间的依存关系,常用来由一个变量的数值去推算另一个变量的数值,则应作回归分析;若目的是想定量地描述两个变量间互依关系的密切程度和方向,则应作相关分析。 ㈠ 区别 1. 资料要求不同 回归要求应变量Y 服从正态分布,X 是可精确测量或严格控制的变量,一般称I 型回归。相关要求两个变量服从双变量正

92 态分布,此时若作回归分析,称II 型回归。
2. 分析目的不同 回归用来描述两个变量间的依存关系,相关用来描述两个变量间的互依关系。 ㈡ 联系 1. 符号相同 对一组数据若同时计算r 与b , 它们的正负号相同。 r 为正说明两个变量间的相互关系是同向变化的;b 为正说明X 增(减)一个单位,Y 平均增(减) b 个单位。

93 3. 用回归解释相关 r 的平方称为决定系数( coefficient of determination)
2. 假设检验等价 对同一样本,样本回归系数b 的t 检验与样本相关系数r 的t 检验的t 值相等,即tb = tr 。由于b 的假设检验较繁,故在实际应用中常用r 的t 检验代替。 3. 用回归解释相关 r 的平方称为决定系数( coefficient of determination) 式(12-11) 上式说明当SS总固定不变时,回归平方和SS回的大小决定了r2 的大小。SS回越接近SS总,则r2 越

94 第四节 等级相关 一、Spearman相关系数的计算 接近1,则回归效果越好。
第四节 等级相关 等级相关又称秩相关(rank correlation),是推断两个变量间相关关系的一种非参统计分析方法。常用于下列资料:①不服从双变量正态分布资料;②总体分布类型未知;③等级资料。 一、Spearman相关系数的计算

95 rS 值介于-1与1之间,rS 为正表示正相关,为负表示负相关,为零表示零相关。
等级相关是用Spearman相关系数rS 来描述两个变量间相关关系的一种非参统计分析方法。其计算方法是:首先将双变量的观测值分别由小到大编秩次,遇相同观测值,取平均秩次,然后计算每对观测值的秩次差d 及d2 ,再按下式计算rS: 式(12-12a) 式中d 为每对观测值X、Y 的秩次差;n 为对子数。 rS 值介于-1与1之间,rS 为正表示正相关,为负表示负相关,为零表示零相关。

96 二、Spearman相关系数的假设检验 样本等级相关系数rS 是总体等级相关系数ρS 的点估计值。对rS 的假设检验,当n<50时,可通过直接查rS 界值表得出推断结论,当n>50时,可作u 检验,按下式计算u 值: 例12-3a 某护士为探讨手术前病人的身体状况综合评分与病人生存期(天)的关系,对10个手术的病人进行了调查研究,研究数据见下表12-3a。试分析病人的健康状况与其生存期有无关系。

97

98 H0: ρS = 0 病人的健康状况与其生存期无关系 H1: ρS≠0 病人的健康状况与其生存期有关系
本例的检验步骤如下: ① 检验假设 H0: ρS = 0 病人的健康状况与其生存期无关系 H1: ρS≠0 病人的健康状况与其生存期有关系 α= 0.05 ② 编秩 将两个变量X、Y 分别由小到大编秩, 相同数值取平均秩次。见表12-3a中的(3)、(5) 。 ③ 求∑d2 计算每对观测值秩次差d、d2 及∑d2。 见表12-3a中的(6)、(7)及合计项。 ④ 计算检验统计量rS 代入公式 (12-12a)计算rS :

99 二、相同秩次较多时rS的校正 ⑤ 确定P值和作出推断结论 本例n=10,查
rS 界值表得r0.05,10=0.648,今求得rS=0.8545> 0.648,则P <0.05,按α=0.05水准拒绝H0, 认为病人的健康状况与其生存期有关系。 二、相同秩次较多时rS的校正 当相同的秩次较多时,需对rS 进行校正,其校正公式为:

100 式中TX (或TY)=∑(t3-t)/12;t 为X (或Y)中相同秩次的个数 。
(12-12a) 式中TX (或TY)=∑(t3-t)/12;t 为X (或Y)中相同秩次的个数 。 注意:若把秩次作为原始数据代入Pearson相关系数的计算公式,得到的数值就是等级相关系数rS 的大小。

101 第十三章 医学科研设计 医学科学研究是推动医学理论和技术发展与进步、促进知识更新的主要手段。只有通过医学科学研究,我们才有可能解决困扰人类健康的种种疾病或难题,从而更好地为人类服务。 医学科研设计是在掌握专业知识的基础上,根据统计学的原理,为某项医学调查或实验制定具体的工作计划。科研设计的好坏,不但影响整个科研工作的成果质量,而且也会影响统计分析结论的优劣。好的科研设计可起到事半功倍的作用。

102 第一节 医学科研设计的基本原则 一、对照的原则
第一节 医学科研设计的基本原则 一、对照的原则 科学研究的目的是验证研究假设正确与否,只有经过比较才能鉴别真伪、优劣,设立对照(control)是比较的基础,只有通过对比才能鉴别研究结果的特异性和差异性。 科学研究除了研究因素外,还会受到一些非研究因素的影响。设立对照也是控制科研中非研究因素的影响和偏倚的重要手段。

103 常见的对照形式有: ㈠ 空白对照 ㈡ 实验对照 ㈢ 标准对照 ㈣ 自身对照 ㈤ 安慰剂对照 ㈥ 历史对照

104 二、随机的原则 科学研究常常为抽样研究,随机化 原则(randomization)是保证样本具有总体的代表性的必要条件。
随机化也是控制科研中非研究因素的影响和偏倚的重要手段。 随机化的方法有很多。如抽签、随机数字表和随机排列表。

105 三、重复的原则 科学研究常常研究变异的事物,重复(replication)是保证研究数据的稳定性和可靠性的重要手段。
重复的程度表现在研究例数(样本含量)的大小和重复次数的多少。 样本含量的估计需通过专门的公式求得。不同的研究方法有不同的计算公式。

106 第二节 实验设计 一、实验设计的意义 实验研究是研究者根据研究目的(或研究假设),采取干预措施以期达到预期结果的研究方法。实验设计(experimental design)是对实验研究所作的计划和安排。 良好的实验设计能够合理地安排各种实验因素,正确地估计样本含量,严格地控制实验误差和混杂因素,从而用较少的人力、物力、财力和时间获得最可靠、最丰富的结论。

107 二、实验研究的特点和分类 实验研究的特点是对实验对象主动施加干预措施。 实验研究可分三类: ㈠ 动物实验 ㈡ 临床试验 ㈢ 社区干预试验

108 三、实验设计的基本要素 根据实验研究的特点决定了任何一项实验都要包含以下三个基本要素: ㈠ 处理因素
是指实验研究中的干预措施。如某种药剂、某种新疗法、某种毒物等。 ㈡ 受试对象 是指实验研究中干预措施施加的对象。如人或动物、某种材料等。

109 - + ++ √× 四、几种常用的实验设计方法 ㈢ 实验效应
是指实验研究中受试对象接受处理因素后的实验结果,通常用某种指标来反映。如某种临床诊断的指标、人体某种生理、生化指标等。 四、几种常用的实验设计方法 ㈠ 完全随机设计 将受试对象随机地分配到各个处理组或对照组中进行实验,或者从不同的总体中随机地抽样进行观察的实验方法。

110 是配对设计的扩展,是把受试对象按某种条件配成一组,再随机将其中某一对象分配到某个处理组中的实验方法。配伍组的受试对象数取决于处理组数。
㈡ 配对设计 是把受试对象按某种条件一比一配成对子(或自身配对),再随机将其中之一分配到实验组,另一个到对照组的实验方法。配对的因素常为影响实验效应的主要非处理因素。 ㈢ 配伍组设计 是配对设计的扩展,是把受试对象按某种条件配成一组,再随机将其中某一对象分配到某个处理组中的实验方法。配伍组的受试对象数取决于处理组数。

111 第三节 调查设计 一、调查设计的意义 ㈣ 交叉设计
是一种特殊的自身对照设计。先将条件相近的受试对象配成对,再用随机分配的方法将A、B两种处理因素先后施加于同一批受试对象,使得半数对象先接受A,再接受B;另一半对象个先接受B,再接受A。两种处理因素在实验过程中交叉进行,故称为交叉设计。 第三节 调查设计 一、调查设计的意义

112 调查研究又称为横断面研究(调查)或现况研究。通过横断面调查,可以了解某一特定时间断面上特定人群中疾病或卫生服务的现状以及与之相联系的各种因素(如某病的发病率、人体的各种生理生化或病理指标、卫生资源状况等)的分布状况。特点是不采取干预措施。 调查设计是调查研究能够取得科学可靠结论的重要保证。是根据研究的预定目的,采用科学的方法,有组织有计划地从客观实际现象中收集资料并进行统计学分析的工作过程。

113 二、调查设计的内容 1. 调查目的 2. 调查对象 3. 调查范围 4. 调查方法 5. 调查单位 6. 调查项目(调查表或问卷)
7. 调查的组织计划 8. 调查的资料整理方法 9. 调查资料的统计分析方法

114 三、常用调查方法 ㈠ 普查 ㈡ 抽样调查 1. 单纯(简单)随机抽样 2. 系统抽样 3. 整群抽样 4. 分层抽样 ㈢ 典型调查

115 第四节 常用统计软件包介绍* 一、SAS 二、SPSS 三、Stata 四、Excel E ㈣ 病例对照研究(回顾性研究)
㈤ 定群研究(队列研究、前瞻性研究) 第四节 常用统计软件包介绍* 一、SAS 二、SPSS 三、Stata 四、Excel QQ: E


Download ppt "第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 6 主讲人 陶育纯 医学统计学方法 6 主讲人 陶育纯 流行病与卫生统计学教研室"

Similar presentations


Ads by Google