Download presentation
Presentation is loading. Please wait.
1
科研设计的统计学原则 高月求
2
实验设计 实验(Experiment)指由研究者主动地决定给予部分实验对象某种处理,给予另一部分对象某种对照处理的研究设计形式,这种处理的分配常常是随机的。 实验设计(Experimental design)是通过对象的选择、处理因素的合理分配、结果指标的准确测量和恰当的资料分析来提高组与组间非处理因素的一致性,使实验结果有较好的可比性,并且较好地控制误差,用较小的样本获取可靠的结论。
3
实验设计三要素 处理 → 对象 → 效应 ↓ ↓ ↓ 降压药 高血压病人 血压值
4
处理 处理(treatment):研究者根据研究目的欲施加或欲观察的,能作用于受试对象并引起效应的因素。
非处理因素:相应的也能使受试对象产生效应的因素,又称混杂因素(confounding factor)。 处理因素要标准化,处理水平始终一致。
5
对象(subjects) 指根据研究目的确定的观察对象(动物或人体),必须具备同质性和代表性
1)动物的选择:种类、品系、年龄、性别、体重、营养 2)人的选择:诊断明确、依从性好,反映主观感觉
6
效应(effect) 是处理因素作用于受试对象的反应和结果,通过观察指标表达。指标要求: 1)客观性:主观指标和客观指标。 2)精确性:
准确度(accuracy):观察值与真值的接近程度,受系统误差的影响。 精密度(precision):重复观察时观察值与其均值的接近程度,受随机误差的影响; 3)灵敏性(sensitivity):表示指标检出真阳性的能力,可减少假阴性率。 4)特异性(specificity):表示指标检出真阴性的能力,减少假阳性率。
7
实验误差及其特点 在实验中,由于实验对象自身特点、实验条件的变化和实验结果测量的不确定性造成实验结果与真值的差别称实验误差(Experimental error)。根据统计分析上的处理不同,实验误差分成两类: 随机误差(Random error) 非随机误差
8
随机误差(Random error) 随机误差是由大量的、微小的、偶然因素引起的不易控制的误差。如在实验中,温度、湿度、风向、振动、试剂、仪器、操作员等都可能造成结果的偏差。 随机变异是没有倾向性的,在大量观察条件下,随机误差的分布呈标准正态分布。随机误差的规律可以用统计方法分析。
9
非随机误差 又称偏倚(bias)或系统误差(Systematic error)
由于在对象选择、处理因素分配的不随机、测量结果的不准确造成实验结果有倾向性地偏离称之。(无统计规律、可预防、务必控制) (1)选择偏倚(Selection bias):指在选择研究对象和分组时的非随机化,造成结果的偏倚。如肝癌手术治疗与化疗的疗效比较中,由于手术对象的选择性造成有利于手术组的结果。 (2)信息偏倚(Information bias):指测量方面的误差,特别是主观因素造成的有倾向性的偏倚。如在临床试验中,实验组是在医院测量,对照组是在家中测量。 (3)混杂偏倚(Confounding):指实验组与对照组在一些影响实验结果的非处理因素不均衡造成结果的偏倚。如病情轻重、并发症、辅助治疗和护理等因素不均衡。
10
实验设计的原则 对照(Control) 随机化(Randomization) 重复(Replication)
盲法(blind method)
11
对照(Control) 指设立对照组以排除非处理因素而显示出处理的效应。 对照组设置的三个条件: 对等:除处理因素外,两组对等的非处理因素
处理组 处理因素+非处理因素=处理和非处理的效应 对照组 非处理因素= 非处理因素的效应 对比 处理因素 =处理效应 对照组设置的三个条件: 对等:除处理因素外,两组对等的非处理因素 同步:两组始终处于同一空间和同一时间 专设:对照组专门设立,一般不能以文献为对照(有时可与“常模”比较)
12
随机化(Randomization) 随机原则是指“机会均等”,最简单的方法是抽签 随机≠随便,任何随便都不是随机的 随机化类型
随机抽样:每个个体有同等的机会被抽中 分组随机:每个实验对象分配到不同处理组的机会相同 随机顺序:每个实验对象接受处理先后的机会相同
13
重复(Replication) 重复是指在相同实验条件下进行多次研究或多次观察,以提高实验的可靠性与科学性。
广义地讲,重复包括:整个实验的重复、用多个实验单位进行重复、同一实验单位的重复观察。 决定重复性的关键是样本含量,故常将重复性简化为“样本含量”
14
盲法(blind method) 按实验方案规定,尽量不让参与临床实验的受试者、研究者、医务人员、监视员、数据管理和统计分析人员知道患者接受何种治疗。 单盲法(single blind)指受试者不知道自己属于试验组还是对照组 双盲法(double blind)指受试者和试验医务人员都不知道病人属于试验组还是对照组 非盲法(open label): 采用单盲或非盲法试验应在研究方案中申述理由。 盲法的原则应自始至终地贯彻于整个试验之中
15
针对研究类型选择适当的研究设计 类型 目的 首选的研究设计 治疗研究 检验各种干预措施如药物治疗、介入或外科手术的效果 随机对照临床试验
诊断研究 评估新的诊断方法的有效性和可行性 横断面调查(须同时进行新方法和金标准方法检验) 预后研究 了解确诊病人以后可能发生的情况 纵向队列研究 因果关系研究 评估有害因素与疾病发生是否有关 队列研究或病例-对照研究,病例报告亦有用 筛选研究 评估适于大规模人群检验和在疾病呈现症状早期检出该病的各种检查方法 横断面调查
16
随机对照临床试验(RCT) 适用RCT解决的临床问题 对某一疾病,研究药物在效果上是否优于安慰剂或另一种药物(对照药)?
新的手术方法是否优于传统方法? 改变生活习惯是否会影响病人血压水平?
17
RCT的优点 在选定的病人组群中,可严格评价单一变量的效果 前瞻性设计 应用假设—推导进行推理 消除偏倚:比较基线指标相同的两个组
可作荟萃分析和系统性评价 RCT被认为是临床科研的“金标准”
18
RCT的缺点 耗费又耗时:无法完成、样本量不足、研究时间太短 多数由研究机构或药厂(公司)资助,难免不会影响公正 常使用“替代终点”
可出现“潜在的偏倚” 随机化不完善 未对所有合格病人进行随机化分配 未避免资料评价人员知道病人随机情况 其他 排除标准的偏倚 入选标准的偏倚
19
不适合进行RCT: 预后研究 适于纵向队列研究 筛查研究 适于横断面研究 “保健质量”研究:尚未确定“成功”标准,适于定性研究方法
20
队列研究 选择≥2组,暴露于某种特定物质(药物、疫苗、环境致病物等)不同的人群,随访,观察每组发生特定疾病结局或人数。
研究对象为可能发病或不发病者。 关注的是病因,而非疾病治疗
21
适合采用队列研究的临床问题 吸烟导致肺癌吗? 高血压随着时间推移会变好吗? 避孕药导致“乳腺癌”吗?
早产儿在以后的生长发育和学习成绩上情况如何?
22
病例--对照研究 确定有某种特定疾病的病人并与对照组进行匹配,收集其暴露于某种可疑致病因子的资料。 关注的是病因而非疾病治疗。
对于罕见病的研究可能是唯一选择。
23
横断面调查 对某一研究对象中的代表性样本(或病人)进行访问、检查或研究以获得对某一特定临床问题的答案。
资料在单一时间点收集,但可回顾性追溯过去有关健康方面的经历。
24
病例报告 以故事方式描述单一患者病史。可综合形成病例系列,以描述一个以上患有某一特殊情况患者的病史,阐述此种情况的某个方面、治疗情况或对治疗之不良反应。
25
病例报告之优点 可以传递大量在临床试验中或调查中可能丢失的信息 易被普通医师或大众理解 易于完成(数天内)
27
统计工作的步骤 第一步设计(design): 第二步收集资料(collection of data):
第三步整理资料(sorting data): 第四步分析资料(analysis of data):
28
设计(design) 首先明确研究目的, 根据研究目的,从统计角度对资料的搜集、整理和分析全过程提出全面具体的计划和要求,作为统计工作实施的依据,以便用尽可能少的人力、物力和时间获得准确可靠的结论。 1、明确对象 2、明确取得原始资料的方法 3、如何整理资料 4、计算哪些指标 5、用何种统计推断方法 6、预测结果
29
搜集资料 搜集及时、准确、完整地搜集原始资料是统计工作最重要的一步,它直接关系着统计结论的质量。 统计资料的来源主要有: 1、报表资料。
2、医疗、预防机构的日常工作记录。 3、专题研究实验数据和现场调查资料。
30
整理资料(sorting of data) 整理资料又称统计归纳:是把搜集到的资料进行适当的分组,把性质相同的资料归纳到一起,用表格或图形的方式展示出来,以反映研究对象的规律性。 1、审核资料 2、设计分组:质量分组和数量分组 3、拟整理表 4、归纳汇总
31
分析资料 分析资料资料的分析过程是通过计算有关的统计指标,对资料进行概括的、全面的描述,以及从样本信息推断总体特征,分析资料就是从获取的资料中抽取有关信息的过程。 1、统计指标的计算 2、统计图表的绘制 3、估计总体参数 4、进行假设检验 5、回归与相关 6、多元分析
32
统计资料的类型 计量资料 计数资料 等级资料
33
计量资料(measurement data)
通过对观察单位测量取得数值,其值一般有度量衡单位。 如身高、体重、血压、脉搏、白细胞空气中二氧化碳含量等。此类资料具有计量单位,各观察单位常有量的差别。分析计量资料常用平均数、标准差、t检验、方差分析、相关与回归分析等。
34
计数资料(enumeration data)
将观察单位按某种属性或类别分组,然后清点各组的观察单位数。 如性别、血型、民族、职称、某病的治愈和未愈数等。分属于各组的观察单位间有质的差别,不同质的观察单位不能归在同一组内。分析计数资料常用率、构成比、x2检验等。
35
等级资料 (ranked data) 将观察单位按某种属性的不同程度分组,然后清点各组的观察单位数。
如疗效可分为治愈、显效、好转、无效;尿蛋白化验结果分为-、 + 、++ 、+++等。这类资料具有计数资料的性质,但所分各组又是按一定顺序如由轻到重、由小到大排列的。分析等级资料常用率、构成比、秩和检验等。
36
医学统计中的几个基本概念 数据与变量 总体和样本 随机化 统计量与参数 抽样误差 概率
37
变量(variable) 具有变异性的数据称为变量。
1.数值变量(numerical variable) :为连续变量,如身高、体重、血压等。数值变量均可通过对观察单位测量取得数值,其值一般有度量衡单位。数值变量资料也称作计量资料。 2.分类变量(categorical variable) :可能取值是离散的,表现为互不相容的类别。比如性别、血型、民族、职称等。分类变量资料又称为计数资料。分类变量有两种:无序分类变量和有序分类变量
38
总体与样本 样本(sample):通常是从总体中随机抽取有代表性的一部分观察单位。注意其代表性 和可靠性。
总体(population):是根据研究目的确定的同质的观察单位的某个变量值的全体。分有限总体和无限总体 。 样本(sample):通常是从总体中随机抽取有代表性的一部分观察单位。注意其代表性 和可靠性。
39
抽样误差(sampling error) 用于描述样本特征的指标称为统计量,而用于描述总体特征的指标称为参数。
我们把由随机抽样引起的样本指标与总体指标的差异称为抽样误差。 由于个体变异的普遍存在,抽样误差是不可避免的。只要遵循随机化的原则,抽样误差的大小就可以用统计方法进行估计。一般情况下样本越大,抽样误差越小,反映事物客观规律的准确性越高,反之,样本越小,抽样误差越大。
40
概率(probability) 描述随机事件发生的可能性大小的数值称概率。
随机事件的概率P取值在0 ~1之间,P越接近1,说明某事件发生的可能性越大;P越接近0,说明某事件发生的可能性越小。 如果某事件的概率P=0,表示该事件不可能发生,称其为不可能事件;如果P=1,表示该事件必然发生,称其为必然事件。 随机事件是可能发生也可能不发生的事件。如果某随机事件发生的概率P〈0.05,或P〈0.01表示该事件发生的可能性很小,我们称其为小概率事件。其意义为在一次试验中不发生事件。
41
数值变量资料的统计描述 统计图表 统计指标
42
平均数 均数 几何均数 中位数和百分数
43
均数(mean) 1、应用条件:均数反映同质的一组观察值在数量上的平均水平,样本所代表总体为正态分布。
均数是算术平均数 (arithmetic mean)的简称。总体均数用希腊字母( )表示,样本均数用( )表示。 1、应用条件:均数反映同质的一组观察值在数量上的平均水平,样本所代表总体为正态分布。
44
2、计算方法: (1)直接法 当样本中观察值个数不多时,通常可用直接法,公式为: 式中Σ是希腊字母,读作sigma ,为求和的符号。
45
(2)加权法 当观察值个数较多时。通常可用加权法,公式为: 式中X为各组的组中值,组中值等于该组的上限加下限之和除以2。 f为各组的频数,它相当于‘权数’权衡了各组中值由于频数不同对均数的影响,故本法也称为加权法。
46
几何均数(geometric mean) 1、应用条件: 观察的数据是呈倍数关系的资料 ,采用几何均数简记为( G)表示其平均水平。
2、计算方法:如果观察的数据个数不多可以采用直接算法。 公式为: 如果样本量很大,或只掌握频数表资料可以按下式计算分组资料的几何均数。公式为:
47
百分位数(percentile) 百分位数是一种位置指标,用于描述一组观察值在某百分位置上的水平。第百分位数以 PX表示。 PX 是一个数,其意义是将某变量的观察值按从小到大的顺序排列,比PX 小的观察值的个数占x%,比 PX 大的观察值的个数占(100-x)%。 百分位数用于描述观察值序列在某百分位位置的水平,公式为:
48
中位数(median) 中位数简记为M,中位数是一个位置指标,用于描述一组资料的平均水平,其含义是将一组观察值按从小到大的顺序排列,位置居中的数就是中位数,中位数即第50百分位数。公式为: 应用条件为: ①分布呈明显偏态; ②分布的一端或两端无确定数值; ③分布不清等资料。
49
变异指标 极差(R) 四分位间距(Q) 标准差(S) 变异系数(CV) 标准误(SE)
50
极差(range)和四分位间距(quartile)
Q=P75-P25
51
标准差(standard deviation)
标准差每个观察值到均数的平均距离,总体标准差用希腊字母( )表示,样本标准差用( )表示。 1、应用条件:反映同质的一组观察值在数量 上的变异程度,样本所代表总体为正态分布。
52
2、计算方法: (1)直接法 当样本中观察值个数不多时,通常可用直接法,公式为: (2)加权法 当观察值个数较多时。通常可用加权法,公式为:
53
3、标准差应用 结合均数确定医学参考值范围。 结合均数计算变异系数。 计算标准误。
标准差的大小反应变异程度的大小,标准 差大 ,表示变异程度大,即观察值较分散,反之则表示变异程度小,较集中。 结合均数确定医学参考值范围。 结合均数计算变异系数。 计算标准误。
54
变异系数和标准误 当两组资料单位不同或均数相差较大时,变异大小不能直接用标准差进行比较,应计算标准差对均数的百分比,即变异系数(coefficient of variation, 简记为CV)。 公式为: 当观察值为统计量时,描述其变异程度的大小用标准误(standard error简记为SE)。
55
计量资料的统计推断 (总体均数的估计与假设检验) 均数的抽样误差与标准误 总体均数估计 假设检验
56
均数的抽样误差与标准误 抽样研究:由样本推断总体的过程。 抽样误差:由抽样引起的样本指标与总体指标的差异称为抽样误差。抽样误差是不可避免的,但只要样本是随机抽取的,就可以用统计方法来估计它的大小。
57
均数标准误:样本均数变异程度的大小,反映了均数的抽样误差的大小。我们以样本均数的标准差作为衡量均数抽样误差大小的尺度,即均数的标准误。
公式为:
58
均数标准误和标准差相同,都是说明变异程度大小的指标。不同的是标准差表示的是某变量个体观察值变异程度的大小,而标准误表示的是样本均数变异程度的大小。样本含量越小,抽样误差越大,即标准误越大;反之样本含量越大,抽样误差越小,即标准误越小。
59
根据研究设计类型选择分析方法
60
成组比较的设计 在成组比较设计中,若是两组比较需要应用t检验或X2检验。多组比较需应用方差分析、行×列表X2检验或分级的分析方法。
61
配对设计 把除处理因素外,其他条件基本相似的受试对象配成对子,每对中的两个随机分配到两个处理组。
在同一受试对象上进行两种不同的处理。上述 两种情况其目的是推断两种处理的效果有无差别。 在某项处理前后观察受试对象的某指标值,通过处理前后该指标值的差推断该处理是否有效。 这种类型的设计需要按照配比的t检验,X2检验及配对的病例对照研究方法进行数据分析。
62
重复测量的设计 这类设计方法是在给定一个处理因素后在不同的时间重复测量某一效应变量的改变情况。如欲评价生物制品接种后的免疫学效果,在接种后的2周、4周、6周和8周测定抗体滴度,即为此类设计类型。对于这种设计类型的数据需应用重复测量的方差分析方法进行数据的分析。
63
多因素设计 若在研究设计中有多个自变量,则可根据因变量的性质选择合适的多因素分析方法。如果自变量是数值变量,则可考虑应用多元回归分析方法、协方差分析方法。如果是分类变量,则可选择logistic回归分析方法、判别分析方法及聚类分析方法等。
64
根据变量的类型选择分析方法
65
区别与明确研究的因变量和自变量具有重要的流行病学与生物统计学意义,首先它有助于选择拟研究的变量,对调查表的设计具有指导作用。
其次数据分析阶段可以指导数据分析方法的选择及模型的建立。若因变量是分类变量,则常考虑应用分类变量的分析方法,如卡方检验,logistic回归分析等。如果因变量是数值变量,则考虑应用数值变量的分析方法如t检验、方差分析,协方差分析、多元回归等。同时明确自变量与因变量可以建立正确的统计学分析模型。
66
因变量应该放在模型的左侧,自变量则放在模型的右侧。
例如欲评价不同治疗方法(口服药物、注射胰岛素及膳食控制)对糖尿病人的治疗效果(血糖水平),在分析时要求调整病人的性别、年龄和病程的影响。对本例的处理需要进行协方差分析,在应用SAS进行分析时,要将血糖水平(因变量)放在模型的左则,而治疗方法或其它协变量(covariate)即性别、年龄和病程放在模型的右侧。又如分析脂蛋白(a)与冠心病发生的关系,则冠心病是否发生为因变量,脂蛋白(a)则为自变量,不可颠倒这种关系。
67
不同变量类型的数据分析方法选择 因变量 自变量 数值变量 分类变量 有序变量 相关分析,多元回归分析
t检验,方差分析,协方差分析,多元回归分析 t检验,方差分析,logistic回归分析,判别分析,聚类分析 c2检验,logistic回归分析 c2检验 方差分析,logistic回归分析,判别分析,聚类分析 相关分析,c2检验 生存时间 生存分析
68
不同研究设计和数据类型的数据分析方法选择
研究设计类型 变量类型 两组比较 两组以上比较 实验前后比较 重复测量 两变量间的联系 重复测量的方差分析 线性回归,Pearson相关系数 数值变量 t检验 方差分析 配对t检验 分类变量 c2检验 配对c2检验 列联表相关系数 有序变量 Mann-Whitney秩和检验 Kruskal-Wallis分析 Wilcoxon符号秩和检验 Spearman相关系数 生存时间 生存分析
69
数据的分析程序
72
数据的转换
73
1 )非正态数据的变量转换 多数的统计学分析方法是建立在数据正态分布的基础上的,若数据不符合正态分布,则不能够应用参数检验(parametric test)的方法,只能应用非参数检验(non-parametric test)的方法,而非参数的方法不是对原始数据的检验,如秩和检验就是非参数检验方法之一,它是对原始数据的秩次(rank)进行检验,这样可能损失数据信息,降低检验效率
74
在对数值变量进行分析时,需首先根据统计分析方法/统计分析公式的限制性使用条件对数据进行“条件”检验,如正态性检验和方差齐性检验等。很多统计学软件具有方便的正态性检验、方差齐性检验功能如SAS软件等 .若经过检验数据不符合使用条件,就需要进行数据的变量变换,变换后符合条件就可以应用参数检验的方法,否则,只有应用非参数检验的方法。 数据变量转换的方法很多,可以根据数据的分布特征,选择合适的数据转换方法。常用的方法有对数变换,平方根变换或倒数变换等。
75
2) 分类变量转换成哑变量 若分类变量是二分类尺度及顺序尺度,则可直接应用其原有的数量化数值,但对于名义尺度因为各类别间没有顺序关系,在进行不同分析(包括多元分析、logistic回归、Cox回归等)时,不能使用原始的计算机录入数值,必经进行变量转换。即将该变量转换成(水平数-1)个哑变量,再将这些新转换的变量放入多因素模型中。
76
t检验的应用条件 两组数据的比较 1样本量比较小(n<50); 2样本来自正态总体; 3两样本总体方差齐同;
77
u检验 两组数据的比较 1样本量足够大(n>50) 2样本来自正态总体 3两样本总体方差齐同
当两样本方差不齐时可以采用t’检验,变量变换,或者秩和检验。
78
方差分析的应用条件 两组以上数据的比较 1各样本是相互独立的随机样本; 2各样本要来自正态总体; 3要求各个样本的总体方差齐同。
79
多个样本均数间的两两比较 Newman-Keuls检验,亦称Student-Newman-Keuls(SNK)检验,简称q检验。
最小显著性差距(LSD)t检验。
80
协方差分析 定量分析中,进行两个样本或者多个样本的均数比较时,不仅需要使用假设检验判断其差异是否具有统计学差异,还应该考虑他们之间是否存在混杂因素(协变量)的影响。若存在协变量,则应该通过协方差分析进行校正。协方差分析是定量变量分析中控制混杂因素的重要手段
81
影响观察指标的其他非研究性因素(混杂因素)在统计分析中又称之为协变量;考虑协变量影响的方差分析即为协方差分析。协方差分析是解决以上问题的分析方法,它将线性回归与方差分析结合起来,检验2个或者多个修正均数之间有无差别的假设检验方法。一般是先用直线回归的方法找出各组因变量与协变量之间的数量关系,求得修假定协变量相等时的修正系数,然后用方差分析比较修正均数间的差别。
82
协方差分析的条件 1各个样本来自方差齐同的正态总体 2各组的总体直线回归系数相同,且都不为0。
83
协方差分析的判别步骤: 1正态性和方差齐性检验; 2判断协变量与因变量有无线性关系; 3判断各组回归直线是否平行。
84
直线回归与相关的区别与联系
85
区别 直线相关 直线回归 变量地位 变量 x 变量 y 处于平等的地位,彼此相关关系 变量 y 称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化 变量性质 所涉及的变量 x 和 y 都是随机变量,要求两个变量服从双变量正态分布 因变量 y 是随机变量,自变量 x 可以是随机变量,也可以是非随机的确定变量 实际作用 主要是描述两个变量之间线性关系的密切程度(相关系数无单位) 揭示变量 x 对变量 y 的影响大小(回归系数有单位),还可以由回归方程进行预测和控制
86
多元线性回归的基本概念 标准偏回归系数表示其他自变量固定的情况下,xi改变一个单位,y平均改变bi个单位。
87
多元线性回归的应用条件: 1. 独立性:各观察对象间相互独立。 2. 线性:自变量与应变量间的关系为线性。
1. 独立性:各观察对象间相互独立。 2. 线性:自变量与应变量间的关系为线性。 3. 正态性:自变量取不同值时,应变量的分布为正态。 4. 方差齐性:自变量取不同值时,应变量的总体方差相等。 5. 当不符合条件时,可对自变量进行变换。 如:
88
要比较各个自变量对于应变量的作用大小,不能用偏回归系数,因为各偏回归系数的单位不同。必须把偏回归系数标准化,化成没有单位的标准偏回归系数.
消除不同单位的影响后,标准偏回归系数的绝对值越大,该自变量对于应变量的作用越大,但该差别是否有统计意义,也必须经过检验。
89
1. 计算截距和各偏回归系数。 2. 多元回归方程的显著性检验: (1)整个方程的显著性检验:用方差分析。 (2) 对各偏回归系数的显著性检验: F检验与 t检验
90
逐步回归分析的基本概念 逐步回归分析的目的是建立“最优”回归方程。
“最优”回归方程是指包含所有对y有显著作用的自变量,而不包含对y作用不显著的自变量的方程。
91
逐步回归分析的计算方法 在供选的自变量Xi中,按其对y的作用大小,由大到小地把自变量逐个引入方程, 每引入一个自变量就对它作显著性检验,显著时才引入,而当新的自变量进入方程后, 对方程中原有的自变量也要作检验,并把作用最小且退化为不显著的自变量逐个剔出方程。因此,逐步回归的每一步(引入一个变量或剔除一个变量都称为一步)前后都要作显著性检验,以保证每次引入新变量前方程中只包含作用显著的自变量。这样一步步进行下去, 直至方程中所含自变量都显著而又没有新的作用显著的自变量可引入方程为止。
92
逐步回归分析在医学研究中的应用及需要注意的几个问题
1方程“最优”问题,实际是精选自变量以求得拟和效果最好的多元回归方程。最优子集回归是选择一种使回归方程拟和最好的自变量,而逐步回归则选择对因变量作用有意义的自变量。要根据研究目的选用适合方法。 2逐步回归主要在医学中用于病因探索,临床疗效分析及控制等。 3线性回归模型要注意正态性,方差齐性和独立性,因变量必须是随机变量等。 4入选变量如果明显地与实际问题的专业理论不一致时,首先检查数据是否有异常点,自变量间有无共线性存在,数据输入是否有误等,要结合专业知识作出合理的解释。 5逐步回归在对大量因素进行分析时,可以先进行聚类分析,然后进行逐步回归。通常,观察单位取变量值的5~10倍为宜。
93
Logistic回归分析的基本思想 自变量 x 因变量 y 数值型 与Y呈线性关系 连续型 服从正态分布 年龄 胆固醇含量 舒张压
回忆: 线性回归分析对因变量的要求 自变量 x 因变量 y 数值型 与Y呈线性关系 连续型 服从正态分布 年龄 胆固醇含量 舒张压
94
医学研究中经常遇到分类型变量,例如: 二分类变量: 生存与死亡 有病与无病 有效与无效 感染与未感染 多分类有序变量:
疾病程度(轻度、中度、重度) 治愈效果(治愈、显效、好转、无效) 多分类无序变量: 手术方法(A、B、C) 就诊医院(甲、乙、丙、丁)
95
这种回归分析问题不能借助于线性回归模型,因为因变量的假设条件遭到破坏。
能否找到一种其他形式的模型y=f(x)来描述分类变量y和x之间依存关系呢? 因为从数学角度看,使得x取任意值而y仅 取1和0两个值的的函数不存在。
96
不能直接分析 变量y与x的关系 转换为分析y取某个值的概率 变量p与x的关系 Logistic回归模型
97
Logistic回归分析的分类 按数据的类型: 按因变量取值个数: 按自变量个数: 非条件logistic回归分析(成组数据)
98
Logistic 回归分析的数学模型
99
其中,α和β是未知参数或待估计的回归系数。该模型描述了y取某个值(这里y=1)的概率p与自变量x之间的关系
1、一元logistic回归模型 令y是1,0变量,x是一个危险因 素;p=p(y=1|x) ,那么,二值 变量y关于变量 x的一元logistic 回归模型是: 其中,α和β是未知参数或待估计的回归系数。该模型描述了y取某个值(这里y=1)的概率p与自变量x之间的关系
100
多元logistic回归模型 令y是1,0变量,x1,x2,…,xk是k个危险因素; p=p(y=1|x1,x2,…,xk),那么,变量y关于变 量x1,x2,…,xk的k元logistic回归模型是: Logistic 回归模型的另外一种形式 它给出变量z=logit(p)关于x 的线性函数。
101
参数估计的步骤 1数据结构 设有P个危险因素X1,X2,……Xn及结果分析变量Y,观察例数为n。进行logistic回归时,应将原始资料进行整理,一般格式如下 编号 因素 Y X1 X2 …… XP 1 X11 X12 XP1 Y1 2 X21 X22 XP2 Y2 n Xn1 Xn2 Xn3 XnP Yn
102
2 参数的估计 Logsitc回归的参数估计常用最大似然估计法。其基本思想是先建立似然函数和对数似然函数,求似然函数或对数似然函数达到极大值时参数的取值,即为参数的最大似然估计值。可求出αβ值。
103
3 假设检验 求得各个参数的估计值之后,并不意味着每个因素都与因变量有联系,模型中应只保留对因变量有影响 因素,因此要求对方程中的各变量逐一进行检验,剔除对因变量无影响的因素,并对拟和的模型进行检验。 即使用似然比检验法,通过逐步回归筛选自变量,最后得到具有统计学意义的logistic回归方程。该过程很复杂,由计算机完成。
104
条件logistic回归分析 医学中经常需要作配对病例-对照研究。所谓的配对病例-对照研究指的是在病例-对照研究中,对每一个病例配以性别、年龄或其它条件相似的一个(1:1)或几个(1:M)对照,然后分析比较病例组与对照组以往暴露于致病因素的经历。 分析配对病例-对照研究资料的统计分析方法一般采用条件logistic回归分析。 条件logistic回归分析的数学模型以及分析原理方法均和 非条件logistic回归分析类似。因为参数的估计公式涉及到条件概率理论,所以称为条件logistic回归分析。
105
Logistic回归分析和线性回归分析的异同点是什么?
相同点: 都可以校正混杂因子的影响; 都可以利用模型来筛选危险因子; 都可以用来做预测。 不同点: 前者对因变量无分布要求,后者要求因变量是正态分布变量; 前者要求因变量必须是分类型变量,后者要求因变量必须是连续型数值变量。 前者不要求自变量和因变量呈线性关系,后者要求自变量和因变量呈线性关系; 前者是分析因变量取某个值的概率与自变量的关系,后者是直接分析因变量与自变量的关系。
106
谢 谢
Similar presentations