医学研究的统计学设计 宇传华 yuchua@163.com http://Statdtedm.6to23.com
内容提要 一、研究设计的重要性 二、研究设计的基本类型 三、研究设计的基本要素 四、实验设计的基本原则
一、研究设计的重要性 设计不好:(1)杂乱无章、虽多犹无 专业设计:选题、查阅文献、假说、预试验 统计设计:研究对象(分组、设置对照、样本含量)、处理因素、观察指标、数据的质量控制与管理、统计分析方法 设计好: (1)既省又可靠 (2)可估计和控制误差 (3)获取多方面知识 设计不好:(1)杂乱无章、虽多犹无 (2)只能罗列现象、无规律可言
二、研究设计的基本类型 2.实验(Experiment)研究 (干预) (第27-28章) 1.调查(Survey)研究 (无干预) (第26章) 被动地观察、如实记录 2.实验(Experiment)研究 (干预) (第27-28章) 受试对象:人——临床试验(clinical trial) 动物——动物实验( animal experiment ) 临床试验:治疗——临床疗效实验 预防——社区干预实验(community intervention trial)
两种研究类型的区别与联系
三、研究设计的基本要素 (一)处理因素( treatment factor ) (二)受试对象( subject ) (三)实验效应( experimental effect ) 其他因素 其他效应 处理因素 受试对象 实验效应 降压药 高血压病人 血压值
(一)处理因素( treatment factor ) 例:药剂、手术方法、毒物 确定处理因素的注意事项: (1)抓住实验中的主要因素 (2)明确处理因素和非处理因素 病人对治疗的反应除了治疗因素外,还包括病人的心理状态、生产、生活条件及社会心理因素等。后者可称为非处理因素。 (3)处理因素须标准化 处理因素在整个试验过程中保持不变 例如,不同时期的药物批号,手术操作者熟练程度。
(二)受试对象( subject ) 例:人、动物 1. 受试对象的选入标准 明确规定受试对象选入标准(eligibility criteria):纳入标准(inclusion criteria)、排除标准(exclusion criteria) 2. 受试对象的控制 (1)受试对象的一致性 人——年龄、性别、病情、病程等 动物——种系、年龄、性别、体重等 (2)受试对象影响因素的控制 季节、温度、湿度、生活环境、嗜好、 试验辅助措施等。
(三)实验效应(experimental effect) 处理因素作用于受试对象的结果,通过观察指标表达。观察指标应客观、精确。 1. 客观性:主观指标和客观指标。 2. 精确性: 准确度(accuracy)或真实性(validity)——观察值与真实值的接近程度,受系统误差的影响。 常用指标:灵敏度、特异度 精密度(precision)或可靠性(reliabiliy)或重复性(repeatability)——重复观察时观察值与其均值的接近程度,受随机误差的影响。 常用指标:Kappa值、一致百分率
准确度与精密度
四、实验设计的基本原则 (一)随机化原则(randomization) (二)对照原则 (control) (三)重复原则 (replication)
1.随机化的意义 (一)随机化原则 随机分组:每个受试对象以机会均等的原则被随机地分配到各个处理组中。 随机抽样:总体中每一个观察单位以机会均等的可能性被抽取。 1.随机化的意义 (1)随机分组使两组样本在非处理因素方面尽可能一致,使处理因素产生的效应更加客观; (2)随机抽样使抽取的样本具有代表(总体)性,减少误差; (3)抽样研究理论和统计分析方法的需要。
随机与随意 随机:random 机会均等, 客观性 随意:as will 随主观意愿,主观性 随机化分组,不仅能控制已知的混杂因素(非研究因素),而且还能控制未知的混杂因素。
随机的三个含义 分组随机-均衡性 每个研究对象有同等机会被分配到各处理组 抽样随机-代表性 总体中每个观察个体有同等机会被抽取 实验顺序随机-平衡顺序或季节的影响 每个研究对象先后接受处理的机会相同。
2.随机化的方法 (5)计算器(计算机)产生随机数 (2) 掷骰子法 6面 1~6 点 (3) 抽签法 (捻阄) (1) 抛硬币法 “徽”与“字” (2) 掷骰子法 6面 1~6 点 (3) 抽签法 (捻阄) (4)随机数字表法(随机数字法) (5)计算器(计算机)产生随机数
几种不同设计类型的随机化分组: (1)完全随机实验设计 (2)配对实验设计 (3)随机区组实验设计 (4)交叉设计
完全随机实验设计 (completely random experiment design) 将观察单位完全随机地分配到实验组与对照组或几个对比组中去。 【例1】设有同性别的动物12头,要求用随机方法将其分为甲、乙两组。
方法 (1)编号:按动物体重依次编号为1,2,3,…,12号。 (2)产生随机数字:对于每一个编号,依次由计算器(计算机)产生随机数(共12次)。 (3)归组:事先规定将较小随机数的6只动物分入甲组,其他6只动物分入乙组。
%Let n=12; /*sample sizes*/ Do i =1 to &n; If I<=&n/2 then group=1; SAS 程序 Data a; %Let n=12; /*sample sizes*/ Do i =1 to &n; If I<=&n/2 then group=1; Else group=2; Output; End; Proc plan Seed=1234567898; Factors i=&n; Output data=a out=b; Proc sort data=b; By group; Proc print data=b; Run;
SAS 输出结果 The PLAN Procedure Factor Select Levels Order i 12 12 Random 1 8 4 7 3 5 9 11 10 12 2 6 Obs i group 1 1 1 2 8 1 3 4 1 4 7 1 5 3 1 6 5 1 7 9 2 8 11 2 9 10 2 10 12 2 11 2 2 12 6 2
【例2】 将【例1】中的12头动物用随机方法分配到甲、乙、丙三组中去。
(3)归组:事先规定将较小随机数的4只动物分入甲组,将较大随机数的4只动物分入丙组,其他4只动物分入乙组。 方法 (1)编号:按动物体重依次编号为1,2,3,…,12号。 (2)产生随机数字:对于每一个编号,依次由计算器(计算机)产生随机数(共12次)。 以上两点与分成两组完全相同。 (3)归组:事先规定将较小随机数的4只动物分入甲组,将较大随机数的4只动物分入丙组,其他4只动物分入乙组。
%Let n=12; /*sample sizes*/ Do i =1 to &n; If I<=&n/3 then group=1; SAS 程序 Data a; %Let n=12; /*sample sizes*/ Do i =1 to &n; If I<=&n/3 then group=1; Else if &n/3<I<=2*&n/3 then group=2; Else group=3; Output; End; Proc plan Seed=1234567898; Factors i=&n; Output data=a out=b; Proc sort data=b; By group; Proc print data=b; Run;
SAS 输出结果 The PLAN Procedure Factor Select Levels Order i 12 12 Random -----------------i----------------- 1 8 4 7 3 5 9 11 10 12 2 6 Obs i group 1 1 1 2 8 1 3 4 1 4 7 1 5 3 2 6 5 2 7 9 2 8 11 2 9 10 3 10 12 3 11 2 3 12 6 3
配对实验设计 ( paired experiment design) 配对实验设计的两种情况: 1.同源配对:同一受试对象用两种不同的实验方法;受试对象自身实验前后的对比 。 2.非同源配对:将具有相同条件的实验对象配成对子。
方法 【例3】将已按近似条件配好的10对小白鼠,用随机方法分配到实验组和对照组。 非同源配对随机化分组 【例3】将已按近似条件配好的10对小白鼠,用随机方法分配到实验组和对照组。 方法 (1)编号:对小白鼠进行对子编号,同时每个对子内的二只小白鼠也分别编号。 (2)产生随机数字:对于每一组合编号,依次由计算器(计算机)产生随机数(共20个)。 (3)归组(对子内两只小白鼠的随机) :事先规定每个对子内随机数字较小者分配到对照组;随机数字较大者分配到实验组。
SAS 程序 Proc plan Seed= 8546793122; Factors pair=10 ordered treat=2 random; Output out=b; Run;
Factor Select Levels Order pair 10 10 Ordered treat 2 2 Random SAS 输出结果 The PLAN Procedure Factor Select Levels Order pair 10 10 Ordered treat 2 2 Random pair -treat- 1 1 2 2 1 2 3 2 1 4 1 2 5 2 1 6 1 2 7 2 1 8 2 1 9 1 2 10 1 2 对照组 实验组
随机区组实验设计 (randomized block experiment design) (2)每个区组的受试对象个数 取决于 对比组组数。 (3) 每个区组的受试对象被随机地分配到各对比组中。 配对设计的扩展,故又称配伍组设计
方法 【例4】将【例1】中的12头动物设计分为三个区组,进行四种处理的比较。 (1)编号:对12头动物进行区组编号,同时每个区组内的四头动物也分别编号。 (2)产生随机数字:对于每一组合编号,依次由计算器(计算机)产生随机数(共12个)。 (3)归组(区组内四头动物的随机) :事先规定每一个区组内随机数字由小到大对应动物分别分配到甲、乙、丙、丁处理组。
Factors block=3 ordered treat=4 random; Output out=b; Run; SAS 程序 Proc plan Seed= 8546793122; Factors block=3 ordered treat=4 random; Output out=b; Run;
SAS 输出结果 The PLAN Procedure Factor Select Levels Order block 3 3 Ordered treat 4 4 Random block -treat- 1 1 2 3 4 2 4 1 3 2 3 3 1 2 4 甲处理组 乙处理组 丙处理组 丁处理组
交叉设计 (cross-over experiment design) 每个受试者随机地在两个或多个不同试验阶段分别接受指定的处理(试验药或对照药)。 同源配对设计的扩展 优点:(1)控制个体间的差异,(2)减少受试者人数。
交叉设计 (cross-over experiment design) 1组 2组 随机化分组
交叉设计 (cross-over experiment design) 2组 1组
【例5】某研究者拟采用交叉设计观察A、B两种药物治疗18例高血压病患者的疗效。 1. 随机数字法 (1)编号:将受试者分别编号为1、2、3、4、…、17、18号。 (2)产生随机数字:由计算器(计算机)产生18个随机数。 (3)归组:随机数字较小的一半患者先用A药后用B药;较大的一半患者先用B药后用A药。
%Let n=18; /*sample sizes*/ Do i =1 to &n; If I<=&n/2 then group=1; SAS 程序 Data a; %Let n=18; /*sample sizes*/ Do i =1 to &n; If I<=&n/2 then group=1; Else group=2; Output; End; Proc plan Seed=1234567898; Factors i=&n; Output data=a out=b; Proc sort data=b; By group; Proc print data=b; Run;
Factor Select Levels Order i 18 18 Random SAS 输出结果 The PLAN Procedure Factor Select Levels Order i 18 18 Random --------------------------i-------------------------- 1 11 5 9 4 3 12 14 2 16 8 15 10 17 7 6 13 18 Obs i group 1 1 1 2 11 1 3 5 1 4 9 1 5 4 1 6 3 1 7 12 1 8 14 1 9 2 1 10 16 2 11 8 2 12 15 2 13 10 2 14 17 2 15 7 2 16 6 2 17 13 2 18 18 2
1. 对照的意义 : (二)对照原则 处理因素 非处理因素 + 处理效应 非处理效应 非处理因素 非处理效应 处理因素 处理效应 1. 对照的意义 : ①区分处理因素与非处理因素的效应,是比较的必要基础 药物治疗 例: 老年性慢性支气管炎 气候转暖,自然缓解 ②消除和减少实验误差 处理组: 处理因素 非处理因素 + 处理效应 非处理效应 对照组: 非处理因素 非处理效应 比较结果 处理因素 处理效应
2. 对照的形式 特点: 简单易行,但容易引起心理差异,从而影响实验效应的测定。 —— 安慰剂对照(placebo control) 2. 对照的形式 包括:空白对照、实验对照、标准对照、自身对照、相互对照 、历史对照 (1)空白对照(blank control):对照组不加任何处理因素。 例如:①实验组儿童接种疫苗,对照组儿童不接种疫苗。 ②试剂空白、血样空白、无酶解空白、底物空白等。 特点: 简单易行,但容易引起心理差异,从而影响实验效应的测定。 —— 安慰剂对照(placebo control)
中草药+烟薰剂 与 单纯烟薰剂——-空气灭菌 2. 对照的形式 (2)实验对照(experimental control):施加基础实验条件(非处理因素,如面包、烟薰剂)。 含赖氨酸面包+非处理因素→赖氨酸效应 + 面包效应+非处理因素效应 面包+非处理因素→ 面包效应+非处理因素效应 赖氨酸 赖氨酸效应 中草药+烟薰剂 与 单纯烟薰剂——-空气灭菌
2. 对照的形式 (3) 标准对照(standard control):以现有的标准或正常值作对照。 ——实验室应用较多 2. 对照的形式 (3) 标准对照(standard control):以现有的标准或正常值作对照。 例①新方法 与 传统方法 ②患者生理、生化指标 与 正常人生理、生化指标 ——实验室应用较多
2. 对照的形式 特点: (同源配对设计、交叉设计) 简单易行,使用广泛。 假定试验前后某些环境或自身因素保持不变。 2. 对照的形式 (4) 自身对照(self-control):实验在同一受试对象上进行 (同源配对设计、交叉设计) 特点: 简单易行,使用广泛。 假定试验前后某些环境或自身因素保持不变。
2. 对照的形式 (5) 相互对照(inter-control) :几个实验组互相作为对照 例如:比较几种药物治疗同一疾病的疗效
2. 对照的形式 (3) 历史对照:以过去的研究结果作对照。 与本人或他人过去的研究结果作比较 —— 不好!!!!!!
3. 设立对照应注意的事项 (1)均衡 (2)同步 对照组与实验组 除研究因素外,其他因素应尽可能相同 对照组与实验组 除研究因素外,其他因素应尽可能相同 (2)同步 对照组与实验组 应处于同一空间和同一时间
4. 设立对照存在的问题 (1)缺乏对照 (2)缺乏适当的对照: 历史对照 (时间不同步)和 中外对照 (空间不同步) (3) 对照不全 (2)缺乏适当的对照: 历史对照 (时间不同步)和 中外对照 (空间不同步) (3) 对照不全 (4) 对照多余
(三)重复的原则 重复(replication)是指各处理组与对照组要有一定样本含量(sample sizes)。 无限地增加样本含量,将加大实验规模,延长实验时间,浪费人力物力,反而增加系统误差出现的可能性。 样本含量不足,检验效能(Power,1-β)偏低,总体参数之间原本有差异也无法检验出来。
影响样本含量大小的因素: 资料的性质:计量—少,计数—多 2. 误差的大小:小—少,大—多 3. 均衡性的好坏 :好—少,坏—多 3. 均衡性的好坏 :好—少,坏—多 4. 实验效应的强弱:强—少,弱—多 5. 干扰因素的多少:少—少,多—多 样本含量的估计时,以上很多因素无法定量,所以通常是由犯I类错误的概率α、 检验出实际差异的把握度1-β、个体值间的离散程度s、以及容许误差d来确定样本含量。
五、抽样方法 常用的抽样方法 1. 单纯随机抽样 2. 系统抽样 3. 分层抽样 4. 整群抽样
1. 单纯随机抽样 (simple random sampling) 先将总体的全部观察对象编号,再利用抽签或随机数字表的方法随机抽取观察对象组成样本。最基本的抽样方法 其他抽样方法的基础 优点:计算误差比较简便; 缺点:对象较多时,甚为复杂。
例,调查某中学学生的血红蛋白含量,在全体500名学生中,随机抽取10%,即抽取50人。 抽样步骤: (1)先将全校学生按点名册编号,即编号为1、 2、…、499、500; (2)对每个编号产生一个随机数字(共500个随机数) (3)事先规定随机数较大(小)的50人组成样本。
2. 系统抽样 ( systematic sampling ) 按照一定的顺序,机械地每隔若干个单位抽取一个单位的方法。 又称间隔抽样,机械抽样 如按门牌号,每个10个号抽取用户,。。。 优点:节省抽样时间和费用。 缺点:在某些特殊情况下存在偏性。
例:欲从15000名儿童中,抽取750名组成样本。 (1)求抽样间隔 15000÷750=20/1,即每间隔20人抽取1个人; (2)抽样 编号,确定在1~20号之间从何编号开始。然后每加 上20抽取1名儿童。 例如起始数字为8,则第8,28,48,68,……号儿童即构成所抽取的样本。
3.分层抽样( stratified sampling ) 先按某种特征将总体分为若干组别、类型或区域等(统称为“层”),再用随机抽样的方法从每个子总体中抽取样本。要求“层内齐同,层间不同”。 比例分层法 ,最优分层法 优点:抽样误差小,不同层可采用不同抽样方法,各层可独立进行分析,各层间可进行比较分析。 缺点:分层较多时,调查和分析较麻烦。
4.整群抽样 ( cluster sampling ) 按群体而不是按个体抽取观察单位的抽样方法。 优点:在大规模调查中,易于组织,节省人力物力。 缺点:抽样误差大。 各种抽样方法的抽样误差顺序: 分层≤系统≤单纯≤整群
六、系统误差与控制方法 误差( error ):实测值与真值之差。 随机误差:抽样误差 不恒定、随机、变化 非系统误差:过失误差 非随机误差 系统误差:方向性
(一)系统误差定义 系统误差(systematic error) 在一定实验条件下,由某种未发现或未确定的因素所引起观测值具有方向性和系统性的误差,又称偏倚(bias)。
(二)产生系统误差的常见原因 (三)系统误差类型及其控制 类 型 发生阶段 控 制 仪器差异 ,方法差异 ,试剂差异 ,条件差异 ,顺序差异 ,人为差异 (三)系统误差类型及其控制 类 型 发生阶段 控 制 选择偏倚 设 计 随机化 测量偏倚 实 施 盲 法 混杂偏倚 分 析 配对、分层
七、盲法及其作用 (一)盲法的定义和分类 定义:研究中使一方或多方不知道受试者治 疗分配的方法。 分类:1.单盲( simple blind )—受试者不知 道己接受何种措施; 2. 双盲( double blind )—受试者和观 察者均不知道受试者接受何种措施。
(二)盲法的作用及注意事项 作用:消除非处理因素引起的误差 。 注意事项: 1.双盲法的实施较为复杂,要有一套严格的 管理和监督措施。 2.对于危急和重症病人不能采用盲法。
总 结 一、研究设计的重要性 二、研究设计的基本类型: 实验设计,调查设计 三、研究设计的基本要素—三要素 处理因素,受试对象,试验效应 四、实验设计的基本原则—三原则 随机化原则,对照原则,重复原则
(1)完全随机实验设计 随机化原则 对照原则:1.空白对照 2. 实验对照 重复原则 (2)配对实验设计 编号, (3)随机区组实验设计 (4)交叉设计 编号, 取随机数字,归组 对照原则:1.空白对照 2. 实验对照 3. 标准对照 4. 相互对照 5.自身对照 重复原则
五、抽样总体与抽样方法 六、系统误差与控制方法 七、盲法及其作用 定义,分类,作用,注意事项 常用的抽样方法 1.单纯随机抽样 2.系统抽样 (间隔抽样,机械抽样) 3.分层抽样 4.整群抽样 六、系统误差与控制方法 定义,原因,控制 七、盲法及其作用 定义,分类,作用,注意事项
作业: 有12只小白鼠,请按随机化方法将其: 1.分为A、B二个组进行实验; 2.分为A、B、C三个组进行实验; 3.设计分为3个区组,进行四种处理比较。