SPSS 12.0软件的使用 之二 南昌大学公共卫生学院 郑辉烈
随机抽样及随机分组的实现
PartⅠ 随机抽样的实现
抽样的类型 非概率抽样 概率抽样 主要依据研究者的主观意愿、判断或是否方便等因素抽取样本;误差大,难以估计,代表性小,适合探索性研究; 主要方法有偶遇抽样、判断抽样、定额抽样、雪球抽样 依据概率论的基本原理,按照随机原则进行抽样; 主要的方法有:简单随机抽样、系统抽样、分层抽样、整群抽样、多段抽样
两种类型抽样方法的区别 抽样方法 作用 抽样原则 误差判断 应用 优缺点 非概率抽样 概率抽样 研究总体的局部现象 非随机抽出样本,主观性强 不能计算和判断抽样误差 可随时随地采用 不够科学规范,但省钱、省事、灵活方便 概率抽样 以部分推断总体 随机抽出样本,客观性强 能计算和判断抽样误差 只能定期采用 科学规范,但费时、费钱、不够灵活方便
非概率抽样的适用范围 当对调查的总体不够清楚,或者太复杂,不适于采取随机抽样时,那么,就需要用非概率或非随机抽样来抽出样本; 适用于经常性的调查和方便灵活的调查。
Part1.1 非概率抽样
非随机抽样—偶遇抽样 偶遇抽样: 也称为方便抽样或自然抽样,指研究者根据现实情况,以自己方便的形式抽取偶然遇到的人作为对象,或者仅仅选择那些离得最近、最容易找到的人作为对象。或者说研究可以得到的一组个体.
非随机抽样—偶遇抽样 适用范围: 可用于经常性的调查研究; 可用于正式调查之前的试验调查。
非随机抽样—偶遇抽样 优点: 缺点: 方便、灵活,简便易行,及时取得所需资料,节约时间和费用成本低 因为个体差异性,抽样误差很大,结果不够可靠,应用价值较低
非随机抽样—判断抽样 判断抽样: 又称立意抽样法,它是指由抽样调查的专家依据自己的判断来选取样本的一种方法。研究者根据研究目标和自己的主观分析来选择和确定他们认为可以提供所需要信息的人作为样本。
非随机抽样—判断抽样 适用范围: 优点: 缺点: 总体的构成单位差异较大而样本数又很小的情况 因为是按照调查人员的需要来选定样本,所以较好地满足了特殊的调查需要。 缺点: 如果调查人员在选取样本时主观判断出现偏差,则判断抽样极易发生较大的抽样误差。
非随机抽样—判断抽样 判断抽样应注意的几点: 利用调查总体的全面统计资料,按照一定的标准选择样本. 选好专家 极力避免挑选极端情况的样本 两种具体做法 专家判断选择样本 统计判断选择样本
非随机抽样—配额抽样 配额抽样: 指按照一定的标准确定地区别和职业等不同群体的样本配额,然后由调查人员主观地抽取配额内样本的方法。该方法要求研究者根据可能影响研究变量的因素对总体分层,并计算出比例,然后取挑选对象。抽样标准是适合性,不是代表性。
非随机抽样—配额抽样 适用范围: 步骤 通常适用于小型的调查研究 选择“控制特征”作为细分总体的标准; 将总体按“控制特征”组成 若干子总体; 决定各子总体样本的大小; 选择样本单位。
配额抽样与判断抽样 联系: 区别: 配额抽样实质是一种“分层”判断抽样。 抽取样本的方式不同 侧重点不同 复杂程度不同 配额抽样是分别从各个控制特征的层次抽取若干个样本 判断抽样是从总体中的某一层次中抽取若干个符合条件的典型样本 侧重点不同 配额注重“量”的分配 判断抽样注重“质”的分配 复杂程度不同 配额抽样方法复杂精密 判断抽样方法简便易行
非随机抽样—雪球抽样 雪球抽样: 在无法了解总体情况时,从少数成员入手调查并询问其他符合条件的人,再找这些人所知道的人。
Part1.2 概率抽样—随机抽样
随机抽样的程序 界定总体 制定抽样框 范围与界限 收集总体中全部抽样单位的名单,并对名单统一编号、分段、分层抽样时则要分别建立起几个不同的抽样框。 制定抽样框 决定抽样方案 确定抽样方法、样本规模、主要目标量的精确程度 实际抽取样本 按照选定方法从抽样框中抽取一个个抽样单位,构成样本 评估样本质量 可将得到的反映总体中某些重要特征及其分布的资料与其它 样本中的同类指标进行对比。
随机抽样—简单随机抽样 单纯随机抽样: 按照等概率原则直接从含有N个元素的总体中随机抽取n个元素组成样本(N>n)。 优点: 可能产生代表性样本 缺点: 编号较困难
简单随机抽样的步骤 将总体中的每一个体按某种可资利用的特征进行编号(1至N号),形成抽样框。 利用抽签法、随机数字表、计算机产生伪随机数字等方法抽选。 *利用计算机产生伪随机数字抽选样本时,一般选择产生服从均匀分布的随机数字,然后对产生的N个随机数字排序来确定抽样框中被抽中的编号!(可以选择1至N个编号中排在前n个位置的编号为抽中的编号)
简单随机抽样的SPSS实现 例1:为了解某年某社区60岁以上老年人的高血压患病率,准备采用简单随机抽样从该社区约10000名60岁以上老年人中抽取10%进行抽样调查。
Step 1:编号
Step 2:产生随机数字
Step 3:排序
Step 4:编秩次
Step 5:确定入选编号
简单随机抽样结果
简单随机抽样的SPSS程序
随机抽样—系统抽样 系统随机抽样: 等距抽样或机械抽样,将总体的单位编号排序后,按照固定的间隔抽取个体组成样本的方法. 优点: 简便易行 缺点: 要求抽样框中的个体为随机排列,无等级或周期性变 化趋势。 对估计量方差的估计比较困难。
系统随机抽样的步骤 制定抽样框。 计算抽样间隔:K=N/n。 利用产生的伪随机数在第一组K个个体中随机抽取一个个体。
系统随机抽样的SPSS实现 例2:为了解某村庄家庭年人均收入情况,拟利用村庄中每户的门牌号码信息采用系统抽样抽取10%的家庭作随机抽样调查,假设该村庄有150户居民。
Step 1:编号
Step 2:计算抽样间隔
Step 3:产生随机数字 (根据产生的随机数字,在1至15号之间随机确定一个初始抽样编号)
Step 4:排序和编秩次
Step 5:确定初始抽样编号
Step 6:确定其它抽样编号
系统随机抽样的SPSS程序
随机抽样—分层抽样 分层随机抽样: 将总体中的所有单位按照某种特征或标志划分为若干类型或层次,在每个类型或层次中采用简单随机抽样或系统抽样的方法抽取一个子样本,共同构成研究的样本. 优点: 在不增加样本规模的前提下降低抽样误差,提高抽样 精度,增大代表性。 便于了解总体内不同层次的情况,以及对总体中的不 同层次进行单独研究或者进行比较。
分层随机抽样的步骤 每一层单独实施简单随机抽样或系统抽样,具体步骤与简单随机抽样或系统抽样相同!
随机抽样—整群抽样 整群随机抽样: 从总体中随机抽取一些小群体,将小群体的所有元素构成样本.对小群体的抽取可采用简单随机抽样、系统抽样、分层抽样的方法。 优点: 简化抽样过程 降低费用 扩大抽样范围 缺点: 代表性欠佳,抽样误差较大。
整群随机抽样的步骤 将调查对象以群为单位进行编号,形成抽样框,对抽样框中的群实施简单随机抽样或系统抽样或分层随机抽样,具体步骤如前述!
分层随机抽样练习 为了解南昌大学在校博士研究生、硕士研究生及本科生近视眼的患病率,假定博士研究生有三个年级10个班级共400人,硕士研究生有三个年级100个班级共4000人,本科生有五个年级1000个班级共60000人,并且已知每个在校学生的年级、班级、学号等信息,请利用SPSS软件设计一分层随机抽样方案,要求抽样比例为20%,博士研究生采用完全随机抽样,硕士研究生采用系统随机抽样,本科生采用整群随机抽样。
随机抽样—多阶段抽样 多阶段随机抽样: 也称为多级抽样或分段抽样,按照抽样元素的隶属关系或层次关系,把抽样过程分为几个阶段进行。 优点: 具有整群抽样的优点。 不需要包含所有低阶段抽样单元的抽样。 使调查单元在更大的范围内展开,非常适合大规模的 抽样调查。
多阶段随机抽样的步骤 以大群为单位编制抽样框 抽取若干大群 以小群为单位给每个大群编制抽样框 分别从每个大群中抽取小群 根据需要重复3、4步骤 得到基本元素,构成研究样本
多阶段随机抽样练习 为了解南昌大学在校本科生近视眼的患病率,假定本科生有五个年级1000个班级共60000人,并且已知每个在校学生的年级、班级、学号等信息,请利用SPSS软件设计一个三阶段(年级、班级、学生)随机抽样方案,要求每一阶段抽样比例为20%,最后一阶段采用完全随机抽样。
PartⅡ 随机分组的实现
Part2.1 实验设计的原则
实验设计三原则 随机:保证受试者情况在各组间的均衡性。 对照:去除随机变异和其他非研究因素的影 响,凸显研究因素的效果。 重复:充足的样本量,保证能检出的确存在 的差异。
对照的原则 设立对照的目的: 没有比较就没有鉴别,对照是比较的基础,说明假设是否正确。 控制实验过程中非研究因素的影响和偏倚:个体差异和影响因素不同
对照的原则 常用的对照: 空白对照:对照组不给任何药物或处理,易导致心理差异。 安慰剂对照:对照组给安慰剂。 其他有效药物对照:对照组给原有的有效药物或疗法 自身前后对照:时间问题; 其它:历史对照、文献对照。
随机化的原则 Fisher在1935年首先提出随机化概念并应用在农业实验中。 随机化是指总体(符合根据假设规定的入选标的研究对象)每一个观察单位都有同等的机会被选入样本中来,并有同等的机会进行分组。
随机化的原则 随机化的目的: 通过随机,均衡干扰因素的影响,使试验组和对照组具有可比性,避免主观安排带来的偏性; 随机化是统计分析的基础
随机化的原则 真正的随机化分组的判断标准 随机不等于随便!真正的随机化分组应满足下列两点: 研究者和研究对象不能事先知道或决定研究对象将分配到哪一组接受试验; 研究者和研究对象都不能从一个研究对象已经进入的组别推测出下一个研究者将分配到哪一组。 *在实际的随机化分组过程中,第一点必须满足,当要求每组例数达到 确定的比例时(如每组例数相等)则无法满足!
随机化分组方法 随机分组方法包括: 简单随机化(simple randomization) 区组随机化(block randomization) 分段(或分层)随机化(stratified randomization) 分层区组随机化(stratified block randomization ) 动态随机化( dynamic randomization)
简单随机化 简单随机化分组又称为完全随机化分组,是对研究对象直接进行随机分组,常通过掷硬币或随机数字表,或用计算机产生随机数来进行随机化,在事先或者实施过程中不作任何限制和干预或调整。
简单随机化分组操作步骤 操作步骤: 编号:将N个实验单位从1到N编号。 获取随机数字:利用SPSS软件为N个编号获取N个服从均均分布的随机数字。 排序:对随机数字进行排序。 入组:将按随机数字的大小顺序排序后的N 个编号,按排序的序号从小到大均分成k个子集,每个子集中的编号纳入同一个组。
简单随机化分组的SPSS实现 例3:将18只小白鼠随机分为三组,分别接受A药、B药和C药处理,要求每组例数相等。请用SPSS软件给出分组方案。
Step 1:编号 可按某种容易识别的特征(如体重大小)对小白鼠编号(从1至18)。
Step 2:产生随机数字
Step 3: 排序
Step 4:入组
简单随机化分组的SPSS程序
区组(分段)随机化 区组随机化分组也叫均衡随机化或限制性随机化,即将随机加以约束,使各处理组的分配更加平衡,满足研究要求。在一个区间内包含一个预定的处理分组数目和比例。 区组(block)是对受试对象进行划分,即由若干特征相似的试验对象组成,如同一窝的动物、批号相同的试剂、体重相近的受试者等。 区组的长度(block length)是指一个区组包含多少个接受不同处理的受试单元,即区组中对象的数目。区组的长度不宜太小,太小则形成不随机,一般区组的长度至少要求为组数的2倍以上。 临床试验中常以病人的入院时间作为划分区组的配伍因素。
区组随机化分组操作步骤 操作步骤: 分区组编号:将预先确定的每个区组内的M个实验单位从1至M编号。 分区组获取随机数字:利用SPSS软件为M个编号获取M个服从均均分布的随机数字。 分区组排序:对随机数字进行排序。 分区组入组:将每一区组内排序的序号从小到大均分成k个子集,每个子集中序号对应的编号(受试对象)纳入同一个组。
区组(分段)随机化分组的SPSS实现 例4:某药厂欲纳入36例患者采用双盲随机对照试验初步评价某种新药的疗效,请利用SPSS软件设计出按病人入院顺序区组(分段)随机化分组方案,要求分为两组,每组例数相等。
Step 1:编号 按病人入院顺序编号1至36,并将40例按入院顺序分为3段,每段12例。
Step 2:产生随机数字
Step 3: 分段排序
Step 4:入组
区组(分段)随机化分组的SPSS程序
分层随机化 分层(stratifying)往往是将总体按某(些)特征分割为次级总体。分层随机分组化法是指先根据研究对象进入试验时某些重要的临床特征或危险因素分层(如年龄、性别、病情、疾病分期等),然后在每一层内进行随机分组,最后分别合并为试验组(处理组)和对照组。 *区组随机化与分层随机化分组的区别和联系:区组往往是将具有同质性的观察单位按其它可能会导致组间不可比的因素来划分 (如按观察单位的入组时间顺序划分区组);层往往是将受试对象按影响其同质性的因素来划分;但两者有时区别不明显, 且划分区组或划分层后, 层或区组内的随机化分组方法基本相同!
分层随机化分组操作步骤 操作步骤: 分层编号:将每一层内需要纳入的n个实验单位从1至n编号。 分层获取随机数字:利用SPSS软件为n个编号获取n个服从均均分布的随机数字。 分层排序:对随机数字进行排序。 分层入组:将按随机数字的大小顺序排序后的n 个编号,按排序的序号从小到大均分成k个子集,每个子集中对应的编号纳入同一个组。
分层随机化分组的SPSS实现 分层随机化分组方案的设计需要给每一个层单独设计分组方案,每一层内可以采用简单化分组方案,也可采用区组化分组方案! 具体分组方案的设计参照前述内容!
分层随机化分组练习 某药厂欲采用多中心双盲随机对照试验验证某新药的疗效,研究方案确定选择4所三甲医院共纳入240例患者进行试验,试利用SPSS软件设计一分层随机化分组方案,要求每个中心纳入60例患者,试验组和对照组各半。
分层区组随机化 多中心临床试验中普遍采用的方法是以中心分层,然后在各中心内进行区组随机化,即称为分层的区组随机化。 分层有助于层内的均衡性,同时还考虑分段,即区组(block)随机地安排受试者,这将有助于增加每一段的可比性; 分层区组随机化是将区组随机化和分层随机化相结合的一种随机化方法,相对来说,是一种比较理想的随机化方法。
分层区组随机化分组操作步骤 操作步骤: 分层编号,将每一层中预期纳入的实验单位编号并划分成区组。 区组内编号:将预先确定的每个区组内的M个实验单位从1至M编号。 分区组获取随机数字:利用SPSS软件为M个编号获取M个服从均均分布的随机数字。 分区组排序:对随机数字进行排序。 分区组入组:将按随机数字的大小顺序排序后的M 个编号,按排序的序号从小到大均分成k个子集,每个子集中对应的编号纳入同一个组。
分层区组随机化分组的SPSS实现 分层区组随机化分组方案的设计只需要将前述的区组随机化分组和分层随机化分组方案相结合即可实现! 具体分组方案的设计参照前述内容!
分层随机化分组练习 某药厂欲采用多中心双盲随机对照试验验证某新药的疗效,研究方案确定选择4所三甲医院共纳入240例患者进行试验,试利用SPSS软件设计一分层区组随机化分组方案,要求每个中心按病人入院顺序分10段纳入60例患者,试验组和对照组各半。
动态随机化 动态随机化是指在临床试验的过程中每例患者分到各组的概率不是固定不变的,而是根据一定的条件进行调整的方法,它能有效地保证各试验组间例数和某些重要的非处理因素接近一致。动态随机化包括瓮(urn)法、偏币(biased coin)法、最小化(minimization)法等。在国外,最小化法已开始应用于实际研究并被誉为临床试验的“白金标准”。 **课后查资料学习具体的动态随机化分组方法!
The End! Thanks!