第五章 抽 样 第一节 抽样的含义
一、抽样历史 1.阿尔弗•兰登总统与《文学文摘》 2.托马斯•杜威总统与盖洛普民意测验中心 二、什么是抽样 抽样就是从一个规模很大的研究对象中,选出一部分作为研究对象,这个选取过程就是抽样。 三、抽样术语 (一)总体、样本和元素
1.总体 总体就是根据一定目的确定的所要研究事物的总体,它是由客观存在的、具有某种共同性质的许多个别事物构成的整体。 如:我国有选举权和被选举权的公民 (1)研究总体 研究总体是在理论上明确界定的元素的集合体。 (2)目标总体 目标总体也称为调查总体,是实际抽取样本的元素集合体,它是排除了研究总体中的一些特例后的总体。
2.样本 通常将索要研究的事物全体构成的总体成为全及总体,从全及总体中抽取出来,作为代表这一总体的部分单位组成的集合体称为样本。 (1)抽样比率 样本中元素个数与总体中元素个数的比率,即样本规模与总体规模的比率称为抽样比率。 抽样比率=样本中元素个数/总体中元素个数 3.元素(个体) 每一个具体的研究对象就是元素或者是个体。
(二)抽样框和抽样单元 1.抽样框:是指研究者在实际抽样(特别是概率抽样)时,先找到一份近似涵盖所有总体元素的名单,然后从中抽取部分元素,这份名单成为抽样框。 2.抽样单元:抽样框中的总体元素称为抽样单元。 (三)参数值、统计值和抽样误差
第二节 非概率抽样
一、方便抽样 1.什么是方便抽样 方便抽样又称偶遇抽样,是指研究者使用对自己最为便利的方法来选取样本。 2.方便抽样条件 (1)研究目的是要了解某特定时间内通过抽样地点路人的一些特征 (2)采取更合理的抽样方法不可能时
例:下面例子研究目的是要探讨医学院学生和家庭医生对于营养和癌症 的知识与观点。 这次研究的总体是明尼苏达医学院四年级的学生。医生总体则由所有参加明尼苏达大学的医学进修部所赞助的“家庭医学实践回顾及现状”课程的所有医生所组成。
二、判断抽样 判断抽样又称立意抽样,是指研究者根据研究目的或专家判断来选取样本。
第三节 概率抽样 一简单随机抽样 简单随机抽样也称纯随机抽样,是指研究者严格按照随机原则来抽取样本 ﹙一﹚随机原则 第三节 概率抽样 一简单随机抽样 简单随机抽样也称纯随机抽样,是指研究者严格按照随机原则来抽取样本 ﹙一﹚随机原则 1﹒等概率要求 :排除任何事先设定的模式,是每一个对象被选中的概率都相等。 2 独立性要求:每一个对象的抽取都是相互独立的,是一种随机事件。
﹙二﹚随机原则的优点:1随机原则没有什么既定的模式,可以排除研究者自觉或不自觉的偏见。 2随机原则引入概率理论,而概率理论提供了计算参数指和抽样误差的基础。
﹙二﹚简单随机抽样的步骤 1首先建立抽样矿,然后再从抽样矿中选取元素构成样本。 2放回抽样和不放回抽样:根据被抽中的元素是否放回总体,简单随机抽样又分为放回和不放回。 3当总体数目N不大时,可以用抽签法进行简单随机抽样。 步骤:建立抽样矿,将总体N编上号码,然后将N个签的号码充分混合,然后一次抽n个,或者每次抽取一个但不放回,再抽另一个直至抽到n个位置,这n个元素的号码就是样本元素的号码 如果总体N太大,需要用随机数法进行简单随机抽样。关键是产生随机数。 例如:假设要从一个900人的总体中,用随机数表方法抽取一个100人的样本。
步骤: 1先建立抽样矿,也就是给900中的每一个人按1-900的顺序编号。 2 从随机数表中选出100个随机数,抽样矿中编号与选出的随机数相同的那些人将组成样本。 3确定选出的随机数的位数。 4 决定从5位数组中选择哪几位数字。 办法:可以选择从左到又前3位数字,选择中间的3位数字,选择从做到又后3位数字。 5确定再表中选择数字的顺序。 选择数字的顺序可以随意确定。可以顺着每一列自上而下或自下而上,可以顺着每一行从左到又或从右到左,也可以沿着对角线方向。选定顺序以后,在以后选择中,一定要一直都按照这个顺序选取。
1在抽样之前,需要编制一份完整的抽样矿,并给每个元素编号,当总体规模较大时,采取这种抽样方法工作量较大。 5确定开始选择的5位数组起点。 数组起点可以随意选择。 6处理大于总体规模或重复的随机数。 ﹙三﹚简单随机抽样的不足之处 1在抽样之前,需要编制一份完整的抽样矿,并给每个元素编号,当总体规模较大时,采取这种抽样方法工作量较大。 2简单随机抽样的样本在总体中比较分散,这使得实地访问工作难以实施,需要花费较多的人力 时间 和经费。
二 系统抽样 系统抽样又称机械抽样,系统抽样的样本元素,是按某种确定的规则从总体中抽取,由于等间距抽取是系统抽样最常使用的规则,所以系统抽样又被称为等距抽样。
例如:从一个900人总体中,用等据抽样方法抽取一个150人的样本 步骤 1建立抽样矿,给总体的每一个元素编上号码。 2确定开始抽取人数的位置。这个位置在任何起始点都可以。系统抽样的起始点可以在抽样矿上选一个,选中的那个编号,就是抽取样本的起始点。也可一在随机数表上随意选一个,把随意选中的5位数组作为抽取样本的起始点,但这时要根据样本规模确定需要采用几位数字,如果样本规模小于100,就用2位数,如果小于1000,就用3位数,如果选中的3位数是007,就表示从第7号开始抽取。 3计算抽样间距 抽样间距k﹦总体规模N/样本规模n 样本规模如果不是整数的,抽样间距可选取最接近N/n的整数。
4 确定抽取元素的方法。等距抽样从起始点开始,每个一个抽样间距,抽取一个元素。 三 分层抽样 分层抽样是指研究者先把总体分为若干个同质的层﹙次级总体﹚,然后用简单随机或系统抽样方法,从每层中抽取样本元素。 ﹙一﹚进行分层抽样,需要解决问题 1怎样进行分层,或者说根据什么原则确定分层变量。 2如何确定样本比例 3确定实际分层抽样抽取样本的方法。 ﹙1﹚一种方法是先将所有总体元素按分层变量进行分层,并计算各层在总体中的比例。如果采用等比例分层抽样,则直接将总体比例视为样本比例,如果采用不等比例分层抽样,则需要对样本比例做一定的调整。最后,在按确定的样本比例,用简单随机或系统抽样方法,抽出适量的样本元素。
﹙2﹚另一种方法适用于等比例分层抽样。先将所有总体元素按分层变量进行分层,然后将各层的总体元素,一层一层连续排列,最后,对连续排列的总体元素进行等间距抽样。
四多阶段整群抽样 ﹙一﹚总体规模很大或者总体包括范围较大情况下,简单随机抽样 系统抽样 分层抽样三种抽样方法遇到问题 1很多情况下 ,无法获得抽样或需要的总体元素名单﹙抽样矿﹚,也就是说,很多社会研究需要从一个不易获得抽样名单的总体中进行抽样。 例如:从一个城市 一个国家中抽取某阶层的人口。 2样本过于分散,实地调查成本非常昂贵。
﹙二﹚多阶段整群抽样:先进行整群要素抽样,然后再从这些群中抽取要素,这就是多阶段整群抽样。 多阶段指的是按总体内的层级关系,把抽样分成几个阶段来进行。 例如 中国基督教 从100万户居民中抽样。
﹙三﹚多阶段整群抽样基本步骤:列表名册 抽样。先编制初级抽样单位的名册将之分层,然后对这个名册进行抽样,根据选出的初级抽样单位再编制其要素名单或分层,得到次级抽样单位名单并进行抽样,如此一直重复下去。 优点:省时 省钱 ,效率高 缺点:降低抽样精度,抽样误差随之提高。
五、PPS抽样 需要解决问题:1要决定是多抽群,还是多抽群中的元素。 2 处理群大小不等的情况。 整群抽样一般准则:尽可能多地选取群,而减少每个群中要素的数量。 五、PPS抽样 第一阶段抽样,即抽取初级抽样单位﹙PSU﹚阶段,采用概率与规模成比例方法,赋予规模不等的群与其规模成比例的入样概率,使规模大的群以大概率入样,规模小的群以小概率入样。再按照等概率要求从PSU中抽取样本。 居委会被抽中概率=入样居委会数量×﹙该居委会居民户数∕城市居民总户数﹚ 每户居民被抽中概率=入样居民户数∕城市居民总户数
六、从住户中抽取被访者 Kish表抽样方法 1填写住户成员情况 2根据抽样表抽取被访者