能力单元三:抽样方案的制作
学习目标: 1、掌握不同的抽样方法及其适用条件 2、培养抽样方案制作能力
开篇案例 我们知道,近几十年来,美国总统大选前夕,总有一些民意测验机构喜欢对总统选择投票的结果进行预测。1936年美国总统选举前夕,盖洛普民意测验所仅仅调查了3000人,就成功地预测了民主党人罗斯福将当选为美国的新一任总统。 1984年这家民意测验机构又一次成功地预测了罗纳得•里根将以59%比41%的优势战胜蒙代尔而当选为美国的新一任总统。这一预测结果与实际投票结果(59%:41%)相一致。而当时盖洛普民意测验所在将近1亿美国选民中,调查的对象还不到2000人。
1 抽样的有关术语 抽样的基本程序 抽样类型(方法) 样本规模与抽样误差 2 3 4
一、抽样的有关术语 第四章 抽样 1、总体(Population)(此指调查总体)(在社会调查中用N表示) 通常与构成的元素共同定义,总体是构成它的所有元素的集合,而元素则是构成总体的基本单位。 (1)研究总体:是在理论上明确界定的个体(分析单位)集合体。(是理论上的总体) (2)调查总体:是研究者实际抽样样本的个体(分析单位)的集合体。(是实际操作中的总体) 二者不同:研究总体是我们概念上的,而调查总体是我们实际抽取样本的集合。二者关系:调查总体应当无限趋近直至等于研究总体。 如:开展对某省大学生择业倾向调查时,该省所有在校大学生的集合就是研究总体,每个在校大学生就是构成总体的元素。该省所有在册大学生则构成调查总体。 2、样本(Sample)(社会调查中用n表示) 是从调查总体中按一定方式抽取出来的那一部分代表的集合体。
第四章 抽样 3.抽样(Sampling) 是一种选择调查对象的程序与方法,即从总体中选取一部分代表的过程,也即从总体中按一定方式选择或抽取样本的过程。 如:从某省总数为10万人的大学生总体中按照一定方式抽取出1000名大学生进行调查,这1000名大学生就是构成总体的一个样本。(从一个总体中可以抽取出若干个不同的样本) 4.抽样单位(Sampling Unit) 一次直接的抽样所使用的基本单位。抽样单位和构成总体的元素有时相同,有时不同。 5.抽样框(Sampling Frame) 也称抽样范围,指抽取样本的所有抽样单位的名单。 如:从某所大学全体学生中直接抽取200名学生作为样本—该校全体学生的名单 从某一所大学所有班级中抽取3个班级作为样本—该校所有班级的名单
第四章 抽样 6.参数值(Parameter) 也称总体值,是关于总体中某一变量的综合描述。 如:某厂职工的平均收入、平均年龄…… 7.统计值(Statistic) 也称样本值,是关于样本中某一变量的综合描述。 如:某厂职工中抽取出一部分,得到的平均收入、平均年龄…… ﹠参数值与统计值之间的区别与联系: (1)参数值是确定不变的、唯一的,并且通常是未知的。 (2)统计值则是变化的,即对于同一个总体来说,不同样本所得到的统计值常常是有差别的;对于某一个特定的样本来说,统计值是已知的,是可以通过计算得到的。 (3)联系:通过样本统计值可以推算总体参数值,从而达到调查部分以认识总体的目的。这就是抽样调查的作用所在。
是指在用样本统计值去推估总体参数值时所存在的偏差。它是由抽样本身的随机性引起的,是不可避免的。但是抽样误差的大小是控制的。 第四章 抽样 8.抽样误差(Sampling Error) 是指在用样本统计值去推估总体参数值时所存在的偏差。它是由抽样本身的随机性引起的,是不可避免的。但是抽样误差的大小是控制的。 ﹠抽样误差的意义:是衡量样本代表性好坏的标准,抽样误差越小,说明样本的代表性越好,反之,则越不好。
第四章 抽样 9.置信水平与置信区间 (1)置信水平(Confidence Level) 也称置信度,指的是总体参数值落在样本统计值某一区间内的概率。 (2)置信区间(Confidence Interval) 是指在一定范围的置信水平下,样本统计值与总体参数值之间的误差范围 (3)置信水平与置信区间的关系 ﹠置信水平反映的是抽样的可靠性程度,置信区间反映的是抽样的精确性程度。 ﹠在其他条件不变的情况下,置信水平越高,置信区间越大;置信水平越低,置信区间越小。对抽样的可靠性程度要求越高,抽样的精确性程度将越低;对抽样的可靠性程度要求越低,则抽样的精确性程度将越高。
抽样的有关术语 抽样的基本程序 抽样类型(方法) 样本规模与抽样误差 1 2 3 4
二、抽样的基本程序 (一)界定总体 即在具体抽样前,对从中抽取样本的总体范围作出明确的界定。 ﹠为什么要对总体进行界定? 第四章 抽样 二、抽样的基本程序 (一)界定总体 即在具体抽样前,对从中抽取样本的总体范围作出明确的界定。 ﹠为什么要对总体进行界定? 原因之一:是由抽样调查的目的决定的,其目的是调查部分以反映总体。 原因之二:界定总体是达到良好的抽样效果的前提条件。 例如: 1936年美国总统大选前《文学文摘》杂志的抽样
思考 美国的《文学文摘》是一本1890年—1938年间在美国发行颇为流行的新闻杂志。1920年、1924、1928、1932年的美国总统大选前都作出了准确的预测。1936,《文学文摘》进行了一次最具雄心的民意测验活动:选票寄给了从电话薄与车牌登记单中挑选出来的1000万人。收到了200万人以上的回应;结果显示,有57%人支持共产党候选人阿尔夫·兰登,而当时在任的美国总统富兰克林·罗斯福的支持率为43%。 两个星期以后全民选举的结果出来了,罗斯福以历史上最大的优势61%的得票率获得第二届任期。 思考:为什么《文学文摘》的预测会失败?
(二)选择抽样的具体方法,确定抽样的精确性程度与样本规模 第四章 抽样 (二)选择抽样的具体方法,确定抽样的精确性程度与样本规模 ﹠如何确定抽样的精确性和样本规模(待) (三)制作抽样框(回顾什么是抽样框) 当采用一次性抽样时,应依据已经明确界定的总体范围,收集总体中全部抽样单位的名单,并对名单按随机原则进行统一编号,建立起供抽样使用的抽样框。 ﹠例如:我们要在重庆城市管理职业学院进行一项该校大专学生职业观的抽样调查。 ﹠注意:当采取多级抽样时,则需制作多个抽样框。 ﹠例如:为了了解某市小学生的学习情况,需要从全市500所小学中抽取500名小学生调查。
﹠准确的抽样框原则: 1、完整性 2、不重复性 例如: 第四章 抽样 ﹠准确的抽样框原则: 1、完整性 2、不重复性 例如: 在城市居民户的抽样中,会经常出现一户有多处住房的情况,这样很容易把一户重复列入抽样框,使得他们在抽样中的中选概率高于其他居民,相反,许多城市居民居住条件比较差,很多居民同住在一个门牌号中,因此很容易遗漏。两种情况均违背了随机抽样的等概率原则。
(四)实际抽取样本 (五)评估样本质量 第四章 抽样 即在前进几个步骤的基础上,严格按照所选定的抽样方法,从抽样框中抽取一个个抽样单位,构成调查样本。 (五)评估样本质量 所谓样本评估,就是对样本的质量、代表性、偏差等进行初步的检验和衡量,其目的是防止由于前面步骤中的失误而使样本偏差太大,进而导致整个调查的失误。 ﹠评估样本的基本方法:将可得到的反映总体中某些重要特征及其分布的资料与样本中的同类指标的资料进行对比。若二者之间的差别很小,则可认为样本的质量较高,代表性较好;反之,若二者之间的差别十分明显,则表明样本的质量和代表性不可能高。因而需要对前面的抽样步骤进行检查、修正,直到抽出质量较高、代表性较好的样本为止。
第四章 抽样 ﹠例如: 从我院3000名学生中抽取300名学生作为样本。同时,我们从学院教务处或学生处得到下列统计资料:全院男生占学生总数的53%,女生占47%;本市学生占40%,外省学生占60%。那么,我们可以对抽出的300名学生进行这两方面分布情况的统计。假定样本统计得到的结果是:男生占52%,女生占48%;本市学生占41%,外省学生占59%。两相对比,可以发现二者之间的差距很小,这就在一定程度上说明,样本的质量较高,代表性较好,从这样的样本中得到的结果往往能较好地反映和体现总体的情况。
抽样的有关术语 抽样的基本程序 抽样类型(方法) 样本规模与抽样误差 1 2 3 4
三、抽样类型 ﹠ 根据调查总体中每一个个体有无同等的机会入选样本,可以将抽样分为概率抽样与非概率抽样两大类。 第四章 抽样 三、抽样类型 ﹠ 根据调查总体中每一个个体有无同等的机会入选样本,可以将抽样分为概率抽样与非概率抽样两大类。 ﹠ 概率抽样─是依据概率论的原理,按照等概率原则进行的抽样,因而它能够避免抽样过程中的人为误差,保证样本的代表性。此法在社会调查最常用。 ﹠ 非概率抽样─主要是依据研究者的主观意愿、主观判断或是否方便等因素来抽取调查对象,它不考虑抽样中是否等概率,因而往往产生较大的误差,难以保证样本的代表性。此法在社会调查中用得较少。
Non-probability sample 第四章 抽样 ﹠根据抽取调查对象的具体方式的不同,又可分将概率抽样与非概率抽样分为若干小类,具体分类如下图所示。 简单随机 系统抽样 概率抽样 分层抽样 整群抽样 抽样方法 多段抽样 偶遇抽样 非概率抽样 判断抽样 定额抽样 雪球抽样 probability sample sample Non-probability sample
1、简单随机抽样(Simple Random Sampling) 第四章 抽样 (一)概率抽样 1、简单随机抽样(Simple Random Sampling) ★概念:它是按等概率原则直接从含有N个个体的总体中抽取n个个体组成样本(N > n)。其典型就是抽签。 ★方法:一是抽签;二是利用随机数表来抽样(P317)。 ★利用随机数表进行抽样的具体步骤是: (1)先取得一份调查总体所有个体的名单(即抽样框); (2)将总体中所有个体一一按顺序编号; (3)根据总体规模是几位数来确定从随机数表中选几位数码; (4)以总体规模为标准,对随机数表中的数码逐一进行衡量并决定取舍; (5)根据样本规模的要求选择出足够的数码个数; (6)依据从随机数表中选出的数码,到抽样框中去找出它所对应的个体。这些个案的集合就构成样本。 ★适用范围:总体单位数目和所需样本数目都比较少。 例:某总体共6000人,现需要从中抽取300名作为样本进行调查,运用随机数表法。
2、系统抽样(Systematic Sampling) 第四章 抽样 2、系统抽样(Systematic Sampling) ★概念:是把总体中的个体进行随机编号并排序,再计算出某种间隔,然后按这一固定的间隔抽取个体的号码来组成样本的方法。 ★具体步骤: (1)给总体中的每一个个体随机编上号码并按号码排序,即制作抽样框; (2)计算出抽样间距,公式为: K=N/n (K—抽样间隔,N—总体规模,n—样本规模); (3)在最前面的K个个体中,随机抽取一个个体,并记号其编号(假定为A),作为随机起点; (4)在抽样框中,自A开始,每隔K个个体抽取一个个体,即所抽取个体的编号分别为A,A+K,A+2K,.,A+(n-1)K; (5)将这n个个体合起来,就构成了该总体的一个样本。
某大学共有3000名学生,要抽取一个容量为100的大学生样本,使用系统抽样的方法如何抽取。 第四章 抽样 例如: 某大学共有3000名学生,要抽取一个容量为100的大学生样本,使用系统抽样的方法如何抽取。 课堂练习: 现要对某一产品的口味进行测试,需要从调查总体的150人中抽取12人进行测试,请使用系统抽样的方法抽取样本。 ?思考:如果总体的个体数不能被样本容量整除时,如何处理?
第四章 抽样 ★注意:一般不选用系统抽样方法的情况。 (1)在总体的名单中,个体的排列具有次序上的先后和等级上的高低的时候。 例如:P69-70 (2)在总体名单中,个体的排列上有与抽样间隔相对应的周期性分布的情况。 ★适用范围:总体数量不大,个体排列无次序性和周期性。
N N2 N1 N3 n1 n2 n3 n 3、分层抽样(Stratified Sampling) 第四章 抽样 3、分层抽样(Stratified Sampling) ★概念:是先将总体中的所有个体按某种特征或标志划分为若干类型,然后再在各类型中采用简单随机抽样或系统抽样的方法抽取一个子样本,最后将这些子样本合起来构成总体的一个样本。 N N2 N1 N3 n1 n2 n3 n 其中,N为总体,Ni为子总体,n为样本,ni为子样本
第四章 抽样 ★具体步骤: (1)确定分类标准,如性别、年龄、地区等。 (2)按确定的标准将总体单位分为若干类型。 (3)计算各类型单位数量占总体单位数量的比重。 设总体单位数为N,各类型单位数为Ni,各类型单位数占总体单位数的比重为Ri。 公式: Ri= Ni/N (4)根据Ri计算出各类型中应抽取样本单位的数量。 设各类型的样本单位数为ni,所需抽取的样本总数为n。 ni= n×Ri (5)按简单随机抽样或系统抽样方法从各类型中按比例抽取样本。
第四章 抽样 ★例如:某省1000个乡,其中山区乡500个,丘陵乡300个,平原乡200个,现在要抽取100个乡进行调查,如何运用分层抽样来抽取样本? 解:设山区i=1,丘陵i=2,平原i=3 R1=N1/N×100%=500/1000×100%=50% R2=N2/N×100%=300/1000×100%=30% R3=N3/N×100%=200/1000×100%=20% n1=R1×n=50%×100=50 n2=R2×n=30%×100=30 n3=R3×n=20%×100=20 即从500个山区乡中抽取50个,从300个丘陵乡中抽取30个,从200个平原乡中抽取20个。其中各阶段均使用简单随机抽样的方法进行。
第四章 抽样 ★课堂练习: 某地共有居民20000户,其中高收入居民4000户,中等收入居民12000户,低收入居民4000户,现要从中抽取500户做购买力调查,如何运用分层抽样抽取样本?
第四章 抽样 ★优点: (1)可以在不增加样本规模的前提下,降低抽样误差,提高抽样的精度。 (2)便于了解总体内不同层次的情况,便于对总体中不同层次和类别进行单独研究,或进行比较。 ★注意:(P71) (1)分层标准: A.以调查所要分析和研究的主要变量或相关的变量作为分层标准; B.以保证各层内部同质性强,各层之间异质性强、突出总体内在结构的变量作为分层标准; C.以那些已有明显层次区分的变量作为分层变量。
B.不按比例分层——在用样本资料去推断总体时,要调整样本中各层的比例,使数据资料恢复到总体中各层实际的比例结构。 第四章 抽样 (2)分层比例: A.按比例分层 B.不按比例分层——在用样本资料去推断总体时,要调整样本中各层的比例,使数据资料恢复到总体中各层实际的比例结构。 例如: 某厂有工人600人,按性别分层则有男工500人,女工100人,现要抽取60人作为样本进行调查,分别按比例分层和不按比例分层抽样。 ★适用范围:总体单位数量较多,单位之间差异性较大。
4、整群抽样(Cluster Sampling) 第四章 抽样 4、整群抽样(Cluster Sampling) 思考: 某高中有8000名学生,分为200个班级,每班有40名学生,现在要从中抽取400名学生调查本校学生消费情况,问:使用简单随机抽样方法和系统抽样方法分别如何抽取样本?除了使用以上方法,还能怎样抽取样本?
★概念:是从总体中随机抽取一些小群体,然后由所抽出的若干个小群体内的所有元素构成调查的一个样本。 第四章 抽样 ★概念:是从总体中随机抽取一些小群体,然后由所抽出的若干个小群体内的所有元素构成调查的一个样本。 N n N1 N2 N3 N4 N5 N6 其中,N为总体,Ni为子总体,n为样本
★整群抽样与前几种抽样方法的最大区别在于,它的抽样单位不是单个的个体,而是成群的个体。 ★具体步骤: 第四章 抽样 ★整群抽样与前几种抽样方法的最大区别在于,它的抽样单位不是单个的个体,而是成群的个体。 ★具体步骤: 1、将总体各单位按一定标准划分为若干群体。 2、以群为单位,从整体中抽取部分群(数量确定) 3、将这些群中的所有个体合起来,形成总体的一个样本。
第四章 抽样 ★特点: (1)优点:可简化抽样的过程,降低调查中收集资料的费用,同时还能相对地扩大抽样的应用范围。 (2)缺点:是样本的分布面不广,样本对总体的代表性相对较差。 (解释:在95℅的置信度下,置信区间为+3℅这一范围,简单随机抽样500个个体,整群抽样800个个体。) ★整群抽样的应用范围较广,在简单随机抽样与系统抽样中,都要求有一份总体所有成员的名单,即抽样框。但在实际调查过程中,这样的名单往往难获得,此时可采用整群抽样来解决问题。 ★适用范围:总体规模较大,各群体之间差异性不大,而群体内部个体之间差异性较大。
★思考:分层抽样与整群抽样的适用范围有何不同?为什么? 第四章 抽样 ★思考:分层抽样与整群抽样的适用范围有何不同?为什么? 当群间同质性高,群内异质性高时,适合于采用整群抽样的方法 当群间异质性高,群内同质性高时,则适于采用分层抽样的方法
课堂练习: 某中学有4800名学生,分为4个年级,80个班,现在要抽取480名学生进行学生身体健康状况调查,运用简单随机抽样、系统抽样、分层抽样和整群抽样的方法分别如何抽取样本?
5、多段抽样(Multi-stage sampling) 按抽样单位的隶属关系或层次关系,把抽样分为几个阶段来进行。 例如:从全市300所小学抽取300名小学生调查,可以分为几个阶段来进行?每个阶段的抽样单位分别是什么? 优点:简化抽样过程。 缺点:抽样误差大。 在同等条件下,减少多段抽样误差的方法是: 适当增加开头阶段的样本数而相对减少后面阶段的样本数。
3、考虑到实际情况,你在抽样中会选择哪种方案?为什么? 第四章 抽样 例如:某地有2.4万名教师,他们分布在全市10个区的200所学校里,现在要抽取一个由1200名教师组成的样本,按照三级抽样的方法,有以下几种抽样方案: ?思考: 1、哪一种方案最节省人力和经费? 2、哪一种方案得到的样本精确度最高? 3、考虑到实际情况,你在抽样中会选择哪种方案?为什么? 第一阶段 第二阶段 第三阶段 方案1 10个区 每个区抽4所学校 每所学校抽30名教师 方案2 每个区抽20所学校 每所学校抽6名教师 方案3 从10个区中抽5个区 每个区抽12所学校 每所学校抽20名教师 方案4 从10个区中抽3个区 每个区抽10所学校 每所学校抽40名教师 方案5 从10个区中抽1个区 每所学校抽100名教师
五种概率抽样方法的图示比较 简单随机抽样
五种概率抽样方法的图示比较 不按比例分层 按比例分层
五种概率抽样方法的图示比较 整群抽样
五种概率抽样方法的图示比较 系统抽样
五种概率抽样方法的图示比较 多段抽样
第四章 抽样 (二)非概率抽样 1.偶遇抽样(Accidental or Convenience Sampling) 是指研究者根据现实情况,以自己方便的形式抽取偶然遇到的人作为调查对象,或者仅仅选择那些离得最近的、最容易找到的人作为调查对象 2.判断抽样(Judgmental or Purposive Sampling) 是调查者根据研究目标和自己的主观分析来选择和确定调查对象的方法(对调查者的要求比较高)。 3.定额抽样(Quota Sampling) 是按调查对象的某种属性或特征将总体中所有个体分成若干类或层,然后在各层中按比例抽样。抽样时不要求遵守随机原则。
第四章 抽样 例如:某高校2000名学生,其中男生60﹪,女生40﹪;文科学生和理科学生各占50﹪,一、二、三、四年级学生分别占40﹪、30﹪、20﹪、10﹪,现用定额抽样方法依上述三个变数抽取一个规模为100的样本。 男生(60人) 女生(40人) 文科(30人) 理科(30人) 文科(20人) 理科(20人) 一 二 三 四 12 9 6 3 12 9 6 3 8 6 4 2 8 6 4 2 表1 100个人的定额样本分布表
第四章 抽样 课堂练习:某工厂有3000名工人,男工占30℅,女工70℅,30岁以下的60℅,30-40岁的30℅,40岁以上的10℅,问如何采用定额抽样的方法抽取一个规模为300人的样本?
表2 300个人的定额样本分布表 男工(90人) 女工 (210人) 30岁以下 30—40岁 40岁以上 54人 27人 9人 126人 63人 21人 表2 300个人的定额样本分布表
4.滚雪球抽样(Snowball Sampling) 第四章 抽样 4.滚雪球抽样(Snowball Sampling) 是先从几个适合的个体开始,然后通过他们得到更多的个体,这样一步步地扩大样本规模的抽样方法。此法常用于去寻找具有相同性质的个体,就象滚雪球一样。(如下图) A B
抽样的有关术语 抽样的基本程序 抽样类型(方法) 样本规模与抽样误差 1 2 3 4
四、样本规模(Sample size)与抽样误差(Sampling Error) 1、什么是样本规模?社会调查中对样本规模有什么要求? 2、表4-7说明了一个什么问题?P89 3、影响样本规模确定的因素有哪些? 4、如果总体为3000时,所需样本为600,那么在总体为9000时,所需的样本应为多少?(图4-8)P89 5、表4-8说明一个什么问题?P91 6、抽样的精确度与哪两个因素有关?分别如何影响的? 在其他条件一定的情况下,置信度越高,所需要样本规模( ) 在其他条件一定的情况下,置信区间越小,所需要样本规模( ) 7、要达到同样的精确度,在同质性程度高和异质性程度高的总体中,对样本的规模的要求有何不同? 8、什么是抽样误差?抽样误差是否可以避免?调查和研究中的人为因素(如录入错误、填答错误、计算错误等)是否属于抽样误差?
第四章 抽样 样本规模又称样本容量,是指样本中所含个体的多少。大样本(n≥30个个体);小样本(n<30个个体)。大样本的平均数的分布接近于正态分布,可用样本的资料对总体进行推论。但在社会调查中,样本规模一般不能少于100个个体。 (一)影响样本规模确定的因素 (正相关+,负相关-) 1.规模大小 (+) 2.总体异质性程度 (+) 3.估计的精确性要求 (+) 4.调查者所拥有的经费、人力和时间 (+) (二)样本规模与抽样误差 1.抽样误差取决于总体异质性程度(+)与样本规模(-)。 2.对于比较小的样本来说,样本规模上的很小的一点增加,便会带来精确性方面很明显的增加。 3.对较大的样本来说,增加样本量对提高精确性的作用不明显。
图4-8 不同的总体规模所要求的样本量(置信度5%;误差3%) 图4-8 不同的总体规模所要求的样本量(置信度5%;误差3%)
中国银行常州分行有1600名国际信用卡金卡用户,管理者想从中抽出100名客户进行抽样调查。 课堂练习1 中国银行常州分行有1600名国际信用卡金卡用户,管理者想从中抽出100名客户进行抽样调查。 1、如果采用系统抽样方法,你怎样抽取?与简单随机抽样相比,有何不同? 2、如果名单是按刷卡消费金额多少排序的,这对抽样结果有影响吗?为什么? 3、你认为采用哪种抽样方法比较合适?说说你的理由。
课堂练习2 1、某品牌空调厂家想了解消费者对该品牌空调价格、质量、售后服务等方面的意见。该品牌空调器在出售时,已经收集了消费者的一些个人信息,包括姓名(单位名称)、地址、联系电话、邮政编码、职业等,同时包括出售空调的型号、价格、商场等。如果你所在的城市家庭和单位共购买该品牌空调器78000台,你在该城市开展抽样调查,请回答下列问题: 1、这项调查的调查总体如何界定? 2、你如何确定抽样框? 3、在选择的抽样框中,你选择哪种抽样方法? 4、你会选择采用分层抽样吗?如果是,请你设计出分层抽样方案。 5、你能使用你制作的抽样框抽取一个整群样本吗?怎么做? 6、你会选择哪种抽样方法?为什么?
实作: 1、查阅一份抽样方案(或调查方案中的抽样方案方法部分) 2、完成你的调查方案中的抽样方案这项内容
小结: 了解四种常用的非概率抽样方法、 掌握五种常用的概率抽样方法及影响样本规模确定的因素。 小结: 了解四种常用的非概率抽样方法、 掌握五种常用的概率抽样方法及影响样本规模确定的因素。