社会研究方法 第四讲:问卷调查
提纲 1. 什么是问卷调查 2. 问卷设计 3. 问卷调查的数据收集方式 4. 抽样
(一) 什么是问卷调查 问卷调查的特征 问卷调查的发展历史 问卷调查的流程
问卷调查的特征 问卷调查指的是通过问卷作为资料收集的工具,进行社会研究 的一种方式。 主要特征包括: 资料收集需要特定的工具,即调查问卷,是一份精心设 计的问题表格 需要从调查总体中抽取一定规模的样本。 需要通过访问的方式或者由受访者自填的方式搜集数据 获得的巨大的量化资料,需要通过计算机的辅助下完成 资料的统计分析工作。
问卷调查的发展历史 最早的问卷调查是census(人口普查) 早期的发展:运用问卷调查来理解一个社会问题。 如Booth: Life and Labor of the People of London. 马克思的工人调查表 问卷调查方法在新闻业和市场研究的应用 现代民意调查的兴起 技术发展与问卷调查方法: mail survey, telephone survey, internet survey…
Life and Labour of the People in London by Charles Booth (1840-1916)
问卷调查的流程
(二) 问卷设计 1. 问卷的结构 - 封面信(介绍调查的目的,调查内容,调 查单位,以及对调查对象的选取方式和对调查结果的保密措施 等信息),指导语(填答说明),问题,答案,编码 2. 提型和答案的设计 问题的设计 填空式 是否式 多项选择式 矩阵式 表格式 关联问题 (如你有几个孩子?) 答案的设计:开放式和封闭式 展示CGSS2010的问卷
(二) 问卷设计 3. 问卷设计的原则: 问题的语言和陈述要尽量简短 问题设计要意思清楚 (参见歧义性概念的提问) (二) 问卷设计 3. 问卷设计的原则: 问题的语言和陈述要尽量简短 问题设计要意思清楚 (参见歧义性概念的提问) 问题要避免带有双重含义。 举例: 你的父母退休了吗? 问题不能带有倾向性:客观公正原则 举例:你抽烟吗?Vs. 你不抽烟,是吗? 不要用否定形式提问 举例:你受访赞成物价改革?Vs 你是否赞成对物价不进行改革?
(二) 问卷设计 3. 问卷设计的原则: 敏感性问题的处理原则:注意措辞,消除戒心;将敏感 性问题和不敏感性问题交相穿插,使敏感性问题不过于 突出。 如问收入、对国家政策和涉及主流价值观问题的回答 。应对方法: 问收入:从不同角度提问三次,包括家庭年收入情况 ,家庭年消费情况和个人的收入水平,以期从三中资 料的一致性方向追求资料的真实性。 问对国家政策和涉及主流价值观问题:多用贴近社会 的话语去问(敏感问题生活化),注意肯定句和否定 句的交替使用。
歧义性概念的提问-《社会调查方法与技术:中国实践》
(二) 问卷设计 3. 问卷设计的原则(继续): 不要问回答者不知道的问题。 例如,你对我国的社会保障制 度是否满意? (二) 问卷设计 3. 问卷设计的原则(继续): 不要问回答者不知道的问题。 例如,你对我国的社会保障制 度是否满意? 答案的设计要有穷尽性和互斥性 例如:增加 “其他”选项 例如:在职业类型的选择项中,“专业人员”和“教师” 、“医生”都不是互斥的。 中立、不知道、没有意见的处理原则:除非有必要,尽量不 提供。 回答默从问题(response acquiescence)的处理原则: 默从 指的是当受访者面对不熟悉或者较抽象的问题时,往往倾向 于回答同意或者赞成等正面问题。应对策略:采用两个以上 的问题,而且正反面的问题都要有,使受访者每一题都必须 仔细思考,不能偷懒。
练习
练习
(二) 问卷设计 4. 问题的数量和顺序 问题不宜太多,问卷不宜太长。问卷调查尽量控制在20-30分钟内(风笑天) (二) 问卷设计 4. 问题的数量和顺序 问题不宜太多,问卷不宜太长。问卷调查尽量控制在20-30分钟内(风笑天) 问题的顺序会影响到回答 质量。 问卷就像一个社交性的对话,所以在顺序安排上需要符合一般的社会规范。 题目的顺序尽量能体现出逻辑性。 可以将问题分组。 简单的问题在前,复杂的问题在后。 能引起兴趣的问题在前,容易引起紧张和焦虑的问题在后。 熟悉的问题在前,生疏的问题在后 先问行为方面的问题,再问态度、意见、看法等问题。 个人背景资料一般放在结尾。 开放式的问题一般也放在问卷的后面。 不在问卷开始部分询问收入。
(三) 问卷调查的数据收集方式 资料收集方法 自填问卷法 个别发送法 集中填答法 邮寄填答法 网络填答法 结构访谈法 当面访问法 电话访问法
(三) 问卷调查的数据收集方式
(三) 问卷调查的数据收集方式
(三) 问卷调查的数据收集方式 问卷调查的具体组织和实施:包括调查员的挑选,培训调查员,联 系被调查者,调查过程的管理和质量监控。 (三) 问卷调查的数据收集方式 问卷调查的具体组织和实施:包括调查员的挑选,培训调查员,联 系被调查者,调查过程的管理和质量监控。 调查的回收率(response rate,或译成回答率,应答率):调查 者实际调查的样本数和计划调查的样本数之比。反映了样本是否具 有代表性。50%才是足够。70%是比较好。 有效回收率:有效问卷占样本总数的百分比
(四) 抽样 1. 什么是抽样 2. 随机原则 3. 概率抽样和非概率抽样
(四) 抽样 什么是抽样?抽样解决的是对象的选取问题,即从全体之中抽取 一部分个体做为样本,借着对样本的观察,再对全体做出推论。 (四) 抽样 什么是抽样?抽样解决的是对象的选取问题,即从全体之中抽取 一部分个体做为样本,借着对样本的观察,再对全体做出推论。 为什么要抽样?(一)因为要节省经费,(二)因为要节省时间。 (三)因为要提高资料的准确性,(四)因为要取得较详尽的数据 根据是否依赖随机原则,抽样可以分为概率抽样和非概率抽样。 所谓随机原则,指的是保证总体中的每一个个体都有同等的机会 入选样本。
抽样方法 非概率抽样 偶遇/便利抽样 立意/判断抽样 自愿样本 配额选样 雪球抽样
抽样方法 概率抽样方法 简单随机抽样 系统抽样 分层抽样 整群/集体抽样 多阶段集体抽样和PPS抽样
单纯随机抽样(随机数表是统计工作者用计算机生成的随机数组成,并保证表中每个位置上出现哪一个数字是随机数表等概率的,利用随机数表抽取样本保证了各个个体被抽取的概率相等。) 把全体所有成员从1到N编号,然后依随机数表抽取n个号码。例如从四千人 中抽五个人,把所有人自1到4000编号,然后用随机数表随便选一行开始 ,假设我们选第三行,由于4000是四位数,所以我们一次要用四个数字以 使得从0001到4000之间的每一个号码都有相同的中选机会。自上至下 第三行起自左向右,所有的数字都依次算入,它们是4546,7717,0 977,5580,0095,3286,3294,8582,2269, 0056,5271,......等。把超过4000的号码舍去,我们有0977, 0095,3286,3294,2269五个号码中选,代表这五个号码的 人就是我们的样本。
等距抽样 等距抽样(systematic sampling)也有人称它为系统抽样。它是先 把全体总数N除以样本数n,得到K,也就是每间隔K个抽一个的意 思,再用随机数表自1到K选一个随机数R,则R,R+K,R+2 K,......,R+(n-1)K等号码中选。例如四千人抽五人,K= 4000/5=800,每隔800个抽一个,自1到800选一个 随机数。假设我们自随机数表第五行开始,800是三位数,所以我 们要用三位数,自上至下第五行,自左向右,第一个是955太大舍 去,第二个是929,也太大舍去,第三个是400,所以编号40 0,1200,2000,2800,3600,这五个人中选。 如果K不是整数,我们可以四舍五入取整数,也可以用「借一位小数 」的方法,也就是把所有的数字都向后挪一位数,包括K值、随机数 值在内,抽出之后再将此一小数去掉,如此则不会出现多抽或少抽一 个样本的情形。例如N= 47,n= 7,K= 6.71, 借1位小数,取K= 67,由1到67取一个随机随机数23,则得到 23,90,157,220,291,358,425,等7个样本, 将个位数无条件删去,则中 选的样本是第2,9,15,22,29,34,42等7个。 等距抽样的好处是快速方便,所以用得很多。
母体清册(frame)的排列次序 等距抽样的效果和据以抽样的母体清册(frame)的排列次序 有很大的关系。 无次序的随机的排列,等距抽样=随机抽样 有次序的排列:用等距抽样的方法自动反应母体结构, 样本代表性与母体一致;降低抽样误差。等距好于随机 抽样。 周期性排列:是等距抽样的致命伤,通常是日期等。
分层随机抽样 分层随机抽样(stratified random sampling)是先把母群体的 所有个体依某些特征分类,也就是分层,然后在各层之内再进行 独立的随机抽样。 譬如某个地区七岁到十二岁的小孩,我们可以先区分为都和乡村 两大层,然后各自以各层为新的全体进行抽样。这个方法的好处 很多,不但可以减化工作量,而且可以提高估计的精确度。 分层工作的原则是:同层之内同构型愈大愈好,不同层之间各层 平均数差异量愈大愈好。
集体抽样 集体抽样(cluster sampling)是先把母群体分割成许多小集 群,把这些小集群编上号码,然后随机抽取这些号码,凡是被 抽中的,则整个小集群的所有成员全部调查。譬如学校的班级 就是常用的集群。 这个方法的冒险性非常大。主要的功能是节省时间、人力和经 费,是很不得已的作法,非万不得已不要采用。即使要用,也 要守着「集群内部异质性越大越好」的原则来做。
多阶段集体抽样 (multistage sampling) 两段或多段集体抽样其实并没有「集体全查」的意思, 它是指在第一个阶段先抽出一部分集体(Primary Sampling Unit, PSU),譬如说大学,然后在下一个阶 段自中选的集体抽出第二阶段的集体(Secondary Sampling Unit, SSU),譬如说系所,其次在最后阶段抽 出样本个体,譬如说学生。 抽取率与单位大小成比例的多阶段抽样(probability proportional to size, pps)。这个方法大多用在规模比 较大的抽样工作。譬如调查对象是某个地区七岁到十二 岁的小孩,我们在第一阶段先抽取一部分乡镇市区,第 二阶段再自中选的乡镇市区抽村或居委会,第三阶段再 自中选的村或居委会抽户或直接抽人。在抽样过程中每 一阶段各单位的中选机率和那个单位的大小成比例,也 就是单位越大的中选机率越高。但是到最后结算下来, 所有全体的每一个成员都有相等的机会被抽中。
现在要从全体七个区总共16000人中第 一阶段先抽取两个区,然后再自中选区中每 区各抽50人,也就是自全部16000人 中抽取100人。 PPS的案例 现在要从全体七个区总共16000人中第 一阶段先抽取两个区,然后再自中选区中每 区各抽50人,也就是自全部16000人 中抽取100人。 第一阶段要抽两个区,意思是每隔1600 0/2=8000人抽一个区,自1至80 00选一个随机数,假设自随机数表第八行 开始,我们需要四位数,结果6094中选 ,其次6094+8000=14094中 选。这两个号码一个落在第四区,另一个在 第七区,所以两个区中选。这个阶段各区中 选的机率要看各区的大小而定。其次,我们 再分别自第四区和第七区各抽50人,方法 可以自行决定,单纯随机方式或等距方式均 可。 多段 PPS 抽样方式是个等机率的抽样设计
举例 例如中国2797个县、区要抽120个县、区,不论随机或等距抽 样,都将2797个县、区一视同仁,极不合理;但 PPS 配合等 距方式执行,却同时考虑到了代表性和各县区大小不等的实际 状况 其执行过程举例而言,可先将2797个县区依照各县区人口密 度由大到小排列,列出各县区人口数,然后逐一累加,最后得 总数N,现欲抽出120个县区,令N/120=K,自1至K抽 随机数R,则在累加数字栏上,R的所在县区中选,其次R+ K的所在县区中选,以此类推,如此使得大县区中选机会大, 小县区中选机会小,而抽出的120个县区又有高、中、低度人 口密度的代表性,这是其它抽样方式做不到的。
举例:CGSS2010抽样方案(分层三阶段概率抽样)