中国人民大学社会学系 冯仕政 fengsz@ruc.edu.cn 社会调查统计方法述要 中国人民大学社会学系 冯仕政 fengsz@ruc.edu.cn
主要内容 一、社会研究的主要方法 二、社会研究技术 三、小结:几个要点 四、两种主要研究方法 五、问卷设计 六、调查员手册 七、抽样 八、调查实施 九、数据处理 十、数据分析 冯仕政-全国工会调查业务培训班
一、社会研究的主要方法 调查研究(survey research) 实地研究 文献研究 实验研究 通过调查问卷或结构性访谈的方式,直接从研究对象收集资料 实地研究 深入研究对象的生活环境去询问、体察和感悟研究对象的生活,以便达到对他们的理解 文献研究 不直接接触研究对象,利用二手数据或文献进行研究 实验研究 精心设计和控制某些影响研究对象的环境条件,通过观察研究对象在特定条件的反应方式来达到研究目的 冯仕政-全国工会调查业务培训班
二、社会研究技术 问卷 访谈 观察 量表 抽样 统计分析 计算机模拟 …… 冯仕政-全国工会调查业务培训班
三、小结:几个要点 现实中的社会研究方法都是多种研究技术的组合,往往是某种技术为主,多种技术并用 现实中的社会研究都是多种研究方法的组合,往往是一种方法为主,多种方法并用 要使研究更有效率,要善于因时、因地制宜地组合多种方法、多种技术 问卷调查与个案研究是最常用的两种方法 冯仕政-全国工会调查业务培训班
四、两种主要研究方法 个案研究 选择若干与要研究的问题有关的案主,进行深入的历史调查、实地观察或访谈,然后对所获取的资料进行归纳和总结 问卷调查 针对所欲研究的对象,设计问卷,经过抽样、访问等程序收集数据,然后对所获取的数据进行统计分析 冯仕政-全国工会调查业务培训班
4.1 个案研究的基本方法 文献调查/现场调查 参与观察/非参与观察 结构性/非结构性访谈 冯仕政-全国工会调查业务培训班
4.2 个案研究的优势与劣势 优势: 技术手段可以进行灵活的组合,对研究者本人在时间、进度、程序等方面的结构式限制比较小,试错所造成的损失比问卷调查要小 获取的资料较为原始和详实 一般来说,费用比问卷调查要低 难点: 获取资料的比较琐细、标准化程度较低,后期处理的难度比较大 理论推断的代表性存疑 冯仕政-全国工会调查业务培训班
4.3 个案研究的基本程序 基本程序: 案头与田野之间的多次往返 个案研究写作的要领:“两个说清楚” 根据案主的特征选择合适的技术路线 根据理论假设确定调查的基本要点 资料的收集与保存 资料的整理与分析 论文写作与资料的运用 案头与田野之间的多次往返 个案研究写作的要领:“两个说清楚” 冯仕政-全国工会调查业务培训班
4.4 问卷调查的优势与劣势 优势: 劣势: 数据的标准化程度很高,数据处理有成型的、规范的程序,后期分析比较容易 样本量大,理论推断比较方便 劣势: 因为标准化,所以简单化(比如职业流动) 技术路线的标准化程度高,对研究者本人的结构性限制比较多,试错造成的损失较大 费用一般比较高 冯仕政-全国工会调查业务培训班
4.5 问卷调查的基本程序 理论假设及其操作化 问卷设计 抽样设计 调查实施 数据处理 数据分析与写作 冯仕政-全国工会调查业务培训班
五、问卷设计(1):基本思想 问卷调查的基本思想:假设-检验 因此,问卷设计前的理论思考非常重要 通过相对真理达到绝对真理 通过不断地试错,排除谬误,逼近真理 因此,问卷设计前的理论思考非常重要 提出一个好的问题 建立一组好的理论假设 冯仕政-全国工会调查业务培训班
五、问卷设计(2):问题的提出 问题从哪里来?理论兴趣 或 现实兴趣 “问题”的三种形态: 通过理论与现实的不断互动提出好的研究问题 议题(issue/topic):e.g. 北京交通问题 麻烦/困惑(problem/puzzle):e.g. 为什么道路越修越宽,交通却越来越堵? 问题(question):以往的交通理论都认为交通问题是个技术问题,通过改进路面、路口、信号灯等交通技术,可以提高交通效能,为什么北京的交通技术虽然大有改进,交通问题却越来越严重? 通过理论与现实的不断互动提出好的研究问题 冯仕政-全国工会调查业务培训班
五、问卷设计(3):理论假设-1 围绕问题的理论回顾: 创新,创新,再创新! 都有些什么理论命题? 这些命题各有什么优劣长短? 综合各家短长,提出自己的理论假设 创新,创新,再创新! 科学最可贵的本质在于创新 如果昧于前人的研究,盲人摸象,所谓创新是不可靠的,而且常常导致学术资源的严重浪费 冯仕政-全国工会调查业务培训班
五、问卷设计(4):理论假设-2 所谓假设,不是“假装”设 假设的本质含义是:“尚未经过严密的科学检验的洞察力” 假设的根本价值在于它的理论洞察力和科学创新性 冯仕政-全国工会调查业务培训班
五、问卷设计(5):理论假设-3 理论假设举例:社会关系网络与集体行动 集体抗争都是那些被严重边缘化的、处于社会底层的人发起和参与的 假设:社会关系越弱的人,越容易参与集体抗争 经检验,错!事实是:社会关系网越丰富的人,越容易参与集体抗争 质疑:抗争还是疏通? 两个相互竞争的假设:(1)关系网越强大的人越有可能去参加集体抗争;(2)关系网越强大的人越有可能去底下疏通,从而参加集体抗争的可能性越小。 初步发现:既抗争又疏通! 如何解释?新的猜测(假设):抗争什么?关系是谁?关系是双向的还是单向的? 冯仕政-全国工会调查业务培训班
五、问卷设计(6):理论假设-4 理论假设的操作化 理论假设的数学形式:y=f(x1,x2,x3,…,xn)其中的y和xi被称为“变量”。 所谓“操作化”,就是将比较抽象的变量变成可以一个可以用生活中的简单事实加以描述的东西 上例:“社会关系网络”如何测量?(1)讨论网、拜年网;(2)宽度、力度、密度、向度;…… 冯仕政-全国工会调查业务培训班
五、问卷设计(7):问卷中的问题 问卷的问题是基于理论假设的操作化(GSS 2003 p.8-9) 问题的设计: 用尽可能普适性、通俗的语言(fordrural b5_4,p7; ogi 2007 d16,p17) 不要用容易引起歧义的语言(ogi 2007,d18a,p17) 尽量用有利于调查员朗读和被调查者理解的语言(OGI 2007 c10, c11,p12-13) 提问要尊重、中立 冯仕政-全国工会调查业务培训班
五、问卷设计(8):问卷中的逻辑 理论逻辑与生活逻辑 理论逻辑要周延,严密 选项要完备(其他;不知道;说不清;拒绝回答) 问题之间的逻辑关系 选项和问题的设置是与理论关切联系在一起的:e.g. ogi 2007-E6 (p.20) vs. g2003-b3 (p.4) 问题的前后安排要符合生活逻辑:先易后难、后普通后敏感,符合思维习惯 冯仕政-全国工会调查业务培训班
五、问卷设计(9):问卷的版式 要点:清新开朗、指示清晰、简单易用 e.g.: 比较两次OGI调查的问卷 重要的原则:三个“不要” 不要加重调查员的负担; 不要指望调查员的现场应变; 不要因小失大(比如为了省纸而将版面排得过密) 冯仕政-全国工会调查业务培训班
五、问卷设计(10):问卷的题量 根据研究需要、经费情况、可操作性等因素决定题量 有所为有所不为,避免求全之毁 理论上,访问时间不超过半小时,最长不超过1小时 冯仕政-全国工会调查业务培训班
五、问卷设计(11): 问卷的修改与定稿 发现问题的三个途径: 针对问题进行修改、定稿 送交专家审阅-检验假设的完备性与洞察力 五、问卷设计(11): 问卷的修改与定稿 发现问题的三个途径: 送交专家审阅-检验假设的完备性与洞察力 调查员培训与试用:检验易用性 选择与研究对象相近的人群做试调查:检验适用性 针对问题进行修改、定稿 冯仕政-全国工会调查业务培训班
六、调查员手册 三个任务: 手册示例 交待基本调查原则与技术要领 定义重要的概念 解释题目,备检备查 分解问卷的负担 冯仕政-全国工会调查业务培训班
七、抽样(1):基本方法-1 非概率抽样与概率抽样 概率抽样: 依据概率论的基本原理,充分考虑等概率的原则,按照随机的方式进行以保证样本的代表性,样本误差可以控制和估计 简单随机抽样 系统抽样 整群抽样 分层抽样 多阶段抽样 冯仕政-全国工会调查业务培训班
七、抽样(2):基本方法-2 非概率抽样 主要是根据调查的方便性或设计的主观判断、主观意愿来选取研究对象 与概率抽样的最大区别在于:无法保证样本的等概率性质,对总体的代表性较差,样本误差无法控制和估计 偶遇抽样 立意抽样 配额抽样 滚雪球抽样 冯仕政-全国工会调查业务培训班
八、抽样(3):抽样过程 1、确定研究的总体 2、确定抽样方案 3、获取抽样框 4、抽样实施 冯仕政-全国工会调查业务培训班
七、抽样(4):样本量-1 简单随机抽样的样本量计算公式: 公式的含意是,样本量的大小取决于两个因素: n 为样本量 e 为设计所能容忍的抽样误差,可以根据研究需要任意确定 t 为e所对应的t值,可从t分布表中查得 S2 为总体方差,表示总体中各元素的差异程度 公式的含意是,样本量的大小取决于两个因素: 设计者能够容忍多大的误差? 总体内部各元素的差异有多大? 冯仕政-全国工会调查业务培训班
七、抽样(5):样本量-2 既然e是设计可以任意规定的,t值是可以查得的,那么剩下的唯一因素便是确定S2,即总体的内部差异: 利用以前的研究成果估计 通过试调查来估计 每个变量所对应的样本量是不同的,往往取所有变量中最大的样本量 在现实生活中,还要考虑经费、应答率等问题 冯仕政-全国工会调查业务培训班
七、抽样(6):抽样方案 多种抽样方案如何选择? 总体本身的特征:总体内部的异质性越复杂,抽样方案越复杂 理论的需要 经费预算 冯仕政-全国工会调查业务培训班
八、调查实施 1、调查员队伍组建 2、调查员培训 3、入户执行 4、调查督导 冯仕政-全国工会调查业务培训班
九、数据处理 1、数据整理:问卷审核与编码 2、数据录入 3、数据清理 4、补充调查、回访 5、数据格式:Excel, SPSS, Stata 6、编码手册(codebook) 冯仕政-全国工会调查业务培训班
十、数据分析(1):测量的等级 随着变量测量等级的不同,能够计算的统计量和选用的统计方法也就不同 测量等级 数学性质 分类变量 =, 定序变量 =,;>,< 定距变量 =,;>,<;+,- 定比变量 =,;>,<;+,-;, 冯仕政-全国工会调查业务培训班
十、数据分析(2):描述统计-1 描述统计与推断统计 描述统计的基本任务是简化数据分布,抓住数据分布的核心态势 推断统计的基本任务是利用样本数据去推断总体的结构及变量之间的逻辑关系 S= 冯仕政-全国工会调查业务培训班
十、数据分析(3):描述统计-2 描述总体的基本趋势 集中趋势:众值、中位数、均值 离散趋势: 定类变量:离异比率 v=(n-fmo)/n (n为个案总数,fmo为众值数,v即非众值数在全部样本中比例) 定序变量:四分位差Q:将个案从低到高平均分为四组,得到三个百分位点 Q1, Q2, Q3,Q= Q3- Q1 定距以上变量:标准差S= S= 冯仕政-全国工会调查业务培训班
十、数据分析(4):描述统计-3 相关分析 分类变量:λ 系数 定序变量:γ 系数 定距以上变量:线性回归系数b, 皮尔逊相关系数r 冯仕政-全国工会调查业务培训班
十、数据分析(5):推断统计-1 基本思想:统计控制 任何研究都要解释一个事物在特定条件下的变化及其规律,为此需要对其发生和发展的条件进行控制 两种控制方式:实验控制与统计控制 冯仕政-全国工会调查业务培训班
十、数据分析(6):推断统计-2 实验控制:可操作性与伦理问题 统计控制: 根据理论建立统计模型:y=f(xi)(i=1,2,…,m),设有k<m,那么我们可以通过控制x1,x2,…, xk,然后看xk+1, xk+2,…,xm的变化对y的影响 具有可重复,低成本,无涉伦理等优势 冯仕政-全国工会调查业务培训班
十、数据分析(7):推断统计-3 截面数据统计模型的选择:同时考虑自变量和因变量的测量等级 因变量 分类 连续 自 变 量 列联表 Log-linear 方差分析 Logit 多元线性回归分析 冯仕政-全国工会调查业务培训班
十、数据分析(8):推断统计-4 纵贯数据的统计模型: 事件史分析 冯仕政-全国工会调查业务培训班
十、数据分析(9):推断统计-5 统计检验 理论模型的统计显著性:即能够在多数程度上解释总体的变异,不同的模型有不同的指标 变量的统计显著性:既该变量的系数在多大程度上是由抽样误差还是由实质差异造成的 冯仕政-全国工会调查业务培训班
十、数据分析(10):注意 统计方法只是手段,永远只是在理论指导下使用的,能够帮助(support)我们证实、证伪或建构某种理论,但它并不是理论本身。 它只是一根拐杖:能够帮助我们走得更快,走得更好,但它本身并不能走路 因此,不要迷信或夸大社会统计 冯仕政-全国工会调查业务培训班
参考书: 社会研究方法 / 风笑天主编. -- 北京 : 高等教育出版社, 2006. 社会研究方法 / 风笑天主编. -- 北京 : 高等教育出版社, 2006. 社会研究的统计应用 / 李沛良著. -- 北京 : 社会科学文献出版社, 2001. 冯仕政-全国工会调查业务培训班