及SPSS和STATA统计软件操作说明 第三讲 实用社会统计分析技术 及SPSS和STATA统计软件操作说明 第三讲
什么是假设? 假设基本上就是一种“受过教化的猜测”(an educated guess)。它最重要的作用是反映你针对某一问题所做的判断陈述(problem statement, 命题),或者反映你在研究的最初阶段而提出的问题。
研究问题与研究假设 提出一个明确的研究问题是十分重要的,你需要花费时间和精力去规划清楚你所想研究的问题(research question)。研究问题引导着你创建一个假设,然后,假设将决定你应该采用什么样的技术去检验这个假设,并回答最初提出的研究问题。 规划一项研究的基本步骤: 明确研究问题—→提出研究假设—→选择某种统计技术检验假设—→用检验结果回答研究问题 一个研究假设就是把一个研究问题(也可称之为研究命题)转换成某种可以加以检验(test)的方式。
例如: 研究问题:城乡分割的二元结构对收入差异的影响 研究假设: 采用什么统计技术来验证上述假设? 城市人的收入水平高于农村人 城市人的收入与农村人的收入存在显著差异 户口(代表城乡分割二元结构的变量)对个人收入水平有显著差异 采用什么统计技术来验证上述假设?
涉及理论问题的定量研究 研究的步骤: (中观)理论—→研究命题—→研究假设—→检验假设—→回答研究问题
例如:市场转型理论 理论思想 三个命题 十个可待验证的假设 比较抽象性的理论陈述,无法用数据分析结果直接证明这个理论是对的还是错的 把理论具体化,检验一个或者多个研究假设可以证明某个命题是否成立 十个可待验证的假设 直接可以由数据来加以检验,然后证明命题是否成立
样本和总体 总体是我们要研究的所有人群 样本是我们从总体中抽选出来的一部分人 从总体中选择出来的样本应该是依据某种方法来选择的,使样本尽可能地与总体的特征相符
推论总体和样本误差 当样本准确地代表了总体,那么研究结论就有了较高的普遍性。研究结论有较高的普遍性,意味着此项研究有较高的质量。 测量样本与总体特征异同的一个指标就是样本误差(sampling)。样本误差基本上就是样本统计值(由样本所描述的值并由此估计总体的值)与总体参数(由总体测量的值)之间的差异。
零假设(null hypothesis) 什么是零假设: 零假设代表的意思是“你所研究的两个变量之间无关联”
例如: 1) 如果我们研究城乡收入差异,我们的零假设可能是“城市人的收入与农村人的收入无差异”(这暗示着城乡二元体制对收入分配没有显著影响); 2) 如果我们研究不同的社会阶层在某一方面的社会态度问题,我们的零假设可能是“私营企业主对经济改革的评价与工人无差异”(这暗示着阶层地位对人们的社会态度没有显著影响); 3) 如果我们研究人们的受教育机会是否受于家庭出身背景的影响,我们的零假设可能是“父亲的职业地位对个人的教育机会没有显著影响”; 4) 如果我们要考查的是高考成绩与大学学习成绩之间是否有关联(如第一章的例子),我们的零假设可能是“高考分数与大学第一学年各科成绩总分无相关”。 上述这些零假设例子有一个共同的特征,它们都包含着这样一个判断陈述:两个事物是相同的(equality)或无差异,或者相互之间没有关联。
零假设的目的 1 零假设是我们研究的一个始点,因为,当我们对这个事物没有什么了解或没有获得相关信息时,它是一个可以接受的对这个事物的基本陈述。 无关联(lack of a relationship)作为研究始点是假设检验的一个特点,在某种程度上,也通常是定量研究(采取统计分析技术进行研究)的一个特点。这也就是说,在你没有拿出证据证明这两个群体之间存在系统差异时,你只能假定,你所观查到的差异只是偶然现象或偶然因素的作用(机遇或偶然chance)。
零假设的目的 2 零假设的第二目的是提供了一个基准,使我们能够判断是否存在一些非偶然因素导致了我们所观察的结果,也就是说,它帮助我们分类了两类导致差异的因素,一类是偶然因素,另一类是非偶然因素。
研究假设 零假设是申明变量之间无关联,而研究假设则是申明变量之间存在关联。 比如,前面所列出的每一个零假设都有相对应的研究假设,而且,一个零假设也可能有一个以上的相对应的研究假设。
与前面的4个零假设相对应的研究假设是: 1) 城市人的收入水平与农村人的收入水平有差异; 1) 城市人的收入水平与农村人的收入水平有差异; 2) 私营企业主对经济改革的评价与工人不同; 3) 父亲的职业地位对个人的教育机会有显著影响; 4) 高考分数与大学第一学年各科成绩总分之间存在相关。 上面4个研究假设都有一个共同点,它都在申明事物的不对等(inequality),它们设定变量之间有关联,或变量之间不是相同的。
研究假设的目的是什么? 研究假设是我们可以采用统计分析技术来直接进行检验,它是研究过程中的一个重要步骤。我们把这个检验结果与零假设进行比较,看这两个假设中的哪一个对于我们所观察到的两个群体之间的差异可有解释力。
两种研究假设 研究假设强调事物之间的关联或不对等性 这种不对等性可以以两种方式来表达——方向性的研究假设(directional research hypothesis)和无方向性的研究假设(nondirectional research hypothesis)。
无方向性的研究假设 无方向性的研究假设表明的是群体之间的差异性,但没有明确差异的方向性。 例如: 城市人的收入水平与农村人的收入水平有差异。这个研究假设无方向性的,它只说这两个群体在收入方面有差异,但没有说明差异的性质。
无方向性的研究假设 无方向性的研究假设可以用下面这个公式来表达: 代表研究假设; 代表城市人的平均收入; 代表农村人的平均收入。
方向性的研究假设 方向性的研究假设不仅表明了群体之间的差异性,而且也明确了差异的方向性。 例如: 城市人的收入水平比农村人的收入水平高。 这个研究假设是有方向性的,它说明两个群体之间存在差异,而且是一个群体的收入高于另一个群体。
方向性的研究假设 方向性的研究假设可以用下面这个公式来表达: 代表研究假设; 代表城市人的平均收入; 代表农村人的平均收入。
单尾检验与双尾检验 (one-tailed test and two tailed test) 方向性的研究假设与无方向性的研究假设的检验方式有所不同,一个采用单尾检验,一个采用双尾检验。 单尾检验用于检验方向性的研究假设,如上面提到的例子:城市人的收入水平比农村人高。双尾检验用于检验无方向性的研究假设,如上面提到的例子:城市人的收入水平与农村人的收入水平有差异。
零假设与研究假设有什么区别? 第一个差异:零假设申明的是两个变量之间无关联或两个变量等同,而研究假设则申明的是两个变量之间存在关联或两个变量有差异。 第二个差异:零假设针对的是总体,而研究假设针对的是样本。我们需要从样本去推论总体。 第三个差异:研究假设可以直接检验,而零假设不可以直接检验。因为零假设针对的是总体,而我们不可能收集总体数据来进行检验,我们只能检验研究假设,因为我们有样本数据。我们需要从样本去推论总体,也就是说,根据研究假设的检验结果来决定我们是拒绝零假设还是接受零假设。 第四个差异:由于零假设是无法直接检验的,因而它是一个隐含的假设,在研究报告或论文中我们通常看不到隐含的零假设,而研究假设则是直接表述出来的,在研究报告或论文中我们可以直接读到。 第五个差异:零假设与研究假设的公式表达有些不同。
零假设的公式表达(用希腊字母): 研究假设的公式表达(用罗马字母): 或
如何做一个好的假设? 举例: 这是社会分层研究中的一个假设,关于党员身份(政治资本)对于个人的经济收入(经济地位)和社会经济地位指数(职业地位)的影响。 在控制了其它变量(教育、工龄、地区)的情况下,党员的收入水平高于非党员,同时,党员的社会经济地位指数高于非党员。
好的假设的第一个准则 好的假设要以明确地申明主张的形式表达出来,而不能以提问的方式来表达。在上面这个例子中,你不能以这样的提问来提假设:“你认为党员的收入水平高于非党员吗?”因为,当假设以一种明确的、有力地观点陈述来表达时,假设最为有效。
好的假设的第二个准则 好的假设是设置了一种期望的(expected)变量之间的关系。在上述例子的假设中,它明确地描述了党员身份与收入之间的关系,以及党员身份与社会经济地位之间的关系。然后,来检验这些变量,看一下是否某一个变量(如党员身份)对另一个变量(如收入)产生了影响。 避免出现“垂钓远征”(fishing expedition)的现象,这种现象有时也被称为“散弹”(shotgun)现象。
好的假设的第三个准则 假设应该在已有的理论、文献、研究成果的基础上提出。定量研究的成果通常并不是某一个研究者个人就能取得,相反,它总是在前人已有的研究成果之上进行进一步的研究而取得的,因而假设应该反映出与已有研究成果、当前理论争论焦点之间的联系。
好的假设的第四个准则 假设应该是简短、扼要的。假设应该以一种尽可能直接明确地方式来申明变量之间的关系。假设越扼要,越容易让人理解和准确把握你的研究主题和你的研究思路以及你提及的变量的重要性。
好的假设的第五个准则 好的假设应该是可以检验的假设。你有足够的数据资料并且有合适的统计方式来检验这个假设——证实或证伪。比如,上述列举的假设,我们的调查问卷包括了这些提问,数据中包含了相关的变量:是否是党员、个人收入、社会经济地位指数、个人的教育水平、个人的工作年限等,同时,我也知道,我可以用一组回归模型来检验这个假设。
总之,假设应该: 以明确地申明主张的形式表达出来; 要设置变量之间的关系; 要基于理论和已有研究成果; 要简短扼要; 可以被检验。