社会研究方法 第7讲:社会统计2
统计分析: 描述统计指的是描述数据的方法。 推论统计则帮助研究者根据观察数据得出结论,通过对样本的研究进而推论总体。
(三)多变量 3.1 统计控制 如果两个变量间有相关,并不能说自变量影响了因变量。研究 者还必须去除其他的替代解释,那些会是假设关系变成虚假不 实的解释。在非实验研究中,研究者通过统计方法对其他的替 代解释进行控制。通过控制变量(control variable)来测量可 能的替代解释,然后再用多变量表和统计来检查控制变量,协 助它决定某个双变量的关系是否为虚假,也能显示各自变量对 因变量影响的相对大小。 引进控制变量的方法有两个:三变量百分比表和多元回归分析
如何制作三变量表
阅读三变量表的系统:详析范式(elaboration paradigm)
多元回归Multiple regression analysis 什么是二元回归 假设我们有以下数据:父亲的受教育年限(fedu)和受访者的 受教育年限(edu):
graph twoway scatter edu fedu 如果我们在二维空间里画幅图来表示这两个变量,它们之间的关系就会呈 现出来。在下图一我们就会发现,父亲的受教育年限长,受访者的受教育 年限也会长。在这种情况下,我们说父亲的受教育年限和受访者的受教育 年限呈正相关关系(positively correlated). graph twoway scatter edu fedu
尽管能看出父亲的受教育年限和受访者的受教育年限呈正相关 关系,但我们还想从两个方面来量化此关系。 其一,我们希望用一种方法来描述父亲的受教育年限与 受访者的受教育年限之间的关系特征。 即,如果某人父 亲的受教育年限变化(自变量)一个单位(一年),那 么我们会预期他本人的受教育年限(因变量)平均会发 生多大的变化?假如知道他父亲的受教育年限,那么我 们对他本人的受教育年限又会做何种预期或预测? 其二,我们希望用一种方法来描述受访者的受教育年限 与父亲的受教育年限之间的相关强度。 依据父亲的受教 育年限来预测受访者的受教育年限,我们能得到一个准 确的预测值还是只能得到一个近似值呢?
描述两个变量关系特征的最简单且常见的方法是在散点图中画 出一条通过这些点并最好的概括了两个变量之间平均关系的直 线,直线可以用一个方程来表示: 图二给出了我们关于受访者受教育年限Y和父亲受教育年限X 例子的系数a和b.该图对应的方程可表示为: 这里,3.38是截距,即那些父亲根本没有受过教育的受访者的 期望受教育年限。0.687是斜率,即父亲受教育年限每增加一 年,受访者受教育年限的期望增加值。根据这个方程,我们预 测父亲受过10年教育的受访者将会有10.25年的受教育年限, 因为3.38+10*0.687=10.25.类似的,我们预测受过大学教育的 人的子女的受教育年限比只受过高中教育的人的子女的受教育 年限平均多2.75年,因为0.687*(16-12)=2.75.在给定自变量取 值的情况下估计因变量的值被称为对方程求值。
在一组数据点中画出一条直线的标准是使预测误差的平方和最小 – 我们使观测值和预测值之间差异的平方和最小。用此方法得到的直 线被称作为常规最小二乘回归线(ordinary least squares regression lines, OLS)。 模型预测的好坏或拟合优度(goodness of fit)的标准是看R- squared (确定系数/决定系数,coefficient of determination). R- squared是指因变量方差能够被自变量方差所解释的部分或比例。 (R-squared = Explained variation / Total variation )在上例中 R-squared=0.53, 或是53%, 这说明fedu 解释了53%的受访者的 受教育程度的差异。 二元回归的局限性:如果一个变量没有被包含在方程中,但它是因 变量的真正原因,那么方程中变量的系数将是有偏的(biased), 即会高估或低估了给定自变量和因变量之间真实的因果关系。这就 是省略变量偏误(omitted variable bias)或模型设定误差 (specification error)。
多元回归
统计推论 什么是推论统计?(statistical inference):用样本的研究结 果来推测总体的情况。是基于概率抽样的原则。 统计显著:结果不可能来自于机会因素 显著性水平(经常用0.05)说明我们有95%的信心认为结果是 出于总体中的真实关系,而不是随机因素造成的。 推论统计分为两种: 一个是参数值的估计(包括点值估计和间距估计)。点 值估计指的是以一个最适当的样本统计值来代表总体的 参数值。间距估计指的是以两个数值之间的间距来估计 参数值。至于间距的大小则取决于我们在估计时所要求 的置信程度(level of confidence)。 另一个是假设检验(hypothesis testing). 确定研究假设和虚无假设, 确定适当的检验统计法, 确定P值,得出结论 前者,社会科学用的不多,后者用的较多。
假设检验(hypothesis testing). 确定研究假设(research hypothesis, H1)和虚无假设(null hypothesis, H0). 做推论统计时,我们不是直接检定研究假设(H1),而是检 定与这个研究假设相对立的假设(H0),因而间接地知道 研究假设(H1)的正确可能性。 例如:H1: x与y相关,H0: x与y 不相关。 假设检验的基本原则是直接检验H0,因而间接检验H1,目的 是排除抽样误差的可能性。 即使是否定H0,也不能说H1一定对,只能说‘可能’对, 因为H0被否定是由于它在抽样分布中出现的可能性很小, 但不是完全没有可能性。
卡方检验 卡方检验(Chi square test) 适用于两个定类,一个定类和一个定序,以及两个定 序变量的相关性的检验 卡方检验的步骤:1)建立两变量间无关系(相互独 立)的假设,2)计算出卡方值,3)计算p值 。如果 p值<0.05,则差异显著,并拒绝两个变量独立的假设 ,即承认两个变量之间有关系。如果p>0.05,则差异 不显著,并接受两个变量独立的假设,程两个变量间 无关系。