Download presentation
Presentation is loading. Please wait.
1
社会研究方法 第7讲:社会统计2
2
统计分析: 描述统计指的是描述数据的方法。 推论统计则帮助研究者根据观察数据得出结论,通过对样本的研究进而推论总体。
3
(三)多变量 3.1 统计控制 如果两个变量间有相关,并不能说自变量影响了因变量。研究 者还必须去除其他的替代解释,那些会是假设关系变成虚假不 实的解释。在非实验研究中,研究者通过统计方法对其他的替 代解释进行控制。通过控制变量(control variable)来测量可 能的替代解释,然后再用多变量表和统计来检查控制变量,协 助它决定某个双变量的关系是否为虚假,也能显示各自变量对 因变量影响的相对大小。 引进控制变量的方法有两个:三变量百分比表和多元回归分析
4
如何制作三变量表
5
阅读三变量表的系统:详析范式(elaboration paradigm)
7
多元回归Multiple regression analysis
什么是二元回归 假设我们有以下数据:父亲的受教育年限(fedu)和受访者的 受教育年限(edu):
8
graph twoway scatter edu fedu
如果我们在二维空间里画幅图来表示这两个变量,它们之间的关系就会呈 现出来。在下图一我们就会发现,父亲的受教育年限长,受访者的受教育 年限也会长。在这种情况下,我们说父亲的受教育年限和受访者的受教育 年限呈正相关关系(positively correlated). graph twoway scatter edu fedu
9
尽管能看出父亲的受教育年限和受访者的受教育年限呈正相关 关系,但我们还想从两个方面来量化此关系。
其一,我们希望用一种方法来描述父亲的受教育年限与 受访者的受教育年限之间的关系特征。 即,如果某人父 亲的受教育年限变化(自变量)一个单位(一年),那 么我们会预期他本人的受教育年限(因变量)平均会发 生多大的变化?假如知道他父亲的受教育年限,那么我 们对他本人的受教育年限又会做何种预期或预测? 其二,我们希望用一种方法来描述受访者的受教育年限 与父亲的受教育年限之间的相关强度。 依据父亲的受教 育年限来预测受访者的受教育年限,我们能得到一个准 确的预测值还是只能得到一个近似值呢?
10
描述两个变量关系特征的最简单且常见的方法是在散点图中画 出一条通过这些点并最好的概括了两个变量之间平均关系的直 线,直线可以用一个方程来表示:
图二给出了我们关于受访者受教育年限Y和父亲受教育年限X 例子的系数a和b.该图对应的方程可表示为: 这里,3.38是截距,即那些父亲根本没有受过教育的受访者的 期望受教育年限。0.687是斜率,即父亲受教育年限每增加一 年,受访者受教育年限的期望增加值。根据这个方程,我们预 测父亲受过10年教育的受访者将会有10.25年的受教育年限, 因为 *0.687=10.25.类似的,我们预测受过大学教育的 人的子女的受教育年限比只受过高中教育的人的子女的受教育 年限平均多2.75年,因为0.687*(16-12)=2.75.在给定自变量取 值的情况下估计因变量的值被称为对方程求值。
12
在一组数据点中画出一条直线的标准是使预测误差的平方和最小 – 我们使观测值和预测值之间差异的平方和最小。用此方法得到的直 线被称作为常规最小二乘回归线(ordinary least squares regression lines, OLS)。 模型预测的好坏或拟合优度(goodness of fit)的标准是看R- squared (确定系数/决定系数,coefficient of determination). R- squared是指因变量方差能够被自变量方差所解释的部分或比例。 (R-squared = Explained variation / Total variation )在上例中 R-squared=0.53, 或是53%, 这说明fedu 解释了53%的受访者的 受教育程度的差异。 二元回归的局限性:如果一个变量没有被包含在方程中,但它是因 变量的真正原因,那么方程中变量的系数将是有偏的(biased), 即会高估或低估了给定自变量和因变量之间真实的因果关系。这就 是省略变量偏误(omitted variable bias)或模型设定误差 (specification error)。
13
多元回归
17
统计推论 什么是推论统计?(statistical inference):用样本的研究结 果来推测总体的情况。是基于概率抽样的原则。
统计显著:结果不可能来自于机会因素 显著性水平(经常用0.05)说明我们有95%的信心认为结果是 出于总体中的真实关系,而不是随机因素造成的。 推论统计分为两种: 一个是参数值的估计(包括点值估计和间距估计)。点 值估计指的是以一个最适当的样本统计值来代表总体的 参数值。间距估计指的是以两个数值之间的间距来估计 参数值。至于间距的大小则取决于我们在估计时所要求 的置信程度(level of confidence)。 另一个是假设检验(hypothesis testing). 确定研究假设和虚无假设, 确定适当的检验统计法, 确定P值,得出结论 前者,社会科学用的不多,后者用的较多。
18
假设检验(hypothesis testing).
确定研究假设(research hypothesis, H1)和虚无假设(null hypothesis, H0). 做推论统计时,我们不是直接检定研究假设(H1),而是检 定与这个研究假设相对立的假设(H0),因而间接地知道 研究假设(H1)的正确可能性。 例如:H1: x与y相关,H0: x与y 不相关。 假设检验的基本原则是直接检验H0,因而间接检验H1,目的 是排除抽样误差的可能性。 即使是否定H0,也不能说H1一定对,只能说‘可能’对, 因为H0被否定是由于它在抽样分布中出现的可能性很小, 但不是完全没有可能性。
19
卡方检验 卡方检验(Chi square test) 适用于两个定类,一个定类和一个定序,以及两个定 序变量的相关性的检验
卡方检验的步骤:1)建立两变量间无关系(相互独 立)的假设,2)计算出卡方值,3)计算p值 。如果 p值<0.05,则差异显著,并拒绝两个变量独立的假设 ,即承认两个变量之间有关系。如果p>0.05,则差异 不显著,并接受两个变量独立的假设,程两个变量间 无关系。
Similar presentations