社会研究方法 第6讲:社会统计1
统计分析: 描述统计指的是描述数据的方法。 推论统计则帮助研究者根据观察数据得出结论,通过对样本的研究进而推论总体。
先复习一下不同测量层次的变量 根据社会现象具有不同的性质和特征,因此对它们的测量也具 有不同的层次。测量层次可分为四类: 定类:将不同属性进行分类(nominal) 定序:确定等级和次序 (ordinal) 定距:确定相互之间不同等级的间隔距离和数量差别 (interval) 定比:具有以上三种测量的全部性质,还具有一个绝对 的零点。(ratio)
单变量描述统计 频数分布(frequency distribution):对变量的不同属性出现次 数的描述。可适用于定类、定序、定距和定比数据。
举例:400位被访者的信息。可以用以下两种方式来列出被访者的性别信息。即用原始计数和百分比频数分布的方式。
对于定距或定比资料,需要把资料分成不同的组。
频数分布(frequency distribution): 也可以用图形的方式展示, 例如直方图histogram, 柱形图bar chart, 饼状图pie chart. Bar chart &pie chart适用于离散变量 .histogram适用于定距 和定比数据。
柱状图
饼状图
集中趋势的测量 三种集中趋势的测量方式: 众数Mode:代表最常出现的观察值。适用于所有四类变量。 举例:6,5,7,10,9,5,3,5 (众数是5) 举例:5,6,1,2,5,7,4,7(众数是5和7) 举例:17,20,26,30,50,70 (没有众数) 中位数Median:按顺序排列后观察属性最中间的那个属性。适 用于定序,定距和定比变量(不适用于定类) 若奇数个数字,则比较简单。例如:12 17 20 27 30 55 80 ,中位数为27. 若偶数个数字,则中间两个数字加总后再除以2.例如,17 20 26 30 50 70. 中位数是26+30/2=28 平均数Mean:适用于定距或定比数据。容易受到极值的影响。
如果频数分布是一个正态分布(normal distribution),那么三个集中趋势的值都会相等。但是如果分布是一个偏态分布(skewed distribution), 中位数则较好的表示其集中趋势。
离散趋势测量:反映数据的分布(spread, dispersion, variability around the center),即中心点向外散布、离散或变异的程度。 比较一下以下两群人: 第一组7个人,年龄分别为 25,26,27,30,33,34,35. 第二组7个人,年龄分别为5,10,20,30,40,50,55
离散趋势测量:反映数据的分布(spread, dispersion, variability around the center),即中心点向外散布、离散或变异的程度。 比较一下以下两群人: 第一组7个人,年龄分别为 25,26,27,30,33,34,35. 第二组7个人,年龄分别为5,10,20,30,40,50,55 这两组人的平均年龄都是30岁,但是第二组的年龄分布离中心的 分散程度较远,或者说这个分布有较大的变异。
离散趋势测量:反映数据的分布(spread, dispersion, variability around the center),即中心点向外散布、离散或变异的程度。 有三种方法来测量离散趋势: 全距/极差range :max-min (适用于定序,定距,定比)
百分位数(percentile):一组n个观察值按照数值 大小排列,如,处于p%位置的数值成为第p百分位数。如 中位数就是第50个百分位数。 (适用于定序,定距,定比) 四分位数(Quartile),即把所有数值由小到大排列并分成四 等份,处于三个分割点位置的数值就是四分位数。 第一四分位数 (Q1),又称“较小四分位数”,等于该样 本中所有数值由小到大排列后第25%的数字。 第二四分位数 (Q2),又称“中位数”,等于该样本中所 有数值由小到大排列后第50%的数字。 第三四分位数 (Q3),又称“较大四分位数”,等于该样 本中所有数值由小到大排列后第75%的数字。 第三四分位数与第一四分位数的差距又称四分位距( InterQuartile Range,IQR)。
标准差standard deviation:适用于定距和定比数据。指的是数据 离平均数的平均距离。 标准差主要用于子群比较。高的标准差意味着该数据比较离散; 低的标准差意味着资料比较聚集。例如,班级A的父母教育年限的 标准差是6年。班级B的学生的父母教育年限的标准差是0.8年。这 说明班级A的父母的教育背景差异很大(异质性高),班级B的父 母教育背景比较相似(同质性高)。
练习
双变量关系:变量与变量之间的关系 双变量统计分析告诉我们变量间的统计关系。 两个重要的概念:协变(covariation)和独立(independence). 协变是指事情一起发生或有所相关。例如,收入和生活期望相 关。 独立(independence)指的是变量间没有相关或没有关系。 有三种方法来探究两个变量之间是否有关系存在:1)散点图,2) 交互表,3)相关系数
散点图 通常自变量被放在X轴上,因变量在Y轴上。 用于定距或定比数据。
散点图 从散点图中可以看到双变量关系的三个层面: 形式: 独立或没有关系 直线关系 曲线关系:U型,倒U型,S型 方向:正面或负面的直线关系 精确程度:指的是图形上各点的散布程度。高精确度-各点位 于直线附近,低精确度-各点广泛分布在直线两侧
交互表(交叉表) 适用于任何一种测量层次的数据。但是如果是定距和定比数据, 则是先要分组,转化为定序变量。 交互表内的数字通常是百分比。
如何制作交互表?举例:年龄和态度的关系。年龄是一个定比数据,因此先把它分组。年龄有4个类别,态度有3个类别,因此该表中有4*3=12格。
转化为百分比表
如何制作百分比表 是按行还是列求百分比更好?根据你的研究假设。 如果研究假设是年龄会影响态度,那么列百分比会比较有用。 (根据原因因素的方向计算百分比) 如果研究兴趣在于描述不同态度的人的年龄组成,那么行百分 比就比较合适。 经验:构建交互表时,需要对变量间因果关系的逻辑有思考( 自变量通常是在column) 一般自变量作列,因变量作行
如何阅读百分比表 看清标题、变量名称 注意百分表计算的方向:按行还是按列 阅读百分表表是为了进行比较。比较的方向和百分比计算的方 向相反。一个经验法则:如果表是向下求得百分比(即按列计 算),就跨行比较。如果表是横向求得百分比(即按行计算) ,就比较列的差异。
练习:交互表(cross tabulation)构建交互表时,需要对变量间因果关系的逻辑有思考(自变量通常是在column) 1)有哪些变量?2)因变量?自变量?3)研究假设?4)表格中11%表示什么?5)研究发现?
交互表(cross tabulation)构建交互表时,需要对变量间因果关系的逻辑有思考(自变量通常是在column) 我们想了解有关报纸社论对于大麻合法化的立场。想检验的是社论立场和报纸出版的社区类型之间的关系。我们预测农村地区的报纸可能比城市地区的报纸更保守。 结果显示:农村比城市更不支持大麻合法化。因为32%的城市报纸支持立场,而农村报纸只有11%。
没有百分比的双变量表 其中一个变量是定类或定序变量,而另一个变量是定距或定比 变量。 在定类或定序变量的每个类别中列出定距或定比变量的均值( 或类似的量数)。
图表中显示的是每个态度类别中被访者的平均年龄。如何解读?
图表中显示的是每个态度类别中被访者的平均年龄。不同意的被访者的平均年龄要比同意或没有意见的那些被访者的平均年龄要大。
相关测量 两个变量之间的相关关系(measures of association) 相关程度的强弱 相关的方向(正相关和负相关) 相关性测量依据的是消减误差比例( proportionate reduction in error (PRE)).相关性测量是根据一个变量值 去猜测另一个变量值的能力。相关性越大,降低错误的概率变 越大。 相关测量值有很多种,采用哪一种视测量层次而定。