社会统计学 Social Statistics 尹海洁,李树林. 社会统计学[M]. 北京:中国人民大学出版社,2013年
目录 1 绪论 单变量的描述统计分析 2 两个类别变量关系的描述统计 两个尺度变量关系的描述统计 3 类别变量与尺度变量关系的描述统计 概率与随机变量的概率分布 大数定律、中心极限定理与抽样分布 参数估计 假设检验的基本原理 总体均值与方差的假设检验 两个类别变量关系的假设检验 两个尺度变量关系的假设检验 类别变量与尺度变量关系的假设检验 非参数检验 抽样 时间序列 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
参考文献 W.J.Conover著,崔恒建译,《实用非参数统计》(第三版),人民邮电出版社,2006年4月。 卢淑华,《社会统计学》(第三版),北京大学出版社,2005年5月。 戴维.K.希尔德布兰德、加德曼.R.爱沃森、约翰.H.奥尔德里奇等著,《社会统计方法与技术》,社会科学文献出版社,2005年6月。 浙江大学数学系高等数学教研组编,《概率论与数理统计》,人民教育出版社1979年3月 尹海洁、刘耳著,《社会统计软件SPSS15.0 for Windows 简明教程》,2008年12月。 何书元,《概率论与数理统计》,高等教育出版社,2006年6月。 贾俊平 何晓群 金勇进编著,《统计学》(第五版),中国人民大学出版社,2012年6月。 同济大学概率统计教研组编著,《概率统计》(第二版),同济大学出版社,2000年5月。 易丹辉编著,《时间序列分析:方法与应用》,中国人民大学出版社,2011年3月。 [美]James D.Hamilton著,刘明志译,《时间序列分析》,中国社会科学出版社,1999年。 中国统计年鉴http://www.stats.gov.cn
第一章 绪论 社会学研究的过程及统计学的应用 1 统计分析方法在社会学研究中的作用 2 抽样方法与统计分析方法的选择 3 第一章 绪论 1 社会学研究的过程及统计学的应用 统计分析方法在社会学研究中的作用 2 抽样方法与统计分析方法的选择 3 变量的层次及统计分析方法的选择 4 本章习题 Exe
第一章 绪论 第一节 社会学研究的过程及统计学的应用 第一章 绪论 第一节 社会学研究的过程及统计学的应用 统计分析 与理论假设的检验 研究结束 审核、录入 与录入误差 的消除 调查的 实施 测量工具 设计 理论假设与 概念操作化 研究开始 确定 研究课题 探索性 调查
第一章 绪论 第二节 统计分析方法在社会学研究中的作用 第一章 绪论 第二节 统计分析方法在社会学研究中的作用 一、统计分析方法应用水平是社会学研究科学性的重要标志 保尔·拉法格在《忆马克思》中谈到,马克思认为:“一种科学只有在成功地运用数学时,才算达到了真正完善的地步。” 二、统计分析方法应用的目的是要发现和描述社会现象的统计规律 (一)社会调查资料的特点 1、随机性 客观现象可分为确定性现象和非确定性现象(随机现象) 2、统计规律性: 通过对大量个体特征的统计分析来描述和分析社会现象的统计规律。 (二)统计学是发现和彰显统计规律的有效工具 三、统计学在社会学研究中的地位
第一章 绪论 第三节 抽样方法与统计分析方法的选择 第一章 绪论 第三节 抽样方法与统计分析方法的选择 社会调查从研究的范围来分类可以分为全面调查与非全面调查,抽样调查是非全面调查的重要方式。 一、总体、个体与样本 (一)总体( population )与个体( case ) 总体是研究对象的全体。 个体也称个案,是构成总体的最小单位,是具体调查分析对象。 (二)样本(Sample) 是从总体中抽出的用于实施调查研究的对象集合。 二、抽样方法与统计分析方法的选择 应用随机原则获得的样本称为随机样本,否则是非随机样本。 社会统计学的内容可分为两大部分:描述统计与推论统计。 全面调查,只使用描述统计即可。 应用推论统计的必要前提是样本必须是随机样本。
第一章 绪论 第四节 变量的层次及统计分析方法的选择 第一章 绪论 第四节 变量的层次及统计分析方法的选择 一、变量的层次 按照变量的取值特征和统计分析时方法应用的特征,变量的层次可以划分为类别变量和尺度变量等两大类。 (一)类别变量 1、无序类别变量( Nominal Variable ) 也称为定类变量,是测量层次最低的变量。如职业、家庭类型、婚姻状况、专业、人际关系类型、地区类别等等。 2、有序类别变量( Ordinal Variable ) 也称为定序变量或序列变量。如职称、职务级别、学生的年级等等。如用1、2、3、4、5、6、7分别表示文盲、小学、初中、高中、大专、大学、研究生。
第一章 绪论 第四节 变量的层次及统计分析方法的选择 第一章 绪论 第四节 变量的层次及统计分析方法的选择 (二)尺度变量(Scale Variable) 若测量工具有单位,则测量结果就不仅能够比较大小,而且能够比较出大多少或小多少。此种测量就是尺度测量,得到的变量就是尺度变量。尺度变量根据测量工具是否具有绝对零分为定距变量和定比变量。 1、定距变量 无绝对零,若存在零,则这个零是个相对零。如使用摄氏温度计测量的温度便是定距变量。 2、定比变量 定比测量是最高层次的测量,它不仅有相等的单位可以比较被测事物间的数量差异。而且有了绝对0,这样就可以对被测事物间的倍数进行比较。在社会学研究中,常用的有年龄、收入、住房面积等等属于定比变量。
第一章 绪论 第四节 变量的层次及统计分析方法的选择 第一章 绪论 第四节 变量的层次及统计分析方法的选择 (三)不同层次变量的功能及转换 由于对某一事物进行测量时可以使用不同层次的测量工具,因此对同一事物进行测量可能出现多种测量结果。 设计问卷时,要尽可能多地设计测量层次高的变量。
第一章 绪论 第四节 变量的层次及统计分析方法的选择 第一章 绪论 第四节 变量的层次及统计分析方法的选择 二、变量层次与统计分析方法的选择 (一)不同层次单变量统计分析方法的选择 对于类别变量,可以使用频次分布表、条形图、圆形图、线形图等来描述变量的分布状态;可以用众数和异众比率描述其集中趋势和离散趋势。对于有序类别变量,还可以用中位数和四分位差或全距描述其集中趋势和离散趋势。对于尺度变量,可以使用频次分布表、直方图、线形图等来描述变量的分布状态,用算术平均数和方差或标准差描述变量的集中趋势和离散趋势。 (二)不同层次两个变量关系的统计分析方法的选择 分析两个变量间的关系:明确两个变量是否有关系。如果有关系,相关的强度如何?相关的方向怎样等等。 两个变量的测量层次不同,应用的统计分析方法也不同。
第一章 绪论 本章习题 1-1 结合社会学研究的过程谈谈统计学在其中所起的作用是什么? 1-2 社会调查资料具有哪些特点? 1-3 解释总体、个体、样本这几个概念。 1-4 变量可以分为哪些类型? 1-5 类别变量与尺度变量的区别是什么? 1-6 简要陈述不同层次变量的功能。 1-7 举例说明统计学在社会学研究中的应用。
第二章 单变量的描述统计分析 1 单变量的分布及其描述方法 集中趋势 2 离散趋势 3 本章习题 Exe
第二章 单变量的描述统计分析 第一节 单变量的分布及其描述方法 第二章 单变量的描述统计分析 第一节 单变量的分布及其描述方法 单变量的描述统计就是用统计表、统计图和统计特征值将变量的状态、水平和分布特征表现出来的方法。 一、变量及其分布 (一)变量的特征 1、变量的含义: 研究对象的每个个体都具有很多属性和特征。比如每个人都有身高、体重、年龄、学历等特征。这些在不同个体上具有不同表现的特征就称为变量。统计学中的变量在个体上是相对稳定的,在不同个体上表现出变化。这类变量也称为随机变量。 2、变量取值的两个特征 完备性。完备性是指变量的取值必须涵盖全部的个案。 互斥性。互斥性是指变量的取值之间不能互相包容。
第二章 单变量的描述统计分析 第一节 单变量的分布及其描述方法 第二章 单变量的描述统计分析 第一节 单变量的分布及其描述方法 一、变量及其分布 (二)变量的分布 变量分布指个体在变量取值上的分布。对一组观察值,一般用频次分布、频率分布和累积频率分布三种方法描述变量分布。 1、频次分布:变量取值与取值上拥有的个体数的集合称为频次分布。若变量有m个取值,则该变量的频次分布可表示为: 例如:调查1000户家庭,7种家庭类型户数的频次分布为: (核心家庭,707户) (直系家庭,182户) (大家庭,7户) (断代家庭,9户) (单亲家庭,37户) (单身家庭,15户)
第二章 单变量的描述统计分析 第一节 单变量的分布及其描述方法 第二章 单变量的描述统计分析 第一节 单变量的分布及其描述方法 一、变量及其分布 (二)变量的分布 2、频率分布:变量取值与取值上拥有的个体数的频率的集合称为频率分布。将频率分布的频率乘以100%,即是百分比。频率分布可以表示为: 例如:调查1000户家庭,7种家庭类型户数的频率分布为: (核心家庭,0.707) (直系家庭,0.182) (大家庭,0.007) (断代家庭,0.009) (单亲家庭,0.037) (单身家庭,0.015) (其它家庭,0.043)
第二章 单变量的描述统计分析 第一节 单变量的分布及其描述方法 第二章 单变量的描述统计分析 第一节 单变量的分布及其描述方法 一、变量及其分布 (二)变量的分布 3、累计频率分布:将上述频率分布中的频率按变量的取值排列顺序逐项累加就形成累积频率分布。分布可以表示为: 例如:调查1000户家庭,7种家庭类型户数的累计频率分布为: (核心家庭,0.707) (直系家庭,0.889) (大家庭,0.896) (断代家庭,0.905) (单亲家庭,0.942) (单身家庭,0.957) (其它家庭,1)
第二章 单变量的描述统计分析 第一节 单变量的分布及其描述方法 第二章 单变量的描述统计分析 第一节 单变量的分布及其描述方法 一、变量及其分布 (二)变量的分布 关于频次分布、频率分布和累计频率分布的总结 可以清楚地表现数据的分布特征和统计规律,但只适用于类别变量。例如文化程度、职业、职称等。 对取值很多的尺度变量,通常将变量的取值划分成段,如年龄段、收入段,再累计该段中的人数,来表示变量的分布。 尺度变量取值的数据有两种: 离散性数据,如年龄。通常取整数,在相邻的两个数之间不存在其它的数据。 连续性数据,如身高。如果测量的单位可以达到无穷小的话,理论上,任何两个数之间都有无穷多个数。尺度变量的分布在统计表中予以详细说明。
第二章 单变量的描述统计分析 第一节 单变量的分布及其描述方法 第二章 单变量的描述统计分析 第一节 单变量的分布及其描述方法 二、统计表 表现数据分布的最常用方法是统计表。将数据按照一定的顺序排列在由横行、纵列交叉结合而成的表格上。 (一)统计表的结构 统计表可分为横表与竖表,应用较多的是竖表(教材表2-1)。 标题 表号 表头 表身 主词 宾词
第二章 单变量的描述统计分析 第一节 单变量的分布及其描述方法 第二章 单变量的描述统计分析 第一节 单变量的分布及其描述方法 (二)描述类别变量分布特征的统计表——简单表 简单表:主词按变量的取值一一列出,适用于表现类别变量的分布。主词是类别变量的取值,宾词是各个取值出现的频次、频率或百分比及累计频率或累计百分比等。 (教材表2-2)。 (1)表的正上方须有标题,简明、扼要、准确地说明表的内容。 (2)表的左上方应有表的编号。 (3)数字部分横行间不必标划线条,两侧不画纵线,呈开口式。 (4)数字书写要工整,小数点上下对位。 (5)当某项数字缺少时用“—”表示。 (6)如有对表的其它说明可在表的下面写出表注。 制作原则
第二章 单变量的描述统计分析 第一节 单变量的分布及其描述方法 第二章 单变量的描述统计分析 第一节 单变量的分布及其描述方法 二、统计表 (三)描述尺度变量分布特征的统计表——分组表 1、分组表的特点:尺度变量取值很多,可以采用分组表来表现尺度变量的分布特征。分组表的主词是将变量的取值按一定的标准分组或分段的统计表。主词中每个组的最大值称为组上限,最小值称为组下限 。(教材表2-3)
第二章 单变量的描述统计分析 第一节 单变量的分布及其描述方法 第二章 单变量的描述统计分析 第一节 单变量的分布及其描述方法 二、统计表 (三)描述尺度变量分布特征的统计表——分组表 1、分组表的制作步骤: (1)确定全距。全距就是变量观察值的最大值与最小值之差。 (2)确定组距与组数。一般是2、3、5、10或它们的倍数。 (3)确定各组的上下限。最低组的下限要小于最小的观察值,最高组的上限要大于最大的观察值。连续型数据的一组的下限与下一组的上限为同一值,习惯上以组的上限为实,下限为虚。(即“下组限不包括在内”的原则) (4)登记各组中个案的频次,计算频率。将个案按照变量取值大小划分到各组中,按需要统计出频次、频率及累计频率等,并将统计出的数据置于相应单元格内,绘制成分组表。
二、统计表 (三)描述尺度变量分布特征的统计表——分组表 1、分组表的制作步骤:确定全距;确定组距与组数;确定各组的上下限。;登记各组中个案的频次,计算频率。
第二章 单变量的描述统计分析 第一节 单变量的分布及其描述方法 第二章 单变量的描述统计分析 第一节 单变量的分布及其描述方法 二、统计图 统计图就是用图的形式来表示变量的分布特征。 比统计表更直观、生动、易记忆,缺点是不如统计表精确。 变量的测量层次不同,使用的图形也不尽相同。 不同类型的图形表示数据大小的方式不同。 用图形表现数据的分布特征时有一定的规范和要求。每个图的左下方都要有图的编号,图的正下方要有图的名称,用以简明扼要地说明图的内容。如有其它的说明可以在图的下面写出图注。如果图中有多种绘图元素,可以用图例的形式予以说明。
第二章 单变量的描述统计分析 第一节 单变量的分布及其描述方法 第二章 单变量的描述统计分析 第一节 单变量的分布及其描述方法 二、统计图 (一)描述类别变量分布特征的统计图 1、简单条形图: 条形的长短或高低来表示数据大小。以类别变量的取值为横轴的分类标志,以纵轴表示频次或频率。 (教材图2-1)
第二章 单变量的描述统计分析 第一节 单变量的分布及其描述方法 第二章 单变量的描述统计分析 第一节 单变量的分布及其描述方法 二、统计图 (一)描述类别变量分布特征的统计图 2、圆形图:也称饼图。一般用于描述类别变量中各类别所占的比例。是以一个圆为整体,以每一部分所占的比例来分割圆心角,圆心角所对应的扇形即表示每一部分所占的比例。
第二章 单变量的描述统计分析 第一节 单变量的分布及其描述方法 第二章 单变量的描述统计分析 第一节 单变量的分布及其描述方法 二、统计图 (一)描述类别变量分布特征的统计图 3、线形图:线形图是在坐标系内用折线或连续曲线表示事物的分布或变化的图。 图2-3 2000年全国家庭户主受教育程度分布
第二章 单变量的描述统计分析 第一节 单变量的分布及其描述方法 第二章 单变量的描述统计分析 第一节 单变量的分布及其描述方法 二、统计图 (二)描述尺度变量分布特征的统计图 1、直方图: 描述尺度变量分布,用条形长短或高低来表现数据大小。 与简单条形图不同的是,条的宽度表示分组的组距,条与条之间不分离。 直方图以尺度变量为横轴,以分组的组限为横轴的数据标志,以纵轴表示频次或频率。 分组表的数据就可以用直方图来表示。 用表2-4的频率分布数据制作的直方图如图2-4所示。
直方图 用于描述尺度变量的分布 简单条形图 用于描述类别变量的分布 简单条形图 用于描述类别变量的分布 图2-4 住房使用面积分布直方图
直方图的典型应用是人口金字塔。 是一种横的直方图,纵轴是以5岁为组距的分段的年龄,横轴是人数。由男性年龄分布和女性年龄分布两个直方图合并而成。图2-5是中国2008年的人口金字塔。 图2-5 2008年中国人口金字塔 资料来源:根据《中国人口与就业统计年鉴2009 》相关数据绘制
二、统计图 (二)描述尺度变量分布特征的统计图 2、累积频率直方图:以尺度变量为横轴,以分组的组限为横轴的数据标志,以纵轴表示累积频率,制作的直方图就是累积频率直方图。用表2-4的累积频率分布数据制作的累积频率直方图如图2-6所示。 图2-6 住房使用面积累积频率直方图
3、线形图:将直方图或累计频率直方图每条顶部的中点用直线连接即构成描述尺度变量分布的线形图。 二、统计图 (二)描述尺度变量分布特征的统计图 3、线形图:将直方图或累计频率直方图每条顶部的中点用直线连接即构成描述尺度变量分布的线形图。 图2-7 住房使用面积分布线形图 图2-8 住房使用面积累积频率线形图
(二)描述尺度变量分布特征的统计图 4、点状分布图:直方图虽能较好表现尺度变量的分布特征。但它通过分组将尺度变量转化成了顺序变量,组内数据值无法表现。若数据量足够大,可用点状分布图来详细地表现变量的分布特征。点状分布图以尺度变量为横轴,用点的累积表现变量取值上的个体数。 图2-9 居民住房使用面积的点状分布图
第二章 单变量的描述统计分析 第二节 集中趋势 第二章 单变量的描述统计分析 第二节 集中趋势 用图和表的形式虽然能够很好地表现变量的分布状况,但是不够简洁,尤其是将不同的总体或样本进行比较时,使用表或图难以得出清晰的结论。 很多情况下,我们不需要对所有的数据都有详尽的了解。在对不同总体进行比较时,也不可能一一地使用每一个数据,这就需要对变量的全部取值进行概括,找出一个典型的统计特征值来代表全体数据。 集中趋势(和离散趋势)就是概括地说明变量的状态或水平的统计特征值。由于测量层次不同,变量取值的数据特征不同,用于概括变量状态的集中趋势也不同。 常用的集中趋势统计量:众数;中位数;算数平均数。 常用的离散趋势统计量:异众比率;极差(全距);四分位差;方差与标准差。
第二章 单变量的描述统计分析 第二节 集中趋势 第二章 单变量的描述统计分析 第二节 集中趋势 一、众数M0 众数(mode)根据频次来确定的集中趋势量值。在一个变量的取值中,出现频次最多的变量值就是众数。 表2-1中,“初中”是我国家庭户主文化程度的众数。
第二章 单变量的描述统计分析 第二节 集中趋势 第二章 单变量的描述统计分析 第二节 集中趋势 一、众数M0 关于众数的几点注意事项 (1)众数适用于任何层次的变量,只要是知道了频次分布就可以找到众数。但主要用于概括和描述类别变量。 (2)对于分组的尺度变量,出现频次最高的组称为众数组,可以用众数组的组中值(组上限和组下限的平均值 )近似地代替众数。分组数据的众数可以精确计算 (可进一步参见李金昌、苏为华,《统计学》,机械工业出版社,2007年2月出版,72页)。但计算出来的众数只是理论众数,并非实际上取值最多的数据。) (3)众数较适用于单峰分布的情况。多峰分布的众数可能不唯一,所以通常不使用众数来概括变量分布的状态。
第二章 单变量的描述统计分析 第二节 集中趋势 第二章 单变量的描述统计分析 第二节 集中趋势 二、中位数Md 中位数(median)是位于数列中点的数值,它恰好把全部数据分为两半,比它大的数据个数与比它小的数据个数正好相等。 因为确定中位数需要比较数据的大小,因此定序以上的变量才可以使用。 但如果一个序列变量的取值很少,也不适合用中位数作为集中趋势来概括全部数据。 实际上,中位数适用于取值很多的序列变量和尺度变量。
二、中位数Md 当数据总数为奇数个时 (式2-1) (一)未分组数据中位数的计算 对于原始的数据,只要将数据按大小顺序排成数列即可以找到中位数。 当数据总数为奇数个时 中位数是第(N+1)/2 个数。 如数列2、4、6、8、10、12、14有7个数, (7+1)/2 =4 第4个数是8,即中位数。 当数据总数为偶数个时 在(N+1)/2的地方没有数值,则中位数为: (式2-1) 如在2、4、6、8、10、12、14、16这个数列中,中位数是9。
第二章 单变量的描述统计分析 第二节 集中趋势 第二章 单变量的描述统计分析 第二节 集中趋势 二、中位数Md (二)分组数据中位数的计算 在分组数据中,因为没有了数据的原始值,无法直接寻找中位数,需要先找到中位数组,第N/2 个数据所在的组为中位数组。确定中位数组以后利用式(2-2)计算中位数: (式2-2) 式中, L是中位数组的下限,h是组距,n是中位数组的频次;N为数据总个数;Cf↑是L以下的累积频次
分组数据的中位数计算举例 883/2=441.5 中位数所在组 即:住房面积的中位数为54.3平方米。
第二章 单变量的描述统计分析 第二节 集中趋势 第二章 单变量的描述统计分析 第二节 集中趋势 三、算数平均数 算术平均值简称平均值,是全部数据的平均水平。算术平均值主要适用于尺度变量。 (一)未分组数据算数平均值的计算 1、根据原始数据计算 对于变量的一组观察值,可以用原始数据来直接计算算数平均值。计算公式为: (式2-3)
三、算数平均数 (一)未分组数据算数平均值的计算 1、根据原始数据计算 【例2-2】 已知5名女性身高分别为:1.58 1.60 1.64 1.56 1.52(单位:米);5名男性身高分别为:1.68 1.72 1.76 1.64 1.60(单位:米)。分别计算他们的平均身高。
三、算数平均数 (一)未分组数据算数平均值的计算 2、根据频次数据计算 (式2-4) 计算得平均年龄为18岁。
第二章 单变量的描述统计分析 第二节 集中趋势 第二章 单变量的描述统计分析 第二节 集中趋势 三、算数平均数 (二)分组数据的算数平均数计算 如果数据存在于分组表中,则以组中值来代替原始值计算分组数据的平均值。设数据被分为k组,每组的组中值( 组上限和组下限的平均值)为bi ,每组的频次为ni 。则分组数据的平均值的计算公式为: 式(2-5) 请根据表2-4的数据,计算被调查者住房面积的平均值。
该统计表中的最低组没有组下限,为计算方便可以设最低组下限为0。
第二章 单变量的描述统计分析 第二节 集中趋势 第二章 单变量的描述统计分析 第二节 集中趋势 四、众数、中位数和平均值的比较 (二)分组数据的算数平均数计算 相同点:都通过一个数值来描述数据的整体特征以便简化资料。不同点:一般地说来,均值适用于尺度变量,中位数适用于定序以上变量,而众数适用于所有的变量。 注意:对于测量层次一定的变量应选择代表性最好的特征值。例如,对于尺度变量,有众数、中位数和算术平均数三个集中趋势量值可以使用。由于众数和中位数都是用变量的一个值来概括全部数据,其代表性要差。而求平均值时所有数据的值都参与了计算,所以平均值是概括性最好、代表性最强的集中趋势量值。而且,由于尺度变量大都取值很多,有时可能呈现多峰分布,一般不用众数,也很少用中位数来描述尺度变量。对于定序变量,有众数和中位数两个集中趋势量值可以使用,由于中位数体现了数据能够比较大小的功能,一般情况下,认为中位数的代表性要好于众数。而无序类别变量只能使用众数来描述。
第二章 单变量的描述统计分析 第三节 离散趋势 第二章 单变量的描述统计分析 第三节 离散趋势 仅描述观察值的集中趋势远远不够,还需要找到一些表示数据分散程度的统计特征值。 主要原因有二: 原因1:变量的取值范围不同,集中趋势的代表性不同。 例如: 中国职工年平均工资, 1978年为615元,2009年则是29229元。 1978年职工年工资的分布是在216元到3600元之间。 2009年职工年工资的分布是在6900元到数万元之间。 因此,有理由认为: 1978年的615元对当年职工工资总体的代表性高于2009年的29229元。
第二章 单变量的描述统计分析 第三节 离散趋势 第二章 单变量的描述统计分析 第三节 离散趋势 仅描述观察值的集中趋势远远不够,主要原因有二: 原因1:变量的取值范围不同,集中趋势的代表性不同。 原因2:变量取值范围即便相同,但变量分布特征不同时,集中趋势的代表性也不同。 例如:两个班级的数学成绩均值均为82.64分。变量值的分布范围均为从60分到100分(取值分布见教材图20-10)。 由图2-10可见,二班的均值更有代表性。
第二章 单变量的描述统计分析 第三节 离散趋势 第二章 单变量的描述统计分析 第三节 离散趋势 一、异众比率 (一)含义:非众数在数据总数N中所占的比例。 (二)作用:衡量众值的代表性。非众数的频次占的比例越小,众数的代表性就越好。 (三)算例:见教材例2-5。
第二章 单变量的描述统计分析 第三节 离散趋势 第二章 单变量的描述统计分析 第三节 离散趋势 二、极差(全距) (一)含义:极差是变量取值的范围。极差一般用R(Range)来表示。 R=最大值—最小值 (二)作用:主要配合中位数或平均值说明数据的离散程度的统计特征值。极差小表示数据分布集中,极差大表示数据分布的分散。 (三)缺点:极差的值是由两个端点决定的,因此个别远离群体的奇异值会极大地改变极差。以至于有时极差不能真正反映全布数据的离散程度。
第二章 单变量的描述统计分析 第三节 离散趋势 第二章 单变量的描述统计分析 第三节 离散趋势 三、四分位差 (一)含义:对于定序以上变量,将数据按大小排成数列以后,从下向上数第25%的数据所在位置的值称为下四分位数,用Q25表示。从下向上数第75%的数据所在位置的值称为上四分位数,用Q75表示。上下四分位数之差即为四分位差,一般用Q(quartiles)来表示。 Q = Q75 - Q25 式(2-7) (二)作用:四分位差反映了中间50%数据的分散程度,它既比较好地说明了数据的离散状况,又减少了极端数据所造成的影响。由于中位数处于中间位置,四分位差在一定程度上说明了中位数的代表性。
第二章 单变量的描述统计分析 第三节 离散趋势 第二章 单变量的描述统计分析 第三节 离散趋势 三、四分位差 (三)未分组数据四分位差的计算: 计算四分位差要先计算上下四分位数,为此,需要先确定上下两个四分位数的位置,找到两个分位值后相减即得四分位差。根据四分位数的定义可得: 如果四分位数所在位置是整数,四分位数就是该位置对应的值。如果是小数,且小数位是0.5,则取该位置两侧值的平均数。如果是在0.25或0.75的位置上,则四分位数等于该位置下侧值加上按比例分摊位置两侧数值的差值。 具体计算方法见【例2-6】
【例2-6】一组数据是某单位49名职工的住房面积。计算住房面积分布的四分位差。 某单位职工的住房面积(单位:平方米) 33、42、42、48、48、52、55、58、62、65、65、65、66、66、66、66、68、68、68、68、68、70、70、70、72、72、72、72、75、75、75、76、76、78、85、87、90、92、95、98、103、109、110、112、118、125、130、178、179 解: n=49 Q25 的位置=n/4=49/4=12.25,第12.25个数据两侧的数据是65和66。因此,下四分位数为: Q25 =65+0.25(66-65)=65.25 同理,Q75 的位置=3n/4=3*49/4=36.75 ,第36.75个数据两侧的数据是87和90。因此,上四分位数为:Q75=87+0.75(90-87)=89.25 因此,四分位差为: Q=Q75-Q25 =89.25-65.25=25 即:员工住房使用面积中间50%的数据的离散范围为25平方米。
第二章 单变量的描述统计分析 第三节 离散趋势 第二章 单变量的描述统计分析 第三节 离散趋势 四、方差与标准差 极差和四分位差能较好地表明数据离散情况,但只给出了数据的分布范围,只利用了数据的部分信息。极差和四分位差相等的两组数据其分布情况可能差异很大。对于尺度变量概括其离散程度最好的特征值是方差和标准差。 (一)平均差 1、离差:变量的一个观察值与变量平均值之间的差。 2、平均离差:把所有离差加在一起再平均,能反映平均离散情况。平均差则是离差绝对值的平均值,也称平均离差。
第二章 单变量的描述统计分析 第三节 离散趋势 第二章 单变量的描述统计分析 第三节 离散趋势 四、方差与标准差 (二)方差、标准差 方差和标准差是用平方的方法消除了离差中的绝对值后形成的统计特征值。方差是离差平方的平均值,标准差是方差的平方根。 方差: 式(2-13) 标准差: 式(2-14)
四、方差与标准差 (二)方差、标准差 1、用原始数据计算方差、标准差 直接使用式(2-13)和(2-14)。 【例2-8】 五名学生数学成绩分别为72、81、86、69、57,计算这五名学生数学成绩分布的方差和标准差。
四、方差与标准差 (二)方差、标准差 2、用频次分布数据计算方差和标准差 设变量有k个取值,每个取值出现的频次为ni,则利用频次分布数据计算方差和标准差的公式为: 方差: 式(2-15) 标准差: 式(2-16) 【例2-9】计算【例2-3】中志愿者年龄分布的方差和标准差。
四、方差与标准差 (二)方差、标准差 3、用分组数据计算方差和标准差 用每一组的组中值来代替该组的变量值计算方差和标准差,用分组数据计算方差和标准差的公式为: 方差: 式(2-17) 标准差: 式(2-18) 【例2-10】根据表2-4数据,计算居民住房面积的方差与标准差。
……
第二章 单变量的描述统计分析 本章习题 参见教材习题2-1到2-8。
第三章 两个类别变量关系的描述统计 1 列联表分析 分类图 2 列联相关系数 3 等级相关系数 4 本章习题 Exe
第三章 两个类别变量关系的描述统计 社会学研究中不仅要对单个变量的分布进行描述,更多的是要分析变量之间的关系。比如,分析性别与体育爱好的关系、职业与政治参与的关系、文化程度与生育子女数量的关系、收入与住房面积的关系等等。 对测量层次不同的变量之间的关系,其分析方法也不同。 分析两个类别变量的关系,如性别与职业的关系、性别与文化程度的关系、文化程度与生活满意度之间的关系等等,可采用三种方法: 交叉列表:从两个变量的交叉分布来分析两者关系。 分类图:直观地表现变量间的关系。 相关系数:精确地描述变量之间关系的强度。
第三章 两个类别变量关系的描述统计 第一节 列联表分析 第三章 两个类别变量关系的描述统计 第一节 列联表分析 一、两个类别变量相关的概念 如果有两个类别变量,在一个变量取不同类别时,另一个变量的分布有显著差异。则认为两个类别变量相关。如果一个变量取不同类别时,另一个变量的分布没有显著差异,就认为这两个变量不相关。 两个类别变量之间的关系要通过两个变量的交叉分布来描述。这种分析方法称为交叉列表分析,构成的表格称为交叉表或列联表。两个类别变量之间的相关也称为列联相关。
第三章 两个类别变量关系的描述统计 第一节 列联表分析 第三章 两个类别变量关系的描述统计 第一节 列联表分析 二、列联表的结构 列联表也是统计表的一种,它与简单表和分组表不同的是,在一个表中表现了两个不同变量的分布,因此也被称为复合表。 表的主词和表头分别是两个变量的取值。表身中单元格的数据是两个变量交叉后的频次或频率分布。
设 x与y是两个类别变量, x分为x1, x2…xr共r 类,y分为y1, y2…yc共c 类,数据总个数为n 。 三、列联表的种类 设 x与y是两个类别变量, x分为x1, x2…xr共r 类,y分为y1, y2…yc共c 类,数据总个数为n 。 根据列联表中单元格数据的不同,列联表可分为频次分布的列联表和频率分布的列联表。
第三章 两个类别变量关系的描述统计 第一节 列联表分析 第三章 两个类别变量关系的描述统计 第一节 列联表分析 三、列联表的种类 (一)频次分布的列联表
第三章 两个类别变量关系的描述统计 第一节 列联表分析 第三章 两个类别变量关系的描述统计 第一节 列联表分析 三、列联表的种类 (一)频率分布的列联表
四、列联表中的分布 (一)联合分布:即列联表中间部分的数据 nij或 pij,它们都是由两个变量共同决定的。 (二)边缘分布:列联表中最下面一行nj或 pj是变量y的分布,最右面一列ni或pi是变量x的分布。
(三)条件分布: 如果将一个变量取固定值,另一个变量的分布就是条件分布。 使用条件分布的目的是要看当一个变量取不同类别时另一个变量的分布是否有差异。这种差异通过频次分布难以表现,所以条件分布大都是采用频率分布。 用单元格的频次除以对应列的总频次,即nij/nj构成的分布称为关于x的条件分布,也就是当y取固定值时x的分布。 同理, nij/ni*构成的分布称为关于y条件分布。
五、列联表中变量的相互独立性 在列联表中,可以通过比较条件分布来研究类别变量之间的关系。当一个变量取不同类别时,另一个变量的分布有差异,即说明两个变量是相关的。 从频率分布看,两个变量相互独立的表现形式是条件分布等于边缘分布。(推导见教材式3-1到3-4) 等号左侧分子分母同乘于n 一般化 移项
第三章 两个类别变量关系的描述统计 第二节 分类图 第三章 两个类别变量关系的描述统计 第二节 分类图 一、分类条形图 以一个变量的取值作为横轴的标记,用另一个变量的取值来分类。以不同标志点上分类变量的频次或频率作为条的长度绘制条形图。 如果在每个标志点上分类变量各个条长基本相等,则说明两个变量基本不相关。 图3-1 不同性别的残疾人文化程度分布的条形图
第三章 两个类别变量关系的描述统计 第二节 分类图 第三章 两个类别变量关系的描述统计 第二节 分类图 二、分类圆形图 描述变量各取值上的个案数在总数中所占的比例。 多个圆形可以分开画,也可以从大到小叠在一起。 如果在不同的圆形中各个扇形所占的比例基本相同,就可以认为两个变量不相关。 图3-2 不同性别的残疾人文化程度分布的圆形图
第三章 两个类别变量关系的描述统计 第二节 分类图 第三章 两个类别变量关系的描述统计 第二节 分类图 三、多线图 在坐标系内绘制分类变量取不同值时,另一个变量分布的多条折线。 如果这些折线基本重合,或者相差不大,则认为两个变量不相关。 图3-3 不同性别的残疾人文化程度分布的线形图
第三章 两个类别变量关系的描述统计 第三节 列联相关系数 第三章 两个类别变量关系的描述统计 第三节 列联相关系数 图表法只能粗略说明两个变量间是否相关,为精确度量变量之间关系的强度和方向,统计学家根据不同测量层次的变量建构了一系列的统计指标,这就是相关系数。 两个无序类别变量之间的关系可以用列联相关系数来描述。在多年的统计实践过程中,统计学家建构了多个列联相关系数。概括起来,基于两种方法,一是基于消减误差比例的方法来建构,二是基于卡方值来建构。后者将在卡方检验中予以介绍,本节只介绍基于消减误差比例的方法建构的列联相关系数。 列联相关系数是描述两个类别变量关系的特征值。由于有更好的特征值来描述两个有序类别变量之间的关系强度。因此,列联相关系数主要用于描述两个无序类别变量,或是一个无序类别变量与一个有序类别变量之间的关系。
第三章 两个类别变量关系的描述统计 第三节 列联相关系数 第三章 两个类别变量关系的描述统计 第三节 列联相关系数 一、消减误差比例的统计思想 (一)引例 比如有4名学生,某次考试成绩的平均分是80分。如果猜测每名学生的考分,唯一可以参考的信息就是平均成绩。只能猜测每人都得80分。实际上,这4名学生的成绩是90、85、75、70。猜测所产生的总误差是: 假设前两名学生是女性,知道两名女生的平均成绩是87.5,后两名学生是男性,知道两名男生的平均成绩是72.5。现在再来猜测这4名学生的成绩时就可以以性别为参考。女生的成绩都猜测为87.5分,男生的成绩都猜测为72.5分。猜测所产生的总误差是:
第三章 两个类别变量关系的描述统计 第三节 列联相关系数 第三章 两个类别变量关系的描述统计 第三节 列联相关系数 一、消减误差比例的统计思想 (一)引例 知道性别与考试分数之间的关系后,预测减少的误差比例是: 可见:借助性别来猜测学生的成绩可以消减掉67%的误差。 也说明性别与学习成绩有较强的相关。
第三章 两个类别变量关系的描述统计 第三节 列联相关系数 第三章 两个类别变量关系的描述统计 第三节 列联相关系数 一、消减误差比例的统计思想 (二)消减误差比例的一般思想 在没有任何可参考的信息下猜测一个事物时会有很大的盲目性,而借助一个与被猜测的事物有关的事物来进行猜测,就会减少盲目性,提高猜测的准确性。 如果两个变量相关,借助一个变量去猜测另一个变量时会消减掉猜测误差。消减掉的误差大,说明两个变量之间的密切程度高。消减掉的误差小,说明两个变量之间的密切程度低。 这样,消减掉误差的大小就可以成为测量两个变量之间关系密切程度的指标。
第三章 两个类别变量关系的描述统计 第三节 列联相关系数 第三章 两个类别变量关系的描述统计 第三节 列联相关系数 一、消减误差比例的统计思想 (三)消减误差比例的计算公式 设有两个变量x和y,观察的个案数为n。 直接猜测每个个体在y变量上的取值,是一种盲目猜测,必然产生误差。猜测n个个案所产生的总误差为E1。 如果每个个体在x变量上的取值是已知的,可以借助个体在x变量上的取值来猜测其在y变量上的取值,此时所产生的总误差为E2 。消减误差比例(Percent reduce error)为: PRE是取值范围在0和1之间的一个相对数。 其值越接近于1,说明两个变量的相关性越强; 其值越接近于0,说明两个变量的相关性越弱。
第三章 两个类别变量关系的描述统计 第三节 列联相关系数 第三章 两个类别变量关系的描述统计 第三节 列联相关系数 二、 λ系数 λ系数就是基于消减误差比例的思想建构的列联相关系数。利用PRE原理计算相关系数的关键是如何确定 E1和E2 。 (一)引例 在某城市社区随机抽取了60岁以上的老年人,男、女各100人。他们是否愿意去老年公寓养老的态度分布如表3-10所示。从表3-10中可以看出老年人是否愿意去老年公寓养老的态度与性别是相关的。要计算这两个变量的相关系数要先定义E1和E2。 表 3-10 不同性别老年人对去公寓养老的态度 性别 愿意 不愿意 总计 男 30 70 100 女 60 40 90 110 200
第三章 两个类别变量关系的描述统计 第三节 列联相关系数 第三章 两个类别变量关系的描述统计 第三节 列联相关系数 二、 λ系数 (一)引例 表 3-10 不同性别老年人对去公寓养老的态度 性别 愿意 不愿意 总计 男 30 70 100 女 60 40 90 110 200 假设只知道样本中有90人愿意去老年公寓养老,110人则不愿意。 此时要猜测每一个人的态度,可猜测所有人都不愿意去公寓养老。 这样能猜对110人,猜错90人。此时形成的误差
表 3-10 不同性别老年人对去公寓养老的态度 性别 愿意 不愿意 总计 男 30 70 100 女 60 40 90 110 200 若知道不同性别的老年人的态度分布,猜测的方法是,所有的男性均猜测为不愿意,所有的女性均猜测为愿意。 这样能猜对130人,猜错70人。此时形成的误差 消减误差比例为: 即: λ= 0.22, 利用性别来猜测老年人对去老年公寓养老的态度,可以消减掉22%的误差。
第三章 两个类别变量关系的描述统计 第三节 列联相关系数 第三章 两个类别变量关系的描述统计 第三节 列联相关系数 二、 λ系数 (二)λ系数的计算公式 假设只知道类别变量x的分布,即y的边缘分布已知。要猜测每个个案y的取值,唯一可参考的就是变量y的分布。此时用众数来猜测所有个案要比用其它值来猜测产生的误差小。 设y变量众数的频次为max(n*j) ,猜测误差E1为: E1 = n - max(n*j) (3-6) 假设已知道x与y有关,就可以根据 x取不同值时y分布的众数来猜测每个个案的 y。即根据条件分布的众数来猜测y。 设每一行的众数分别为max(n1j) 、 max(n2j) … max(nrj),r=1,…c,猜测误差E2为: (3-7)
第三章 两个类别变量关系的描述统计 第三节 列联相关系数 第三章 两个类别变量关系的描述统计 第三节 列联相关系数 二、 λ系数 (二)λ系数的计算公式 E1 = n - max(n*j 此时,用变量x来预测y,消减误差比例为: (3-8)
第三章 两个类别变量关系的描述统计 第三节 列联相关系数 第三章 两个类别变量关系的描述统计 第三节 列联相关系数 二、 λ系数 (三)λ系数的几个注意事项 1、λ系数的取值范围是0到1。 2、λ系数具有不对称性,借助y来猜测x时,定义的E1、E2 是不同的,此时公式为: (3-9)
第三章 两个类别变量关系的描述统计 第三节 列联相关系数 第三章 两个类别变量关系的描述统计 第三节 列联相关系数 二、 λ系数 (三)λ系数的几个注意事项 3、如果两个变量之间具有明确意义上的因果关系,习惯上将 设为自变量,将 设为因变量。当两个变量之间的因果关系不太明确的情况下可以计算λy 和λx 的加权平均数来作为两个变量的列联相关系数。计算方法如下: (3-10)
第三章 两个类别变量关系的描述统计 第三节 列联相关系数 第三章 两个类别变量关系的描述统计 第三节 列联相关系数 二、 λ系数 (四)λ系数的算例: 【例3-2】计算表3-1中残疾人的文化程度与性别的 λ系数。
解:设性别为x ,文化程度为 y,则
第三章 两个类别变量关系的描述统计 第三节 列联相关系数 第三章 两个类别变量关系的描述统计 第三节 列联相关系数 三、 Goodman-Kruskal Tau(古德曼-克鲁斯卡尔 )系数 λ系数的E1、E2 的定义简洁、明确,计算简单,有较多的应用。其缺点是只使用了各行或各列的众数,没有充分利用数据的信息。 系数也是基于消减误差比例的思想建构的列联相关系数,但是对于E1、E2的定义与λ系数有所不同。 (一)引例 以表3-10中不同性别老年人对去公寓养老的态度为例,说明 系数计算中 E1、E2 的定义方法。
(一)引例 将90人这一组的个案都猜测为不愿意去老年公寓养老,对于这组人猜错的人数为: 将110人这一组的个案都猜测为愿意去老年公寓养老。对于这组人猜错的人数为: 不知道x与y有关时,猜测每个个案的y值时,只能参考y的边缘分布。为更多地利用y变量边缘分布的信息。不再用众数对y进行猜测。而是用y边缘分布的比例进行猜测。 具体做法是,将表 3-10中的200人随机地分为90人和110人两组。 此时,猜测产生的误差E1为:
知道x与y有关时,将男性的100人随机分为30人和70人两组。将30人这一组的个案都猜测为愿意去老年公寓养老,而将70人这一组的个案都猜测为不愿意去老年公寓养老。男性猜错的人数为: 同理,将100名女性随机分为60人和40人两组。将60人这一组的个案都猜测为愿意去老年公寓养老,而将40人这一组的个案都猜测为不愿意去老年公寓养老。对于女性猜错的人数为: 此时,猜测产生的误差E2为: 最终,求得PRE为:
第三章 两个类别变量关系的描述统计 第三节 列联相关系数 第三章 两个类别变量关系的描述统计 第三节 列联相关系数 三、 Goodman-Kruskal Tau(古德曼-克鲁斯卡尔 )系数 (二) 系数的计算公式
第三章 两个类别变量关系的描述统计 第三节 列联相关系数 第三章 两个类别变量关系的描述统计 第三节 列联相关系数 三、 Goodman-Kruskal Tau(古德曼-克鲁斯卡尔 )系数 (三) 系数的算例 【例3-4】计算表3-1中残疾人文化程度与性别的 系数。
解:设文化程度为x,性别为y
第三章 两个类别变量关系的描述统计 第四节 等级相关系数 第三章 两个类别变量关系的描述统计 第四节 等级相关系数 一、等级相关的概念 (一)含义: 等级相关指的是两个有序类别变量之间的相关。如果有两个有序类别变量,在一个变量取不同等级时,另一个变量的分布有较大差异,则认为两个有序类别变量存在等级相关。 (二)适用条件: 用于刻画两个有序类别变量的关系。两个有序类别变量之间的关系,尽管也可以用分类条形图、分类圆形图和多线图进行描述,但变量间的关系强度则需要用等级相关系数来描述。 由于有序类别变量的取值具有了比较大小的意义,变量的变化具有了方向性。因此相关系数也具有了方向性。如果两个变量的变化方向一致则说明两个变量是正相关,如果两个变量的变化方向相反则说明两个变量是负相关。等级相关系数的正负号表明的就是相关的方向。
第三章 两个类别变量关系的描述统计 第四节 等级相关系数 第三章 两个类别变量关系的描述统计 第四节 等级相关系数 二、Spearman(斯皮尔曼)等级相关系数 (一)建构斯皮尔曼等级相关系数的统计思想 根据个案在两个变量上的等级差值的大小来测量相关度。 将两个变量的两组数据分别排序以后,每个个案在两个变量上分别获得了一个等级。 如果两个变量有比较强的正相关,个案的两个等级差就会比较小,所有个案的两个等级差值的平方和也会比较小。反之,如果两个变量有比较强的负相关,个案的两个等级差就会比较大,所有个案的两个等级差值的平方和也会比较大。 因此,个案的两个等级差值的平方和可以用来测量两个变量的等级相关。
1、无相同等级时的斯皮尔曼等级相关系数的计算 (二)斯皮尔曼等级相关系数的计算 1、无相同等级时的斯皮尔曼等级相关系数的计算 设变量x与y均为有序类别变量,且不含有相同等级。也就是说在任何一个变量上不存在两个个案取值相同的情况,每个个案占有一个等级。斯皮尔曼等级相关系数的计算公式为: (3-15) 其中:di是第i个个案在两个变量上的等级差, n是个案总数,也是等级总数。 斯皮尔曼等级相关系数的取值范围: [-1,1] 当两个变量完全正相关时,任意个案在两个变量上的等级差值d为零,等级差的平方也为零,rs=1; 当两个变量完全负相关时,rs=-1 。
1、无相同等级时的斯皮尔曼等级相关系数的计算 【例3-5】表3-12是14名学生的数学成绩与物理成绩。计算学生的数学成绩与物理成绩的斯皮尔曼等级相关系数。
这说明表3-12中学生的数学成绩与物理成绩正相关程度很高。
二、Spearman(斯皮尔曼)等级相关系数 (二)斯皮尔曼等级相关系数的计算 2、有相同等级时的斯皮尔曼等级相关系数的计算 如果在一个变量中两个个案的取值相等,就会出现相同等级。在统计学中,相同等级也被称为“结(Tie)”。 对于结,一般采用具有相同等级的个案所应占有的平均等级作为它们的共同等级,以保证个案数与等级数基本一致。 由于斯皮尔曼等级相关系数要求没有相同等级,因此当变量的取值不是很多,但个案数很多时,这个要求是难以满足的。 当相同等级不太多时,也可以计算斯皮尔曼等级相关系数。(太多则应用Gamma等级相关系数) 【例3-6】 表3-13也是14名学生的数学成绩与物理成绩,但其中含有相同等级。计算学生的数学成绩与物理成绩的斯皮尔曼等级相关系数。(注意表中结的处理)
这说明表3-13中学生的数学成绩与物理成绩正相关程度很高。
三、Gamma等级相关系数 数据中存在大量的相同等级时,可以用Gamma等级相关系数来描述两个有序类别变量之间的相关程度。 Gamma等级相关系数是用同序对与异序对的数量差来测量两个变量相关程度的。 (一)同序对与异序对 1、实例 同序对: 序号为1与3、1与4、1与5、1与6、1与7的个案 异序对: 序号为1与2、5与6的个案 同分对: 序号为3与4、5与7的个案
第三章 两个类别变量关系的描述统计 第四节 等级相关系数 第三章 两个类别变量关系的描述统计 第四节 等级相关系数 三、Gamma等级相关系数 (一)同序对与异序对 2、含义 设两个变量x和y,则: 同序对: 若xi>xi时,yi>yj,则称i与j两个个案为同序对。 异序对: xi>xi时,yi<yj,则称i与j两个个案为异序对。 同分对: Xi=xi时,yi=yj,则称i与j两个个案为同分对。
第三章 两个类别变量关系的描述统计 第四节 等级相关系数 第三章 两个类别变量关系的描述统计 第四节 等级相关系数 三、Gamma等级相关系数 (一)同序对与异序对 3、计算方法 以3×3交叉列表为例进行说明。设列联表3-15中两个定序变量和的取值情况为x3>x2>x1 ,且y3>y2>y1
同序对与异序对的计算 同分对: n11 、n12 和n13的个案在变量x上的取值均为x1,属于同分对。 n11 、n21 和n23的个案在变量y上的取值均为y1,属于同分对。 可见,在列联表中同一行或同一列的个案均构成同分对。 同序对: n22 、n32 n23和n33的个案在变量y上的取值均大于n11对应的取值,因此,它们与n11的个案构成同序对。 同理,n21与n32 n33的个案构成同序对。 n12与n23 、n33的个案构成同序对。 n22与n33的个案构成同序对。 因此,设ns为同序对数目,则3×3列联表中同序对的数量为:
同序对与异序对的计算 同序对数量的计算公式: 异序对数量的计算公式:
第三章 两个类别变量关系的描述统计 第四节 等级相关系数 第三章 两个类别变量关系的描述统计 第四节 等级相关系数 三、Gamma等级相关系数 (二)Gamma等级相关系数的计算 1、公式:如果同序对多异序对少,则表明两个变量之间有正相关;如果异序对多同序对少,则表明两个变量之间有负相关。 (3-18) Gamma等级相关系数的取值范围:[-1,+1] 2、算例 【例3-7】表3-16是882名不同文化程度的城市居民环境满意度调查结果。计算文化程度与对环境满意度的Gamma等级相关系数。
Gamma等级相关系数的算例 解:由Gamma等级相关系数的计算公式可知: 可见,这些居民的文化程度与对环境满意度呈现较弱的负相关关系。 Ns=99X(199+ 31+91+14)+ 203X(31+14)+111X(91+14)+199X14=56741 Nd=40X(111+199+94+ 91)+203X(111+94)+31X(94+91)+199X94=85856 可见,这些居民的文化程度与对环境满意度呈现较弱的负相关关系。 可见,这些居民的文化程度与对环境满意度呈现较弱的负相关关系。
第三章 两个类别变量关系的描述统计 第四节 等级相关系数 第三章 两个类别变量关系的描述统计 第四节 等级相关系数 四、Kendall’s Tau(肯德尔τ)系数 Gamma等级相关系数只考虑同序对与异序对,没考虑同分对。这在同分对非常多的情况下会使计算出的相关系数偏大。统计学家肯德尔对此进行了修正,提出一系列等级相关的计算公式。此处仅介绍Kendall’s Tau-c( ) 对于两个定序变量构成的 r x c列联表, 的计算公式为: (3-19) 其中:n为样本总数,m = min (r, c)
【例3-8】 Kendall’s Tau-c的算例 解:这是一个3x3交叉列表,所以 m=min(3,3)=3 Ns=99X(199+ 31+91+14)+ 203X(31+14)+111X(91+14)+199X14=56741 Nd=40X(111+199+94+ 91)+203X(111+94)+31X(94+91)+199X94=85856 可见,这些居民的文化程度与对环境满意度呈现较弱的负相关关系。
第三章 两个类别变量关系的描述统计 第四节 等级相关系数 第三章 两个类别变量关系的描述统计 第四节 等级相关系数 五、Somer’s d 系数 Somer 也考虑了同分对,给了dyx和dxy相关系数,并将其均值作为两个变量的等级相关系数。 其中:ny是y变量的同分对数;nx是x变量的同分对数。 在ny和nx中都不包括在x和y变量上同时同分的对数。 以3x3列联表为例:
【例3-9】 Somer’s d 等级相关系数算例 Nx=99X(203+40)+ 203X 40+111X(199+31)+199X31+94(91+14)+91×14= 75020 Ny=99×(111+94)+111×94+203(199+91)+199×91+40(31+14)+31×14=109551 结果表明:两者仍然是弱的负相关关系。
第三章 两个类别变量关系的描述统计 本章习题 第三章 两个类别变量关系的描述统计 本章习题 参见教材习题3-1至3-5。
第四章 两个尺度变量关系的描述统计 1 相关分析 回归分析 2 本章习题 Exe
第四章 两个尺度变量关系的描述统计 社会调查中涉及到的尺度变量有两个特点,一是数据分布的全距大,二是变量的取值多。 如果制作列联表会产生分布极其分散的巨型表格,无法表现出变量之间的关系特征。因此,尺度变量之间的关系不适宜用列联表来描述。 一般来说,尺度变量之间的相关既可以用散点图来形象地描述,也可以用相关系数来概括地描述。 如果变量之间存在因果关系,还可以用回归方程来描述因变量随自变量变化的状况。
第四章 两个尺度变量关系的描述统计 第一节 相关分析 第四章 两个尺度变量关系的描述统计 第一节 相关分析 一、相关的概念 两个尺度变量之间的相关关系,指的是两个变量在变化过程中数量上的依存关系。 当一个变量变化时另一个变量也会出现相应的变化。这两个变量之间就存在相关关系。 如果一个变量变大时另一个变量也随之变大,或是一个变量变小时另一个变量也随之变小,这两个变量之间是正相关。 反之,当一个变量变大时另一个变量随之变小,或是一个变量变小时另一个变量随之变大,这两个变量之间存在负相关。 如果两个变量的变化不存在上述的依存性,则认为两个变量无相关。
第四章 两个尺度变量关系的描述统计 第一节 相关分析 第四章 两个尺度变量关系的描述统计 第一节 相关分析 二、相关散点图 (一)含义: 散点图可以形象地描述两个尺度变量的相关状况和相关强度。设有两个尺度变量x和y。以x为横坐标,以y为纵坐标,根据任意个案x和y的取值,可以在坐标系里确定一个点。众多个案在坐标系中呈现一种点状分布,这样的图形就是散点图。 (二)作用: 散点的分布状态可以表明变量之间的相关性。 (三)例子
二、相关散点图
三、Pearson(皮尔逊)相关系数 用散点图来描述两个尺度变量之间的相关虽然形象,但不精确。精确描述变量之间相关强度的特征值是皮尔逊相关系数。 (一)Pearson(皮尔逊)相关系数建构的统计思想 设有两个尺度变量x和y,散点图见图4-5。以x和y的均值为基础的横线,将图划分为四个区域。 在右上区域中任意点的 都满足当 的同时 此时, 同理:左下区域 左上和右下区域 如果x与y存在正相关,大部分散点分布在右上和左下区域内,此时 如果x与y存在负相关,则……?
第四章 两个尺度变量关系的描述统计 第一节 相关分析 第四章 两个尺度变量关系的描述统计 第一节 相关分析 三、Pearson(皮尔逊)相关系数 (一)Pearson(皮尔逊)相关系数建构的统计思想 可见: 有助于测量变量间的相关。 实际上,该式取值大小可表示相关程度,正负号则表示相关方向。 被称为协方差,将它标准化后即得到相关系数:
(二)Pearson(皮尔逊)相关系数的计算 【例4-1】表4-1是10名学生的数学成绩与物理成绩,计算这两科成绩的皮尔逊相关系数。 解题思路:先求x和y的均值,分别为80.3和78.6;然后,依次求出公式中各子式的值;最后,算得相关系数0.911。
(二)Pearson(皮尔逊)相关系数的计算 【例4-2】表 4-2的数据是11个家庭的月收入x(千元)与住房面积y(平方米)。计算两个变量的皮尔逊相关系数。 解题思路: 根据上述公式,先求x和y的均值,分别为3.75和62.82;然后,依次求出公式中各子式的值;最后,算得相关系数0.9262。
第四章 两个尺度变量关系的描述统计 第二节 回归分析 第四章 两个尺度变量关系的描述统计 第二节 回归分析 三、Pearson(皮尔逊)相关系数 (一)Pearson(皮尔逊)相关系数建构的统计思想 可见: 有助于测量变量间的相关。 实际上,该式取值大小可表示相关程度,正负号则表示相关方向。 被称为协方差,将它标准化后即得到相关系数:
第四章 两个尺度变量关系的描述统计 第二节 回归分析 第四章 两个尺度变量关系的描述统计 第二节 回归分析 相关分析的结果只能说明两个变量是否有关系,以及关系大小事多少。在此基础上,可以借助回归分析方法,进一步分析变量间的因果关系。 一、回归分析的统计思想 设有两个变量x与y,x为自变量,y为因变量。他们之间的关系可以分为确定性的关系与非确定性的关系。 确定性关系即一一对应关系。 非确定性的关系则是一种数量上的依存关系。表现为两个变量相关,但并不一一对应。例如身高与体重的关系,身高越高体重越重的规律,指的是身高为的所有人的平均体重要低于身高为的所有人的平均体重。 非确定性的关系也可以采用函数的方法来描述,但估计时有误差。如果能明确误差大小,就可以用确定性的方法来研究非确定性的变量关系,这就是回归分析的基本出发点。 回归分析是对变量的一组观察值拟合一个函数,将非确定性关系转化为确定性关系。由于变量间关系特征不同,拟合函数也不同。
第四章 两个尺度变量关系的描述统计 第二节 回归分析 第四章 两个尺度变量关系的描述统计 第二节 回归分析 二、线性回归 (一)线性回归方程的建立 回归分析最简单的方法是对一组观察值拟合一条直线。该方法叫线性回归分析,也称为线性回归分析。拟合直线叫回归直线,也称回归方程。回归方程中自变量的系数能够说明当自变量变化一个单位时因变量随之发生了何种变化。如图4-6中的直线即是对12个个案的观察值拟合的回归直线。
第四章 两个尺度变量关系的描述统计 第二节 回归分析 第四章 两个尺度变量关系的描述统计 第二节 回归分析 二、线性回归 (一)线性回归方程的建立 线性回归方程的一般表达式为: 其中,b0和b1是未知数。 b0是回归直线的截距, b1是回归直线的斜率,也称回归系数 问题是:如果根据x和y的n组观察值,找出最佳拟合直线? 答案是:采用最小二乘法,使得拟合直线离所有观察值都很近。 即:用回归方程拟合的值与实际观察值的差 应最小。 更进一步,使得下式的值最小:
第四章 两个尺度变量关系的描述统计 第二节 回归分析 第四章 两个尺度变量关系的描述统计 第二节 回归分析 二、线性回归 (一)线性回归方程的建立 利用求导数的方法,求解当b0和b1为何值时,Q取极小值。 二、线性回归 (一)线性回归方程的建立 利用求导数的方法,求解当b0和b1为何值时,Q取极小值。 二、线性回归 (一)线性回归方程的建立 利用求导数的方法,求解当b0和b1为何值时,Q取极小值。 首先,分别求Q对于b0和b1的偏导函数;然后,令其为零,即得: 最后,代入 计算可得到最终的线性回归方程。
(一)线性回归方程的建立 【例4-3】 对【例4-2】,求解以住房面积为因变量,家庭月收入为自变量的回归方程。 解题思路:求出b0和b1中各子式的值,即可得到b0和b1分别等于19.2和11.65。最终的线性回归方程为 即:月收入每增加1000元,住房面积平均会增加11.65平方米。
第四章 两个尺度变量关系的描述统计 第二节 回归分析 第四章 两个尺度变量关系的描述统计 第二节 回归分析 二、线性回归 (二)线性回归方程的拟合优度 使用最小二乘法可以给两个变量x与y的任何一组数据拟合一条直线,而不论x与y之间是否存在关系。 图4-8中,圆点数据和三角点数据拟合出的是同一条直线。 可以看出,对于圆点数据,用回归直线进行拟合时产生的误差较小。因此进行回归分析不能只建立回归方程,还要明确回归方程的拟合优度。
二、线性回归 (二)线性回归方程的拟合优度 拟合优度根据消减误差比例(PRE)的思想计算。 当其它条件未知时,一般用变量y的均值来猜测每个个案的值,这时产生的总误差为 若利用回归方程来猜测y值,产生的总误差为 与利用进行猜测相比,消减的误差为 所以消减误差比例为: 这个消减误差比例就是回归方程的拟合优度R2,整理计算得:
第四章 两个尺度变量关系的描述统计 第二节 回归分析 第四章 两个尺度变量关系的描述统计 第二节 回归分析 二、线性回归 (二)线性回归方程的拟合优度 可见,R2其实就是变量x与y的皮尔逊相关系数的平方。 其值说明回归方程能够减少猜测误差的百分比, 或是自变量能够解释因变量变化的百分比。 R2也被称为判定系数。 例解:对于图4-8中的圆点数据,回归方程的判定系数为0.978,对于三角点数据回归方程的判定系数为0.597。用回归方程来拟合圆点数据有很好的拟合优度,自变量可以解释因变量变化的97.8%。
第四章 两个尺度变量关系的描述统计 第二节 回归分析 第四章 两个尺度变量关系的描述统计 第二节 回归分析 三、非线性回归 (一)非线性回归方程的建立 如果变量间不是简单的线性关系,用线性回归方程来拟合就不能很好地反应变量之间的关系。 图4-9是历年广州春季商品交易会的客商来自国家和地区的数量与成交额的相关散点图。 从图中可以看出,x与y之间并不是直线关系,而是曲线关系。这时再用直线来拟合就不能很好地说明两个变量之间的关系。
第四章 两个尺度变量关系的描述统计 第二节 回归分析 第四章 两个尺度变量关系的描述统计 第二节 回归分析 三、非线性回归 (一)非线性回归方程的建立 可以用曲线来拟合x与y之间的关系,也称为非线性回归。 如果用二次曲线来拟合变量之间的关系,非线性回归方程为: 同线性回归方程的建立一样,也可以采用最小二乘法来建立非线性回归方程。利用偏导函数,求总误差平方和等于零时的各参数值,即可得到方程。 问题是:非线性回归方程的计算量很大,一般借助统计软件。
首先根据散点图中的数据分布来选择拟合的函数。 数据分布呈现明显的曲线特征时,应选择相应的曲线方程。 (二)非线性回归分析的应用 首先根据散点图中的数据分布来选择拟合的函数。 数据分布呈现明显的曲线特征时,应选择相应的曲线方程。 求解出相应的系数,即可建立非线性回归模型。 统计软件SPSS中给出了10种曲线方程作为可选的拟合函数。 (1)Linear:直线 (2) Quadratic:二次曲线 (3) Compound:复合函数曲线 (4) Growth:等比级数曲线 (5) Logarithmic:对数曲线 (6) Cubic:三次曲线 (7) S:S形曲线 (8) Expoential:指数函数曲线 (9)Inverse:反比例函数曲线 (10) Power:幂函数曲线 使用SPSS统计软件进行非线性回归分析的具体操作见尹海洁、刘耳编著的《社会统计软件SPSS15.0 for Windows 简明教程》158页-161页。
除了依据散点图呈现出的变量关系模式之外,还可以同时拟合多种曲线,结合每种曲线的判定系数来选择合适的曲线。 三、非线性回归 (一)非线性回归方程的建立 如何选择合适的非线性方程? 除了依据散点图呈现出的变量关系模式之外,还可以同时拟合多种曲线,结合每种曲线的判定系数来选择合适的曲线。 以图4-9数据为例拟合的直线、二次曲线、三次曲线分别为图4-10中的点划线、虚线和实线。三个拟合函数分别为: 线性回归模型: (R2=0.758) 二次曲线回归模型: (R2=0.935) 三次曲线回归模型: (R2=0.935) 如何选择?结合散点图和判定系数R2,选择三次曲线回归模型。
第四章 两个尺度变量关系的描述统计 本章习题 第四章 两个尺度变量关系的描述统计 本章习题 参见教材习题4-1至4-5。
第五章 类别变量与尺度变量关系的描述统计 1 平均值比较分析 相关比率 2 本章习题 Exe
第五章 类别变量与尺度变量关系的描述统计 在社会学研究中经常要分析类别变量与尺度变量之间的关系。如收入与学历是否相关,初婚年龄与地区是否相关等等。 如果类别变量与尺度变量之间的关系是因果关系,在这样的分析中,类别变量是自变量,尺度变量是因变量。 也把自变量称为影响因素变量,自变量的不同取值称为影响因素的不同水平。 这种变量间的关系也可用统计表、统计图和统计特征值描述。
第五章 类别变量与尺度变量关系的描述统计 第一节 平均值比较分析 一、平均值比较分析的统计思想 第五章 类别变量与尺度变量关系的描述统计 第一节 平均值比较分析 一、平均值比较分析的统计思想 类别变量与尺度变量间的差异在于类别变量取值较少,而尺度变量则有很多取值,有些尺度变量的取值范围还很大。 类别变量与尺度变量之间关系的分析方法是,比较在自变量取不同水平时,因变量的平均值是否有差异。 如果当自变量取不同值时,因变量的平均值有较大差异,则认为自变量与因变量有相关。反之,则无关。 设x为类别变量,有 共个m取值。y为尺度变量。 先按照类别变量将数据分为m类,然后计算每个类别y的平均值,可得 对这些平均值进行比较,如果差异很大,则认为x和y相关。如果这些平均值都相等,或者仅有微小差异,则认为不相关。
第五章 类别变量与尺度变量关系的描述统计 第一节 平均值比较分析 第五章 类别变量与尺度变量关系的描述统计 第一节 平均值比较分析 【例5-1】 某班级进行一次外语水平考试,不同性别的学生得分如表5-1所示。问这个班学生的外语成绩与性别是否相关? 解:已知:n1=n2=15 设男同学的平均成绩为 ,女同学的平均成绩为 。 结论:由于男女生平均成绩差异不大,认为该班级学生性别与考试成绩不相关,即,男女生学习成绩基本没有差异。
第五章 类别变量与尺度变量关系的描述统计 第一节 平均值比较分析 二、统计表、条形图与线形图 (一)统计表 第五章 类别变量与尺度变量关系的描述统计 第一节 平均值比较分析 二、统计表、条形图与线形图 (一)统计表 类别变量与尺度变量之间的关系可以用统计表进行描述。
第五章 类别变量与尺度变量关系的描述统计 第一节 平均值比较分析 (二)条形图与线形图 1、条形图 第五章 类别变量与尺度变量关系的描述统计 第一节 平均值比较分析 (二)条形图与线形图 1、条形图 类别变量与尺度变量间的关系也可用统计图鲜明地表现出来。用类别变量的每个取值代表一个条,用条的高度代表属于该类别的所有个案在所研究的尺度变量上的平均值。
第五章 类别变量与尺度变量关系的描述统计 第一节 平均值比较分析 (二)条形图与线形图 2、线形图 第五章 类别变量与尺度变量关系的描述统计 第一节 平均值比较分析 (二)条形图与线形图 2、线形图 将图(5-1)中条形顶端的中点用折线相连,就可以绘出两个变量关系的线形图。如图(5-2)所示。
第五章 类别变量与尺度变量关系的描述统计 第二节 相关比率 一、相关比率建构的统计思想 第五章 类别变量与尺度变量关系的描述统计 第二节 相关比率 一、相关比率建构的统计思想 对于不同类别的平均值进行比较,只能粗略地说明类别变量与尺度变量之间是否有相关。要想精确地说明两个变量的相关程度还要用相关系数来描述。 类别变量与尺度变量之间的相关系数被称为相关比率,用eta来表示。相关比率也是基于消减误差比率的思想建构的。 假设已知变量y的平均值,要猜测每个个体y变量的值,只能将每个个体的值都猜测为平均值。这时产生的总误差平方和为:
第五章 类别变量与尺度变量关系的描述统计 第二节 相关比率 一、相关比率建构的统计思想 第五章 类别变量与尺度变量关系的描述统计 第二节 相关比率 一、相关比率建构的统计思想 如果知道y与另一个类别变量x相关,且x有m个取值,每个类别的个案数分别为 在的每个类别上的均值分别为 这时再猜测每个个体y变量的值时要看它属于x的哪个类别,并用这个类别的y的均值 来猜测它,此时的总误差平方和为: 消减误差比例为: PRE即是相关比率的平方,相关比率为:
第五章 类别变量与尺度变量关系的描述统计 第二节 相关比率 二、相关比率的计算 第五章 类别变量与尺度变量关系的描述统计 第二节 相关比率 二、相关比率的计算 【例5-2】在某城市随机抽取45位居民。其文化程度与住房面积的分布如表5-3所示。计算文化程度与住房面积的相关比率。
第五章 类别变量与尺度变量关系的描述统计 第二节 相关比率 二、相关比率的计算 第五章 类别变量与尺度变量关系的描述统计 第二节 相关比率 二、相关比率的计算 【例5-2】在某城市随机抽取45位居民。其文化程度与住房面积的分布如表5-3所示。计算文化程度与住房面积的相关比率。 解:先求不同文化程度的居民的平均住房面积,再求所有居民的平均住房面积,最后代入相关比率的公式即得。 同理,求得: =47.72; =60.27; =62.77; =67.89; =83.8
第五章 类别变量与尺度变量关系的描述统计 第二节 相关比率 二、相关比率的计算 第五章 类别变量与尺度变量关系的描述统计 第二节 相关比率 二、相关比率的计算 【例5-2】在某城市随机抽取45位居民。其文化程度与住房面积的分布如表5-3所示。计算文化程度与住房面积的相关比率。 解:先求不同文化程度的居民的平均住房面积,再求所有居民的平均住房面积,最后代入相关比率的公式即得。 住房面积与文化程度的相关比率是0.496
第五章 类别变量与尺度变量关系的描述统计 本章习题 参见教材习题5-1至5-4。