参见郭志刚主编,《社会统计分析方法—SPSS软件应用》 第五章 因子分析 第一节 因子分析简介 第二节 基本原理 第三节 求解初始因子 第四节 解释因子 第五节 因子值及其应用 第六节 研究实例 参见郭志刚主编,《社会统计分析方法—SPSS软件应用》 第三章, 中国人民大学出版社1999
第一节 因子分析简介 因子分析( Factor Analysis ,也称因素分析)是一种数据化简技术 第一节 因子分析简介 因子分析( Factor Analysis ,也称因素分析)是一种数据化简技术 1、考察一组变量之间的协方差或相关系数结构 2、解释这些变量与为数较少的因子(即不可观测的潜变量) 之间的关联
分类 探索性因子分析( Exploratory Factor Analysis ,EFA) 验证性因子分析(Confirmatory Factory Analysis ,CFA ) ——也称为实证性因子分析、证实性因子分析、确定性因子分析) 。
共同点 1、理论基础:普通因子分析模型 2、主要目的:浓缩数据 ——通过对诸多变量的相关性研究,用假想的少数几个变量(因子、潜变量) 来表示原来变量(观测变量) 的主要信息。
不同 1、基本思想不同 因子分析的基本思想是要寻找公共因子,以达到数据化简的目的。 探索性因子分析:找出影响观测变量的因子个数,以及各个因子和各个观测变量之间的相关程度,以试图揭示一套相对比较大的变量的内在结构。 研究者的假定是每个指标变量都与某个因子匹配,而且只能通过因子载荷凭知觉推断数据的因子结构。
验证性因子:决定事前定义因子的模型拟合实际数据的能力,以试图检验观测变量的因子个数和因子载荷是否与基于预先建立的理论的预期一致。 指标变量是基于先验理论选出的,而因子分析是用来看它们是否如预期的一样。 先验假设:每个因子都与一个具体的指示变量子集对应,并且至少要求预先假设模型中因子的数目,但有时也预期哪些变量依赖哪个因子。
2、应用前提不同 探索性因子分析没有先验信息,而验证性因子分析有先验信息。 探索性因子分析是在事先不知道影响因子的基础上,完全依据样本数据,利用统计软件以一定的原则进行因子分析,通过因子载荷凭知觉推断数据的因子结构,最后得出因子的过程。 适合于在没有理论支持的情况下对数据的试探性分析。 这就需要用验证性因子分析来做进一步检验
验证性因子分析基于预先建立的理论,要求事先假设因子结构,其先验假设是每个因子都与一个具体的指示变量子集对应,以检验这种结构是否与观测数据一致。 也就是在上述数学模型中,首先要根据先验信息判定公共因子数m ,同时还要根据实际情况将模型中某些参数设定为某一定值。 这样,验证性因子分析也就充分利用了先验信息,在已知因子的情况下检验所搜集的数据资料是否按事先预定的结构方式产生作用。
3、理论假设不同 探索性因子分析的假设主要包括: ①所有的公共因子都相关(或都不相关) ; ②所有的公共因子都直接影响所有的观测变量; ③特殊(唯一性) 因子之间相互独立; ④所有观测变量只受一个特殊(唯一性) 因子的影响; ⑤公共因子与特殊因子(唯一性) 相互独立。
验证性因子分析克服了探索性因子分析假设条件约束太强的缺陷,其假设主要包括: ①公共因子之间可以相关,也可以无关; ②观测变量可以只受一个或几个公共因子的影响,而不必受所有公共因子的影响; ③特殊因子之间可以相关,还可以出现不存在误差因素的观测变量; ④公共因子与特殊因子之间相互独立
4、分析步骤不同 探索性因子分析主要有以下七个步骤: ①收集观测变量:通常采用抽样的方法,按照实际情况收集观测变量数据。 ②构造相关矩阵:根据相关矩阵可以确定是否适合进行因子分析。 ③确定因子个数:可根据实际情况事先假定因子个数,也可以按照特征根大于1 的准则或碎石准则来确定因子个数。 ④提取因子:可以根据需要选择合适的因子提取方法,如主成分方法、加权最小平方法、极大似然法等。
⑤因子旋转:由于初始因子综合性太强,难以找出实际意义,因此一般都需要对因子进行旋转(常用的旋转方法有正交旋转、斜交旋转等) ,以便于对因子结构进行合理解释。 ⑥解释因子结构:可以根据实际情况及负载大小对因子进行具体解释。 ⑦计算因子得分:可以利用公共因子来做进一步的研究,如聚类分析、评价等。
验证性因子分析主要有以下六个步骤: ①定义因子模型:包括选择因子个数和定义因子载荷。因子载荷可以事先定为0 、或者其它自由变化的常数,或者在一定的约束条件下变化的数(比如与另一载荷相等) 。 ②收集观测值:根据研究目的收集观测值。 ③获得相关系数矩阵:根据原始资料数据获得变量协方差阵。 ④拟合模型:这里需要选择一种方法(如极大似然估计、渐进分布自由估计等) 来估计自由变化的因子载荷。
⑤评价模型:当因子模型能够拟合数据时,因子载荷的选择要使模型暗含的相关矩阵与实际观测矩阵之间的差异最小。常用的统计参数有:卡方拟合指数(χ2 ) 、比较拟合指数(CFI) 、拟合优度指数( GFI) 和估计误差均方根( RMSEA) 。 根据Bentler(1990) 的建议标准,χ2 ≤3. 0 、CFI ≥0. 90 、GFI ≥0. 85 、RMSE ≤0. 05 ,则表明该模型的拟合程度是可接受的。 ⑥修正模型:如果模型拟合效果不佳,应根据理论分析修正或重新限定约束关系,对模型进行修正,以得到最优模型。
5、主要应用范围不同 探索性因子分析: ①寻求基本结构,解决多元统计分析中的变量间强相关问题; ②数据化简。
验证性因子分析允许研究者将观察变量依据理论或先前假设构成测量模式,然后评价此因子结构和该理论界定的样本资料间符合的程度。 因此,主要应用于以下三个方面: ①验证量表的维度或面向性( dimensionality) ,或者称因子结构,决定最有效因子结构; ②验证因子的阶层关系; ③评估量表的信度和效度。
假设观测变量之间相关是因为他们共享公因子。 探索性因子分析思路 假设观测变量之间相关是因为他们共享公因子。 很多观测变量 少数因子 代替 浓缩
目的:化简数据 方式:研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量(因子)表示基础数据结构 实质:研究如何以最少的信息丢失把众多观测变量浓缩为少数几个因子
xi = ai1 f1 + ai2 f2 + …+ aim fm + ui ( i = 1,2,…,k) 第二节 (探索性)因子分析原理 一、模型 将每个观测变量用一组因子的线性组合表示: xi = ai1 f1 + ai2 f2 + …+ aim fm + ui ( i = 1,2,…,k) (1) f1 ,f2 ,…,fm 叫做公因子(Common factors),它们是各个观测变量所共有的因子,解释了变量之间的相关。 (2) ui称为特殊因子(Unique factor),它是每个观测变量所特有的因子,相当于多元回归中的残差项,表示该变量不能被公因子所解释的部分。 (3) aij 称为因子负载(Factor loadings),它是第i个变量在第j个公因子上的负载,相当于多元回归分析中的标准回归系数(i=1,…,k; j=1,…,m)。
因子分析模型 公因子个数小于等于观测变量数
二、概念 1、因子负载 (factor loading) 反映了因子和变量之间的相关程度,当公因子之间完全不相关时,等于变量和因子之间的相关系数。 大多数情况下,人们往往假设公因子之间的关系是彼此正交的(orthogonal),即不相关——因子负载不仅表示了观测变量如何由因子线性表示,而且反映了因子和变量间的相关程度
2、公因子方差(Communality) 当公因子之间彼此正交时,公因子方差等于和该变量有关的因子负载的平方和,用公式表示为: 又称共同度、公共方差,指观测变量方差中由公因子决定的比例。 当公因子之间彼此正交时,公因子方差等于和该变量有关的因子负载的平方和,用公式表示为: hi2 = ai12 + ai22 + … + aim2 (行平均和)
值越大,变量能被因子说明的程度越高 意义:说明如果用公因子替代观测变量后,原来每个变量的信息被保留的程度 变量方差=公因子方差+特殊因子方差
公因子累积解释方差比例,判断因子分析效果 3、因子贡献(Contributions) 反映每个公因子对数据的解释能力,用该因子所解释的总方差来衡量。 因子贡献:因子负载列平方和 即:数据输出中的特征值 公因子累积解释方差比例,判断因子分析效果 更常用指标:每个因子所解释的方差(因子贡献)占所有变量总方差的比例 (即:因子贡献或特征值除以变量个数——即总方差,因为标准化变量的标准差和方差均为1) 衡量公因子的相对重要性
1、检查相关矩阵是否适合做因子分析(变量间应高度相关 >0.3) 2、提取因子 3、因子旋转 4、计算因子值 三、因子分析的步骤 变量:间距测度及以上。 样本规模:至少是变量数的5倍 1、检查相关矩阵是否适合做因子分析(变量间应高度相关 >0.3) 2、提取因子 3、因子旋转 4、计算因子值
该矩阵中各项值应该比较小。因为这说明变量间存在大量的重叠影响(公因子) 判断数据是否适合做 因子分析 该矩阵中各项值应该比较小。因为这说明变量间存在大量的重叠影响(公因子) 1、反映象相关矩阵 (Anti-image correlation matrix)。 其元素等于负的偏相关系数。 2、巴特利特球体检验(Bartlett test of sphericity) 零假设为相关矩阵是单位阵(说明变量间不相关) 3、KMO (Kaiser-Meyer-Olkin Measure of Sampling Adequacy) 测度。 该测度从比较观测变量之间的简单相关系数和偏相关系数的相对大小出发,【0,1】。当所有变量之间的偏相关系数的平方和,远远小于简单相关系数的平方和时,KMO值接近1. 0.9以上,非常好; 0.6,差; 0.8以上,好; 0.5,很差; 0.7,一般; 0.5 以下,不能接受 应该通过检验
数(纯)量矩阵(标量矩阵) 为数量矩阵或标量阵。 当 时,记作 全为1 称为单位矩阵(或单位阵).有时也记作E.
第三节 求解初始因子 目的:确定能够解释观测变量之间相关关系的最小因子个数 主成分分析:独立的数据化简技术。因子分析将其结果作为初始因子解(特征值) 公因子分析:主轴因子法、极大似然法、最小二乘法、alpha法
一、主成分分析法 把给定的一组(k个)相关变量通过线性变换转换成另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列。 转换中保持变量的总方差不变,使第一个变量具有最大的方差,称为第一主成分,第二个变量方差次大,且和第一个变量不相关,称为第二主成分,依次类推,k个变量有k个主成分
1、主成分的几何意义 最长的轴:第一主成分 次长的轴:第二主成分 ……
主成分是观测变量的线性组合,线性组合的权数即为相应的单位特征向量中的元素 2、主成分的求解 数学工具:特征方程 做法:通过求解观测变量相关矩阵的特征方程,得到k个特征值和对应的k个单位特征向量,把k个特征值从大到小排列,它们分别代表k个主成分所解释的观测变量的方差 主成分是观测变量的线性组合,线性组合的权数即为相应的单位特征向量中的元素
3、确定因子个数 1)特征值准则:保留特征值大于等于1的因子 2)碎石检验准则(SCREE TEST CRITERION) ——因子特征值随因子个数变化的散点图 曲线变平开始的前一点被认为是提取的最大因子数 因子累计解释方差的比例超过70-80%。 3)直接指定因子个数。
主成分法 公因子法 二、公因子分析法 从解释变量的方差出发,假设变量的方差能完全被主成分所解释 方法选择 公因子方差的估计 主轴因子法 最小二乘法 最大似然法 a因子提取法 映象分析法 二、公因子分析法 解很接近 主成分法 公因子法 从解释变量的方差出发,假设变量的方差能完全被主成分所解释 从解释变量之间的相关关系出发,假设观测变量之间的相关能完全被公因子解释 但变量的方差不一定完全被公因子解释,这样每个变量被公因子所解释的方差不再是1,而是公因子方差 求解因子解时,只考虑公因子方差 依据:目的+对变量方差的了解程度 ——以最少的因子最大程度地解释原始数据中的方差 / 知道特殊因子和误差带来的方差很小 主成分分析法 ——为了确定数据结构,而且并不了解变量方差 公因子分析法 方法选择
第四节 解释因子 一、思路 求得因子解后,大多数因子都和很多变量有关,无法很好地说明其实际含义
因子旋转的目的: 通过改变坐标轴的位置,重新分配各个因子所解释的方差的比例,使因子结构更简单,更易于解释。 因子旋转不改变模型对数据的拟合程度,不改变每个变量的公因子方差
因子旋转方法 Rotation 正交旋转(Orthogonal Rotation): 因子轴之间仍然保持90度角,即因子之间是不相关的。 斜交旋转(Oblique Rotation): 因子轴之间不必是90度角,即因子之间可以是相关的。
二、正交旋转方法 目标:简化因子负载矩阵的行和列,使因子负载向0,1两极分化 四次方最大法-QUARTIMAX 方差最大法-VARIMAX 等量最大法-EQUIMAX
三、斜交旋转方法 因子模式和因子结构 因子模式(Factor pattern)矩阵:因子负载矩阵 因子结构(Factor structure)矩阵:因子和变量之间的相关矩阵。 在斜交旋转中,因子负载不再等于因子和变量之间的相关系数,因子结构和因子模式之间是有区别的。 二者关系: S = BW S 因子结构矩阵 B 因子模式矩阵 W 斜交因子之间的相关系数矩阵 斜交因子解
数据化简,把很多变量浓缩成少数几个因子,对因子的确切含义不在意——正交旋转 得到理论上有意义的因子——斜交 四、选择旋转方法 数据化简,把很多变量浓缩成少数几个因子,对因子的确切含义不在意——正交旋转 得到理论上有意义的因子——斜交 做法:从简化因子负载矩阵的每列出发,使和每个因子有关的负载平方的方差最大 意义:希望通过因子旋转后,使每个因子上的负载尽可能地拉开距离,趋于0或1 理论上斜交优于正交 但实际上正交应用更为广泛 默认:方差最大法
得到最后因子解后,我们希望给每个因子 一个有意义的解释。 四、解释因子 得到最后因子解后,我们希望给每个因子 一个有意义的解释。 解释因子主要是借助于因子负载矩阵,首先找出在每个因子上有显著负载的变量,根据这些变量的意义给因子一个合适的名称,具有较高负载的变量对因子名称的影响更大。 实际中,一般认为绝对值大于0.3 的因子负载就是显著的。
有了因子值,就可以把因子作为变量来用,进行其他的统计分析 第五节 因子值及其应用 因子值(Factor scores): 因子在每个样本案例上的值。 xji是第j个变量在第i个案例上的值,wpj是第p个因子和第j个变量之间的因子值系数 有了因子值,就可以把因子作为变量来用,进行其他的统计分析
理解 因子分析模型是用因子的线性组合来表示一个观测变量,因子负载是该线性组合的权数(标准化回归系数) 求因子值的过程正好相反,它通过观测变量的线性组合来表示因子,因子值是观测变量的加权平均。 因为各个变量在因子上的负载不同,所以不能把变量简单的相加,权数的大小表示了变量对因子的重要程度
获得一个最终变量 Y=factor score 1 ×方差解释比例1+ factor score 2 ×方差解释比例2 +…
第六节 研究实例 城市居民信任的构成及影响因素 胡荣 李静雅
———影响村民在村级选举中参与的各因素分析 第六节 研究实例 社会资本与中国农村居民的 地域性自主参与 ———影响村民在村级选举中参与的各因素分析 胡 荣