第七章 因子分析 第一节 引言 第二节 因子分析模型 第三节 因子载荷矩阵求解 第四节 公因子重要性的分析 第五节 实例分析与计算机实现
第一节 引言 一般认为因子分析是从Charles Spearman在1904年发表的文章《对智力测验得分进行统计分析》开始,他提出这种方法用来解决智力测验得分的统计方法。目前因子分析在心理学、社会学、经济学等学科中都取得了成功的应用,是多元统计分析中典型方法之一。 因子分析(factor analysis)也是一种降维、简化数据的技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个“抽象”的变量来表示其基本的数据结构。这几个抽象的变量被称作“因子”,能反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而因子一般是不可观测的潜在变量。
例如,在商业企业的形象评价中,消费者可以通过一系列指标构成的一个评价指标体系,评价百货商场的各个方面的优劣。但消费者真正关心的只是三个方面:商店的环境、商店的服务和商品的价格。这三个方面除了价格外,商店的环境和服务质量,都是客观存在的、抽象的影响因素,都不便于直接测量,只能通过其它具体指标进行间接反映。因子分析就是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。又比如,在研究区域社会经济发展中,描述社会与经济现象的指标很多,过多的指标容易导致分析过程复杂化。一个合适的做法就是从这些关系错综复杂的社会经济指标中提取少数几个主要因子,每一个主要因子都能反映相互依赖的社会经济指标间共同作用,抓住这些主要因素就可以帮助我们对复杂的社会经济发展问题进行深入分析、合理解释和正确评价。
因子分析的内容非常丰富,常用的因子分析类型是R型因子分析和Q型因子分析。R型的因子分析是对变量作因子分析,Q型因子分析是对样品作因子分析。本章侧重讨论R型因子分析。
第二节 因子分析模型 一 因子分析的数学模型 二 因子载荷阵的统计意义
一、因子分析的数学模型
无论是R型或Q型因子分析,都用公共因子F代替X,一般要求m<p,m<n,因此,因子分析与主成分分析一样,也是一种降低变量维数的方法。我们下面将看到,因子分析的求解过程同主成分分析类似,也是从一个协方差阵出发的。 因子分析与主成分分析有许多相似之处,但这两种模型又存在明显的不同。主成分分析的数学模型本质上是一种线性变换,是将原始坐标变换到变异程度大的方向上去,相当于从空间上转换观看数据的角度,突出数据变异的方向,归纳重要信息。而因子分析从本质上看是从显在变量去“提练”潜在因子的过程。正因为因子分析是一个提练潜在因子的过程,因子的个数m取多大是要通过一定规则确定的,并且因子的形式也不是唯一确定的。一般说来,作为“自变量”的因子F1,F2,…,Fm是不可直接观测的。这里我们应该注意几个问题。
二、因子载荷阵的统计意义 前面的因子分析模型中出现了一个概念叫因子载荷矩阵,实际上因子载荷矩阵存在明显的统计意义。为了对因子分析过程和计算结果做详细的解释,我们对因子载荷矩阵的统计意义加以说明。
第三节 因子载荷矩阵求解 一 因子载荷矩阵的求解 二 约相关阵的估计
一、因子载荷矩阵的求解
这样在模型上就解决了从约相关阵R*出发求载荷矩阵A
二、约相关阵的估计
第四节 公因子重要性的分析 一 因子旋转 二 因子得分
一、因子旋转 因子分析的目标之一就是要对所提取的抽象因子的实际含义进行合理解释。有时直接根据特征根、特征向量求得的因子载荷阵难以看出公共因子的含义。例如,可能有些变量在多个公共因子上都有较大的载荷,有些公共因子对许多变量的载荷也不小,说明它对多个变量都有较明显的影响作用。这种因子模型反而是不利于突出主要矛盾和矛盾的主要方面的,也很难对因子的实际背景进行合理的解释。这时需要通过因子旋转的方法,使每个变量仅在一个公共因子上有较大的载荷,而在其余的公共因子上的载荷比较小,至多达到中等大小。这时对于每个公共因子而言(即载荷矩阵的每一列),它在部分变量上的载荷较大,在其它变量上的载荷较小,使同一列上的载荷尽可能地向靠近1和靠近0两极分离。这时就突出了每个公共因子和其载荷较大的那些变量的联系,矛盾的主要方面显现出来了,该公共因子的含义也就能通过这些载荷较大变量做出合理的说明,这样也显示了该公共因子的主要性质。
当m>2时,我们可以逐次对每两个公共因子和进行上述旋转。对公因子Fl和Fk进行旋转,就是对A的第l和k两列进行正交变换,使这两列元素平方的相对方差之和达到最大,而其余各列不变,其正交变换矩阵为
二、因子得分
第五节 实例分析与计算机实现 一 利用SPSS进行因子分析 二 因子分析在市场研究中的应用
一、利用SPSS进行因子分析
(一) 操作步骤 1. 在SPSS窗口中选择Analyze→Data Reduction→Factor,调出因子分析主界面图(7.1),并将变量X1—X13移入Variables框中。 图7.1 因子分析主界面
2. 点击Descriptives按钮,展开相应对话框,见图7 2. 点击Descriptives按钮,展开相应对话框,见图7.2。选择Initial solution复选项。这个选项给出各因子的特征值、各因子特征值占总方差的百分比以及累计百分比。单击Continue按钮,返回主界面。 图7.2 Descriptives子对话框
3. 点击Extraction按钮,设置因子提取的选项,见图7 3. 点击Extraction按钮,设置因子提取的选项,见图7.3。在Method下拉列表中选择因子提取的方法,SPSS提供了七种提取方法可供选择,一般选择默认选项,即“主成分法”。在Analyze栏中指定用于提取因子的分析矩阵,分别为相关矩阵和协方差矩阵。在Display栏中指定与因子提取有关的输出项,如未旋转的因子载荷阵和因子的碎石图。在Extract栏中指定因子提取的数目,有两种设置方法:一种是在Eigenvalues over后的框中设置提取的因子对应的特征值的范围,系统默认值为1,即要求提取那些特征值大于1的因子;第二种设置方法是直接在Number of factors后的矩形框中输入要求提取的公因子的数目。这里我们均选择系统默认选项,单击Continue按钮,返回主界面。
图7.3 Extraction子对话框
4.点击Rotation按钮,设置因子旋转的方法。这里选择Varimax(方差最大旋转),并选择Display栏中的Rotated solution复选框,在输出窗口中显示旋转后的因子载荷阵。单击Continue按钮,返回主界面。 图7.4 Rotation子对话框
5.点击Scores按钮,设置因子得分的选项。选中Save as variables复选框,将因子得分作为新变量保存在数据文件中。选中Display factor score coefficient matrix复选框,这样在结果输出窗口中会给出因子得分系数矩阵。单击Continue按钮返回主界面。 6. 单击OK按钮,运行因子分析过程。 图7.5 Scores子对话框
1. Communalities(给出变量共同度) (二) 主要运行结果解释 1. Communalities(给出变量共同度) 变量共同度反映每个变量对所提取的所有公共因子的依赖程度,此数值是因子载荷阵中每一行的因子载荷量的平方和,提取的因子个数不同,变量共同度也不同。 2. Total Variance Explained(给出各公因子方差贡献表) Initial Eigenvalues给出初始相关矩阵或协差阵矩阵的特征值,用于确定哪些因子应该被提取,共有三项: Total列为各因子对应的特征值,本例中共有四个因子对应的特征值大于1,因此应提取相应的四个公因子;% of Variance列为各因子的方差贡献率;Cumulative %列为各因子的累积方差贡献率,由表7.1可以看出,前四个因子已经可以解释89.651%的方差。 Rotation Sums of Squared Loadings给出提取出的公因子经过旋转后的方差贡献情况。
表7.1 特征根与方差贡献率表
表7.2 旋转前因子载荷阵
表7.3 旋转后因子载荷阵
注意:在因子表达式中的各变量为进行标准化变换后的标准变量,均值为0,标准差为1。 7. 由于我们已经在Scores子对话框中选择了Save as variables复选框,因此,因子得分已经作为新的变量保存在数据文件中,变量名分别为fac1_1、fac2_1、fac3_1和fac4_1。此后,我们还可以利用因子得分进行其他的统计分析。
表7.4 因子得分系数矩阵
二、因子分析在市场研究中的应用 表7.5是研究消费者对购买牙膏偏好的调查数据。通过市场的拦截访问,用7级量表询问受访者对以下陈述的认同程度(1表示非常不同意,7表示非常同意)。 V1:购买预防蛀牙的牙膏是重要的; V2:我喜欢使牙齿亮泽的牙膏; V3:牙膏应当保护牙龈; V4:我喜欢使口气清新的牙膏; V5:预防坏牙不是牙膏提供的一项重要利益; V6:购买牙膏时最重要的考虑是富有魅力的牙齿。
表7.5 牙膏属性评分得分表
将表7.5中的数据通过SPSS进行因子分析,得到相关结果是: 1. 特征根和累计贡献率 表7.6 方差贡献率表
2.因子的含义 从表7.6可以看出,提取两个因子累计方差贡献率就达到82%,第三个特征根相比下降较快,因此我们选取两个公共因子。 为了得到意义明确的因子含义,我们将因子载荷阵进行方差最大法旋转,得到旋转后的因子载荷矩阵如下表7.7。 表7.7 旋转后因子载荷矩阵
从因子载荷阵可以看出:因子1与V1(预防蛀牙),V3(保护牙龈),V5(预防坏牙)相关性强,其中V5的载荷是负数,是由于这个陈述是反向询问的;因子2与V2(牙齿亮泽),V4(口气清新),V6(富有魅力)的相关系数相对较高。因此,我们命名因子1为“护牙因子”,是人们对牙齿的保健态度;因子2是“美牙因子”,说明人们“‘通过牙膏美化牙齿’影响社交活动”的重视。从这两方面分析,对牙膏生产企业开发新产品都富有启发意义。
总结 因子分析的基本思想 根据变量间相关性大小把变量分组,使得同组内的变量间的相关性(共性)较高,并用一个因子来代表这个组的变量,而不同组的变量相关性较低(个性) 因子分析的类型 探索性(exploratory)和确定性(confirmatory)
本章结束