Presentation is loading. Please wait.

Presentation is loading. Please wait.

第9章 因子分析 factor analysis

Similar presentations


Presentation on theme: "第9章 因子分析 factor analysis"— Presentation transcript:

1 第9章 因子分析 factor analysis
SPSS 16实用教程 第9章 因子分析 factor analysis 艾对元: QQ:

2 因子分析定义数学模型 9.1 SPSS中实现过程 9.2

3 因子分析是将现实生活中众多相关、重叠的信息进行合并和综合,将原始的多个变量和指标变成较少的几个综合变量和综合指标,以利于分析判定。本章介绍因子分析的定义、因子分析的数学模型,以及因子分析在SPSS中的实现过程。

4 9.1 因子分析的定义和数学模型 统计学上的定义 定义:在社会、政治、经济和医学等领域的研究中往往需要对反映事物的多个变量进行大量的观察,收集大量的数据以便进行分析,寻找规律。在大多数情况下,许多变量之间存在一定的相关关系。 因此,有可能用较少的综合指标分析存在于各变量中的各类信息,而各综合指标之间彼此是不相关的,代表各类信息的综合指标称为因子。因子分析就是用少数几个因子来描述许多指标或因素之间的联系,以较少几个因子反映原资料的大部分信息的统计学方法。

5 因子分析有如下特点。 (1)因子变量的数量远少于原有的指标变量的数量,对因子变量的分析能够减少分析中的计算量。
(2)因子变量不是对原有变量的取舍,而是根据原始变量的信息进行重新组构,它能够反映原有变量大部分的信息。 (3)因子变量之间不存在线性相关关系,对变量的分析比较方便。 (4)因子变量具有命名解释性,即该变量是对某些原始变量信息的综合和反映。

6 数学模型

7

8

9 因子分析中的几个概念 1.因子载荷 2.变量共同度 3.公共因子Fj的方差贡献

10 因子分析的4个基本步骤 因子分析有两个核心问题:一是如何构造因子变量;二是如何对因子变量进行命名解释。因子分析有下面4个基本步骤。 (1)确定待分析的原有若干变量是否适合于因子分析。 (2)构造因子变量。 (3)利用旋转使得因子变量更具有可解释性。 (4)计算因子变量的得分。

11 9.1.4 确定待分析的原有若干变量是否适合于因子分析
因子分析是从众多的原始变量中构造出少数几个具有代表意义的因子变量,这里面有一个潜在的要求,即原有变量之间要具有比较强的相关性。如果原有变量之间不存在较强的相关关系,那么就无法从中综合出能反映某些变量共同特性的少数公共因子变量来。因此,在因子分析时,需要对原有变量作相关分析。

12 最简单的方法就是计算变量之间的相关系数矩阵。如果相关系数矩阵在进行统计检验中,大部分相关系数都小于0
最简单的方法就是计算变量之间的相关系数矩阵。如果相关系数矩阵在进行统计检验中,大部分相关系数都小于0.3,并且未通过统计检验,那么这些变量就不适合于进行因子分析。 1.巴特利特球形检验(Bartlett Test of Sphericity) 2.反映像相关矩阵检验(Anti-image correlation matrix) 3.KMO(Kaiser-Meyer-Olkin)检验

13 构造因子变量 因子分析中有多种确定因子变量的方法,如基于主成分模型的主成分分析法和基于因子分析模型的主轴因子法、极大似然法、最小二乘法等。其中基于主成分模型的主成分分析法是使用最多的因子分析方法之一。下面以该方法为对象进行分析。

14

15

16

17

18 因子变量的命名解释

19 在实际分析工作中,主要是通过对载荷矩阵A的值进行分析,得到因子变量和原变量的关系,从而对新的因子变量进行命名。

20

21 计算因子得分 计算因子得分是因子分析的最后一步。因子变量确定以后,对每一样本数据,希望得到它们在不同因子上的具体数据值,这些数值就是因子得分,它和原变量的得分相对应。有了因子得分,在以后的研究中,就可以针对维数少的因子得分来进行。

22

23 9.2 SPSS中实现过程 9.2.1 SPSS中实现步骤  研究问题
 研究问题 表9-2所示为20名大学生关于价值观的9项测验结果,包括合作性、对分配的看法、行为出发点、工作投入程度、对发展机会的看法、社会地位的看法、权力距离、对职位升迁的态度、以及领导风格的偏好。

24 表9-2 20名大学生的9项测验结果 合作性 分 配 出发点 工作投入 发展机会 社会地位 权力距离 职位升迁 领导风格 16 13 18
表9-2 20名大学生的9项测验结果 合作性 分 配 出发点 工作投入 发展机会 社会地位 权力距离 职位升迁 领导风格 16 13 18 17 15 19 14 20

25  实现步骤 图9-1 在菜单中选择“Factor”命令

26 图9-2 “Factor Analysis”对话框

27 图9-3 “Factor Analysis:Descriptives”对话框

28 图9-4 “Factor Analysis:Extraction”对话框

29 图9-5 “Factor Analysis:Rotation”对话框

30 图9-6 “Factor Analysis:Facfor Scores”对话框

31 图9-7 “Factor Analysis:Options”对话框

32 SPSS结果解释 (1)SPSS输出结果文件中的第一部分如下表所示。

33 (2)SPSS输出结果文件中的第二部分如下表所示。

34 (4)SPSS输出结果文件中的第四部分如下表所示。

35 (6)SPSS输出结果文件中的第六部分如下表所示。

36 (7)SPSS输出结果文件中的第七部分为Total Variance Explained表格。如下表所示。

37 (8)SPSS输出结果文件中的第八部分如图9-8所示。

38 (9)SPSS输出结果文件中的第九部分如下表所示。

39 (10)SPSS输出结果文件中的第十部分如下表所示。

40 (12)SPSS输出结果文件中的第十二部分如图9-9所示。

41 (13)SPSS输出结果文件中的第十三部分如下表所示。

42

43 讨论 因子分析是对现实生活中众多的相关、重叠信息进行合并和综合,它以最少的信息丢失,将原始的众多变量和指标变成较少的几个综合变量,以利于分析判定。 在研究中,因子分析得到的结果经常用于综合判定。

44 小 结 因子分析是由Charles Spearman在1904年首次提出,其在某种程度上可以被看成是主成分分析的推广和扩展。因子分析就是用少量几个因子来描述许多指标或因素之间的联系,以较少的几个因子反应原资料的大部分信息的统计方法。 因子分析有两个核心问题:一是如何构造变量,二是如何对因子变量命名解释。因子分析的基本步骤有四步:(1)确定带分析的原有若干变量是否适于因子分析;(2)构造因子变量;(3)利用旋转使得因子变量更具有可解释性;(4)计算因子变量得分。

45 汇报什么? 假定你是一个公司的财务经理,掌握了公司的所有数据,比如固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等。 如果让你向上面介绍公司状况,你能够把这些指标和数字都原封不动地摆出去吗? 当然不能。 你必须要把各个方面作出高度概括,用一两个指标简单明了地把情况说清楚。

46 主成分分析 每个人都会遇到有很多变量的数据。 比如全国或各个地区的带有许多经济和社会变量的数据;各个学校的研究、教学等各种变量的数据等等。
这些数据的共同特点是变量很多,在如此多的变量之中,有很多是相关的。人们希望能够找出它们的少数“代表”来对它们进行描述。 本章就介绍两种把变量维数降低以便于描述、理解和分析的方法:主成分分析(principal component analysis)和因子分析(factor analysis)。实际上主成分分析可以说是因子分析的一个特例。在引进主成分分析之前,先看下面的例子。

47 成绩数据(student.sav) 100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。

48 对于我们的数据,SPSS输出为 这里的Initial Eigenvalues就是这里的六个主轴长度,又称特征值(数据相关阵的特征值)。头两个成分特征值累积占了总方差的81.142%。后面的特征值的贡献越来越少。

49 特征值的贡献还可以从SPSS的所谓碎石图看出

50 怎么解释这两个主成分。前面说过主成分是原始六个变量的线性组合。是怎么样的组合呢?SPSS可以输出下面的表。
这里每一列代表一个主成分作为原来变量线性组合的系数(比例)。比如第一主成分作为数学、物理、化学、语文、历史、英语这六个原先变量的线性组合,系数(比例)为-0.806, , , 0.893, 0.825, 0.836。

51 如用x1,x2,x3,x4,x5,x6分别表示原先的六个变量,而用y1,y2,y3,y4,y5,y6表示新的主成分,那么,原先六个变量x1,x2,x3,x4,x5,x6与第一和第二主成分y1,y2的关系为: X1=-0.806y y2 X2=-0.674y y2 X3=-0.675y y2 X4= 0.893y y2 x5= 0.825y y2 x6= 0.836y y2 这些系数称为主成分载荷(loading),它表示主成分和相应的原先变量的相关系数。 比如x1表示式中y1的系数为-0.806,这就是说第一主成分和数学变量的相关系数为-0.806。 相关系数(绝对值)越大,主成分对该变量的代表性也越大。可以看得出,第一主成分对各个变量解释得都很充分。而最后的几个主成分和原先的变量就不那么相关了。

52 可以把第一和第二主成分的载荷点出一个二维图以直观地显示它们如何解释原来的变量的。这个图叫做载荷图。

53 该图左面三个点是数学、物理、化学三科,右边三个点是语文、历史、外语三科。图中的六个点由于比较挤,不易分清,但只要认识到这些点的坐标是前面的第一二主成分载荷,坐标是前面表中第一二列中的数目,还是可以识别的。

54 对于我们的数据,SPSS因子分析输出为 这里,第一个因子主要和语文、历史、英语三科有很强的正相关;而第二个因子主要和数学、物理、化学三科有很强的正相关。因此可以给第一个因子起名为“文科因子”,而给第二个因子起名为“理科因子”。从这个例子可以看出,因子分析的结果比主成分分析解释性更强。

55 这两个因子的系数所形成的散点图(虽然不是载荷,在SPSS中也称载荷图,
可以直观看出每个因子代表了一类学科

56 计算因子得分 可以根据前面的因子得分公式(因子得分系数和原始变量的标准化值的乘积之和),算出每个学生的第一个因子和第二个因子的大小,即算出每个学生的因子得分f1和f2。 人们可以根据这两套因子得分对学生分别按照文科和理科排序。当然得到因子得分只是SPSS软件的一个选项(可将因子得分存为新变量、显示因子得分系数矩阵)

57 因子分析和主成分分析的一些注意事项 可以看出,因子分析和主成分分析都依赖于原始变量,也只能反映原始变量的信息。所以原始变量的选择很重要。
 可以看出,因子分析和主成分分析都依赖于原始变量,也只能反映原始变量的信息。所以原始变量的选择很重要。 另外,如果原始变量都本质上独立,那么降维就可能失败,这是因为很难把很多独立变量用少数综合的变量概括。数据越相关,降维效果就越好。 在得到分析的结果时,并不一定会都得到如我们例子那样清楚的结果。这与问题的性质,选取的原始变量以及数据的质量等都有关系 在用因子得分进行排序时要特别小心,特别是对于敏感问题。由于原始变量不同,因子的选取不同,排序可以很不一样。

58 DOE & EXCEL, SPSS application
艾对元(AI Duiyuan) School: Food science & engineering, GSAU. Thank you Time: october. 19th, 2011.


Download ppt "第9章 因子分析 factor analysis"

Similar presentations


Ads by Google