实验十 SPSS 因子分析.

Slides:



Advertisements
Similar presentations
因数与倍数 2 、 5 的倍数的特征
Advertisements

摆一摆,想一想. 棋子个数数的个数 摆出的数 、 10 2 、 11 、 20 3 、 12 、 21 、 30 4 、 13 、 22 、 31 、 40 5 、 14 、 23 、 32 、 41 、
3 的倍数特征 抢三十
3 的倍数的特征 的倍数有 : 。 5 的倍数有 : 。 既是 2 的倍数又是 5 的倍数有 : 。 12 , 18 , 20 , 48 , 60 , 72 , , 25 , 60 ,
第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
全微分 教学目的:全微分的有关概念和意义 教学重点:全微分的计算和应用 教学难点:全微分应用于近似计算.
2 、 5 的倍数特征 集合 2 的倍数(要求) 在百数表上依次将 2 的倍数找出 并用红色的彩笔涂上颜色。
统 计 学 (第三版) 2008 作者 贾俊平 统计学.
3.4 空间直线的方程.
圆的一般方程 (x-a)2 +(y-b)2=r2 x2+y2+Dx+Ey+F=0 Ax2+Bxy+Cy2+Dx+Ey+ F=0.
《解析几何》 乐山师范学院 0 引言 §1 二次曲线与直线的相关位置.
第五章 二次型. 第五章 二次型 知识点1---二次型及其矩阵表示 二次型的基本概念 1. 线性变换与合同矩阵 2.
一、能线性化的多元非线性回归 二、多元多项式回归(线性化)
一、二阶行列式的引入 用消元法解二元线性方程组. 一、二阶行列式的引入 用消元法解二元线性方程组.
10.2 立方根.
参见郭志刚主编,《社会统计分析方法—SPSS软件应用》
第一章 行列式 第五节 Cramer定理 设含有n 个未知量的n个方程构成的线性方程组为 (Ⅰ) 由未知数的系数组成的n阶行列式
第七章 因子分析 第一节 引言 第二节 因子分析模型 第三节 因子载荷矩阵求解 第四节 公因子重要性的分析 第五节 实例分析与计算机实现.
§5.3 定积分的换元法 和分部积分法 一、 定积分的换元法 二、 定积分的分部积分法 三、 小结、作业.
第5章 定积分及其应用 基本要求 5.1 定积分的概念与性质 5.2 微积分基本公式 5.3 定积分的换元积分法与分部积分法
不确定度的传递与合成 间接测量结果不确定度的评估
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
第一章 商品 第一节 价值创造 第二节 价值量 第三节 价值函数及其性质 第四节 商品经济的基本矛盾与利己利他经济人假设.
第12章 因素分析  本章的學習主題  1. 因素分析的主要概念及目的 2. 主成份分析與一般因素分析之差異 3. 因素分析轉軸的概念
第六章 因子分分析 §6.1 因子分析的基本理论 §6.2 因子载荷的求解 §6.3 因子分析的步骤与逻辑框图 §6.4 因子分析的上机实现
第9章 因子分析 factor analysis
元素替换法 ——行列式按行(列)展开(推论)
第一讲: 基本流程(1).
计算机数学基础 主讲老师: 邓辉文.
第十章 方差分析.
第二章 数据预处理 2013年9月18日.
工业机器人技术基础及应用 主讲人:顾老师
第一章 函数与极限.
Partial Differential Equations §2 Separation of variables
3.8.1 代数法计算终点误差 终点误差公式和终点误差图及其应用 3.8 酸碱滴定的终点误差
介绍: 1、主成分分析与因子分析的概念 2、主成分分析与因子分析的过程
模型分类问题 Presented by 刘婷婷 苏琬琳.
线 性 代 数 厦门大学线性代数教学组 2019年4月24日6时8分 / 45.
第二章 主成分分析 §2.1 主成分分析的基本思想与理论 §2.2 主成分分析的上机实现 2019/4/23 1
汇报什么? 任务:请你向上面介绍公司状况。
用计算器开方.
多元统计分析及R语言建模 第9章 因子分析及R使用 王斌会 教授.
例7.1 (主成分分析) xi :5支股票的周回报率 x1 :JP Morgan x2 :Citibank x3 :Wells Fargo
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
第4章 Excel电子表格制作软件 4.4 函数(一).
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
第4课时 绝对值.
学习任务三 偏导数 结合一元函数的导数学习二元函数的偏导数是非常有用的. 要求了解二元函数的偏导数的定义, 掌握二元函数偏导数的计算.
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
第十七章 因素分析 Factor Analysis 第十七章 因素分析.
分数再认识三 真假带分数的练习课.
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
线 性 代 数 厦门大学线性代数教学组 2019年5月12日4时19分 / 45.
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
概率论与数理统计B.
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
§2 方阵的特征值与特征向量.
第六章 Excel的应用 五、EXCEL的数据库功能 1、Excel的数据库及其结构 2、Excel下的数据排序 (1)Excel的字段名行
回归分析实验课程 (实验三) 多项式回归和定性变量的处理.
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
找 因 数.
第三节 数量积 向量积 混合积 一、向量的数量积 二、向量的向量积 三、向量的混合积 四、小结 思考题.
位似.
数学模型实验课(二) 最小二乘法与直线拟合.
§4.5 最大公因式的矩阵求法( Ⅱ ).
§2 自由代数 定义19.7:设X是集合,G是一个T-代数,为X到G的函数,若对每个T-代数A和X到A的函数,都存在唯一的G到A的同态映射,使得=,则称G(更严格的说是(G,))是生成集X上的自由T-代数。X中的元素称为生成元。 A变, 变 变, 也变 对给定的 和A,是唯一的.
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
Presentation transcript:

实验十 SPSS 因子分析

本章内容 10.1 因子分析概述 10.2 因子分析的基本内容 10.3 因子分析的基本操作及案例

10.1 因子分析概述 10.1.1因子分析的意义 在实际问题的分析过程中,人们往往希望尽可能多的搜集关于分析对象的数据信息,进而能够比较全面的、完整的把握和认识它。于是,对研究对象的描述就会有很多指标。但是效果如何呢?如果搜集的变量过多,虽然能够比较全面精确的描述事物,但在实际建模时这些变量会给统计分析带来计算量大和信息重叠的问题。而消减变量个数必然会导致信息丢失和信息不完整等问题的产生。 因子分析是解决上述问题的一种非常有效的方法。它以最少的信息丢失,将原始众多变量综合成较少的几个综合指标(因子),能够起到有效降维的目的。

因子分析的特点 1、因子个数远远少于原有变量的个数; 2、因子能够反应原有变量的绝大部分信息; 3、因子之间不存在线性关系; 4、因子具有命名解释性。

10.1.2因子分析的数学模型和相关概念 数学模型 假设原有变量有p个,分别用 表示,且每个变量的均值是0,标准差是1,现将每个原有变量用k(k<p)个因子 的线性组合来表示,即:

在这个数学模型中,F称为公共因子,因为它出现在每个变量的线性表达式中,简称因子。因子可理解为高维空间中互相垂直的k个坐标轴;A称为因子载荷矩阵, 称为因子载荷,是第i个原始变量在第j个因子上的负荷; 称为特殊因子,表示原始变量不能被因子解释的部分。其均值为0,相当于多元线性回归模型中的残差。 因子分析的几个相关概念 1、因子载荷 在因子不相关的前提下,因子载荷是第i个变量与第j个因子的相关系数。因子载荷越大说明因子与变量的相关性越强,所以因子载荷说明了因子对变量的重要作用和程度。

2、变量共同度 变量共同度也称为公共方差。第i个变量的共同度定义为因子载荷矩阵中第i行元素的平方和,是全部因子对变量Xi方差解释说明的比例。即: 3、因子的方差贡献 因子方差贡献是因子载荷矩阵中第j列元素的平方和,反映了第j个因子对原有变量总方差的解释能力。该数值越高,说明相应因子的重要性越高。

10.2 因子分析的基本内容 10.2.1因子分析的基本步骤 1、因子分析的前提条件; 因子分析的前提条件是原始变量之间应存在较强的相关关系。 2、因子提取; 3、使因子更具有命名可解释性; 4、计算各样本的因子得分。

10.2.2因子分析的前提条件 1、计算相关系数并进行统计检验 如果相关系数矩阵中的大部分相关系数小于0.3,那么这些变量不适合进行因子分析。 2、计算反映象相关矩阵:越接近1,相关性越强。

3、Bartlett’s球度检验 以原有变量的相关系数矩阵为出发点,假设相关系数为单位矩阵,如果该检验对应的P值小于给定的显著性水平a,则应拒绝原假设,认为原有变量适合进行因子分析。 4、KMO检验 该统计量取值在0-1之间,越接近于1说明变量间的相关性越强,原有变量适合做因子分析。0.9以上表示非常合适;0.8-0.9表示合适;0.7-0.8表示一般;0.6-0.7表示尚可;0.5-0.6表示不太合适;0.5以下表示极不合适。

10.2.3因子提取和因子载荷矩阵的求解 因子载荷矩阵的求解一般采用主成分法。主成份分析法通过坐标变换的手段,将原有的p个变量标准化后进行线性组合,转换成另一组不相关的变量y,即:

式中的系数按以下原则进行求解: (1) (2) 根据以上原则确定的变量依次为原始变量的第1、第2…第p个主成分。其中第一个主成分在总方差中所占比例最大,其余主成分在总方差中所占比例依次递减,即主成分综合原始变量的能力依次减弱。在主成份的实际应用中,一般只选取前面几个主成分即可,这样既减少了变量的数目,又能够用较少的主成分反映原始变量的绝大部分信息。

可见,主成分分析关键的步骤是如何求出上述方程中的系数。通过方程的推导可以发现,每个方程中的系数向量是原始变量相关系数矩阵的特征值对应的特征向量。具体求解步骤如下: (1)将原有变量进行标准化处理; (2)计算变量的相关系数矩阵; (3)求相关系数矩阵的的特征根 及对应的特征向量

因子分析利用主成分分析得到的p个特征根和对应的特征向量,在此基础上计算因子载荷矩阵: 由于因子分析的目的是减少变量个数,因此在计算因子载荷矩阵时,一般不选取所有特征值,而只选取前k个特征值和特征向量,得到下面包含k个因子的因子载荷矩阵:

因子个数的确定方法: (1)根据特征根确定因子数:一般选取大于1的特征根,还可规定特征根数与特征根值的碎石图并通过观察碎石图确定因子数; (2)根据因子的累计方差贡献率确定因子数:通常选取累计方差贡献率大于85%的特征根个数为因子个数。

例: 成绩数据(student.sav) 100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。

从本例可能提出的问题 能不能把这个数据的6个变量用一两个综合变量来表示呢? 这一两个综合变量包含有多少原来的信息呢? 能不能利用找到的综合变量来对学生排序呢?这一类数据所涉及的问题可以推广到对企业,对学校进行分析、排序、判别和分类等问题。

例中的的数据点是六维的;也就是说,每个观测值是6维空间中的一个点。我们希望把6维空间用低维空间表示。 先假定只有二维,即只有两个变量,它们由横坐标和纵坐标所代表;因此每个观测值都有相应于这两个坐标轴的两个坐标值;如果这些数据形成一个椭圆形状的点阵,那么这个椭圆有一个长轴和一个短轴。在短轴方向上,数据变化很少;在极端的情况,短轴如果退化成一点,那只有在长轴的方向才能够解释这些点的变化了;这样,由二维到一维的降维就自然完成了。

当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就描述了数据的主要变化,而代表短轴的变量就描述了数据的次要变化。 但是,坐标轴通常并不和椭圆的长短轴平行。因此,需要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆的长短轴平行。 如果长轴变量代表了数据包含的大部分信息,就用该变量代替原先的两个变量(舍去次要的一维),降维就完成了。 椭圆(球)的长短轴相差得越大,降维也越有效果。

对于多维变量的情况和二维类似,也有高维的椭球,只不过无法直观地看见罢了。 首先把高维椭球的主轴找出来,再用代表大多数数据信息的最长的几个轴作为新变量;这样,主成分分析就基本完成了。 注意,和二维情况类似,高维椭球的主轴也是互相垂直的。这些互相正交的新变量是原先变量的线性组合,即主成分(principal component)。 正如二维椭圆有两个主轴,三维椭球有三个主轴一样,有几个变量,就有几个主成分。

原则上如果有n个变量,则最多可以提取出n个主成分,但如果将它们全部提取出来就失去了该方法简化数据的实际意义。多数情况下提取出前 2~3个主成分已包含了85%以上的信息,其他的可以忽略不计。 提取出的主成分能包含主要信息即可,不一定非要有准确的实际含义。

9.2.4因子的命名 观察因子载荷矩阵,如果因子载荷的绝对值在第j列的多个行上都有较大的取值,则表明因子fj能够同时解释许多变量的信息,且对每个变量只能揭示较少部分信息,但不能代表任何一个原有变量。这种情况下,因子fj的含义是模糊不清的,为解决这个问题,可通过因子旋转的方式是一个变量值在尽可能少的因子上有比较高的载荷。因子旋转一般采用正交旋转使新生成的变量仍可保持不相关,正交旋转一般采用方差最大法(varimax)。然后再根据各因子对各原始变量的解释程度进行命名。

9.2.5 计算因子得分 在因子分析实际应用中,当因子确定以后,便可计算各因子在每个样本上的具体数值,这些数值称为因子得分,形成的变量称为因子变量。计算因子得分的途径是用原有变量描述因子,第j个因子在第i个样本上的值可表示为: 估计因子得分系数的方法有很多,通常采用最小二乘意义下的回归法进行估计。

9.3 因子分析的基本操作 1、选择菜单Analyze-Data Reduction-Factor,出现主窗口:

2、把参与因子分析的变量选到Variables框中。 3、选择参与因子分析的样本。把作为条件变量的变量指定到Selection Variable框中并单击Value按钮输入变量值,只有满足条件的样本数据才参与因子分析。 4、在主窗口中单击Descriptives按钮指定输出结果。Statistics框中指定输出哪些基本统计量,其中Univariate descriptives表示输出各个变量的基本描述统计量;Initial solution表示输出因子分析的初始解。Correlation Matrix框中指定考察因子分析条件的方法及输出结果,其中Coefficients表示输出相关系数矩阵;Significance levels表示输出相关系数检验的概率p值;Determinant表示输出变量相关系数矩阵的行列式值;Inverse表示输出相关系数矩阵的逆矩阵;Anti-image表示输出反映象相关矩阵;KMO and Bartlett’s test of sphericity表示进行巴特利特球度检验和KMO检验。

5、在主窗口中单击Extraction按钮指定提取因子的方法。在Method框中提供了多种提取因子的方法,其中Principal components是主成分分析法,是SPSS默认的方法;在Analyze框中指定提取因子的依据,其中Correlation matrix为相关系数矩阵,当原有变量存在数量级的差异时,通常选择该选项;Covariance matrix为协方差阵。在Extract框中选择如何确定因子数目:在Eigenvaluse over后输入一个特征根值(默认值为1),SPSS将提取大于该值的特征根;也可在Number of factors框后输入提取因子的个数。在Display框中选择输出哪些与因子提取有关的信息,其中Unrotated factor solution表示输出未旋转的因子载荷矩阵;Scree plot表示输出因子的碎石图。

6、在主窗口中单击Rotation按钮选择因子旋转方法。在Method框中选择因子旋转方法,其中None表示不旋转(默认选项);Varimax为方差最大法;Quartimax为四次方最大法;Equamax为等量最大法;其他为斜交旋转法。在Display框指定输出与因子旋转相关的信息,其中Rotated Solution表示输出旋转后的因子载荷矩阵B;Loading plots表示输出旋转后的因子载荷散点图。

7、在主窗口中单击Scores按钮选择计算因子得分的方法。选中Save as variables项表示将因子得分保存到SPSS变量中,生成几个因子便产生几个SPSS变量。变量名的形式为FACn_m,其中n为因子编号,以数字序号的形式表示;m表示是第几次分析的结果。选中Display factor score coefficient matrix项表示输出因子得分函数中的各因子得分系数。在Method框中指定计算因子得分的方法,其中Regression为回归法。

8、在主窗口中单击Options按钮指定缺失值的处理方法和因子载荷矩阵的输出方法。在Missing Values框中指定如何处理缺失值。在Coefficient Display Format框中指定因子载荷矩阵的输出方式,其中Sorted by size表示以第一因子得分的降序输出因子载荷矩阵;在Suppress absolute values less than框后输入一数值,表示输出大于该值的因子载荷。

9.4 因子分析的应用举例 为研究全国各地区年人均收入的差异性和相似性,收集到1997年全国31个省市自治区各类经济单位包括国有经济单位、集体经济单位、联营经济单位、股份制经济单位、外商投资经济单位、港澳台经济单位和其他经济单位的年人均收入数据。由于涉及的变量较多,直接进行地区间的比较分析较为繁琐,因此首先考虑采用因子分析方法减少变量个数,之后再进行比较和综合评价。

9.4.1 考察原有变量是否适合进行因子分析 这里借助变量的相关系数矩阵、巴特利特球度检验和KMO检验方法进行分析。 同时,由于数据中存在缺失值,采用均值替代法处理缺失值。 9.4.2 提取因子 首先进行尝试性分析,根据原有变量的相关系数矩阵,采用主成分分析法提取因子并选取特征根值大于1的特征根,输出因子分析的初始解。 重新指定提取特征根的标准,指定提取两个因子。

9.4.3 因子的命名解释 采用方差最大法对因子载荷矩阵实施正交旋转以使因子具有命名解释性。指定按第一因子载荷降序的顺序输出旋转后的因子载荷以及旋转后的因子载荷图。 9.4.4 计算因子得分 采用回归法估计因子得分系数,并输出因子得分系数。

9.4.5 各省市自治区的综合评价 可利用因子得分变量对地区进行对比研究。首先,绘制两因子得分变量的散点图;其次,对各地区人均年收入进行综合评价,采用计算因子加权总分的方法,以两个因子的方差贡献率为权数。

练习 根据基本建设投资数据判断是否适合作因子分析,如果可以作,提取几个因子比较合适?并对因子进行命名,计算综合得分。

因子分析和主成分分析的一些注意事项 可以看出,因子分析和主成分分析都依赖于原始变量,也只能反映原始变量的信息。所以原始变量的选择很重要。  可以看出,因子分析和主成分分析都依赖于原始变量,也只能反映原始变量的信息。所以原始变量的选择很重要。 另外,如果原始变量都本质上独立,那么降维就可能失败,这是因为很难把很多独立变量用少数综合的变量概括。数据越相关,降维效果就越好。 在得到分析的结果时,并不一定会都得到如我们例子那样清楚的结果。这与问题的性质,选取的原始变量以及数据的质量等都有关系。

Thank you