主成分分析专题 Principal Component Analysis(PCA) 2019/5/3 知识管理与数据分析实验室
原理 将原来众多具有一定相关性(比如 P 个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。 做法:选取方差最大的,作为第一个指标,因为方差越大包含的信息越多。依次找出替代原指标的主要指标。
1)对原始数据矩阵进行标准化处理 相当于对原始变量进行坐标平移与尺度伸缩: 求解步骤 1)对原始数据矩阵进行标准化处理 相当于对原始变量进行坐标平移与尺度伸缩: 2)求协方差矩阵Z
3) 计算特征值与特征向量: 相当于将原来的坐标轴进行旋转得到新的坐标 轴 ▲ 解特征方程 ,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列 ; ▲分别求出对应于特征值 的特征向量 ,要求 =1,即 ,其中 表示向量 的第j个分量。 特征值表示新变量(主成分)方差的大小 得到的特征矢量的方差比前一个特征矢量的更小,也就是依次递减 特征矢量相互正交,即不相关
4) 计算主成分贡献率及累计贡献率 ▲贡献率: ▲累计贡献率: 5) 计算主成分载荷 一般取累计贡献率达85—95%的特征值 所对应的第一、第二、…、第m(m≤p)个主成分。 5) 计算主成分载荷
6) 求主成分得分-新的变量值 Z阵的每一行相当于原数据矩阵的所有行(即原始变量构成的向量)在主成分坐标轴(载荷轴)上的投影,这些新的投影构成的向量就是主成分得分向量。
主成分分析方法应用实例 下面,我们根据下表给出的数据,对某农业生态经济系统做主成分分析 。 某农业生态经济系统各区域单元的有关数据
步骤如下:(1)将上表中的数据作标准差标准化处理,然后计算相关系数矩阵(见下表)。
(2)由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率。可知,第一,第二,第三主成分的累计贡献率已高达86 (2)由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率。可知,第一,第二,第三主成分的累计贡献率已高达86.596%(大于85%),故只需要求出第一、第二、第三主成分z1,z2,z3即可。 特征值及主成分贡献率
(3)对于特征值=4.6610,=2.0890,=1.0430分别求出其特征向量e1,e2,e3,再用公式计算各变量x1,x2,…,x9在主成分z1,z2,z3上的载荷。
分析 ①第一主成分z1与x1,x5,x6,x7,x9呈显出较强的正相关,与x3呈显出较强的负相关,而这几个变量则综合反映了生态经济结构状况,因此可以认为第一主成分z1是生态经济结构的代表。 ②第二主成分z2与x2,x4,x5呈显出较强的正相关,与x1呈显出较强的负相关,其中,除了x1为人口总数外,x2,x4,x5都反映了人均占有资源量的情况,因此可以认为第二主成分z2代表了人均资源量。
③第三主成分z3,与x8呈显出的正相关程度最高,其次是x6,而与x7呈负相关,因此可以认为第三主成分在一定程度上代表了农业经济结构。 ④另外,表最后一列(占方差的百分数),在一定程度反映了三个主成分z1、z2、z3包含原变量(x1,x2,…,x9)的信息量多少。 显然,用三个主成分z1、z2、z3代替原来9个变量(x1,x2,…,x9),描述农业生态经济系统,可以使问题更进一步简化、明了。
主成分分析的优缺点 」它能找到表现原始数据阵最重要的变量的组合 」通过表示最大的方差,能有效地直观反映样本之间的关系 」能从最大的几个主成分的得分来近似反映原始的数据阵的信息 〤当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确 〤命名清晰性低 〤新的变量是原始变量的线形组合,有局限
Spss中操作 数据源 book1
因子载荷矩阵
程序的实现 具体见源代码演示