Presentation is loading. Please wait.

Presentation is loading. Please wait.

主成分分析专题 Principal Component Analysis(PCA)

Similar presentations


Presentation on theme: "主成分分析专题 Principal Component Analysis(PCA)"— Presentation transcript:

1 主成分分析专题 Principal Component Analysis(PCA)
2019/5/3 知识管理与数据分析实验室

2 原理 将原来众多具有一定相关性(比如 P 个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。
做法:选取方差最大的,作为第一个指标,因为方差越大包含的信息越多。依次找出替代原指标的主要指标。

3

4 1)对原始数据矩阵进行标准化处理 相当于对原始变量进行坐标平移与尺度伸缩:
求解步骤 1)对原始数据矩阵进行标准化处理 相当于对原始变量进行坐标平移与尺度伸缩: 2)求协方差矩阵Z

5 3) 计算特征值与特征向量: 相当于将原来的坐标轴进行旋转得到新的坐标 轴
▲ 解特征方程    ,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列 ; ▲分别求出对应于特征值 的特征向量   ,要求   =1,即     ,其中 表示向量 的第j个分量。 ­特征值表示新变量(主成分)方差的大小 ­得到的特征矢量的方差比前一个特征矢量的更小,也就是依次递减 ­特征矢量相互正交,即不相关

6 4) 计算主成分贡献率及累计贡献率 ▲贡献率: ▲累计贡献率: 5) 计算主成分载荷 一般取累计贡献率达85—95%的特征值
所对应的第一、第二、…、第m(m≤p)个主成分。 5) 计算主成分载荷

7 6) 求主成分得分-新的变量值 Z阵的每一行相当于原数据矩阵的所有行(即原始变量构成的向量)在主成分坐标轴(载荷轴)上的投影,这些新的投影构成的向量就是主成分得分向量。

8 主成分分析方法应用实例 下面,我们根据下表给出的数据,对某农业生态经济系统做主成分分析 。 某农业生态经济系统各区域单元的有关数据

9

10 步骤如下:(1)将上表中的数据作标准差标准化处理,然后计算相关系数矩阵(见下表)。

11 (2)由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率。可知,第一,第二,第三主成分的累计贡献率已高达86
(2)由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率。可知,第一,第二,第三主成分的累计贡献率已高达86.596%(大于85%),故只需要求出第一、第二、第三主成分z1,z2,z3即可。 特征值及主成分贡献率

12 (3)对于特征值=4.6610,=2.0890,=1.0430分别求出其特征向量e1,e2,e3,再用公式计算各变量x1,x2,…,x9在主成分z1,z2,z3上的载荷。

13 分析 ①第一主成分z1与x1,x5,x6,x7,x9呈显出较强的正相关,与x3呈显出较强的负相关,而这几个变量则综合反映了生态经济结构状况,因此可以认为第一主成分z1是生态经济结构的代表。 ②第二主成分z2与x2,x4,x5呈显出较强的正相关,与x1呈显出较强的负相关,其中,除了x1为人口总数外,x2,x4,x5都反映了人均占有资源量的情况,因此可以认为第二主成分z2代表了人均资源量。

14 ③第三主成分z3,与x8呈显出的正相关程度最高,其次是x6,而与x7呈负相关,因此可以认为第三主成分在一定程度上代表了农业经济结构。
④另外,表最后一列(占方差的百分数),在一定程度反映了三个主成分z1、z2、z3包含原变量(x1,x2,…,x9)的信息量多少。 显然,用三个主成分z1、z2、z3代替原来9个变量(x1,x2,…,x9),描述农业生态经济系统,可以使问题更进一步简化、明了。

15 主成分分析的优缺点 」它能找到表现原始数据阵最重要的变量的组合 」通过表示最大的方差,能有效地直观反映样本之间的关系
」能从最大的几个主成分的得分来近似反映原始的数据阵的信息 〤当主成分的因子负荷的符号有正有负时,综合评价函数意义就不明确 〤命名清晰性低 〤新的变量是原始变量的线形组合,有局限

16 Spss中操作 数据源 book1

17

18

19

20

21

22

23 因子载荷矩阵

24 程序的实现 具体见源代码演示


Download ppt "主成分分析专题 Principal Component Analysis(PCA)"

Similar presentations


Ads by Google