Download presentation
Presentation is loading. Please wait.
1
第五讲 主成分分析 Principal Component Analysis
用途: 主成份分析用于评价、评比分析 湖南大学工商管理学院
2
第五讲 主成分分析 5.1 背景问题 用多个指标研究经济、管理问题
第五讲 主成分分析 5.1 背景问题 用多个指标研究经济、管理问题 [1]上海市的城市竞争力评价,5项竞争力:经济竞争力、产业竞争力、基础设施竞争力、政府作用竞争力和科技竞争力。 合计42个指标,10年数据 [2]湖南省城市经济发展差异分析 对湖南省13个地区经济发展差异研究,8个指标:人均GDP(X1)、第三产业占GDP比重(X2)、城市固定资产投资额(X3),非农业人口(X4)、社会消费零售总额(X5);城市环境基础设施投资占GDP比重(X6),反映城市基础设施环境和投资环境;电信业务收入(X7)、货运总量(X8) 湖南大学工商管理学院 SPSS
3
5.1 背景问题 [3]我国上市公司财务危机预警模型研究
5.1 背景问题 [3]我国上市公司财务危机预警模型研究 选取沪深两市2003~2008年被“ST”的55家上市公司作为财务危机样本,以综合反映企业的盈利能力、偿债能力、资产营运能力、成长能力和获取现金能力14个财务指标分析变量 湖南大学工商管理学院 SPSS
4
5.1 背景问题 14个指标 湖南大学工商管理学院 SPSS
5
5.1 背景问题 备注 ① 正项指标(望大指标):取值越大越好,例如,人均可支配收入,人均GDP,…
5.1 背景问题 备注 ① 正项指标(望大指标):取值越大越好,例如,人均可支配收入,人均GDP,… ② 负项指标(望小指标):取值的越小越好,例如,交通事故率,资产负责率 湖南大学工商管理学院 SPSS
6
5.1 背景问题 [4] 我国上市公司资信评估问题 上市公司的获利能力、偿债能力、资产管理能力、拓展能力等四个方面13个指标 SPSS
5.1 背景问题 [4] 我国上市公司资信评估问题 上市公司的获利能力、偿债能力、资产管理能力、拓展能力等四个方面13个指标 湖南大学工商管理学院 SPSS
7
5.1 背景问题 [5] 中国大学排名问题(网大) ① 声誉:1个指标 ② 学术资源:5个指标 ③ 学术成果: 2个指标
5.1 背景问题 [5] 中国大学排名问题(网大) ① 声誉:1个指标 ② 学术资源:5个指标 ③ 学术成果: 2个指标 ④ 学生情况: 2个指标 ⑤ 教师资源: 4个指标 ⑥ 物资资源: 3个指标 合计 17个指标 湖南大学工商管理学院 SPSS
8
5.1 背景问题 与大家利益相关问题 (1)奖学金的评定(成绩排名)指标:??? (2)面试保研(成绩排名)考核指标:??? SPSS
5.1 背景问题 与大家利益相关问题 (1)奖学金的评定(成绩排名)指标:??? (2)面试保研(成绩排名)考核指标:??? 湖南大学工商管理学院 SPSS
9
第五讲 主成分分析 问题的共同特点 ① 分析问题的指标或变量比较多 ② 指标之间存在相关性,例如, ??? 产生问题
第五讲 主成分分析 问题的共同特点 ① 分析问题的指标或变量比较多 ② 指标之间存在相关性,例如, ??? 产生问题 ① 指标或变量太多将增加了计算的工作量, 以及分析问题的复杂性 ② 指标或变量之间存在相关性,将导致信息重迭 我们希望 在保持数据信息基本不变的条件下, 用比较少的综合指标代替原来众多的指标或变量分析问题 湖南大学工商管理学院 SPSS
10
第五讲 主成分分析 5.2 原理与方法 主成分分析是一种数据降维、或者说数据压缩(data reduction)的基本方法,把多个指标化为少数几个综合性的独立变量(即变量的线性组合),这些综合变量之间互不相关, 并且能基本留原始数据信息。 最简单的变量线性组合 湖南大学工商管理学院 SPSS
11
5.2 主成份的构建原理 基本思路 假设在所研究的问题中,有n个样品,每个样品有p个指标: x1, x2, …, xp, 经过主成分分析, 将它们综合成p个综合变量 湖南大学工商管理学院 SPSS
12
5.2 主成份的构建原理 其中 湖南大学工商管理学院 SPSS
13
5.2 主成份的构建原理 备注: 本质:变量的正交线性变换 湖南大学工商管理学院 SPSS
14
为了方便,在二维空间中讨论主成分的几何意义。 设有n个样品,每个样品有两个观测变量xl和x2,在由变量xl和x2 所确定的二维平面中,n个样本点所散布的情况如椭圆状。由图可以看出这n个样本点无论是沿着xl 轴方向或x2轴方向都具有较大的离散性,其离散的程度可以分别用观测变量xl 的方差和x2 的方差定量地表示。显然,如果只考虑xl和x2 中的任何一个,那么包含在原始数据中的经济信息将会有较大的损失。 湖南大学工商管理学院 SPSS
15
如果将xl 轴和x2轴先平移,再同时按逆时针方向旋转角度,得到新坐标轴Fl和F2。Fl和F2是两个新变量。
湖南大学工商管理学院 SPSS
16
平移、旋转坐标轴 主成分分析的几何解释 • • • • • • • • • • • • • • • • • • • • • • • • •
湖南大学工商管理学院 SPSS
17
平移、旋转坐标轴 主成分分析的几何解释 • • • • • • • • • • • • • • • • • • • • • • • • •
湖南大学工商管理学院 SPSS
18
平移、旋转坐标轴 主成分分析的几何解释 • • • • • • • • • • • • • • • • • • • • • • • • •
湖南大学工商管理学院 SPSS
19
平移、旋转坐标轴 主成分分析的几何解释 • • • • • • • • • • • • • • • • • • • • • • • • •
湖南大学工商管理学院 SPSS
20
根据旋转变换的公式: 湖南大学工商管理学院 SPSS
21
旋转变换的目的是为了使得n个样品点在Fl轴方向上的离 散程度最大,即Fl的方差最大。变量Fl代表了原始数据的绝大 部分信息,在研究某经济问题时,即使不考虑变量F2也无损大局。经过上述旋转变换原始数据的大部分信息集中到Fl轴上,对数据中包含的信息起到了浓缩作用。 湖南大学工商管理学院 SPSS
22
Fl,F2除了可以对包含在Xl,X2中的信息起着浓缩作用之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。二维平面上的个点的方差大部分都归结在Fl轴上,而F2轴上的方差很小。Fl和F2称为原始变量x1和x2的综合变量。F简化了系统结构,抓住了主要矛盾。 湖南大学工商管理学院 SPSS
23
5.2 主成份的构建原理 aij由下列原则决定 ② y1 是x1, x2,…,xp的所有线性组合中方差最大
① yi 与yj (i≠j, i,j=1,2,…,p) 相互独立 ② y1 是x1, x2,…,xp的所有线性组合中方差最大 y2 是x1, x2,…,xp的所有线性组合中方差次大 … … yp 是x1, x2,…,xp的所有线性组合中方差最小 y1, y2,…, yp分别称为原变量的第一、第二、…,第p个主成分,它们的方差依次递减 湖南大学工商管理学院 SPSS
24
5.2 主成份的构建原理 备注 :方差与信息之间的关系分析 变量的方差越大,其包含的信息越多;方差越小,信息量越少。
例如,一个班32个同学高等数学平均成绩80分,①方差为0,则说明每个同学均得80分,学习能力无差异。 ② 如果平均成绩80分,方差为400,标准差=20,说明考试成绩比较分散,不及格的和高分成绩的人数较多,也就是说,大家的学习能力具有差异性的显著。 湖南大学工商管理学院 SPSS
25
5.2 主成份的构建原理 主成分与数据信息量之间的关系 第一个主成分包含的数据信息量最多 第二主成分包含的数据信息量次之 ……
第p个主成分包含的数据信息量最少 湖南大学工商管理学院 SPSS
26
第五讲 主成份分析 5.3 主成分的计算过程 通过x1, x2,…,xp的相关系数矩阵特征值与特征向量的计算获得主成分y1, y2,…, yp 。 具体过程: ① 将x1, x2,…,xp的样本数据进行标准化处理 ② 计算x1, x2,…,xp的相关系数矩阵,记作R R是一个p×p的对称矩阵 湖南大学工商管理学院 SPSS
27
5.3 主成份的计算过程 ③通过Jacobi方法求出矩阵R的特征值和特征向量。特征方程 |R-λI|=0
的p个根,记作λ1〉λ2〉…〉λ p ,相应的特征向量记作a1, a2, … , a p (列向量),其中 ai=( ai1, ai2, … , a ip)’, i=,1,2,…,p 因此,y1= a11x1+ a12x2 + a1pxp, 它的方差就是λ1 湖南大学工商管理学院 SPSS
28
5.3 主成份的计算过程 主成分的表达式 第一主成分, y1= a11x1+ a12x2 +… + a1pxp, 方差=λ1
…… 第p主成分, yp= ap1x1+ ap2x2 +… + appxp, 方差=λp 备注: 主成分的表达式中的x1, x2, … , xp是经过数据标准化处理后的变量, 这里仅仅是为了表达方便 湖南大学工商管理学院 SPSS
29
5.3 主成份的计算过程 主成分贡献率的计算 第一主成分的贡献率记作ρ1,第二主成分贡献率记作ρ2,… ,第p主成分贡献率记作ρ p ,计算公式如下: 湖南大学工商管理学院 SPSS
30
5.3 主成份的计算过程 主成分个数的选取原则 ① 选取特征值大于1的主成分分析问题 ② 累积贡献率大于85%的前面几个主成分分析问题
主成分的解释 每个主成分应该具有明显的现实意义,如经济含义,要求能够对其进行必要的解释。 湖南大学工商管理学院 SPSS
31
5.3 主成份的计算过程 计算每个主成分在每个样品点的得分 第一主成分, y1= a11x1+ a12x2 +… + a1pxp
假设仅选取前两主成分分析问题,则主成分得分的计算公式 第一主成分, y1= a11x1+ a12x2 +… + a1pxp 第二主成分, y1= a21x1+ a22x2 +… + a2pxp 湖南大学工商管理学院 SPSS
32
5.3 主成份的计算过程 主成分得分的利用 利用主成分得分进行排序分析,可以利用第一主成分的得分进行排序分析,也可以利用第二主成分的得分进行排序分析,也可以将它们进行加权求和,然后进行综合排序分析。 湖南大学工商管理学院 SPSS
33
第五讲 主成份分析 5.4 案例分析 利用2006年全国31个地区的以下8项指标分析各地区的经济发展状况 湖南大学工商管理学院 SPSS
34
5.4 案例分析 8个指标 X1: 人均GDP(元) X2: 城镇居民人均消费支出(元) X3: 农民人均纯收入(元)
湖南大学工商管理学院 SPSS
35
数 据 湖南大学工商管理学院 SPSS
36
5.4 案例分析 相关系数矩阵 湖南大学工商管理学院 SPSS
37
5.4 案例分析 数据标准化处理的计算公式 湖南大学工商管理学院 SPSS
38
5.4 案例分析 [2] 建立指标之间的相关系数矩阵R 湖南大学工商管理学院 SPSS
39
5.4 案例分析 [3] 求R的特征值和特征向量 湖南大学工商管理学院 SPSS
40
5.4 案例分析 湖南大学工商管理学院 SPSS
41
5.4 案例分析 备注 ① 8个特征值的和=8,为什么? ② 贡献率=特征值÷所有特征值的和×100 ③ 累积贡献率
④ 每一个主成分的方差=主成分的特征值 ⑤方差的大小=信息量的大小, 为什么? 湖南大学工商管理学院 SPSS
42
5.4 案例分析 [4] 主成份个数的选取 ① 选取特征值大于1的主成份分析问题 前两个主成分:主成份1、主成份2
② 累积贡献率大于85%的前面几个主成份分析问题 前三个主成分:主成份1、主成份2、主成份3 我们利用方法② 确定主成分个数 湖南大学工商管理学院 SPSS
43
5.4 案例分析 [5] 求出与前三个特征值相对应的特征向量 湖南大学工商管理学院 SPSS
44
5.4 案例分析 备注 例如 此时的人均GDP=(原始人均GDP-GDP的均值)÷GDP的标准差 表格中的变量是数据标准化处理后的变量。
湖南大学工商管理学院 SPSS
45
据上述分析可以求得特征向量矩阵T第i行第j列元素tij
5.4 案例分析 使用SPSS求得的主成分矩阵为 其中,Tj为单位特征向量 设T=(T1,T2,…Tm), 主成分分析需要找到转换矩阵为T’ 据上述分析可以求得特征向量矩阵T第i行第j列元素tij 湖南大学工商管理学院 SPSS
46
通过Transform→Compute → Compute Variable t1=a1/SQRT(4.820)
5.4 案例分析 通过Transform→Compute → Compute Variable t1=a1/SQRT(4.820) t2=a2/SQRT(1.586) t3=a3/SQRT(0.918) 可求得单位特征向量t1,t2,t3 湖南大学工商管理学院 SPSS
47
5.4 案例分析 t1 t2 t3 人均GDP(X1) 0.416 -0.245 0.006 城镇居民消费支出(X2) 0.426
-0.190 0.110 农民人均收入(X3) 0.401 -0.285 0.151 城镇居民可支配收入(X4) 0.436 -0.174 0.043 固定资产投资(X5) 0.286 0.570 -0.163 居民价格消费指数(X6) -0.186 0.141 0.918 货物周转量(X7) 0.239 0.620 -0.064 进出口总额(X8) 0.348 0.253 0.302 湖南大学工商管理学院 SPSS
48
第一主成分: X1、X2、X3、X4的相关系数较高,可命名“生活主成分”
5.4 案例分析 主成分命名 第一主成分: X1、X2、X3、X4的相关系数较高,可命名“生活主成分” 第二主成分:X5、X7、X8的相关相关系数较高,可命名“运营主成分” 第三主成分: X6,可命名为价格消费主成分 湖南大学工商管理学院 SPSS
49
5.4 案例分析 [6] 三个主成分的表达式 F1=0.416*ZX *ZX *ZX *ZX *ZX *ZX *ZX *ZX8 F2=-0.245*ZX *ZX *ZX *ZX *ZX *ZX *ZX *ZX8 F3=0.006*ZX *ZX *ZX *ZX *ZX *ZX *ZX *ZX8 [7] 计算各地区的每个主成份得分的大小 湖南大学工商管理学院 SPSS
50
5.4 案例分析 F1 F2 F3 北京 江西 天津 山东 河北 河南 山西 湖北 内蒙古 湖南 辽宁 广东 吉林 广西 黑龙江 海南 上海 重 庆 江苏 四川 浙江 贵州 安徽 云南 福建 西藏 湖南大学工商管理学院 SPSS
51
F1 F2 F3 陕西 甘肃 青海 宁夏 新疆 湖南大学工商管理学院 SPSS
52
5.4 案例分析 [8] 主成份得分的加权综合 SPSS操作:Transform→Compute Variable
[8] 主成份得分的加权综合 SPSS操作:Transform→Compute Variable F=0.6580*F *F *F3 湖南大学工商管理学院 SPSS
53
5.4 案例分析 1 上海 12 湖南 23 陕西 2 广东 13 河南 24 云南 3 浙江 14 山西 25 新疆 4 北京 15 重 庆 26 海南 5 江苏 16 吉林 27 甘肃 6 山东 17 安徽 28 宁夏 7 天津 18 湖北 29 青海 8 辽宁 19 黑龙江 30 贵州 9 福建 20 四川 31 西藏 10 河北 21 江西 11 内蒙古 22 广西 湖南大学工商管理学院 SPSS
54
基于SPSS的主成份分析 Analyze → Data Reduction (数据降维) → Factor
→ Variable (X1, X2, …, X8) → Ok 注意:SPSS没有主成分分析的专用功能,结果需要转换 湖南大学工商管理学院 SPSS
55
主成分分析的流程图 湖南大学工商管理学院 SPSS
56
本讲小结 主成份的目的在于降维 每个主成份是原来变量的线性组合,相互独立 根据主成份的贡献率的大小进行综合 湖南大学工商管理学院 SPSS
57
Thank You ! 湖南大学工商管理学院
Similar presentations