第五讲 主成分分析 Principal Component Analysis 用途: 主成份分析用于评价、评比分析 湖南大学工商管理学院
第五讲 主成分分析 5.1 背景问题 用多个指标研究经济、管理问题 第五讲 主成分分析 5.1 背景问题 用多个指标研究经济、管理问题 [1]上海市的城市竞争力评价,5项竞争力:经济竞争力、产业竞争力、基础设施竞争力、政府作用竞争力和科技竞争力。 合计42个指标,10年数据 [2]湖南省城市经济发展差异分析 对湖南省13个地区经济发展差异研究,8个指标:人均GDP(X1)、第三产业占GDP比重(X2)、城市固定资产投资额(X3),非农业人口(X4)、社会消费零售总额(X5);城市环境基础设施投资占GDP比重(X6),反映城市基础设施环境和投资环境;电信业务收入(X7)、货运总量(X8) 湖南大学工商管理学院 SPSS
5.1 背景问题 [3]我国上市公司财务危机预警模型研究 5.1 背景问题 [3]我国上市公司财务危机预警模型研究 选取沪深两市2003~2008年被“ST”的55家上市公司作为财务危机样本,以综合反映企业的盈利能力、偿债能力、资产营运能力、成长能力和获取现金能力14个财务指标分析变量 湖南大学工商管理学院 SPSS
5.1 背景问题 14个指标 湖南大学工商管理学院 SPSS
5.1 背景问题 备注 ① 正项指标(望大指标):取值越大越好,例如,人均可支配收入,人均GDP,… 5.1 背景问题 备注 ① 正项指标(望大指标):取值越大越好,例如,人均可支配收入,人均GDP,… ② 负项指标(望小指标):取值的越小越好,例如,交通事故率,资产负责率 湖南大学工商管理学院 SPSS
5.1 背景问题 [4] 我国上市公司资信评估问题 上市公司的获利能力、偿债能力、资产管理能力、拓展能力等四个方面13个指标 SPSS 5.1 背景问题 [4] 我国上市公司资信评估问题 上市公司的获利能力、偿债能力、资产管理能力、拓展能力等四个方面13个指标 湖南大学工商管理学院 SPSS
5.1 背景问题 [5] 中国大学排名问题(网大) ① 声誉:1个指标 ② 学术资源:5个指标 ③ 学术成果: 2个指标 5.1 背景问题 [5] 中国大学排名问题(网大) ① 声誉:1个指标 ② 学术资源:5个指标 ③ 学术成果: 2个指标 ④ 学生情况: 2个指标 ⑤ 教师资源: 4个指标 ⑥ 物资资源: 3个指标 合计 17个指标 http://rank2010.netbig.com/sypaihang.html 湖南大学工商管理学院 SPSS
5.1 背景问题 与大家利益相关问题 (1)奖学金的评定(成绩排名)指标:??? (2)面试保研(成绩排名)考核指标:??? SPSS 5.1 背景问题 与大家利益相关问题 (1)奖学金的评定(成绩排名)指标:??? (2)面试保研(成绩排名)考核指标:??? 湖南大学工商管理学院 SPSS
第五讲 主成分分析 问题的共同特点 ① 分析问题的指标或变量比较多 ② 指标之间存在相关性,例如, ??? 产生问题 第五讲 主成分分析 问题的共同特点 ① 分析问题的指标或变量比较多 ② 指标之间存在相关性,例如, ??? 产生问题 ① 指标或变量太多将增加了计算的工作量, 以及分析问题的复杂性 ② 指标或变量之间存在相关性,将导致信息重迭 我们希望 在保持数据信息基本不变的条件下, 用比较少的综合指标代替原来众多的指标或变量分析问题 湖南大学工商管理学院 SPSS
第五讲 主成分分析 5.2 原理与方法 主成分分析是一种数据降维、或者说数据压缩(data reduction)的基本方法,把多个指标化为少数几个综合性的独立变量(即变量的线性组合),这些综合变量之间互不相关, 并且能基本留原始数据信息。 最简单的变量线性组合 湖南大学工商管理学院 SPSS
5.2 主成份的构建原理 基本思路 假设在所研究的问题中,有n个样品,每个样品有p个指标: x1, x2, …, xp, 经过主成分分析, 将它们综合成p个综合变量 湖南大学工商管理学院 SPSS
5.2 主成份的构建原理 其中 湖南大学工商管理学院 SPSS
5.2 主成份的构建原理 备注: 本质:变量的正交线性变换 湖南大学工商管理学院 SPSS
为了方便,在二维空间中讨论主成分的几何意义。 设有n个样品,每个样品有两个观测变量xl和x2,在由变量xl和x2 所确定的二维平面中,n个样本点所散布的情况如椭圆状。由图可以看出这n个样本点无论是沿着xl 轴方向或x2轴方向都具有较大的离散性,其离散的程度可以分别用观测变量xl 的方差和x2 的方差定量地表示。显然,如果只考虑xl和x2 中的任何一个,那么包含在原始数据中的经济信息将会有较大的损失。 湖南大学工商管理学院 SPSS
如果将xl 轴和x2轴先平移,再同时按逆时针方向旋转角度,得到新坐标轴Fl和F2。Fl和F2是两个新变量。 湖南大学工商管理学院 SPSS
平移、旋转坐标轴 主成分分析的几何解释 • • • • • • • • • • • • • • • • • • • • • • • • • 湖南大学工商管理学院 SPSS
平移、旋转坐标轴 主成分分析的几何解释 • • • • • • • • • • • • • • • • • • • • • • • • • 湖南大学工商管理学院 SPSS
平移、旋转坐标轴 主成分分析的几何解释 • • • • • • • • • • • • • • • • • • • • • • • • • 湖南大学工商管理学院 SPSS
平移、旋转坐标轴 主成分分析的几何解释 • • • • • • • • • • • • • • • • • • • • • • • • • 湖南大学工商管理学院 SPSS
根据旋转变换的公式: 湖南大学工商管理学院 SPSS
旋转变换的目的是为了使得n个样品点在Fl轴方向上的离 散程度最大,即Fl的方差最大。变量Fl代表了原始数据的绝大 部分信息,在研究某经济问题时,即使不考虑变量F2也无损大局。经过上述旋转变换原始数据的大部分信息集中到Fl轴上,对数据中包含的信息起到了浓缩作用。 湖南大学工商管理学院 SPSS
Fl,F2除了可以对包含在Xl,X2中的信息起着浓缩作用之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。二维平面上的个点的方差大部分都归结在Fl轴上,而F2轴上的方差很小。Fl和F2称为原始变量x1和x2的综合变量。F简化了系统结构,抓住了主要矛盾。 湖南大学工商管理学院 SPSS
5.2 主成份的构建原理 aij由下列原则决定 ② y1 是x1, x2,…,xp的所有线性组合中方差最大 ① yi 与yj (i≠j, i,j=1,2,…,p) 相互独立 ② y1 是x1, x2,…,xp的所有线性组合中方差最大 y2 是x1, x2,…,xp的所有线性组合中方差次大 … … yp 是x1, x2,…,xp的所有线性组合中方差最小 y1, y2,…, yp分别称为原变量的第一、第二、…,第p个主成分,它们的方差依次递减 湖南大学工商管理学院 SPSS
5.2 主成份的构建原理 备注 :方差与信息之间的关系分析 变量的方差越大,其包含的信息越多;方差越小,信息量越少。 例如,一个班32个同学高等数学平均成绩80分,①方差为0,则说明每个同学均得80分,学习能力无差异。 ② 如果平均成绩80分,方差为400,标准差=20,说明考试成绩比较分散,不及格的和高分成绩的人数较多,也就是说,大家的学习能力具有差异性的显著。 湖南大学工商管理学院 SPSS
5.2 主成份的构建原理 主成分与数据信息量之间的关系 第一个主成分包含的数据信息量最多 第二主成分包含的数据信息量次之 …… 第p个主成分包含的数据信息量最少 湖南大学工商管理学院 SPSS
第五讲 主成份分析 5.3 主成分的计算过程 通过x1, x2,…,xp的相关系数矩阵特征值与特征向量的计算获得主成分y1, y2,…, yp 。 具体过程: ① 将x1, x2,…,xp的样本数据进行标准化处理 ② 计算x1, x2,…,xp的相关系数矩阵,记作R R是一个p×p的对称矩阵 湖南大学工商管理学院 SPSS
5.3 主成份的计算过程 ③通过Jacobi方法求出矩阵R的特征值和特征向量。特征方程 |R-λI|=0 的p个根,记作λ1〉λ2〉…〉λ p ,相应的特征向量记作a1, a2, … , a p (列向量),其中 ai=( ai1, ai2, … , a ip)’, i=,1,2,…,p 因此,y1= a11x1+ a12x2 + a1pxp, 它的方差就是λ1 湖南大学工商管理学院 SPSS
5.3 主成份的计算过程 主成分的表达式 第一主成分, y1= a11x1+ a12x2 +… + a1pxp, 方差=λ1 …… 第p主成分, yp= ap1x1+ ap2x2 +… + appxp, 方差=λp 备注: 主成分的表达式中的x1, x2, … , xp是经过数据标准化处理后的变量, 这里仅仅是为了表达方便 湖南大学工商管理学院 SPSS
5.3 主成份的计算过程 主成分贡献率的计算 第一主成分的贡献率记作ρ1,第二主成分贡献率记作ρ2,… ,第p主成分贡献率记作ρ p ,计算公式如下: 湖南大学工商管理学院 SPSS
5.3 主成份的计算过程 主成分个数的选取原则 ① 选取特征值大于1的主成分分析问题 ② 累积贡献率大于85%的前面几个主成分分析问题 主成分的解释 每个主成分应该具有明显的现实意义,如经济含义,要求能够对其进行必要的解释。 湖南大学工商管理学院 SPSS
5.3 主成份的计算过程 计算每个主成分在每个样品点的得分 第一主成分, y1= a11x1+ a12x2 +… + a1pxp 假设仅选取前两主成分分析问题,则主成分得分的计算公式 第一主成分, y1= a11x1+ a12x2 +… + a1pxp 第二主成分, y1= a21x1+ a22x2 +… + a2pxp 湖南大学工商管理学院 SPSS
5.3 主成份的计算过程 主成分得分的利用 利用主成分得分进行排序分析,可以利用第一主成分的得分进行排序分析,也可以利用第二主成分的得分进行排序分析,也可以将它们进行加权求和,然后进行综合排序分析。 湖南大学工商管理学院 SPSS
第五讲 主成份分析 5.4 案例分析 利用2006年全国31个地区的以下8项指标分析各地区的经济发展状况 湖南大学工商管理学院 SPSS
5.4 案例分析 8个指标 X1: 人均GDP(元) X2: 城镇居民人均消费支出(元) X3: 农民人均纯收入(元) 湖南大学工商管理学院 SPSS
数 据 湖南大学工商管理学院 SPSS
5.4 案例分析 相关系数矩阵 湖南大学工商管理学院 SPSS
5.4 案例分析 数据标准化处理的计算公式 湖南大学工商管理学院 SPSS
5.4 案例分析 [2] 建立指标之间的相关系数矩阵R 湖南大学工商管理学院 SPSS
5.4 案例分析 [3] 求R的特征值和特征向量 湖南大学工商管理学院 SPSS
5.4 案例分析 湖南大学工商管理学院 SPSS
5.4 案例分析 备注 ① 8个特征值的和=8,为什么? ② 贡献率=特征值÷所有特征值的和×100 ③ 累积贡献率 ④ 每一个主成分的方差=主成分的特征值 ⑤方差的大小=信息量的大小, 为什么? 湖南大学工商管理学院 SPSS
5.4 案例分析 [4] 主成份个数的选取 ① 选取特征值大于1的主成份分析问题 前两个主成分:主成份1、主成份2 ② 累积贡献率大于85%的前面几个主成份分析问题 前三个主成分:主成份1、主成份2、主成份3 我们利用方法② 确定主成分个数 湖南大学工商管理学院 SPSS
5.4 案例分析 [5] 求出与前三个特征值相对应的特征向量 湖南大学工商管理学院 SPSS
5.4 案例分析 备注 例如 此时的人均GDP=(原始人均GDP-GDP的均值)÷GDP的标准差 表格中的变量是数据标准化处理后的变量。 湖南大学工商管理学院 SPSS
据上述分析可以求得特征向量矩阵T第i行第j列元素tij 5.4 案例分析 使用SPSS求得的主成分矩阵为 其中,Tj为单位特征向量 设T=(T1,T2,…Tm), 主成分分析需要找到转换矩阵为T’ 据上述分析可以求得特征向量矩阵T第i行第j列元素tij 湖南大学工商管理学院 SPSS
通过Transform→Compute → Compute Variable t1=a1/SQRT(4.820) 5.4 案例分析 通过Transform→Compute → Compute Variable t1=a1/SQRT(4.820) t2=a2/SQRT(1.586) t3=a3/SQRT(0.918) 可求得单位特征向量t1,t2,t3 湖南大学工商管理学院 SPSS
5.4 案例分析 t1 t2 t3 人均GDP(X1) 0.416 -0.245 0.006 城镇居民消费支出(X2) 0.426 -0.190 0.110 农民人均收入(X3) 0.401 -0.285 0.151 城镇居民可支配收入(X4) 0.436 -0.174 0.043 固定资产投资(X5) 0.286 0.570 -0.163 居民价格消费指数(X6) -0.186 0.141 0.918 货物周转量(X7) 0.239 0.620 -0.064 进出口总额(X8) 0.348 0.253 0.302 湖南大学工商管理学院 SPSS
第一主成分: X1、X2、X3、X4的相关系数较高,可命名“生活主成分” 5.4 案例分析 主成分命名 第一主成分: X1、X2、X3、X4的相关系数较高,可命名“生活主成分” 第二主成分:X5、X7、X8的相关相关系数较高,可命名“运营主成分” 第三主成分: X6,可命名为价格消费主成分 湖南大学工商管理学院 SPSS
5.4 案例分析 [6] 三个主成分的表达式 F1=0.416*ZX1+0.426*ZX2+0.401*ZX3+0.436*ZX4+0.286*ZX5-0.186*ZX6+0.239*ZX7+0.348*ZX8 F2=-0.245*ZX1-0.190*ZX2-0.285*ZX3-0.174*ZX4+0.570*ZX5+0.141*ZX6+0.620*ZX7+0.253*ZX8 F3=0.006*ZX1+0.110*ZX2+0.151*ZX3+0.043*ZX4-0.163*ZX5+0.918*ZX6-0.064*ZX7+0.302*ZX8 [7] 计算各地区的每个主成份得分的大小 湖南大学工商管理学院 SPSS
5.4 案例分析 F1 F2 F3 北京 9.34831 -2.81646 -0.67436 江西 -2.54175 -0.31143 -0.94819 天津 3.75206 -1.73799 0.43465 山东 4.32906 2.87980 -1.71601 河北 -0.86763 1.08746 0.06425 河南 -1.43305 1.18549 -1.03221 山西 -1.79168 1.35719 0.83705 湖北 -2.08363 0.03036 0.00362 内蒙古 -1.05644 0.30627 -0.30829 湖南 -1.11057 0.36808 -0.48856 辽宁 1.36522 0.87316 -0.94730 广东 9.34703 2.05881 1.99779 吉林 -1.68595 -0.58210 -0.35099 广西 -2.66164 -0.28775 -0.69167 黑龙江 -2.43402 0.09737 0.77298 海南 -3.33306 -1.11251 -0.03617 上海 13.19642 -2.44474 0.67089 重 庆 -1.69752 -0.32466 2.13756 江苏 6.42651 2.14776 0.56585 四川 -2.90343 1.05676 1.51182 浙江 8.98670 0.67765 -0.57703 贵州 -4.72882 -0.30137 0.22323 安徽 -1.99549 0.48199 -1.07484 云南 -3.13914 0.33072 0.68292 福建 1.96512 -0.94003 -1.52629 西藏 -4.90132 -0.98705 1.10916 湖南大学工商管理学院 SPSS
F1 F2 F3 陕西 -2.87219 -0.09794 -0.26197 甘肃 -4.08114 -0.48052 -0.71986 青海 -4.36573 -0.96533 0.10458 宁夏 -4.25762 -0.88725 0.85805 新疆 -2.77461 -0.66177 -0.62068 湖南大学工商管理学院 SPSS
5.4 案例分析 [8] 主成份得分的加权综合 SPSS操作:Transform→Compute Variable [8] 主成份得分的加权综合 SPSS操作:Transform→Compute Variable F=0.6580*F1+0.2165*F2+0.0475*F3 湖南大学工商管理学院 SPSS
5.4 案例分析 1 上海 8.18583 12 湖南 -0.67428 23 陕西 -1.92355 2 广东 6.69097 13 河南 -0.73532 24 云南 -1.96152 3 浙江 6.03255 14 山西 -0.84534 25 新疆 -1.99845 4 北京 5.50939 15 重 庆 -1.08572 26 海南 -2.43573 5 江苏 4.72051 16 吉林 -1.25205 27 甘肃 -2.82361 6 山东 3.39049 17 安徽 -1.25974 28 宁夏 -2.95285 7 天津 2.11323 18 湖北 -1.36429 29 青海 -3.07667 8 辽宁 1.04236 19 黑龙江 -1.54379 30 贵州 -3.16621 9 福建 1.01703 20 四川 -1.60985 31 西藏 -3.38608 10 河北 -0.33242 21 江西 -1.78493 11 内蒙古 -0.64347 22 广西 -1.84651 湖南大学工商管理学院 SPSS
基于SPSS的主成份分析 Analyze → Data Reduction (数据降维) → Factor → Variable (X1, X2, …, X8) → Ok 注意:SPSS没有主成分分析的专用功能,结果需要转换 湖南大学工商管理学院 SPSS
主成分分析的流程图 湖南大学工商管理学院 SPSS
本讲小结 主成份的目的在于降维 每个主成份是原来变量的线性组合,相互独立 根据主成份的贡献率的大小进行综合 湖南大学工商管理学院 SPSS
Thank You ! 湖南大学工商管理学院