Presentation is loading. Please wait.

Presentation is loading. Please wait.

第五讲 主成分分析 Principal Component Analysis

Similar presentations


Presentation on theme: "第五讲 主成分分析 Principal Component Analysis"— Presentation transcript:

1 第五讲 主成分分析 Principal Component Analysis
用途: 主成份分析用于评价、评比分析 湖南大学工商管理学院

2 第五讲 主成分分析 5.1 背景问题 用多个指标研究经济、管理问题
第五讲 主成分分析 5.1 背景问题 用多个指标研究经济、管理问题 [1]上海市的城市竞争力评价,5项竞争力:经济竞争力、产业竞争力、基础设施竞争力、政府作用竞争力和科技竞争力。 合计42个指标,10年数据 [2]湖南省城市经济发展差异分析 对湖南省13个地区经济发展差异研究,8个指标:人均GDP(X1)、第三产业占GDP比重(X2)、城市固定资产投资额(X3),非农业人口(X4)、社会消费零售总额(X5);城市环境基础设施投资占GDP比重(X6),反映城市基础设施环境和投资环境;电信业务收入(X7)、货运总量(X8) 湖南大学工商管理学院 SPSS

3 5.1 背景问题 [3]我国上市公司财务危机预警模型研究
5.1 背景问题 [3]我国上市公司财务危机预警模型研究 选取沪深两市2003~2008年被“ST”的55家上市公司作为财务危机样本,以综合反映企业的盈利能力、偿债能力、资产营运能力、成长能力和获取现金能力14个财务指标分析变量 湖南大学工商管理学院 SPSS

4 5.1 背景问题 14个指标 湖南大学工商管理学院 SPSS

5 5.1 背景问题 备注 ① 正项指标(望大指标):取值越大越好,例如,人均可支配收入,人均GDP,…
5.1 背景问题 备注 ① 正项指标(望大指标):取值越大越好,例如,人均可支配收入,人均GDP,… ② 负项指标(望小指标):取值的越小越好,例如,交通事故率,资产负责率 湖南大学工商管理学院 SPSS

6 5.1 背景问题 [4] 我国上市公司资信评估问题 上市公司的获利能力、偿债能力、资产管理能力、拓展能力等四个方面13个指标 SPSS
5.1 背景问题 [4] 我国上市公司资信评估问题 上市公司的获利能力、偿债能力、资产管理能力、拓展能力等四个方面13个指标 湖南大学工商管理学院 SPSS

7 5.1 背景问题 [5] 中国大学排名问题(网大) ① 声誉:1个指标 ② 学术资源:5个指标 ③ 学术成果: 2个指标
5.1 背景问题 [5] 中国大学排名问题(网大) ① 声誉:1个指标 ② 学术资源:5个指标 ③ 学术成果: 2个指标 ④ 学生情况: 2个指标 ⑤ 教师资源: 4个指标 ⑥ 物资资源: 3个指标 合计 17个指标 湖南大学工商管理学院 SPSS

8 5.1 背景问题 与大家利益相关问题 (1)奖学金的评定(成绩排名)指标:??? (2)面试保研(成绩排名)考核指标:??? SPSS
5.1 背景问题 与大家利益相关问题 (1)奖学金的评定(成绩排名)指标:??? (2)面试保研(成绩排名)考核指标:??? 湖南大学工商管理学院 SPSS

9 第五讲 主成分分析 问题的共同特点 ① 分析问题的指标或变量比较多 ② 指标之间存在相关性,例如, ??? 产生问题
第五讲 主成分分析 问题的共同特点 ① 分析问题的指标或变量比较多 ② 指标之间存在相关性,例如, ??? 产生问题 ① 指标或变量太多将增加了计算的工作量, 以及分析问题的复杂性 ② 指标或变量之间存在相关性,将导致信息重迭 我们希望 在保持数据信息基本不变的条件下, 用比较少的综合指标代替原来众多的指标或变量分析问题 湖南大学工商管理学院 SPSS

10 第五讲 主成分分析 5.2 原理与方法 主成分分析是一种数据降维、或者说数据压缩(data reduction)的基本方法,把多个指标化为少数几个综合性的独立变量(即变量的线性组合),这些综合变量之间互不相关, 并且能基本留原始数据信息。 最简单的变量线性组合 湖南大学工商管理学院 SPSS

11 5.2 主成份的构建原理 基本思路 假设在所研究的问题中,有n个样品,每个样品有p个指标: x1, x2, …, xp, 经过主成分分析, 将它们综合成p个综合变量 湖南大学工商管理学院 SPSS

12 5.2 主成份的构建原理 其中 湖南大学工商管理学院 SPSS

13 5.2 主成份的构建原理 备注: 本质:变量的正交线性变换 湖南大学工商管理学院 SPSS

14 为了方便,在二维空间中讨论主成分的几何意义。 设有n个样品,每个样品有两个观测变量xl和x2,在由变量xl和x2 所确定的二维平面中,n个样本点所散布的情况如椭圆状。由图可以看出这n个样本点无论是沿着xl 轴方向或x2轴方向都具有较大的离散性,其离散的程度可以分别用观测变量xl 的方差和x2 的方差定量地表示。显然,如果只考虑xl和x2 中的任何一个,那么包含在原始数据中的经济信息将会有较大的损失。 湖南大学工商管理学院 SPSS

15 如果将xl 轴和x2轴先平移,再同时按逆时针方向旋转角度,得到新坐标轴Fl和F2。Fl和F2是两个新变量。
湖南大学工商管理学院 SPSS

16 平移、旋转坐标轴 主成分分析的几何解释 • • • • • • • • • • • • • • • • • • • • • • • • •
湖南大学工商管理学院 SPSS

17 平移、旋转坐标轴 主成分分析的几何解释 • • • • • • • • • • • • • • • • • • • • • • • • •
湖南大学工商管理学院 SPSS

18 平移、旋转坐标轴 主成分分析的几何解释 • • • • • • • • • • • • • • • • • • • • • • • • •
湖南大学工商管理学院 SPSS

19 平移、旋转坐标轴 主成分分析的几何解释 • • • • • • • • • • • • • • • • • • • • • • • • •
湖南大学工商管理学院 SPSS

20 根据旋转变换的公式: 湖南大学工商管理学院 SPSS

21 旋转变换的目的是为了使得n个样品点在Fl轴方向上的离 散程度最大,即Fl的方差最大。变量Fl代表了原始数据的绝大 部分信息,在研究某经济问题时,即使不考虑变量F2也无损大局。经过上述旋转变换原始数据的大部分信息集中到Fl轴上,对数据中包含的信息起到了浓缩作用。 湖南大学工商管理学院 SPSS

22 Fl,F2除了可以对包含在Xl,X2中的信息起着浓缩作用之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。二维平面上的个点的方差大部分都归结在Fl轴上,而F2轴上的方差很小。Fl和F2称为原始变量x1和x2的综合变量。F简化了系统结构,抓住了主要矛盾。 湖南大学工商管理学院 SPSS

23 5.2 主成份的构建原理 aij由下列原则决定 ② y1 是x1, x2,…,xp的所有线性组合中方差最大
① yi 与yj (i≠j, i,j=1,2,…,p) 相互独立 ② y1 是x1, x2,…,xp的所有线性组合中方差最大 y2 是x1, x2,…,xp的所有线性组合中方差次大 … … yp 是x1, x2,…,xp的所有线性组合中方差最小 y1, y2,…, yp分别称为原变量的第一、第二、…,第p个主成分,它们的方差依次递减 湖南大学工商管理学院 SPSS

24 5.2 主成份的构建原理 备注 :方差与信息之间的关系分析 变量的方差越大,其包含的信息越多;方差越小,信息量越少。
例如,一个班32个同学高等数学平均成绩80分,①方差为0,则说明每个同学均得80分,学习能力无差异。 ② 如果平均成绩80分,方差为400,标准差=20,说明考试成绩比较分散,不及格的和高分成绩的人数较多,也就是说,大家的学习能力具有差异性的显著。 湖南大学工商管理学院 SPSS

25 5.2 主成份的构建原理 主成分与数据信息量之间的关系 第一个主成分包含的数据信息量最多 第二主成分包含的数据信息量次之 ……
第p个主成分包含的数据信息量最少 湖南大学工商管理学院 SPSS

26 第五讲 主成份分析 5.3 主成分的计算过程 通过x1, x2,…,xp的相关系数矩阵特征值与特征向量的计算获得主成分y1, y2,…, yp 。 具体过程: ① 将x1, x2,…,xp的样本数据进行标准化处理 ② 计算x1, x2,…,xp的相关系数矩阵,记作R R是一个p×p的对称矩阵 湖南大学工商管理学院 SPSS

27 5.3 主成份的计算过程 ③通过Jacobi方法求出矩阵R的特征值和特征向量。特征方程 |R-λI|=0
的p个根,记作λ1〉λ2〉…〉λ p ,相应的特征向量记作a1, a2, … , a p (列向量),其中 ai=( ai1, ai2, … , a ip)’, i=,1,2,…,p 因此,y1= a11x1+ a12x2 + a1pxp, 它的方差就是λ1 湖南大学工商管理学院 SPSS

28 5.3 主成份的计算过程 主成分的表达式 第一主成分, y1= a11x1+ a12x2 +… + a1pxp, 方差=λ1
…… 第p主成分, yp= ap1x1+ ap2x2 +… + appxp, 方差=λp 备注: 主成分的表达式中的x1, x2, … , xp是经过数据标准化处理后的变量, 这里仅仅是为了表达方便 湖南大学工商管理学院 SPSS

29 5.3 主成份的计算过程 主成分贡献率的计算 第一主成分的贡献率记作ρ1,第二主成分贡献率记作ρ2,… ,第p主成分贡献率记作ρ p ,计算公式如下: 湖南大学工商管理学院 SPSS

30 5.3 主成份的计算过程 主成分个数的选取原则 ① 选取特征值大于1的主成分分析问题 ② 累积贡献率大于85%的前面几个主成分分析问题
主成分的解释 每个主成分应该具有明显的现实意义,如经济含义,要求能够对其进行必要的解释。 湖南大学工商管理学院 SPSS

31 5.3 主成份的计算过程 计算每个主成分在每个样品点的得分 第一主成分, y1= a11x1+ a12x2 +… + a1pxp
假设仅选取前两主成分分析问题,则主成分得分的计算公式 第一主成分, y1= a11x1+ a12x2 +… + a1pxp 第二主成分, y1= a21x1+ a22x2 +… + a2pxp 湖南大学工商管理学院 SPSS

32 5.3 主成份的计算过程 主成分得分的利用 利用主成分得分进行排序分析,可以利用第一主成分的得分进行排序分析,也可以利用第二主成分的得分进行排序分析,也可以将它们进行加权求和,然后进行综合排序分析。 湖南大学工商管理学院 SPSS

33 第五讲 主成份分析 5.4 案例分析 利用2006年全国31个地区的以下8项指标分析各地区的经济发展状况 湖南大学工商管理学院 SPSS

34 5.4 案例分析 8个指标 X1: 人均GDP(元) X2: 城镇居民人均消费支出(元) X3: 农民人均纯收入(元)
湖南大学工商管理学院 SPSS

35 数 据 湖南大学工商管理学院 SPSS

36 5.4 案例分析 相关系数矩阵 湖南大学工商管理学院 SPSS

37 5.4 案例分析 数据标准化处理的计算公式 湖南大学工商管理学院 SPSS

38 5.4 案例分析 [2] 建立指标之间的相关系数矩阵R 湖南大学工商管理学院 SPSS

39 5.4 案例分析 [3] 求R的特征值和特征向量 湖南大学工商管理学院 SPSS

40 5.4 案例分析 湖南大学工商管理学院 SPSS

41 5.4 案例分析 备注 ① 8个特征值的和=8,为什么? ② 贡献率=特征值÷所有特征值的和×100 ③ 累积贡献率
④ 每一个主成分的方差=主成分的特征值 ⑤方差的大小=信息量的大小, 为什么? 湖南大学工商管理学院 SPSS

42 5.4 案例分析 [4] 主成份个数的选取 ① 选取特征值大于1的主成份分析问题 前两个主成分:主成份1、主成份2
② 累积贡献率大于85%的前面几个主成份分析问题 前三个主成分:主成份1、主成份2、主成份3 我们利用方法② 确定主成分个数 湖南大学工商管理学院 SPSS

43 5.4 案例分析 [5] 求出与前三个特征值相对应的特征向量 湖南大学工商管理学院 SPSS

44 5.4 案例分析 备注 例如 此时的人均GDP=(原始人均GDP-GDP的均值)÷GDP的标准差 表格中的变量是数据标准化处理后的变量。
湖南大学工商管理学院 SPSS

45 据上述分析可以求得特征向量矩阵T第i行第j列元素tij
5.4 案例分析 使用SPSS求得的主成分矩阵为 其中,Tj为单位特征向量 设T=(T1,T2,…Tm), 主成分分析需要找到转换矩阵为T’ 据上述分析可以求得特征向量矩阵T第i行第j列元素tij 湖南大学工商管理学院 SPSS

46 通过Transform→Compute → Compute Variable t1=a1/SQRT(4.820)
5.4 案例分析 通过Transform→Compute → Compute Variable t1=a1/SQRT(4.820) t2=a2/SQRT(1.586) t3=a3/SQRT(0.918) 可求得单位特征向量t1,t2,t3 湖南大学工商管理学院 SPSS

47 5.4 案例分析 t1 t2 t3 人均GDP(X1) 0.416 -0.245 0.006 城镇居民消费支出(X2) 0.426
-0.190 0.110 农民人均收入(X3) 0.401 -0.285 0.151 城镇居民可支配收入(X4) 0.436 -0.174 0.043 固定资产投资(X5) 0.286 0.570 -0.163 居民价格消费指数(X6) -0.186 0.141 0.918 货物周转量(X7) 0.239 0.620 -0.064 进出口总额(X8) 0.348 0.253 0.302 湖南大学工商管理学院 SPSS

48 第一主成分: X1、X2、X3、X4的相关系数较高,可命名“生活主成分”
5.4 案例分析 主成分命名 第一主成分: X1、X2、X3、X4的相关系数较高,可命名“生活主成分” 第二主成分:X5、X7、X8的相关相关系数较高,可命名“运营主成分” 第三主成分: X6,可命名为价格消费主成分 湖南大学工商管理学院 SPSS

49 5.4 案例分析 [6] 三个主成分的表达式 F1=0.416*ZX *ZX *ZX *ZX *ZX *ZX *ZX *ZX8 F2=-0.245*ZX *ZX *ZX *ZX *ZX *ZX *ZX *ZX8 F3=0.006*ZX *ZX *ZX *ZX *ZX *ZX *ZX *ZX8 [7] 计算各地区的每个主成份得分的大小 湖南大学工商管理学院 SPSS

50 5.4 案例分析 F1 F2 F3 北京 江西 天津 山东 河北 河南 山西 湖北 内蒙古 湖南 辽宁 广东 吉林 广西 黑龙江 海南 上海 重 庆 江苏 四川 浙江 贵州 安徽 云南 福建 西藏 湖南大学工商管理学院 SPSS

51 F1 F2 F3 陕西 甘肃 青海 宁夏 新疆 湖南大学工商管理学院 SPSS

52 5.4 案例分析 [8] 主成份得分的加权综合 SPSS操作:Transform→Compute Variable
[8] 主成份得分的加权综合 SPSS操作:Transform→Compute Variable F=0.6580*F *F *F3 湖南大学工商管理学院 SPSS

53 5.4 案例分析 1 上海 12 湖南 23 陕西 2 广东 13 河南 24 云南 3 浙江 14 山西 25 新疆 4 北京 15 重 庆 26 海南 5 江苏 16 吉林 27 甘肃 6 山东 17 安徽 28 宁夏 7 天津 18 湖北 29 青海 8 辽宁 19 黑龙江 30 贵州 9 福建 20 四川 31 西藏 10 河北 21 江西 11 内蒙古 22 广西 湖南大学工商管理学院 SPSS

54 基于SPSS的主成份分析 Analyze → Data Reduction (数据降维) → Factor
→ Variable (X1, X2, …, X8) → Ok 注意:SPSS没有主成分分析的专用功能,结果需要转换 湖南大学工商管理学院 SPSS

55 主成分分析的流程图 湖南大学工商管理学院 SPSS

56 本讲小结 主成份的目的在于降维 每个主成份是原来变量的线性组合,相互独立 根据主成份的贡献率的大小进行综合 湖南大学工商管理学院 SPSS

57 Thank You ! 湖南大学工商管理学院


Download ppt "第五讲 主成分分析 Principal Component Analysis"

Similar presentations


Ads by Google