多元统计分析 何晓群 中国人民大学出版社 2019/1/2 中国人民大学六西格玛质量管理研究中心
第五章 主成分分析 §5.1 主成分分析的基本思想与理论 §5.2 主成分分析的几何意义 §5.3 总体主成分及其性质 第五章 主成分分析 §5.1 主成分分析的基本思想与理论 §5.2 主成分分析的几何意义 §5.3 总体主成分及其性质 §5.4 样本主成分的导出 §5.5 有关问题的讨论 §5.6 主成分分析步骤及框图 §5.7 主成分分析的上机实现 2019/1/2 中国人民大学六西格玛质量管理研究中心 2 目录 上页 下页 返回 结束
第五章 主成分分析 主成分分析(principal components analysis)也称主分量分析,是由霍特林(Hotelling)于1933年首先提出的。主成分分析是利用降维的思想,在损失很少信息的前提下把多个指标转化为几个综合指标的多元统计方法。通常把转化生成的综合指标称之为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,这就使得主成分比原始变量具有某些更优越的性能。这样在研究复杂问题时就可以只考虑少数几个主成分而不至于损失太多信息,从而更容易抓住主要矛盾,揭示事物内部变量之间的规律性,同时使问题得到简化,提高分析效率。本章主要介绍主成分分析的基本理论和方法、主成分分析的计算步骤及主成分分析的上机实现。 2019/1/2 中国人民大学六西格玛质量管理研究中心 3 目录 上页 下页 返回 结束
§5.1 主成分分析的基本思想与理论 §5.1.1 主成分分析的基本思想 §5.1.2 主成分分析的基本理论 2019/1/2 中国人民大学六西格玛质量管理研究中心 4 目录 上页 下页 返回 结束
§5.1.1 主成分分析的基本思想 在对某一事物进行实证研究中,为了更全面、准确地反映出事物的特征及其发展规律,人们往往要考虑与其有关系的多个指标,这些指标在多元统计中也称为变量。这样就产生了如下问题:一方面人们为了避免遗漏重要的信息而考虑尽可能多的指标,而另一方面随着考虑指标的增多增加了问题的复杂性,同时由于各指标均是对同一事物的反映,不可避免地造成信息的大量重叠,这种信息的重叠有时甚至会抹杀事物的真正特征与内在规律。基于上述问题,人们就希望在定量研究中涉及的变量较少,而得到的信息量又较多。主成分分析正是研究如何通过原来变量的少数几个线性组合来解释原来变量绝大多数信息的一种多元统计方法。 2019/1/2 中国人民大学六西格玛质量管理研究中心 5 目录 上页 下页 返回 结束
§5.1.1 主成分分析的基本思想 既然研究某一问题涉及的众多变量之间有一定的相关性,就必然存在着起支配作用的共同因素,根据这一点,通过对原始变量相关矩阵或协方差矩阵内部结构关系的研究,利用原始变量的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降维与简化问题的作用,使得在研究复杂问题时更容易抓住主要矛盾。一般地说,利用主成分分析得到的主成分与原始变量之间有如下基本关系: 1.每一个主成分都是各原始变量的线性组合; 2.主成分的数目大大少于原始变量的数目 2019/1/2 中国人民大学六西格玛质量管理研究中心 6 目录 上页 下页 返回 结束
§5.1.1 主成分分析的基本思想 3.主成分保留了原始变量绝大多数信息 4.各主成分之间互不相关 通过主成分分析,可以从事物之间错综复杂的关系中找出一些主要成分,从而能有效利用大量统计数据进行定量分析,揭示变量之间的内在关系,得到对事物特征及其发展规律的一些深层次的启发,把研究工作引向深入。 2019/1/2 中国人民大学六西格玛质量管理研究中心 7 目录 上页 下页 返回 结束
§5.1.2 主成分分析的基本理论 设对某一事物的研究涉及个 指标,分别用 表示,这个 指标构成的 维随机向量为 。设随机向量 的均值为 ,协方差矩阵为 。 对 进行线性变换,可以形成新的综合变量,用 表示,也就是说,新的综合变量可以由原来的变量线性表示,即满足下式: (5.1) 2019/1/2 中国人民大学六西格玛质量管理研究中心 8 目录 上页 下页 返回 结束
§5.1.2 主成分分析的基本理论 由于可以任意地对原始变量进行上述线性变换,由不同的线性变换得到的综合变量 的统计特性也不尽相同。因此为了取得较好的效果,我们总是希望 的方差尽可能大且各 之间互相独立,由于 = 而对任给的常数 ,有 2019/1/2 中国人民大学六西格玛质量管理研究中心 9 目录 上页 下页 返回 结束
§5.1.2 主成分分析的基本理论 因此对 不加限制时,可使 任意增大,问题将变得没有意义。我们将线性变换约束在下面的原则之下: 1. ,即: 2. 3. 是 的一切满足原则1的线性组合中方差最大者; 是与 不相关的 所有线性组合中方差最大者;…, 是与 都不相关的 的所有线性组合中方差最大者。 2019/1/2 中国人民大学六西格玛质量管理研究中心 10 目录 上页 下页 返回 结束
§5.1.2 主成分分析的基本理论 基于以上三条原则决定的综合变量 分别称为原始变量的第一、第二、…、第 个主成分。其中,各综合变量在总方差中占的比重依次递减,在实际研究工作中,通常只挑选前几个方差最大的主成分,从而达到简化系统结构,抓住问题实质的目的。 2019/1/2 中国人民大学六西格玛质量管理研究中心 11 目录 上页 下页 返回 结束
§5.2 主成分分析的几何意义 由第一节的介绍我们知道,在处理涉及多个指标问题的时候,为了提高分析的效率,可以不直接对 个指标构成的 维随机向量 进行分析,而是先对向量 进行线性变换,形成少数几个新的综合变量 ,使得各综合变量之间相互独立且能解释原始变量尽可能多的信息,这样,在以损失很少部分信息为代价的前提下,达到简化数据结构,提高分析效率的目的。这一节,我们着重讨论主成分分析的几何意义,为了方便,我们仅在二维空间中讨论主成分的几何意义,所得结论可以很容易地扩展到多维的情况。 2019/1/2 中国人民大学六西格玛质量管理研究中心 12 目录 上页 下页 返回 结束
§5.2 主成分分析的几何意义 设有 个样品,每个样品有两个观测变量 ,这样,在由变量 组成的坐标空间中, 个样品点散布的情况如带状,见图5-1。 图5-1 2019/1/2 中国人民大学六西格玛质量管理研究中心 13 目录 上页 下页 返回 结束
§5.2 主成分分析的几何意义 由图可以看出这 个样品无论沿 轴方向还是沿 轴方向均有较大的离散性,其离散程度可以分别用观测变量 的方差和 的方差定量地表示,显然,若只考虑 和 中的任何一个,原始数据中的信息均会有较大的损失。我们的目的是考虑 和 的线性组合,使得原始样品数据可以由新的变量 和 来刻画。 在几何上表示就是将坐标轴按逆时针方向旋转 角度,得到新坐标轴 和 ,坐标旋转公式如下: 2019/1/2 中国人民大学六西格玛质量管理研究中心 14 目录 上页 下页 返回 结束
§5.2 主成分分析的几何意义 其矩阵形式为: 其中, 为旋转变换矩阵,由上式可知它是正交阵,即满足 中国人民大学六西格玛质量管理研究中心 2019/1/2 中国人民大学六西格玛质量管理研究中心 15 目录 上页 下页 返回 结束
§5.2 主成分分析的几何意义 经过这样的旋转之后, 个样品点在 轴上的离散程度最大,变量 代表了原始数据绝大部分信息,这样,有时在研究实际问题时,即使不考虑变量 也无损大局。因此,经过上述旋转变换就可以把原始数据的信息集中到 轴上,对数据中包含的信息起到了浓缩的作用。进行主成分分析的目的就是找出转换矩阵 ,而进行主成分分析的作用与几何意义也就很明了了。下面我们用遵从正态分布的变量进行分析,以使主成分分析的几何意义更为明显。为方便,我们以二元正态分布为例。对于多元正态总体的情况,有类似的结论。 2019/1/2 中国人民大学六西格玛质量管理研究中心 16 目录 上页 下页 返回 结束
§5.2 主成分分析的几何意义 设变量 遵从二元正态分布,分布密度为: 令 为变量 的协方差矩阵,其形式如下: 令 设变量 遵从二元正态分布,分布密度为: 令 为变量 的协方差矩阵,其形式如下: 令 则上述二元正态分布的密度函数有如下矩阵形式: 2019/1/2 中国人民大学六西格玛质量管理研究中心 17 目录 上页 下页 返回 结束
§5.2 主成分分析的几何意义 考虑 ( 为常数),为方便,不妨设 上式有如下展开形式: 令 ,则上面的方程变为: 考虑 ( 为常数),为方便,不妨设 上式有如下展开形式: 令 ,则上面的方程变为: 2019/1/2 中国人民大学六西格玛质量管理研究中心 18 目录 上页 下页 返回 结束
§5.2 主成分分析的几何意义 这是一个椭圆的方程,长短轴分别为: 又令 为 的特征值, 为相应的标准正交特征向量. 则 为正交阵, 有: 又令 为 的特征值, 为相应的标准正交特征向量. 则 为正交阵, 有: 因此有: 2019/1/2 中国人民大学六西格玛质量管理研究中心 19 目录 上页 下页 返回 结束
§5.2 主成分分析的几何意义 与上面一样,这也是一个椭圆方程,且在 构成的坐标系中,其主轴的方向恰恰正是 坐标轴的方向。因为 与上面一样,这也是一个椭圆方程,且在 构成的坐标系中,其主轴的方向恰恰正是 坐标轴的方向。因为 所以, 就是原始变量 的两个主成分,它们的方差分别为 ,在 方向上集中了原始变量 的变差,在 方向上集中了原始变量 的变差,经常有 远大于 ,这样,我们就可以只研究原始数据在 方向上的变化而不致于损失过多信息,而 就是椭圆在原始坐标系中的主轴方向,也是坐标轴转换的系数向量。对于多维的情况,上面的结论依然成立。 这样,我们就对主成分分析的几何意义有了一个充分的了解。主成分分析的过程无非就是坐标系旋转的过程,各主成分表达式就是新坐标系与原坐标系的转换关系,在新坐标系中,各坐标轴的方向就是原始数据变差最大的方向。 2019/1/2 中国人民大学六西格玛质量管理研究中心 20 目录 上页 下页 返回 结束
§5.3 总体主成分及其性质 由上面的讨论可知,求解主成分的过程就是求满足三条原则的原始变量 的线性组合的过程。本节先从总体出发,介绍求解主成分的一般方法及主成分的性质,然后介绍样本主成分的导出。 2019/1/2 中国人民大学六西格玛质量管理研究中心 21 目录 上页 下页 返回 结束
§5.3.1 总体主成分 主成分分析的基本思想就是在保留原始变量尽可能多的信息的前提下达到降维的目的,从而简化问题的复杂性并抓住问题的主要矛盾。而这里对于随机变量 而言,其协方差矩阵或相关矩阵正是对各变量离散程度与变量之间的相关程度的信息的反应,而相关矩阵不过是将原始变量标准化后的协方差矩阵。我们所说的保留原始变量尽可能多的信息,也就是指的生成的较少的综合变量(主成分)的方差和尽可能接近原始变量方差的总和。因此在实际求解主成分的时候,总是从原始变量的协方差矩阵或相关矩阵的结构分析入手。一般地说,从原始变量的协方差矩阵出发求得的主成分与从原始变量的相关矩阵出发求得的主成分是不同的。下面我们分别就协方差矩阵与相关矩阵进行讨论。 2019/1/2 中国人民大学六西格玛质量管理研究中心 22 目录 上页 下页 返回 结束
§5.3.1 总体主成分 (1)从协方差矩阵出发求解主成分 引论:设矩阵 ,将 的特征值 依大小顺序排列,不妨设 , 为 矩阵各特征值对应的标准正交特征向量,则对任意向量,有: (5.2) 证明:对 与单位阵 进行谱分解,可以写成下面的式子: 而对任意向量 ,有 ,于是有 2019/1/2 中国人民大学六西格玛质量管理研究中心 23 目录 上页 下页 返回 结束
§5.3.1 总体主成分 于是,自然有 类似的,我们可以得出: 中国人民大学六西格玛质量管理研究中心 2019/1/2 24 目录 上页 下页 返回 结束
§5.3.1 总体主成分 结论: 设随机向量 的协方差矩阵为 , 证明:由引论知,对于任意常向量 ,有: 又 为标准正交特征向量,于是: 此时: (5.3) 结论: 设随机向量 的协方差矩阵为 , 为 的特征值, 为矩阵 各特征值对应的标准正交特征向量,则第 i个主成分为: 2019/1/2 中国人民大学六西格玛质量管理研究中心 25 目录 上页 下页 返回 结束
§5.3.1 总体主成分 且: 令 ,则有 类似的,有 中国人民大学六西格玛质量管理研究中心 2019/1/2 26 令 ,则有 类似的,有 2019/1/2 中国人民大学六西格玛质量管理研究中心 26 目录 上页 下页 返回 结束
§5.3.1 总体主成分 由以上结论,我们把 的协方差矩阵 的非零特征值 对应的标准化特征向量 分别作为系数向量, 分别称为随机向量 的第一主成分、第二主成分、…、第 主成分。 的分量 依次是 的第一主成分、第二主成分、…、第 主成分的充分必要条件是: (1) ,即 为 阶正交阵; (2) 的分量之间互不相关; (3) 的 个分量是按方差由大到小排列。 2019/1/2 中国人民大学六西格玛质量管理研究中心 27 目录 上页 下页 返回 结束
§5.3.1 总体主成分 于是随机向量 与随机向量 之间存在下面的关系式: (5.4) 于是随机向量 与随机向量 之间存在下面的关系式: (5.4) 注:无论 的各特征根是否存在相等的情况,对应的标准化特征向量 总是存在的,我们总可以找到对应各特征根的彼此正交的特征向量。这样,求主成分的问题就变成了求特征根与特征向量的问题。 2019/1/2 中国人民大学六西格玛质量管理研究中心 28 目录 上页 下页 返回 结束
§5.3.1 总体主成分 证明: (二)主成分的性质 性质1 的协方差阵为对角阵 。 这一性质可由上述结论容易得到,证明略。 性质1 的协方差阵为对角阵 。 这一性质可由上述结论容易得到,证明略。 性质2 记 ,有 证明: 记 则有 于是 2019/1/2 中国人民大学六西格玛质量管理研究中心 29 目录 上页 下页 返回 结束
§5.3.1 总体主成分 定义 5.1 称 为第 个主成分 的方 差贡献率,称 为主成分 的累积贡献率。 定义 5.1 称 为第 个主成分 的方 差贡献率,称 为主成分 的累积贡献率。 由此进一步可知,主成分分析是把个 随机变量的总方差 分解为 个不相关的随机变量的方差之和,使第一主成分的方差达到最大,第一主成分是以变化最大的方向向量各分量为系数的原始变量的线性函数,最大方差为 。 表明了 的方差在全部方差中的比值,称 为第一主成分的贡献率。这个值越大,表明 这个新变量综合 信息的能力越强,也即由 的差异来解释随机向量 的差异的能力越强。 2019/1/2 中国人民大学六西格玛质量管理研究中心 30 目录 上页 下页 返回 结束
§5.3.1 总体主成分 正因如此,才把 称为 的主成分。进而我们就更清楚为什么主成分的名次是按特征根 取值的大小排序的。 正因如此,才把 称为 的主成分。进而我们就更清楚为什么主成分的名次是按特征根 取值的大小排序的。 进行主成分分析的目的之一是为了减少变量的个数,所以一般不会取 个主成分,而是取 个主成分, 取多少比较合适,这是一个很实际的问题,通常以所取 使得累积贡献率达到85%以上为宜,即 (5.5) 这样,既能使损失信息不太多,又达到减少变量,简化问题的目的。另外,选取主成分还可根据特征值的变化来确定。图5-2为SPSS统计软件生成的碎石图。 2019/1/2 中国人民大学六西格玛质量管理研究中心 31 目录 上页 下页 返回 结束
§5.3.1 总体主成分 图5-2 由图5-2可知,第二个及第三个特征值变化的趋势已经开始趋于平稳,所以,取前两个或是前三个主成分是比较合适的。这种方法确定的主成分个数与按累积贡献率确定的主成分个数往往是一致的。在实际应用中有些研究工作者习惯于保留特征值大于1的那些主成分,但这种方法缺乏完善的理论支持。在大多数情况下,当 时即可使所选主成分保持信息总量的比重达到85%以上。 2019/1/2 中国人民大学六西格玛质量管理研究中心 32 目录 上页 下页 返回 结束
§5.3.1 总体主成分 定义5.2 第 个主成分 与原始变量 的相关系数 称做因子负荷量。 定义5.2 第 个主成分 与原始变量 的相关系数 称做因子负荷量。 因子负荷量是主成分解释中非常重要的解释依据,因子负荷量的绝对值大小刻画了该主成分的主要意义及其成因。在下一章因子分析中还将要对因子负荷量的统计意义给出更详细的解释。由下面的性质我们可以看到因子负荷量与系数向量成正比。 性质3 (5.6) 证明: 令: 为单位向量。则 又 2019/1/2 中国人民大学六西格玛质量管理研究中心 33 目录 上页 下页 返回 结束
§5.3.1 总体主成分 于是 由性质3知因子负荷量 与向量系数 成正比,与 的标准差成反比关系,因此,绝不能将因子负荷量与向量系数混为一谈。在解释主成分的成因或是第 个变量对第 个主成分的重要性时,应当根据因子负荷量而不能仅仅根据 与 的变换系数 。 2019/1/2 中国人民大学六西格玛质量管理研究中心 34 目录 上页 下页 返回 结束
§5.3.1 总体主成分 性质4 (5.7) 证明:由性质3有 (5.8) 性质5 证明:因为 向量是随机向量 的线性组合,因此 也可以精确表示成 的线性组合。由回归分析知识知, 与 的全相关系数的平方和等于1,而因为 之间互不相关,所以 与 的全相关系数的平方和也就是 ,因此,性质5成立。 2019/1/2 中国人民大学六西格玛质量管理研究中心 35 目录 上页 下页 返回 结束
§5.3.1 总体主成分 定义5.3 与前 个主成分 的全相关系数平方和称为 对原始变量 的方差贡献率 ,即 (5.9) 定义5.3 与前 个主成分 的全相关系数平方和称为 对原始变量 的方差贡献率 ,即 (5.9) 这一定义说明了前 个主成分提取了原始变量 中 的信息,由此我们可以判断我们提取的主成分说明原始的能力。 2019/1/2 中国人民大学六西格玛质量管理研究中心 36 目录 上页 下页 返回 结束
§5.3.1 总体主成分 (三)从相关阵出发求解主成分 考虑如下的数学变换: 令: 其中, 与 分别表示变量 的期望与方差。于是有 其中, 与 分别表示变量 的期望与方差。于是有 于是,对原始变量 进行标准化: 2019/1/2 中国人民大学六西格玛质量管理研究中心 37 目录 上页 下页 返回 结束
§5.3.1 总体主成分 经过上述标准化后,显然有 由于上面的变换过程,原始变量 的相关阵实际上就是对原始变量标准化后的协方差矩阵,因此,由相关矩阵求主成分的过程与主成分个数的确定准则实际上是与由协方差矩阵出发求主成分的过程与主成分个数的确定准则是相一致的,在此不再赘述。仍用 分别表示相关阵 的特征值与对应的标准正交特征向量,此时,求得的主成分与原始变量的关系式为: (5.10) 2019/1/2 中国人民大学六西格玛质量管理研究中心 38 目录 上页 下页 返回 结束
§5.3.1 总体主成分 (四)由相关阵求主成分时主成分性质的简单形式 由相关阵出发所求得主成分依然具有上面所述的各种性质,不同的是在形式上要简单,这是由相关阵 的特性决定的。我们将由相关阵得到的主成分的性质总结如下: 1. 的协方差矩阵为对角阵 ; 3.第 个主成分的方差占总方差的比例,即第 个主成分的方差贡献率为 ,前 个主成分的累积方差贡献率 为 ; 2019/1/2 中国人民大学六西格玛质量管理研究中心 39 目录 上页 下页 返回 结束
§5.3.1 总体主成分 注意到 ,且 ,结合前面从协方差矩阵出发求主成分部分对主成分性质的说明,可以很容易的得出上述性质。虽然主成分的性质在这里有更简单的形式,但应注意其实质与前面的结论并没有区别;需要注意的一点是判断主成分的成因或是原始变量(这里原始变量指的是标准化以后的随机向量 )对主成分的重要性有更简单的方法,因为由上面第4条知这里因子负荷量仅依赖于由 到 的转换向量系数 (因为对不同的 ,因子负荷量表达式的后半部分 是固定的)。 2019/1/2 中国人民大学六西格玛质量管理研究中心 40 目录 上页 下页 返回 结束
§5.4 样本主成分的导出 在实际研究工作中,总体协方差阵 与相关阵 通常是未知的,于是需要通过样本数据来估计。设有 个样品,每个样品有 个指标,这样共得到 个数据,原始资料矩阵如下: 记 2019/1/2 中国人民大学六西格玛质量管理研究中心 41 目录 上页 下页 返回 结束
§5.4 样本主成分的导出 为样本协方差矩阵,作为总体协方差阵 的无偏估计, 是样本相关矩阵,为总体相关矩阵的估计。由前面的讨论知,若原始资料 阵是经过标准化处理的,则由矩阵 求得的协方差阵就是相关矩阵,即 与 完全相同。因为由协方差矩阵求解主成分的过程与同相关矩阵出发求解主成分的过程是一致的,下面我们仅介绍由相关阵 出发求解主成分。 根据总体主成分的定义,主成分 的协方差是: 其中 为对角阵 2019/1/2 中国人民大学六西格玛质量管理研究中心 42 目录 上页 下页 返回 结束
§5.4 样本主成分的导出 假定资料矩阵 为已标准化后的数据矩阵,则可由相关矩阵代替协方差矩阵,于是上式可表示为: 用 左乘上式,得 即: 用 左乘上式,得 假定资料矩阵 为已标准化后的数据矩阵,则可由相关矩阵代替协方差矩阵,于是上式可表示为: 即: 2019/1/2 中国人民大学六西格玛质量管理研究中心 43 目录 上页 下页 返回 结束
§5.4 样本主成分的导出 把上式全部展开得到 个方程,这里只考虑在矩阵乘积中由第一列得出的 个方程: 整理得到: 把上式全部展开得到 个方程,这里只考虑在矩阵乘积中由第一列得出的 个方程: 整理得到: 2019/1/2 中国人民大学六西格玛质量管理研究中心 44 目录 上页 下页 返回 结束
§5.4 样本主成分的导出 为了得到上面齐次方程的非零解,根据线性方程组的理论知,要求系数矩阵行列式为0,即 即 对于 可以得到完全类似的方程,于是,所求的新的综合变量(主成分)的方差 ( )是 的 个根,为相关矩阵的特征值,相应的各个 是其特征向量的分量。 2019/1/2 中国人民大学六西格玛质量管理研究中心 45 目录 上页 下页 返回 结束
§5.4 样本主成分的导出 因为 为正定矩阵,所以其特征根都是非负实数,将它们依大小顺序排列 ,其相应的特征向量记为 ,则相对于 的方差为: 因为 为正定矩阵,所以其特征根都是非负实数,将它们依大小顺序排列 ,其相应的特征向量记为 ,则相对于 的方差为: 同理有 即对于 有最大方差, 有次大方差,……,并且,协方差为: 2019/1/2 中国人民大学六西格玛质量管理研究中心 46 目录 上页 下页 返回 结束
§5.4 样本主成分的导出 由此可知新的综合变量(主成分) 彼此不相关,并且 的方差为 ,则 分别称为第一、第二、……、第 个主成分。由上述求主成分的过程可知,主成分在几何图形中的方向实际上就是 的特征向量的方向,关于主成分分析的几何意义我们还要在下一节详细讨论;主成分的方差贡献就等于 的相应特征值。这样,我们在利用样本数据求解主成分的过程实际上就转化为求相关阵或协方差阵的特征值和特征向量的过程。 2019/1/2 中国人民大学六西格玛质量管理研究中心 47 目录 上页 下页 返回 结束
§5.5 有关问题的讨论 §5.5.1 关于由协方差矩阵或相关矩阵出发求解主成分 §5.5.2 主成分分析不要求数据来自于正态总体 §5.5 有关问题的讨论 §5.5.1 关于由协方差矩阵或相关矩阵出发求解主成分 §5.5.2 主成分分析不要求数据来自于正态总体 §5.5.3 主成分分析与重叠信息 2019/1/2 中国人民大学六西格玛质量管理研究中心 48 目录 上页 下页 返回 结束
§5.5.1 关于由协方差矩阵或相关矩阵出发求解主成分 §5.5.1 关于由协方差矩阵或相关矩阵出发求解主成分 由前面的讨论可知求解主成分的过程实际就是对矩阵结构进行分析的过程,也就是求解特征值的过程。在实际分析过程中,我们可以从原始数据的协方差矩阵出发,也可以从原始数据的相关矩阵出发,其求主成分的过程是一致的。但是,从协方差阵出发和从相关阵出发所求得的主成分一般来说是有差别的,而且这种差别有时候还很大。下面我们举例说明这个问题,为了叙述方便,我们以二维数据为例。 【例5.1】 假定我们研究某一经济问题共涉及两个指标:产值和利税。其中产值以百万元计,利税以万元计,得原始资料矩阵如下: 2019/1/2 中国人民大学六西格玛质量管理研究中心 49 目录 上页 下页 返回 结束
§5.5.1 关于由协方差矩阵或相关矩阵出发求解主成分 §5.5.1 关于由协方差矩阵或相关矩阵出发求解主成分 可以得到,原始变量的协方差阵与相关阵分别为: 由协方差阵出发求解主成分,得到结果见表5-1: 2019/1/2 中国人民大学六西格玛质量管理研究中心 50 目录 上页 下页 返回 结束
§5.5.1 关于由协方差矩阵或相关矩阵出发求解主成分 §5.5.1 关于由协方差矩阵或相关矩阵出发求解主成分 表5-1 对应两特征值的标准正交特征向量为: 表5-2 2019/1/2 中国人民大学六西格玛质量管理研究中心 51 目录 上页 下页 返回 结束
§5.5.1 关于由协方差矩阵或相关矩阵出发求解主成分 §5.5.1 关于由协方差矩阵或相关矩阵出发求解主成分 因此,所得的主成分的表达式为: 其中,第一主成分保留了原始变量99.50%的信息,我们在分析中就可以把第二主成分舍掉,这样达到简化问题的目的。第一主成分与原始变量的因子负荷量分别为: 由此可知,第一主成分反应了利税指标0.9871的信息,方差较大的利税指标对第一主成分起了主要作用。 2019/1/2 中国人民大学六西格玛质量管理研究中心 52 目录 上页 下页 返回 结束
§5.5.1 关于由协方差矩阵或相关矩阵出发求解主成分 §5.5.1 关于由协方差矩阵或相关矩阵出发求解主成分 由相关矩阵求解主成分的结果见表5-3: 表5-3 对应两特征值的标准正交特征向量为: 表5-4 2019/1/2 中国人民大学六西格玛质量管理研究中心 53 目录 上页 下页 返回 结束
§5.5.1 关于由协方差矩阵或相关矩阵出发求解主成分 §5.5.1 关于由协方差矩阵或相关矩阵出发求解主成分 此时,所得主成分的表达式为: 由从相关矩阵出发求解主成分的结果可知,第一主成分保留了原始变量66.29%的信息,且产值指标与利税指标对第一主成分的贡献是相同的。第一主成分分别集中了产值和利税 的信息。 2019/1/2 中国人民大学六西格玛质量管理研究中心 54 目录 上页 下页 返回 结束
§5.5.1 关于由协方差矩阵或相关矩阵出发求解主成分 §5.5.1 关于由协方差矩阵或相关矩阵出发求解主成分 由此可以看出,由协方差阵出发求解主成分所得的结果及由相关阵出发求解主成分所得的结果有很大不同,所得主成分解释原始变量方差比例与主成分表达式均有显著差别,且两者之间不存在简单的线性关系。正因有此差别,所以在处理实际问题时就面临着选取由协方差矩阵出发求解主成分还是由相关阵出发求解主成分的问题,为了更好的理解这种差别,我们对原始变量转换成同一度量单位再求主成分。 对产值与利税均以万元计,原始数据资料阵变为以下形式: 相关矩阵没有变化,协方差矩阵变为: 2019/1/2 中国人民大学六西格玛质量管理研究中心 55 目录 上页 下页 返回 结束
§5.5.1 关于由协方差矩阵或相关矩阵出发求解主成分 §5.5.1 关于由协方差矩阵或相关矩阵出发求解主成分 由此协方差矩阵出发重新求主成分,结果见表5-5: 表5-5 对应两特征值的标准正交特征向量见表5-6 : 表5-6 2019/1/2 中国人民大学六西格玛质量管理研究中心 56 目录 上页 下页 返回 结束
§5.5.1 关于由协方差矩阵或相关矩阵出发求解主成分 §5.5.1 关于由协方差矩阵或相关矩阵出发求解主成分 此时所得主成分的表达式为: 其中,第一主成分保留了原始变量98.44%的信息,第一主成分 与原始变量的因子负荷量分别为: 由此可知,第一主成分保留原始变量的信息与主成分与原始变量的关系式均与上两种情况有很大差别,那么,究竟哪种方法得到的结果更为可信呢,在实际研究中我们应该作何选择呢? 2019/1/2 中国人民大学六西格玛质量管理研究中心 57 目录 上页 下页 返回 结束
§5.5.1 关于由协方差矩阵或相关矩阵出发求解主成分 §5.5.1 关于由协方差矩阵或相关矩阵出发求解主成分 一般而言,对于度量单位不同的指标或是取值范围彼此差异非常大的指标,我们不直接由其协方差矩阵出发进行主成分分析,而应该考虑将数据标准化。比如,在对上市公司的财务状况进行分析时,常常会涉及到利润总额、市盈率、每股净利率等指标,其中利润总额取值常常从几十万到上百万,市盈率取值一般从五到六、七十之间,而每股净利率在1以下,不同指标取值范围相差很大,这时若是直接从协方差矩阵入手进行主成分分析,明显利润总额的作用将起到重要支配作用,而其它两个指标的作用很难在主成分中体现出来,此时应该考虑对数据进行标准化处理。 2019/1/2 中国人民大学六西格玛质量管理研究中心 58 目录 上页 下页 返回 结束
§5.5.1 关于由协方差矩阵或相关矩阵出发求解主成分 §5.5.1 关于由协方差矩阵或相关矩阵出发求解主成分 但是,对原始数据进行标准化处理后倾向于各个指标的作用在主成分的构成中相等。由上面的例子我们看到,对于取值范围相差不大或是度量相同的指标进行标准化处理后,其主成分分析的结果仍与由协方差阵出发求得的结果有较大区别。其原因是由于对数据进行标准化的过程实际上也就是抹杀原始变量离散程度差异的过程,标准化后的各变量方差相等均为1,而实际上方差也是对数据信息的重要概括形式,也就是说,对原始数据进行标准化后抹杀了一部分重要信息,因此才使得标准化后各变量在对主成分构成中的作用趋于相等。由此看来,对同度量或是取值范围在同量级的数据,还是直接从协方差矩阵求解主成分为宜。 2019/1/2 中国人民大学六西格玛质量管理研究中心 59 目录 上页 下页 返回 结束
§5.5.1 关于由协方差矩阵或相关矩阵出发求解主成分 §5.5.1 关于由协方差矩阵或相关矩阵出发求解主成分 对于从什么出发求解主成分,现在还没有一个定论,但是我们应该看到,不考虑实际情况就对数据进行标准化处理或者直接从原始变量的相关矩阵出发求解主成分是有其不足之处的,这一点一定要引起注意。建议在实际工作中分别从不同角度出发求解主成分并研究其结果的差别,看看是否发生明显差异且这种差异产生的原因在何处,以确定用哪种结果更为可信。 2019/1/2 中国人民大学六西格玛质量管理研究中心 60 目录 上页 下页 返回 结束
§5.5.2 主成分分析不要求数据来自于正态总体 由上面的讨论可知,无论是从原始变量协方差矩阵出发求解主成分,还是从相关矩阵出发求解主成分,均没有涉及到总体分布的问题。也就是说,与很多多元统计方法不同,主成分分析不要求数据来自于正态总体。实际上,主成分分析就是对矩阵结构的分析,其中主要用到的技术是矩阵运算的技术及矩阵对角化和矩阵的谱分解技术。我们知道,对多元随机变量而言,其协方差矩阵或是其相关矩阵均是非负定的,这样,我们就可以按照求解主成分的步骤求出其特征值、标准正交特征向量,进而求出主成分,达到缩减数据维数的目的。同时,由主成分分析的几何意义可以看到,对来自多元正态总体的数据,我们得到了合理的几何解释,即主成分就是按数据离散程度最大的方向进行坐标轴旋转。 主成分分析的这一特性大大扩展了其应用范围,对多维数据,只要是涉及降维的处理,我们都可以尝试用主成分分析,而不用花太多精力考虑其分布情况。 2019/1/2 中国人民大学六西格玛质量管理研究中心 61 目录 上页 下页 返回 结束
§5.5.3主成分分析与重叠信息 首先应当认识到主成分分析方法适用于变量之间存在较强相关性的数据,如果原始数据相关性较弱,运用主成分分析后不能起到很好的降维作用,即所得的各个主成分浓缩原始变量信息的能力差别不大。一般认为当原始数据大部分变量的相关系数都小于0.3时,运用主成分分析不会取得很好的效果。 很多研究工作者在运用主成分分析方法时,都或多或少存在着对主成分分析去除原始变量重叠信息的期望,这样,在实际工作中初始就可以把与某一研究问题相关而可能得到的变量(指标)都纳入分析过程,再用少数几个主成分浓缩这些有用信息(假定已剔除了重叠信息),然后对主成分进行深入分析。在对待重叠信息方面,生成的新的综合变量(主成分)是有效剔除了原始变量中的重叠信息,还是仅仅按原来的模式将原始信息中的绝大部分用几个不相关的新变量表示出来,这一点还值得讨论。 2019/1/2 中国人民大学六西格玛质量管理研究中心 62 目录 上页 下页 返回 结束
§5.5.3主成分分析与重叠信息 为说明这个问题,我们有必要再回顾一下主成分的求解过程,我们仅就从协方差矩阵出发求主成分的过程予以说明,对相关阵有类似的情况。 对于 维指标的情况,我们得到其协方差矩阵如下: 现在考虑一种极端情况,即有两个指标完全相关,不妨设第一个指标在进行主成分分析时考虑了两次。则协方差矩阵变为: 2019/1/2 中国人民大学六西格玛质量管理研究中心 63 目录 上页 下页 返回 结束
§5.5.3主成分分析与重叠信息 此时进行主成分分析的时候实际上是由 维矩阵 进行。 的行列式的值为零但仍满足非负定,只不过其最小的特征值为0,由 出发求解主成分,其方差总和不再是 而是变为 ,也就是说,第一个指标在分析过程中起到了加倍的作用,其重叠信息完全象其他指标提供的信息一样在起作用。 2019/1/2 中国人民大学六西格玛质量管理研究中心 64 目录 上页 下页 返回 结束
§5.5.3主成分分析与重叠信息 这样求得的主成分已经与没有第一个指标重叠信息时不一样了,因为主成分方差的总和已经变为 而不是 ,每个主成分解释方差的比例也相应发生变化,而整个分析过程没有对重叠信息作任何特殊处理。也就是说,由于对第一个指标罗列了两次,其在生成的主成分构成中也起到了加倍的作用。这一点是尤其应该引起注意的,这意味着主成分分析对重叠信息的剔除是无能为力的,同时主成分分析还损失了一部分信息。对此文献[4]举例进行了说明。 这就告诉我们在实际工作中,在选取初始变量进入分析时应该小心,对原始变量存在多重共线性的问题,在应用主成分分析方法时一定要慎重。应该考虑所选取的初始变量是否合适,是否真实地反映了事物的本来面目,如果是出于避免遗漏某些信息而特意选取了过多的存在重叠信息的变量时,就要特别注意应用主成分分析所得到的结果。 2019/1/2 中国人民大学六西格玛质量管理研究中心 65 目录 上页 下页 返回 结束
§5.5.3主成分分析与重叠信息 如果所得到的样本协方差矩阵(或是相关阵)最小的特征值接近于0,那么就有 (5.11) 进而推出 (5.12) 这就意味着,中心化以后的原始变量之间存在着多重共线性,即原始变量存在着不可忽视的重叠信息。因此,在进行主成分分析得出协方差阵或是相关阵发现最小特征根接近于零时,应该注意对主成分的解释,或者考虑对最初纳入分析的指标进行筛选,由此可以看出,虽然主成分分析不能有效地剔除重叠信息,但它至少可以发现原始变量是否存在着重叠信息,这对我们减少分析中的失误是有帮助的。 2019/1/2 中国人民大学六西格玛质量管理研究中心 66 目录 上页 下页 返回 结束
§5.6 主成分分析步骤及框图 §5.6.1 主成分分析步骤 §5.6.2 主成分分析的逻辑框图 §5.6.1 主成分分析步骤 §5.6.2 主成分分析的逻辑框图 2019/1/2 中国人民大学六西格玛质量管理研究中心 67 目录 上页 下页 返回 结束
§5.6.1 主成分分析步骤 由上面讨论大体上已经可以明了进行主成分分析的步骤,对此进行归纳如下: 1.根据研究问题选取初始分析变量; §5.6.1 主成分分析步骤 由上面讨论大体上已经可以明了进行主成分分析的步骤,对此进行归纳如下: 1.根据研究问题选取初始分析变量; 2.根据初始变量特性判断由协方差阵求主成分还是由相关阵求主成分; 3.求协差阵或相关阵的特征根与相应标准特征向量; 4.判断是否存在明显的多重共线性,若存在,则回到第一步; 5.得到主成分的表达式并确定主成分个数,选取主成分; 6.结合主成分对研究问题进行分析并深入研究。 2019/1/2 中国人民大学六西格玛质量管理研究中心 68 目录 上页 下页 返回 结束
§5.6.2 主成分分析的逻辑框图 主成分分析的逻辑框图见 图5-3: 中国人民大学六西格玛质量管理研究中心 2019/1/2 69 特征值 §5.6.2 主成分分析的逻辑框图 特征值 标准正交特征向量 是否有接近0的情况 是 其他处理 否 主成分 对主成分进行分析 深入分析 选择初始变量 度量或取值范围相同? (否) 对比 分析相关阵 分析协方差阵 主成分分析的逻辑框图见 图5-3: 2019/1/2 中国人民大学六西格玛质量管理研究中心 69 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 SPSS软件FACTOR模块提供了主成分分析的功能。下面先以SPSS软件包自带的数据Employee data.sav为例介绍主成分分析的上机实现方法,在SPSS软件的安装目录下可以找到该数据集;然后,我们举一个实际的例子介绍主成分分析的具体应用。 【例5.2】 数据集Employee data为Midwestern银行在1969-1971年之间雇员情况的数据,共包括474条观测及如下10个变量:Id(观测号)、Gender(性别)、Bdate(出生日期)、Educ(受教育程度(年数))、Jobcat(工作种类)、Salary(目前年薪)、Salbegin(开始受聘时的年薪)、Jobtime(受雇时间(月))、Prevexp(受雇以前的工作时间(月))、Minority(是否少数民族)。下面我们用主成分分析方法处理该数据,以期用少数变量来描述该地区居民的雇佣情况。 2019/1/2 中国人民大学六西格玛质量管理研究中心 70 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 进入SPSS软件,打开数据集Employee data.sav。依次点选Analyze→Data Reduction→Factor….进入Factor Analysis(因子分析)对话框。(在SPSS软件中,主成分分析与因子分析均在Factor Analysis模块中完成。此时,数据集Employee data.sav中的变量名均已显示在左边的窗口中,依次选中变量educ、salary、salbegin、jobtime、prevexp并点向右的箭头按钮,这五个变量便进入variables窗口(此时若选中variables窗口中的变量,则窗口左侧的箭头按钮即转向左侧,点此按钮即可剔除所选中变量)。点击右侧的OK按钮,即可得到如下输出结果5-1。 2019/1/2 中国人民大学六西格玛质量管理研究中心 71 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 输出结果5-1(1) 输出结果5-1(2) 中国人民大学六西格玛质量管理研究中心 2019/1/2 72 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 输出结果5-1(3) 中国人民大学六西格玛质量管理研究中心 2019/1/2 73 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 其中Communalities给出了该次分析从每个原始变量中提取的信息,表格下面的注示表明,该次分析是用Factor analysis模块默认的信息提取方法即主成分分析完成的。可以看到除受教育程度信息损失较大外,主成分几乎包含了各个原始变量至少90%的信息。Total Variance Explained表则显示了各主成分解释原始变量总方差的情况,SPSS默认保留特征根大于1的主成分,在本例中看到当保留3个主成分为宜,这3个主成分集中了原始5个变量信息的90.66%,可见效果是比较好的。实际上,主成分解释总方差的百分比也可以由Communalities表中计算得出,即 (0.896+0.916+0.999+0.968+0.754)/5=90.66%。Component Matrix表中给出了标准化原始变量用求得的主成分线性表示的近似表达式,我们以表中Current Salary一行为例,不妨用 来表示各个主成分,则由Component Matrix表可以得到: 标准化的salary 2019/1/2 中国人民大学六西格玛质量管理研究中心 74 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 在上面的主成分分析中,SPSS默认是从相关阵出发求解主成分,且默认保留特征根大于1的主成分,实际上,对主成分的个数我们可以自己确定,方法为:进入Factor Analysis对话框并选择好变量之后,点击Extraction选项,在弹出的对话框中有一个Extract选择框,默认是选择Eigenvalues over 1也就是保留特征根大于1的主成分,我们可以输入别的数值来改变SPSS软件保留特征根的大小;另外,还可以选择Number of Factors选项直接确定主成分的个数。在实际进行主成分分析时可以先按照默认设置做一次主成分,然后根据输出结果确定应保留主成分的个数,用该方法进行设定后重新分析。 因为我们上面的结果是默认从相关阵出发得到的,而由相关阵出发求得的主成分其性质有简单的表达形式,我们可以方便地加以验证。 2019/1/2 中国人民大学六西格玛质量管理研究中心 75 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 由Component Matrix中的结果可以得到: =第一主成分的方差,这就验证了性质4。又有: 这恰好与Communalities表中三个主成分提取salary变量的信息相等。我们重做一遍主成分分析,此次将5个主成分全部保留,得到Component Matrix表如输出结果5-2: 由Component Matrix中的结果可以得到: =第一主成分的方差,这就验证了性质4。又有: 2019/1/2 中国人民大学六西格玛质量管理研究中心 76 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 输出结果5-2 可以看到前三个主成分的相应结果与输出结果5-1中的对应部分结果是一致的。对上表中结果有如下关系式: 2019/1/2 中国人民大学六西格玛质量管理研究中心 77 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 由SPSS软件默认选项输出的结果,我们还不能得到用原始变量表示出主成分的表达式, 这是因为Component Matrix表中表示的是因子载荷矩阵而不是主成分的系数矩阵,因此要对SPSS的因子分析模块运行结果进行调整,将Component Matrix表中的第 列的每个元素分别除以第 个特征根的平方根 就得到主成分分析的第 个主成分的系数,主成分的系数矩阵如下表所示。 这就验证了性质5。由此表还可以得到标准化原始变量用各主成分线性表示的精确的表达式,以仍以Current Salary为例,有: 标准化的salary 这就验证了性质5。由此表还可以得到标准化原始变量用各主成分线性表示的精确的表达式,以仍以Current Salary为例,有: 标准化的salary 由SPSS软件默认选项输出的结果,我们还不能得到用原始变量表示出主成分的表达式, 这是因为Component Matrix表中表示的是因子载荷矩阵而不是主成分的系数矩阵,因此要对SPSS的因子分析模块运行结果进行调整,将Component Matrix表中的第 列的每个元素分别除以第 个特征根的平方根 就得到主成分分析的第 个主成分的系数,主成分的系数矩阵如下表所示。 2019/1/2 中国人民大学六西格玛质量管理研究中心 78 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 Educational Level (years) 0.53765 -0.18898 -0.01396 Current Salary 0.597457 0.101834 0.028523 Beginning Salary 0.58245 0.256952 -0.07677 Months since Hire 0.043243 -0.05093 0.994159 Previous Experience (months) -0.1134 0.940903 0.068887 由此表可以写出各个主成分用标准化后的原始变量表示的表达式。 2019/1/2 中国人民大学六西格玛质量管理研究中心 79 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 2019/1/2 中国人民大学六西格玛质量管理研究中心 80 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 【例5.3】在企业经济效益的评价中,设计的指标往往很多。为了简化系统结构,抓住经济效益评价中的主要问题,我们可由原始数据矩阵出发求主成分。在对我国部分省、市、自治区独立核算的工业企业的经济效益评价中,涉及到9项指标,原始数据见表5-7,即样品数n=28,变量数p=9。 2019/1/2 中国人民大学六西格玛质量管理研究中心 81 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 表5-7 表5-7 中国人民大学六西格玛质量管理研究中心 2019/1/2 82 目录 上页 下页 返回 结束 100固定资产原值实现值(%) 100元固定资产原值实现利税(%) 100元资金实现利税(%) 100元工业总产值实现利税(%) 100元销售收入实现利税(%) 每吨标准煤实现工业产值(元) 每千瓦时电力实现工业产值(元) 全员劳动生产率(元/人.年) 100元流动资金实现产值(元) 北京(1) 119.29 30.98 29.92 25.97 15.48 2178 3.41 21006 296.7 天津(2) 143.98 31.59 30.21 21.94 12.29 2852 4.29 20254 363.1 河北(3) 94.8 17.2 17.95 18.14 9.37 1167 2.03 12607 322.2 山西(4) 65.8 11.08 11.06 12.15 16.84 8.82 1.65 10166 284.7 内蒙(5) 54.79 9.24 9.54 16.86 6.27 894 1.8 7564 225.4 辽宁(6) 94.51 21.12 22.83 22.35 11.28 1416 2.36 13.386 311.7 吉林(7) 80.49 13.36 13.76 16.6 7.14 1306 2.07 9400 274.1 黑龙江(8) 75.86 15.82 16.67 20.86 10.37 1267 2.26 9830 267 上海(9) 187.79 45.9 39.77 24.44 15.09 4346 4.11 31246 418.6 江苏(10) 205.96 27.65 22.58 13.42 7.81 3202 4.69 23377 407.2 浙江(11) 207.46 33.06 25.78 15.94 9.28 3811 4.19 22054 385.5 安徽(12) 110.78 20.7 20.12 18.69 6.6 1468 2.23 12578 341.1 福建(13) 122.76 22.52 19.93 18.34 8.35 2200 2.63 12164 301.2 100固定资产原值实现值(%) 100元固定资产原值实现利税(%) 100元资金实现利税(%) 100元工业总产值实现利税(%) 100元销售收入实现利税(%) 每吨标准煤实现工业产值(元) 每千瓦时电力实现工业产值(元) 全员劳动生产率(元/人.年) 100元流动资金实现产值(元) 北京(1) 119.29 30.98 29.92 25.97 15.48 2178 3.41 21006 296.7 天津(2) 143.98 31.59 30.21 21.94 12.29 2852 4.29 20254 363.1 河北(3) 94.8 17.2 17.95 18.14 9.37 1167 2.03 12607 322.2 山西(4) 65.8 11.08 11.06 12.15 16.84 8.82 1.65 10166 284.7 内蒙(5) 54.79 9.24 9.54 16.86 6.27 894 1.8 7564 225.4 辽宁(6) 94.51 21.12 22.83 22.35 11.28 1416 2.36 13.386 311.7 吉林(7) 80.49 13.36 13.76 16.6 7.14 1306 2.07 9400 274.1 黑龙江(8) 75.86 15.82 16.67 20.86 10.37 1267 2.26 9830 267 上海(9) 187.79 45.9 39.77 24.44 15.09 4346 4.11 31246 418.6 江苏(10) 205.96 27.65 22.58 13.42 7.81 3202 4.69 23377 407.2 浙江(11) 207.46 33.06 25.78 15.94 9.28 3811 4.19 22054 385.5 安徽(12) 110.78 20.7 20.12 18.69 6.6 1468 2.23 12578 341.1 福建(13) 122.76 22.52 19.93 18.34 8.35 2200 2.63 12164 301.2 2019/1/2 中国人民大学六西格玛质量管理研究中心 82 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 续表5-7 中国人民大学六西格玛质量管理研究中心 2019/1/2 83 目录 上页 下页 返回 结束 江西(14) 94.94 14.7 14.18 15.49 6.69 1669 2.24 10463 274.4 山东(15) 117.58 21.93 20.89 18.65 9.1 1820 2.8 17829 331.1 河南(16) 85.98 17.3 17.18 20.12 7.67 1306 1.89 11247 276.5 湖北(17) 103.96 19.5 18.48 18.77 9.16 1829 2.75 15745 308.9 湖南(18) 104.03 21.47 21.28 20.63 8.72 1272 1.98 13161 309 广东(19) 136.44 23.64 20.83 17.33 7.85 2959 3.71 16259 334 广西(20) 100.72 22.04 20.9 21.88 9.67 1732 2.13 12441 296.4 四川(21) 84.73 14.35 14.17 16.93 7.96 1310 2.34 11703 242.5 贵州(22) 59.05 14.48 24.53 8.09 1068 1.32 9710 206.7 云南(23) 73.72 21.91 22.7 29.72 9.38 1447 1.94 12517 295.8 陕西(24) 78.02 13.13 12.57 16.83 9.19 1731 2.08 11369 220.3 甘肃(25) 59.62 14.07 16.24 23.59 11.34 926 1.13 13084 246.8 青海(26) 51.66 8.32 8.26 16.11 7.05 1055 1.31 9246 176.49 宁夏(27) 52.95 8.25 8.82 15.57 6.58 834 1.12 10406 245.4 新疆(28) 60.29 11.26 13.14 18.68 8.39 1041 2.9 10983 266 2019/1/2 中国人民大学六西格玛质量管理研究中心 83 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 首先标准化原始数据,标准化后的数据见表5-8。 表5-8 中国人民大学六西格玛质量管理研究中心 0.423523 1.338405 1.590282 1.687556 2.239634 0.481971 0.954746 1.260371 0.048805 0.995199 1.409649 1.631453 0.667228 1.065873 1.188758 1.855394 1.133844 1.200166 -0.14352 -0.271 -0.10906 -0.29487 -0.00854 -0.57821 -0.45763 -0.15279 0.49097 -0.81499 -0.98577 -1.08721 -1.81143 2.740046 -1.79273 -0.84655 -0.56349 -0.15927 -1.06992 -1.20067 -1.303 -0.61894 -1.14919 -0.86449 -0.69303 -1.00129 -1.18752 -0.15024 0.186827 0.583737 0.771033 0.694243 -0.3171 -0.11989 -2.2717 0.308902 -0.47486 -0.71949 -0.7039 -0.68477 -0.82907 -0.43245 -0.4167 -0.69238 -0.34307 -0.58206 -0.43218 -0.29078 0.39379 0.359408 -0.47334 -0.22224 -0.62003 -0.46619 2.009583 3.080956 2.988656 1.300186 2.096133 2.755433 1.671171 2.983284 2.162524 2.430294 0.949485 0.548246 -1.48989 -0.58254 1.555783 2.26478 1.659299 1.964851 2.465025 1.581335 1.002539 -0.85187 -0.04166 2.194408 1.753048 1.4367 1.588578 0.226481 0.137774 0.199007 -0.15562 -1.02776 -0.26257 -0.25294 -0.15767 0.818691 0.503868 0.350337 0.172033 -0.24423 -0.38385 0.505041 0.156444 -0.22732 0.126834 -0.14028 -0.56298 -0.64428 -0.9658 -0.99465 -0.05179 -0.24271 -0.51352 -0.33787 0.383929 0.281429 0.308322 -0.16574 -0.10789 0.106557 0.330433 0.72583 0.645294 2019/1/2 中国人民大学六西格玛质量管理研究中心 84 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 续表5-8 中国人民大学六西格玛质量管理研究中心 2019/1/2 85 目录 上页 下页 返回 结束 -0.34774 -0.25932 -0.21838 0.206435 -0.63406 -0.43245 -0.60092 -0.38161 -0.30146 0.068569 -0.00238 -0.03382 -0.13536 -0.08581 0.115994 0.27926 0.37519 0.260351 0.07019 0.227705 0.363689 0.335558 -0.24771 -0.4681 -0.50881 -0.05958 0.262085 0.820617 0.481145 0.299804 -0.49995 -0.56783 1.300963 1.261785 0.461673 0.695579 -0.00645 0.294277 0.309741 0.652037 0.101843 0.014276 -0.35529 -0.18072 0.043603 -0.37669 -0.60386 -0.6457 -0.60122 -0.52735 -0.42825 -0.14036 -0.30489 -0.89101 -0.97128 -0.58868 -0.62014 1.322972 -0.47952 -0.68202 -1.18429 -0.64022 -1.51177 -0.63161 0.279093 0.565282 2.636993 -0.00486 -0.28459 -0.54975 -0.16793 0.033199 -0.53205 -0.74635 -0.87284 -0.62654 -0.07477 0.013227 -0.40646 -0.36109 -1.27595 -0.95809 -0.63656 -0.35182 1.08498 0.71632 -0.83093 -1.37875 -0.07253 -0.81645 -1.14239 -1.30812 -1.48472 -0.80883 -0.86219 -0.69566 -1.19453 -0.71829 -2.03561 -1.11252 -1.3163 -1.40522 -0.94555 -1.03512 -0.92741 -1.38899 -0.52311 -0.84073 -0.94257 -0.96475 -0.79192 -0.15815 -0.36913 -0.71034 0.432779 -0.42603 -0.48353 2019/1/2 中国人民大学六西格玛质量管理研究中心 85 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 将表5-8数据导入spss软件,依次点选Analyze-Data Reduction-Factor进入Factor Analysis对话框。(在spss中,主成分分析与因子分析均在Factor Analysis模块中完成。)如图5-4所示: 图5-4 2019/1/2 中国人民大学六西格玛质量管理研究中心 86 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 此时,数据集5-5.sav中的变量名均显示在对话框左边的窗口中,选择变量x1,x2,x3,x4,x5,x6,x7,x8,x9进入variables窗口中,操作如图5-5所示: 图5-5 2019/1/2 中国人民大学六西格玛质量管理研究中心 87 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 图5-5 点击descriptives按钮,在弹出的对话框中,在correlation matrix中选择coefficients 。回到原对话框点击右侧的Ok,即可得到输出结果5-4 和输出结果5-5。 2019/1/2 中国人民大学六西格玛质量管理研究中心 88 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 输出结果5-4 2019/1/2 中国人民大学六西格玛质量管理研究中心 89 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 输出结果5-5 由输出结果5-4看到,前面2个主成分 、 的方差和占全部方差的比例为84.7%。我们就选取 为第一主成分,为第二主成分,且这两个主成分之方差和占全部方差的84.7%,即基本上保留了原来指标的信息,这样由原来的9个指标转化为2个新指标,起到了降维的作用。 2019/1/2 中国人民大学六西格玛质量管理研究中心 90 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 SPSS软件得到因子载荷矩阵如下图: 中国人民大学六西格玛质量管理研究中心 2019/1/2 91 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 对SPSS的因子分析模块运行结果输出的Component Matrix的第 列的每个元素分别除以第 个特征根的平方根 就得到主成分分析的第 个主成分的系数。结果如下表: 92 2019/1/2 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 主成分1 主成分2 x1 0.3755586 -0.25951 x2 0.3933958 0.134374 0.3752556 0.265294 x4 0.0935343 0.711329 x5 0.174559 0.491327 x6 0.3721494 -0.16496 x7 0.3616165 -0.2254 x8 0.3513161 -0.05236 x9 0.3625942 -0.12675 93 2019/1/2 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 其中, 表示对原始变量标准化后的变量。 由上表得到前2个主成分, , 的线性组合为: 其中, 表示对原始变量标准化后的变量。 由上表得到前2个主成分, , 的线性组合为: 由上表得到前2个主成分, , 的线性组合为: 由上表得到前2个主成分, , 的线性组合为: (5.13) 其中, 表示对原始变量标准化后的变量。 2019/1/2 中国人民大学六西格玛质量管理研究中心 94
§5.7主成分分析的上机实现 对所选主成分作经济解释。主成分分析的关键在于能否给主成分赋予新的意义,给出合理的解释,这个解释应根据主成分的计算结果结合定性分析来进行。主成分是原来变量的线性组合,在这个线性组合中,各变量的系数有大有小,有正有负,有的大小相当,因而不能简单地认为这个主成分是某个原变量的属性的作用。线性组合中个变量的系数的绝对值大者表明该主成分主要综合了绝对值大的变量,有几个变量系数大小相当时,应认为这一主成分是这几个变量的总和,这几个变量综合在一起应赋予怎样的经济意义,要结合经济专业知识,给出恰如其分的解释,才能达到深刻分析经济成因的目的。 95 2019/1/2 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 我们所取的例子中有9个指标,这9个指标有很强的依赖性,通过主成分计算后,我们选择了2个主成分,这两个主成分有着明显的经济意义。第一主成分的线性组合中除了100元工业总产值实现利税和100元销售收入实现利税外,其余变量的系数相当,所以第一主成分可看成是 的综合变量。可以解释为第一主成分反映了工业生产中投入的资金、劳动力所产生的效果,它是“投入”与“产出”之比。第一主成分所占信息总量为68.3%,在我国目前的工业企业中,经济效益首先反映在投入与产出之比上,其中固定资产所产生的经济效益更大一些。第二主成分是把工业生产中所得总量(即工业总产值和销售收入)与局部量(即利税)进行比较,反映了“产出”对国家所作的贡献。这样,在抓企业经济效益活动中,就应注重投入与产出之比和产出对国家所作的贡献,抓住了这2个方面,经济效益就一定会提高。 2019/1/2 中国人民大学六西格玛质量管理研究中心 96 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 通常为了分析各样品在主成分所反映的经济意义方面的情况,还将标准化后的原始数据带入主成分表达式计算出各样品的主成分得分,由各样品的主成分得分(当主成分个数为2时)就可在二维空间中描出各样品的分布情况。 将表5-8数据代入式(5.13)式,得到28个省、市、自治区的主成分得分,见表5-9。将这28各样品在平面直角坐标系上描出来,进而可进行样品分类。主成分得分图见图5-6。 2019/1/2 中国人民大学六西格玛质量管理研究中心 97 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 表5-9 续表5-9 中国人民大学六西格玛质量管理研究中心 样品号 主成分得分 第一主成分得分 第二主成分得分 1 2.8162398 2.4257421 2 3.73583 0.5364829 3 -0.486829 -0.097749 4 -2.02199 0.3845751 5 -2.976295 -0.732496 6 -0.418013 1.2676456 7 -1.613557 -0.809631 8 -1.041544 0.6922683 9 7.0377196 1.3785883 10 3.9442746 -2.806731 11 4.3684353 -1.821382 12 0.0722514 -0.598317 13 0.5124102 -0.523112 14 -1.189847 -1.252904 15 0.9843842 -0.362783 16 -1.027545 0.0977472 17 0.3548472 -0.300258 18 -0.04354 0.3876575 19 1.8189336 -1.314742 20 0.1374979 0.7189063 21 -1.409933 -0.610274 22 -2.24418 1.3184889 23 -0.021156 2.4002034 24 -1.624188 -0.406119 25 -1.645068 1.748612 26 -3.408248 -0.592533 27 -3.068128 -0.842123 28 -1.542767 -0.285761 2019/1/2 中国人民大学六西格玛质量管理研究中心 98 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 由图5-6可看出,分布在第一象限的是上海、北京、天津、广西这4个省,这四个省、市、自治区的经济效益在全国来说属于比较好的,其中上海的经济效益最好。分布在第四象限的江苏、浙江、安徽、福建、山东、湖北、广东七个省、市、自治区。因为第四象限的主要特征是第一主成分,第一主成分占信息总量的比重最大,所以这七个省的经济效益也算比较好。分布在第二象限和第三象限的地区可属同一类,经济效益较差。 图5-6 2019/1/2 中国人民大学六西格玛质量管理研究中心 99 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 【例5-4】 全国重点水泥企业经济效益综合评价例。 利用主成分综合评价全国重点水泥企业的经济效益。原始数据(数据来自1984年中国统计年鉴)见表5-10。 2019/1/2 中国人民大学六西格玛质量管理研究中心 100 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 表5-10 中国人民大学六西格玛质量管理研究中心 2019/1/2 101 厂家编号及指标 固定资产利税率 资金利税率 销售收入利税率 资金利润率 固定资产产值率 流动资金周转天数 万元产值能耗 全员劳动生产率 1 琉璃河 16.68 26.75 31.84 18.4 53.25 55 28.83 1.75 2 邯郸 19.7 27.56 32.94 19.2 59.82 32.92 2.87 3 大同 15.2 23.4 32.98 16.24 46.78 65 41.69 1.53 4 哈尔滨 7.29 8.97 21.3 4.76 34.39 62 39.28 1.63 5 华新 29.45 56.49 40.74 43.68 75.32 69 26.68 2.14 6 湘乡 32.93 42.78 47.98 33.87 66.46 50 32.87 2.6 7 柳州 25.39 37.82 36.76 68.18 63 35.79 2.43 8 峨嵋 15.05 19.49 27.21 14.21 6.13 76 35.76 9 耀县 19.82 28.78 33.41 20.17 59.25 71 39.13 1.83 10 永登 21.13 35.2 39.16 26.52 52.47 35.08 1.73 11 工源 16.75 28.72 29.62 19.23 55.76 58 30.08 1.52 12 抚顺 15.83 28.03 26.4 17.43 61.19 61 32.75 1.6 13 大连 16.53 29.73 32.49 20.63 50.41 37.57 1.31 14 江南 22.24 54.59 31.05 37 67.95 32.33 1.57 15 江油 12.92 20.82 25.12 12.54 51.07 66 39.18 2019/1/2 中国人民大学六西格玛质量管理研究中心 101 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 将指标“流动资金周转天数”和“万元产值能耗”取倒数,经标准化后的数据取名为“重点水泥厂”。见表5-11 x1 x2 x3 x4 x5 x6 x7 x8 -0.37675 -0.35795 -0.11356 -0.36669 -0.03879 1.193347 1.426821 -0.27712 0.088158 -0.29388 0.050803 -0.28732 0.356157 0.289035 2.253119 -0.60458 -0.62292 0.056779 -0.581 -0.42773 -0.37328 -1.3981 -0.77413 -1.82227 -1.76431 -1.68844 -1.71997 -1.17255 0.043644 -1.00954 -0.54822 1.589096 1.994436 1.216277 2.141428 1.287927 -0.87279 2.16481 0.603944 2.124815 0.909999 2.298075 1.168142 0.755315 2.211656 0.301235 1.64315 0.96409 0.517672 0.621586 0.542104 0.858711 -0.09974 -0.3541 1.259096 2019/1/2 中国人民大学六西格玛质量管理研究中心 102 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 续表5-11 x1 x2 x3 x4 x5 x6 x7 x8 -0.62767 -0.9322 -0.80537 -0.7824 -2.87137 -1.6204 -0.34791 -0.27712 0.106631 -0.19738 0.12103 -0.19109 0.321892 -1.10143 -0.98378 -0.09639 0.308295 0.310434 0.980193 0.438921 -0.08568 0.043644 -0.20479 -0.3223 -0.36597 -0.20212 -0.44527 -0.28435 0.112093 0.666636 1.046255 -0.79672 -0.5076 -0.2567 -0.9264 -0.46293 0.438513 0.191732 0.330666 -0.61599 -0.39984 -0.12223 -0.01644 -0.14545 -0.20952 -0.87279 -0.70361 -1.27114 0.479171 1.844149 -0.2316 1.478681 0.844885 -0.09974 0.435397 -0.68377 -0.95557 -0.827 -1.11766 -0.94809 -0.16984 -0.50383 -0.99239 2019/1/2 中国人民大学六西格玛质量管理研究中心 103 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 导入spss中计算出其相关阵R如下,见表5-12: 表5-12 中国人民大学六西格玛质量管理研究中心 2019/1/2 中国人民大学六西格玛质量管理研究中心 104 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 在确定主成分个数之前,与例5-3相同的spss操作,得出软件输出结果5-6如下: 输出结果5-6(1) 2019/1/2 中国人民大学六西格玛质量管理研究中心 105 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 输出结果5-6(2) 中国人民大学六西格玛质量管理研究中心 2019/1/2 106 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 从上表及上图可看出,前3个主成分解释了全部方差的87.085%,也即包含了原始数据的信息总量达到了87.085%,这说明前三个主成分代表原来的8个指标评价企业的经济效益已经有足够的把握。设这3个主成分分别用 来表示,按照例5-3操作,只不过在点击extraction按钮时,在number of factors中填写3,即可得到相关矩阵的前三个特征根的特征向量,见表5-13: 表5-13 2019/1/2 中国人民大学六西格玛质量管理研究中心 107 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 对表5-13的第 列的每个元素分别除以第 个特征根的平方根 就得到主成分分析的第 个主成分的系数。结果如下表: 对表5-13的第 列的每个元素分别除以第 个特征根的平方根 就得到主成分分析的第 个主成分的系数。结果如下表: 主成分1 主成分2 主成分3 x1 0.434067 -0.016487 -0.26157 x2 0.407766 -0.351123 0.040662 x3 0.390911 0.0722408 -0.36959 x4 0.420727 -0.311078 -0.04112 x5 0.356854 0.0002214 0.198903 x6 0.191631 0.686453 0.377485 x7 0.290517 -0.069141 0.701934 x8 0.258889 0.5463096 -0.34187 2019/1/2 中国人民大学六西格玛质量管理研究中心 108 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 §5.7主成分分析的上机实现 由上表,三个主成分的线性组合如下: (5.14) 主成分的经济意义由各线性组合中权数较大的几个指标的综合意义来确定。综合因子 中 的系数远大于其他变量的系数,所以, 主要是固定资产利税率、资金利税率、销售收入利税率、资金利润率这四个指标的综合反映,它代表着经济效益的盈利方面,刻画了企业的盈利能力。因为由 来评价企业的经济效益已有60.76%的把握,所以这四项指标是反映企业经济效益的主要指标。 其中, 表示对原始变量标准化后的变量。 §5.7主成分分析的上机实现 由上表,三个主成分的线性组合如下: (5.14) 主成分的经济意义由各线性组合中权数较大的几个指标的综合意义来确定。综合因子 中 的系数远大于其他变量的系数,所以, 主要是固定资产利税率、资金利税率、销售收入利税率、资金利润率这四个指标的综合反映,它代表着经济效益的盈利方面,刻画了企业的盈利能力。因为由 来评价企业的经济效益已有60.76%的把握,所以这四项指标是反映企业经济效益的主要指标。 其中, 表示对原始变量标准化后的变量。 其中, 表示对原始变量标准化后的变量。 2019/1/2 中国人民大学六西格玛质量管理研究中心 109 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 同时,从 的线性组合中可以看到前四个单项指标在综合因子 中所占的比重相当,这进而说明这四项指标用于考核评价企业经济效益每一项都是必不可少的。 主要是流动资金周转天数和全员劳动生产率的综合反映,它标志着企业的资金和人力的利用水平,以资金和个人的利用率作用于企业的经济效益。资金和人力利用得好,劳动生产率就提高,资金周转就加快,从而提高企业经济效益。 主要反映万元产值能耗,从改进生产工艺、勤俭节约方面作用于企业经济效益。这三个综合因子从三个影响企业经济效益的主要方面刻画企业经济效益,用它们来考核企业经济效益具有87.085%的可靠性。 2019/1/2 中国人民大学六西格玛质量管理研究中心 110 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 关于用样本主成分得分进行排序问题,目前常用的方法是利用主成分 做线性组合,并以每个主成分 的方差贡献率 作为权数构造一个综合评价函数: 依据计算出的 值大小进行排序或分类划级。这一方法目前在一些专业文献中都有应用和介绍,但在实践中经常看到它的应用效果并不理想,一直以来存在较大争议,主要原因是产生主成分的特征向量的各级分量符号不一致,很难进行排序评价。 2019/1/2 中国人民大学六西格玛质量管理研究中心 111 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 因此我们给出下面的建议:当第一主成分的方差贡献率比较大时(如60%以上)用第一主成分作评价指数,理由是:第一主成分与原变量综合相关度最强,另一方面由于第一主成分对应于数据变异最大的方向也就是使数据信息损失最小,精度最高的一维综合变量。但还须注意当主成分系数全为正的时候,也就是要求所有评价指标变量都是正相关的时候,第一主成分才可以用来进行排序。如果系数中有正有负或近似为零,说明第一主成分是无序指数,不能用来作为排序评价指数。而如果第一主成分系数全为正,则第二、三,…主成分由于与第一主成分正交,系数肯定有正有负,因而一般来说均为无序指数,不能用来作为排序评价指数。 112 2019/1/2 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 依据第一主成分 得分对各个水泥 企业经济效益做 综合评价,将标 准化后的原始数 据代入(5.14) 的第一个表达式 中,计算出各样 品的第一主成分 得分并排名,见 表5-14。 名次 琉璃河 0.049451 7 邯 郸 0.84047 5 大 同 -1.56943 12 哈尔滨 -3.73937 15 华 新 3.957057 1 湘 乡 3.889461 2 柳 州 1.611051 4 峨 嵋 -2.80458 14 耀 县 -0.47425 9 永 登 0.663081 6 工 源 -0.26952 8 抚 顺 -0.75211 10 大 连 -1.06654 11 江 南 1.723424 3 江 油 -2.05821 13 表5-14 2019/1/2 中国人民大学六西格玛质量管理研究中心 113 目录 上页 下页 返回 结束
§5.7主成分分析的上机实现 从表5-14的经济效益得分中,有许多企业的得分是负数,但并不表明企业的经济效益就为负,这里的正负仅表示该企业与平均水平的位置关系,企业的经济效益的平均水平算作零点,这时我们在整个过程中将数据标准化的结果。 从表5-14可看到,华新水泥厂的综合经济效益最好,是第一名;湘乡水泥厂的综合经济效益为第二名;……,哈尔滨水泥厂的综合经济效益最差。 虽然此处可以根据各上市公司的主成分得分对各公司运营情况进行一些比较分析或分类研究,但因此处主成分的意义不十分明朗,我们把更深入的分析放到下一章,以期得到更合理,更容易解释的结果。 中国人民大学六西格玛质量管理研究中心 114 2019/1/2 目录 上页 下页 返回 结束
The end! Thanks! 2019/1/2 115 中国人民大学六西格玛质量管理研究中心