第二章 主成分分析 §2.1 主成分分析的基本思想与理论 §2.2 主成分分析的上机实现 2019/4/23 1 第二章 主成分分析 §2.1 主成分分析的基本思想与理论 §2.2 主成分分析的上机实现 2019/4/23 1 目录 上页 下页 返回 结束
第二章 主成分分析 主成分分析(principal components analysis)。主成分分析是利用降维的思想,在损失很少信息的前提下把多个指标转化为几个综合指标的多元统计方法。通常把转化生成的综合指标称之为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,这就使得主成分比原始变量具有某些更优越的性能。这样在研究复杂问题时就可以只考虑少数几个主成分而不至于损失太多信息,从而更容易抓住主要矛盾,揭示事物内部变量之间的规律性,同时使问题得到简化,提高分析效率。 2019/4/23 2 目录 上页 下页 返回 结束
§2.1 主成分分析的基本思想 既然研究某一问题涉及的众多变量之间有一定的相关性,就必然存在着起支配作用的共同因素,根据这一点,通过对原始变量相关矩阵或协方差矩阵内部结构关系的研究,利用原始变量的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降维与简化问题的作用,使得在研究复杂问题时更容易抓住主要矛盾。一般地说,利用主成分分析得到的主成分与原始变量之间有如下基本关系: 1.每一个主成分都是各原始变量的线性组合; 2.主成分的数目大大少于原始变量的数目 2019/4/23 3 目录 上页 下页 返回 结束
3.主成分保留了原始变量绝大多数信息 4.各主成分之间互不相关 通过主成分分析,可以从事物之间错综复杂的关系中找出一些主要成分,从而能有效利用大量统计数据进行定量分析,揭示变量之间的内在关系,得到对事物特征及其发展规律的一些深层次的启发,把研究工作引向深入。 2019/4/23 4 目录 上页 下页 返回 结束
§2.2 主成分分析的基本理论 设对某一事物的研究涉及个 指标,分别用 表示,这个 指标构成的 维随机向量为 。设随机向量 的均值为 ,协方差矩阵为 。 对 进行线性变换,可以形成新的综合变量,用 表示,也就是说,新的综合变量可以由原来的变量线性表示,即满足下式: (5.1) 2019/4/23 5 目录 上页 下页 返回 结束
§2.3注意的问题 1. 首先应当认识到主成分分析方法适用于变量之间存在较强相关性的数据,如果原始数据相关性较弱,运用主成分分析后不能起到很好的降维作用,即所得的各个主成分浓缩原始变量信息的能力差别不大。一般认为当原始数据大部分变量的相关系数都小于0.3时,运用主成分分析不会取得很好的效果。 2 主成分分析不能有效地剔除重叠信息,但它至少可以发现原始变量是否存在着重叠信息,这对我们减少分析中的失误是有帮助的。 2019/4/23 6 目录 上页 下页 返回 结束
§2.4 主成分分析步骤 1.根据研究问题选取初始分析变量; 2.根据初始变量特性判断由协方差阵求主成分还是由相关阵求主成分; §2.4 主成分分析步骤 1.根据研究问题选取初始分析变量; 2.根据初始变量特性判断由协方差阵求主成分还是由相关阵求主成分; 3.求协差阵或相关阵的特征根与相应标准特征向量; 4.判断是否存在明显的多重共线性,若存在,则回到第一步; 5.得到主成分的表达式并确定主成分个数,选取主成分; 6.结合主成分对研究问题进行分析并深入研究。 2019/4/23 7 目录 上页 下页 返回 结束
主成分分析的逻辑框图 主成分分析的逻辑框图见 图: 2019/4/23 8 特征值 标准正交特征向量 是否有接近0的情况 是 其他处理 否 对主成分进行分析 深入分析 选择初始变量 度量或取值范围相同? (否) 对比 分析相关阵 分析协方差阵 主成分分析的逻辑框图见 图: 2019/4/23 8 目录 上页 下页 返回 结束
§2.5主成分分析的上机实现 SPSS软件FACTOR模块提供了主成分分析的功能。下面先以SPSS软件包自带的数据Employee data.sav为例介绍主成分分析的上机实现方法,在SPSS软件的安装目录下可以找到该数据集;然后,我们举一个实际的例子介绍主成分分析的具体应用。 【例5.2】 数据集Employee data为Midwestern银行在1969-1971年之间雇员情况的数据,共包括474条观测及如下10个变量:Id(观测号)、Gender(性别)、Bdate(出生日期)、Educ(受教育程度(年数))、Jobcat(工作种类)、Salary(目前年薪)、Salbegin(开始受聘时的年薪)、Jobtime(受雇时间(月))、Prevexp(受雇以前的工作时间(月))、Minority(是否少数民族)。下面我们用主成分分析方法处理该数据,以期用少数变量来描述该地区居民的雇佣情况。 2019/4/23 9 目录 上页 下页 返回 结束
§主成分分析的上机实现 进入SPSS软件,打开数据集Employee data.sav。依次点选Analyze→Data Reduction→Factor….进入Factor Analysis(因子分析)对话框。(在SPSS软件中,主成分分析与因子分析均在Factor Analysis模块中完成。此时,数据集Employee data.sav中的变量名均已显示在左边的窗口中,依次选中变量educ、salary、salbegin、jobtime、prevexp并点向右的箭头按钮,这五个变量便进入variables窗口(此时若选中variables窗口中的变量,则窗口左侧的箭头按钮即转向左侧,点此按钮即可剔除所选中变量)。点击右侧的OK按钮,即可得到如下输出结果5-1。 2019/4/23 10 目录 上页 下页 返回 结束
§主成分分析的上机实现 输出结果5-1(1) 输出结果5-1(2) 中国人民大学六西格玛质量管理研究中心 2019/4/23 11 目录 上页 下页 返回 结束
§主成分分析的上机实现 输出结果5-1(3) 2019/4/23 12 目录 上页 下页 返回 结束
§主成分分析的上机实现 其中Communalities给出了该次分析从每个原始变量中提取的信息,表格下面的注示表明,该次分析是用Factor analysis模块默认的信息提取方法即主成分分析完成的。可以看到除受教育程度信息损失较大外,主成分几乎包含了各个原始变量至少90%的信息。Total Variance Explained表则显示了各主成分解释原始变量总方差的情况,SPSS默认保留特征根大于1的主成分,在本例中看到当保留3个主成分为宜,这3个主成分集中了原始5个变量信息的90.66%,可见效果是比较好的。实际上,主成分解释总方差的百分比也可以由Communalities表中计算得出,即 (0.896+0.916+0.999+0.968+0.754)/5=90.66%。Component Matrix表中给出了标准化原始变量用求得的主成分线性表示的近似表达式,我们以表中Current Salary一行为例,不妨用 来表示各个主成分,则由Component Matrix表可以得到: 标准化的salary 2019/4/23 13 目录 上页 下页 返回 结束
主成分分析的上机实现 在上面的主成分分析中,SPSS默认是从相关阵出发求解主成分,且默认保留特征根大于1的主成分,实际上,对主成分的个数我们可以自己确定,方法为:进入Factor Analysis对话框并选择好变量之后,点击Extraction选项,在弹出的对话框中有一个Extract选择框,默认是选择Eigenvalues over 1也就是保留特征根大于1的主成分,我们可以输入别的数值来改变SPSS软件保留特征根的大小;另外,还可以选择Number of Factors选项直接确定主成分的个数。在实际进行主成分分析时可以先按照默认设置做一次主成分,然后根据输出结果确定应保留主成分的个数,用该方法进行设定后重新分析。 因为我们上面的结果是默认从相关阵出发得到的,而由相关阵出发求得的主成分其性质有简单的表达形式,我们可以方便地加以验证。 2019/4/23 14 目录 上页 下页 返回 结束
§主成分分析的上机实现 由Component Matrix中的结果可以得到: =第一主成分的方差,这就验证了性质4。又有: 这恰好与Communalities表中三个主成分提取salary变量的信息相等。我们重做一遍主成分分析,此次将5个主成分全部保留,得到Component Matrix表如输出结果5-2: 2019/4/23 15 目录 上页 下页 返回 结束
§主成分分析的上机实现 输出结果5-2 可以看到前三个主成分的相应结果与输出结果5-1中的对应部分结果是一致的。对上表中结果有如下关系式: 2019/4/23 16 目录 上页 下页 返回 结束
§主成分分析的上机实现 这就验证了性质5。由此表还可以得到标准化原始变量用各主成分线性表示的精确的表达式,以仍以Current Salary为例,有: 标准化的salary 由SPSS软件默认选项输出的结果,我们还不能得到用原始变量表示出主成分的表达式,要得到这个结果及其他一些有用的结果,就需要对Factor Analysis模块中的设置做一些调整,方法如下: 进入Factor Analysis对话框并选择好变量之后,点击对话框下部的Scores按钮进入Factor Scores对话框,选择Display factor score coefficient matrix选项并按Continue继续,该选项是让系统输出主成分得分系数矩阵。点击OK按钮运行,则除了默认结果,还输出如下输出结果5-3: 2019/4/23 17 目录 上页 下页 返回 结束
§主成分分析的上机实现 输出结果5-3 上表中给出了用原始变量表示主成分的系数信息。因为系统默认是从相关矩阵出发进行分析,所以,上面表格中的系数是将原始变量标准化后表示主成分的系数。也就是说,有下式成立: 2019/4/23 18 目录 上页 下页 返回 结束
§主成分分析的上机实现 应当注意的是,此处SPSS给出的用原始变量表示主成分的表达式得到的是标准化后的主成分,也就是说,这样求得的主成分的方差是1,而不是原始变量相关矩阵的各个特征根了。如上式中,第一主成分的方差为2.477,而用上式求得的主成分方差为1,要得出未标准化的主成分与原始变量的表达式,只需将SPSS软件给出的系数前面乘以主成分方差的平方根即可,未标准化第一主成分与原始变量的关系式如下: 类似可以写出第二、第三个主成分用标准化后的原始变量表示的表达式。 2019/4/23 19 目录 上页 下页 返回 结束
2.6因子分析简介 因子分析(factor analysis)模型是主成分分析的推广。它也是利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。相对于主成分分析,因子分析更倾向于描述原始变量之间的相关关系;因此,因子分析的出发点是原始变量的相关矩阵。
因子分析的基本思想 因子分析的基本思想是根据相关性大小把原始变量分组,使得同组内的变量之间相关性较高,而不同组的变量间的相关性则较低。每组变量代表一个基本结构,并用一个不可观测的综合变量表示,这个基本结构就称为公共因子。对于所研究的某一具体问题,原始变量就可以分解成两部分之和的形式,一部分是少数几个不可测的所谓公共因子的线性函数,另一部分是与公共因子无关的特殊因子。在经济统计中,描述一种经济现象的指标可以有很多,比如要反映物价的变动情况,对各种商品的价格做全面调查固然可以达到目的,但这样做显然耗时耗力,为实际工作者所不取。实际上,某一类商品中很多商品的价格之间存在明显的相关性或相互依赖性,只要选择几种主要商品的价格或进而对这几种主要商品的价格进行综合,得到某一种假想的“综合商品”的价格,就足以反映某一类物价的变动情况,这里,“综合商品”的价格就是提取出来的因子。
因子分析分类 因子分析不仅仅可以用来研究变量之间的相关关系,还可以用来研究样品之间的相关关系,通常将前者称之为R 型因子分析,后者称之为Q 型因子分析。
§因子分析的基本理论及模型 一般因子分析模型 下面我们给出更为一般的因子分析模型:设有 个样品,每个样品观测 个指标,这 个指标之间有较强的相关性(要求个指标相关性较强的理由是很明确的,只有相关性较强才能从原始变量中提取出“公共”因子)。为了便于研究,并消除由于观测量纲的差异及数量级不同所造成的影响,将样本观测数据进行标准化处理,使标准化后的变量均值为0,方差为1。为方便把原始变量及标准化后的变量向量均用 表示,用 表示标准化的公共因子。 2019/4/23 23 目录 上页 下页 返回 结束
§ 因子分析的基本理论及模型 如果: (1) 是可观测随机向量,且均值向量 ,协方差矩阵 ,且协方差矩阵 与相关阵 相等; (2) ( )是不可观测的变量,其均值向 量 ,协方差矩阵 ,即向量 的各分量是相互独立的; 如果: (1) 是可观测随机向量,且均值向量 ,协方差矩阵 ,且协方差矩阵 与相关阵 相等; (3) 与 相互独立,且 , 的协方差阵 是对角方阵 2019/4/23 24 目录 上页 下页 返回 结束
§ 因子分析的基本理论及模型 即 的各分量之间也是相互独立的。则模型 (6.7) 称为因子模型,模型(6.7)式的矩阵形式为: (6.8) 其中 2019/4/23 25 目录 上页 下页 返回 结束
§6.1.2 因子分析的基本理论及模型 由模型(6.7)及其假设前提知,公共因子 相互独立且不可测,是在原始变量的表达式中都出现的因子。公共因子的含义,必须结合实际问题的具体意义确定。 叫做特殊因子,是向量 的分量 ( )所特有的因子。各特殊因子之间以及特殊因子与所有公共因子之间也都是相互独立的。矩阵 中的元素 称为因子载荷, 的绝对值大 ,表明 与 的相依程度越大,或称公共因子 对于 的载荷量越大,进行因子分析的目的之一,就是要求出各个因子载荷的值。 2019/4/23 26 目录 上页 下页 返回 结束
§ 因子分析的步骤 进行因子分析应包括如下几步: 1.根据研究问题选取原始变量; § 因子分析的步骤 进行因子分析应包括如下几步: 1.根据研究问题选取原始变量; 2.对原始变量进行标准化并求其相关阵,分析变量之间的相关性; 3.求解初始公共因子及因子载荷矩阵; 4.因子旋转; 5.因子得分; 6.根据因子得分值进行进一步分析。 2019/4/23 27 目录 上页 下页 返回 结束
§ 因子分析的逻辑框图 图6-1 2019/4/23 28 目录 上页 下页 返回 结束
§ 因子分析的上机实现 我们用SPSS的Factor Analysis模块实现了主成分分析,实际上,Factor Analysis主要是SPSS软件进行因子分析的模块,由于主成分分析与因子分析(特别是因子分析中的主成分法)之间有密切的关系,SPSS软件将这两种分析方法放到同一分析模块 中。 下面我们先用SPSS软件自带的数据说明Factor Analysis模块进行因子分析的方法,然后给出一个具体案例。为了与主成分分析进行比较,我们此处仍延用SPSS自带的Employee data.sav数据集 。 【例6.1】 数据集Employee data.sav中各变量解释说明见上一章主成分分析,用Factor Analysis模块 进行因子分析。 2019/4/23 中国人民大学六西格玛质量管理研究中心 29 目录 上页 下页 返回 结束