第六章 因子分分析 §6.1 因子分析的基本理论 §6.2 因子载荷的求解 §6.3 因子分析的步骤与逻辑框图 §6.4 因子分析的上机实现

Slides:



Advertisements
Similar presentations
彰化縣和美鎮 和仁國民小學 本土語言教育暨 台灣母語日訪視 簡 報. 一. 學校概況 校地面積 校地面積廣達三公頃 學生活動空間寬廣!
Advertisements

第二章 SPSS的基本操作 2-1 SPSS 的簡介 2-2 SPSS 軟體的功能表介紹 2-3 資料的輸入 2-4 資料的分析與輸出結果
统 计 学 (第三版) 2008 作者 贾俊平 统计学.
党的十八届四中全会 依法治国精神解读. 党的十八届四中全会 依法治国精神解读 一、十八届四中全会概况 中国共产党第十八届中央委员会第四次全体会议,于2014年10月20日至23日在北京举行。 全会审议通过了《中共中央关于全面推进依法治国若干重大问题的决定》。
SPSS系统教程.
证券市场法律制度与监督管理 作者:张学亮.
Basic concepts of structural equation modeling
上海体育职业学院 祁社生 一、重视体育科研在提高竞技运动训练水平中的意义和作用
與櫻花有約 櫻花開放時間 櫻花前線 賞花便當 京都機場(附近) 夜櫻 哲學之道.
多元统计分析 何晓群 中国人民大学出版社 2017/3/4 中国人民大学六西格玛质量管理研究中心.
奥田2016年经销商大会传播方案.
双变量关联性分析.
我怀念的乡村记忆 陈秀华 社会工作0841.
传播学研究:理论与方法 戴元光 赵士林 邢虹文.
Pro. Xuezhong SHI, College of Public Health
沟通技巧 主讲:涂育俊.
第二章 因素分析 陳順宇 教授 成功大學統計系.
第十一章 多变量的可视化分析 第一节 引言 第二节 折线图分析法 第三节 条形图分析法 第四节 散点图分析法 第五节 雷达图分析法
美洲集团散拼项目分享 李维迪.
医学统计学 8 主讲人 陶育纯 医学统计学 8 主讲人 陶育纯
DOE & EXCEL, SPSS application
如何使用 Excel 與SPSS繪製 統計圖型
多變量分析 Multivariant Analysis
第五讲 主成分分析 Principal Component Analysis
§9.3 线性回归分析 一. 什么是回归分析 相关分析研究变量之间相关的方向和相关的程度,但是相关分析不能指出变量间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。 回归分析则是研究变量之间的数量变化规律的一种方法。
STATISTICA統計軟體的應用 第二講:廻歸與ANOVA
同学们好 欢迎选修统计原理.
第十七章 SPSS系统在传播学研究中的应用
Chapter 2 簡單迴歸模型.
传媒学院2013年度团委工作 总结分析报告
1.問卷調查研究設計簡介 2.問卷資料分析~項目分析與信效度檢驗 3.問卷資料分析~因素分析 4.因果關係分析~結構方程模式分析
SAS  統計程序實作 CONTENTS By DR. Yang , Yi-Chiang /11/11.
項目分析與探索式因素分析 李茂能, 2007,成大 Fred Li, 2007.
第12章 因素分析  本章的學習主題  1. 因素分析的主要概念及目的 2. 主成份分析與一般因素分析之差異 3. 因素分析轉軸的概念
因素分析 10.1 探索性因素分析 10.2 在SPSS中使用探索性因素分析的範例 10.3 分析結果 10.4 因素命名及信度分析
SPSS基础与应用 李丁 讲师 中国人民大学社会与人口学院.
相關分析 Correlation Analysis
第12章 因素分析  本章的學習主題  1. 因素分析的主要概念及目的 2. 主成份分析與一般因素分析之差異 3. 因素分析轉軸的概念 4. 決定因素萃取的個數 5. 如何對因素作命名 6. 因素得點的作用及計算.
衛生署公佈台灣地區約有5000人是屬單腳肢體殘障。已知台灣地區約有2,300萬人口。求台灣地區人民的平均腳數?
统计软件应用 7 主讲人 陶育纯 SPSS统计分析 统计软件应用 7 主讲人 陶育纯 教案.
第9章 因子分析 factor analysis
楊志強 博士 多變量分析在測驗暨量表編製之應用 楊志強 博士
第八章 科研资料的整理与分析.
Tel: 第11章 SPSS在时间序列预测中的应用 周早弘 旅游与城市管理学院
第四章 SPSS的基本统计分析.
統計方法的概念與應用 一、認識統計(statistics)、測驗(test)、 測量(measurement)與評價(evaluation)
4 統計分析程序的選擇.
線性相關與直線迴歸 基本概念 線性相關:兩個連續變項的共變關係,且有線性關係。所謂 的線性關係乃指兩個變項的關係可以被一條最具
第十七章 相關係數 17.1 前言 17.2 相關係數 17.3 功能視窗(Bivariate) 17.4 範例(Bivariate)
第9章 方差分析 介绍 1、方差分析的概念 2、方差分析的过程.
消防人員土石流防救災訓練之效益 研究-以台中市消防局為例
Liner regression analysis
问卷设计及数据分析初步 柯政
第捌章 敘述研究法 一、調查研究法(survey method) 二、相關研究法(co relational studies)
统 计 学 (第三版) 2008 作者 贾俊平 统计学.
介绍: 1、主成分分析与因子分析的概念 2、主成分分析与因子分析的过程
第二章 主成分分析 §2.1 主成分分析的基本思想与理论 §2.2 主成分分析的上机实现 2019/4/23 1
相關分析 7.1 連續變項之相關係數:Pearson 積差相關 7.2 質化變項之相關係數
社会研究方法 第7讲:社会统计2.
Factor Analysis 因素分析 陳思先.
Which independent variables is more important?
第7章 基本统计分析 2019/5/14.
第十七章 因素分析 Factor Analysis 第十七章 因素分析.
统计软件应用 4 主讲人 陶育纯 SPSS统计分析 统计软件应用 4 主讲人 陶育纯 教案.
分类变量资料的统计推断.
统计软件应用 4 主讲人 陶育纯 SPSS统计分析 统计软件应用 4 主讲人 陶育纯 教案.
统计工具的使用方法 主讲人 陶育纯 统计工具的使用方法 主讲人 陶育纯
第三节 多重共线性的检验 本节基本内容: ● 简单相关系数检验法 ● 方差扩大(膨胀)因子法 ● 直观判断法 ● 逐步回归法.
群聚分析操作介紹 -以SOM和K-means為例
簡單迴歸分析與相關分析 莊文忠 副教授 世新大學行政管理學系 計量分析一(莊文忠副教授) 2019/8/3.
Presentation transcript:

第六章 因子分分析 §6.1 因子分析的基本理论 §6.2 因子载荷的求解 §6.3 因子分析的步骤与逻辑框图 §6.4 因子分析的上机实现 目录 上页 下页 返回 结束

第六章 因子分分析 因子分析(factor analysis)模型是主成分分析的推广。它也是利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。相对于主成分分析,因子分析更倾向于描述原始变量之间的相关关系, 因此,因子分析的出发点是原始变量的相关矩阵。 因子分析的思想始于1904年Charles Spearman对学生考试成绩的研究。近年来,随着电子计算机的高速发展,人们将因子分析的理论成功地应用于心理学、医学、气象、地质、经济学等各个领域,也使得因子分析的理论和方法更加丰富。 本章主要介绍因子分析的基本理论及方法,运用因子分析方法分析实际问题的主要步骤及因子分析的上机实现等内容。 2 目录 上页 下页 返回 结束

§6.1 因子分析的基本理论 §6.1.1 因子分析的基本思想 §6.1.2 因子分析的基本理论及模型 3 目录 上页 下页 返回 结束

§6.1.1 因子分析的基本思想 因子分析的基本思想是根据相关性大小把原始变量分组,使得同组内的变量之间相关性较高,而不同组的变量间的相关性则较低。 每组变量代表一个基本结构,并用一个不可观测的综合变量表示,这个基本结构就称为公共因子。 对于所研究的某一具体问题,原始变量就可以分解成两部分之和的形式,一部分是少数几个不可测的所谓公共因子的线性函数,另一部分是与公共因子无关的特殊因子。在经济统计中,描述一种经济现象的指标可以有很多,比如要反映物价的变动情况,对各种商品的价格做全面调查固然可以达到目的,但这样做显然耗时耗力,为实际工作者所不取。实际上,某一类商品中很多商品的价格之间存在明显的相关性或相互依赖性,只要选择几种主要商品的价格或进而对这几种主要商品的价格进行综合,得到某一种假想的“综合商品”的价格,就足以反映某一类物价的变动情况,这里,“综合商品”的价格就是提取出来的因子。 4

§6.1.1 因子分析的基本思想 对各类商品物价或仅对主要类别商品的物价进行类似分析然后加以综合,就可以反映出物价的整体变动情况。这一过程也就是从一些有错综复杂关系的经济现象中找出少数几个主要因子,每一个主要因子就代表经济变量间相互依赖的一种经济作用。抓住这些主要因子就可以帮助我们对复杂的经济问题进行分析和解释。 因子分析还可用于对变量或样品的分类处理,我们在得出因子的表达式之后,就可以把原始变量的数据代入表达式得出因子得分值,根据因子得分在因子所构成的空间中把变量或样品点画出来,形象直观地达到分类的目的。 因子分析不仅仅可以用来研究变量之间的相关关系,还可以用来研究样品之间的相关关系,通常将前者称之为R 型因子分析,后者称之为Q 型因子分析。我们下面着重介绍 R 型因子分析。 5 目录 上页 下页 返回 结束

§6.1.2 因子分析的基本理论及模型 (一)Charles Spearman提出因子分析时用到的例子 为了对因子分析的基本理论有一个完整的认识,我们先给出Charles Spearman 1904年用到的例子。在该例中Spearman研究了33名学生在古典语(C)、法语(F)、英语(E)、数学(M)、判别(D)和音乐(Mu)六门考试成绩之间的相关性并得到如下相关阵: 6 目录 上页 下页 返回 结束

§6.1.2 因子分析的基本理论及模型 式中,为第 门科目标准化后的考试成绩,均值为0,方差为1。 为公共因子,对各科考试成绩均有影响,是均值为0,方差为1。 为仅对第 门科目考试成绩有影响的特殊因子, 与 相互独立。也就是说,每一门科目的考试成绩都可以看作是由一个公共因子(可以认为是一般智力)与一个特殊因子的和。 Spearman注意到上面相关阵中一个有趣的规律,这就是如果不考虑对角元素的话,任意两列的元素大致成比例,对C列和E列有: 于是Spearman指出每一科目的考试成绩都遵从以下形式: (6.1) 7 目录 上页 下页 返回 结束

§6.1.2 因子分析的基本理论及模型 在满足以上假定的条件下,就有: 于是,有 (6.2) (6.2)式与 无关,也正与在相关矩阵中所观察到的比例关系相一致。 在满足以上假定的条件下,就有: 于是,有 (6.2) 除此之外,还可以得到如下有关 方差的关系式: 8 目录 上页 下页 返回 结束

§6.1.2 因子分析的基本理论及模型 因为 是一个常数,与 相互独立且 与 的方差均被假定为1。于是有 (6.3) 因为 是一个常数,与 相互独立且 与 的方差均被假定为1。于是有 (6.3) 因此,常数 的意义就在于其平方表示了公共因子 解释 的方差的比例,因此被称之为因子载荷,而 被称作共同度。 对Spearman的例子进行推广,假定每一门科目的考试成绩都受到 个公共因子的影响及一个特殊因子的影响,于是(6.1)就变成了如下因子分析模型的一般形式: (6.4) 9 目录 上页 下页 返回 结束

§6.1.2 因子分析的基本理论及模型 式中, 为标准化后的第 门科目的考试成绩,均值为0,方差为1。 是彼此独立的公共因子,都满足均值为0,方差为1。 为特殊因子,与每一个公共因子均不相关且均值为0。 则 为对第 门科目考试成绩的因子载荷。对该模型,有: (6.5) 式中, 表示公共因子解释 方差的比例,称为 的共同度,相对的 可称为 的特殊度或剩余方差,表示 的方差中与公共因子无关的部分。因为共同度不会大于1,因此, 。由模型(6.4)还可以很容易地得到如下 与 相关系数的关系式: (6.6) 所以当 与 在某一公共因子上的载荷均较大时,也就表明了 与 的相关性较强。 10 目录 上页 下页 返回 结束

§6.1.2 因子分析的基本理论及模型 (二)一般因子分析模型 下面我们给出更为一般的因子分析模型:设有 个样品,每个样品观测 个指标,这 个指标之间有较强的相关性(要求个指标相关性较强的理由是很明确的,只有相关性较强才能从原始变量中提取出“公共”因子)。为了便于研究,并消除由于观测量纲的差异及数量级不同所造成的影响,将样本观测数据进行标准化处理,使标准化后的变量均值为0,方差为1。为方便把原始变量及标准化后的变量向量均用 表示,用 表示标准化的公共因子。 2018/12/3 11 目录 上页 下页 返回 结束

§6.1.2 因子分析的基本理论及模型 (1) 是可观测随机向量,且均值向量 ,协方差矩阵 ,且协方差矩阵 与相关阵 相等; (2) ( )是不可观测的变量,其均值向 量 ,协方差矩阵 ,即向量 的各分量是相互独立的; 如果: (1) 是可观测随机向量,且均值向量 ,协方差矩阵 ,且协方差矩阵 与相关阵 相等; (3) 与 相互独立,且 , 的协方差阵 是对角方阵 2018/12/3 12 目录 上页 下页 返回 结束

§6.1.2 因子分析的基本理论及模型 即 的各分量之间也是相互独立的。则模型 (6.7) 称为因子模型,模型(6.7)式的矩阵形式为: (6.8) 其中 2018/12/3 13 目录 上页 下页 返回 结束

§6.1.2 因子分析的基本理论及模型 由模型(6.7)及其假设前提知,公共因子 相互独立且不可测,是在原始变量的表达式中都出现的因子。公共因子的含义,必须结合实际问题的具体意义确定。 叫做特殊因子,是向量 的分量 ( )所特有的因子。各特殊因子之间以及特殊因子与所有公共因子之间也都是相互独立的。矩阵 中的元素 称为因子载荷, 的绝对值大 ,表明 与 的相依程度越大,或称公共因子 对于 的载荷量越大,进行因子分析的目的之一,就是要求出各个因子载荷的值。 2018/12/3 14 目录 上页 下页 返回 结束

§6.1.2 因子分析的基本理论及模型 经过后面的分析我们会看到,因子载荷的概念与上一章主成分分析中的因子负荷量相对等,实际上,由于因子分析与主成分分析非常类似,在模型(6.7)式中,若把 看作 的综合作用,则除了此处的因子为不可测变量这一区别,因子载荷与主成分分析中的因子负荷量是一致的;很多人对这两个概念并不加以区分而都称做因子载荷。矩阵 称为因子载荷矩阵。 为了更好地理解因子分析方法,有必要讨论一下载荷矩阵的统计意义与公因子与原始变量之间的关系。 2018/12/3 15 目录 上页 下页 返回 结束

§6.1.2 因子分析的基本理论及模型 1.因子载荷 的统计意义 由模型(6.7)式 (6.9) 即 是 与 的协方差,而注意到, 与 ( 1.因子载荷 的统计意义 由模型(6.7)式 (6.9) 即 是 与 的协方差,而注意到, 与 ( 都是均值为0,方差为1的变量,因此, 同时也是 与 的相关系数。请读者对比主成分分析一章有关因子负荷量的论述并对两者进行比较。 16 目录 上页 下页 返回 结束

§6.1.2 因子分析的基本理论及模型 2.变量共同度与剩余方差 在上面Spearman的例子中我们提到了共同度与剩余方差的概念,对一般因子模型(6.7)式的情况,我们重新总结这两个概念如下: 称 为变量 的共同度,记为 ( )。由因子分析模型的假设前提,易得: 记 ,则 (6.10) (6.9) 上式表明共同度 与剩余方差 有互补的关系, 越大表明 对公共因子的依赖程度越大,公共因子能解释 方差的比例越大,因子分析的效果也就越好。 17 目录 上页 下页 返回 结束

§6.1.2 因子分析的基本理论及模型 3.公因子 的方差贡献 3.公因子 的方差贡献 共同度考虑的是所有公共因子 与某一个原始变量的关系,与此类似,考虑某一个公共因子 与所有原始变量 的关系。 记 ( ),则 表示的是公共因 子 对于 的每一分量 ( )所提供的方差的总和,称为公因子 对原始变量向量 的方差贡献,它是衡量公因子相对重要性的指标。 越大,则表明公共因子 对 的贡献越大,或者说对 的影响和作用就越大。如果将因子载荷矩阵 的所有 ( )都计算出来,并按其大小排序,就可以依此提炼出最有影响的公共因子。 18 目录 上页 下页 返回 结束

§6.2 因子载荷的求解 §6.2.1 主成分法 §6.2.2 主轴因子法 §6.2.3 极大似然法 §6.2.4 因子旋转 §6.2 因子载荷的求解 §6.2.1 主成分法 §6.2.2 主轴因子法 §6.2.3 极大似然法 §6.2.4 因子旋转 §6.2.5 因子得分 §6.2.6 主成分分析与因子分析的区别 19 目录 上页 下页 返回 结束

§6.2 因子载荷的求解 因子分析可以分为确定因子载荷,因子旋转及计算因子得分三个步骤。首要的步骤即为确定因子载荷或是根据样本数据确定出因子载荷矩阵 。有很多方法可以完成这项工作,如主成分法,主轴因子法,最小二乘法,极大似然法, 因子提取法等。这些方法求解因子载荷的出发点不同,所得的结果也不完全相同。下面我们着重介绍比较常用的主成分法、主轴因子法与极大似然法。 20 目录 上页 下页 返回 结束

§6.2 .1 主成分法 用主成分法确定因子载荷是在进行因子分析之前先对数据进行一次主成分分析,然后把前面几个主成分作为未旋转的公因子。相对于其它确定因子载荷的方法而言,主成分法比较简单。但是由于用这种方法所得的特殊因子 之间并不相互独立,因此,用主成分法确定因子载荷不完全符合因子模型的假设前提,也就是说所得的因子载荷并不完全正确。但是当共同度较大时,特殊因子所起的作用较小,因而特殊因子之间的相关性所带来的影响就几乎可以忽略。事实上,很多有经验的分析人员在进行因子分析时,总是先用主成分法进行分析,然后再尝试其他的方法。 21 目录 上页 下页 返回 结束

§6.2 .1 主成分法 式中, 为随机向量 的相关矩阵的特征值所对应的特征向量的分量,因为特征向量之间彼此正交,从 到 的转换关系是可逆的,很容易得出由 到 的转换关系为: 用主成分法寻找公因子的方法如下:假定从相关阵出发求解主成分,设有 个变量,则我们可以找出 个主成分。将所得的 个主成分按由大到小的顺序排列,记为 ,则主成分与原始变量之间存在如下关系式: (6.11) 22 目录 上页 下页 返回 结束

§6.2 .1 主成分法 (6.12) 我们对上面每一等式只保留前 个主成分而把后面的部分用代替,则(6.12)式变为: (6.13) 23 §6.2 .1 主成分法 (6.12) 我们对上面每一等式只保留前 个主成分而把后面的部分用代替,则(6.12)式变为: (6.13) 23 目录 上页 下页 返回 结束

§6.2 .1 主成分法 式(6.13)在形式上已经与因子模型(6.7)相一致,且 ( )之间相互独立,且 与 之间相互独立,为了 把 转化成合适的公因子,现在要做的工作只是把主成分 变为方差为1的变量。为完成此变换,必须将 除以其标准差,由上一章主成分分析的知识知其标准差即为特征根的平方根 。于是,令 , ,则(6.13)式变为: 这与因子模型(6.7)完全一致,这样,就得到了载荷 矩阵和一组初始公因子(未旋转)。 24 目录 上页 下页 返回 结束

§6.2 .1 主成分法 一般设 为样本相关阵 的特征根, 为对应的标准正交化特征向量。设 ,则因子载荷矩阵 的一个解为: (6.14) §6.2 .1 主成分法 一般设 为样本相关阵 的特征根, 为对应的标准正交化特征向量。设 ,则因子载荷矩阵 的一个解为: (6.14) 共同度的估计为: (6.15) 那么如何确定公因子的数目 呢?一般而言,这取决于问题的研究者本人,对于同一问题进行因子分析时,不同的研究者可能会给出不同的公因子数;当然,有时候由数据本身的特征可以很明确地确定出因子数目。当用主成分法进行因子分析时,也可以借鉴确定主成分个数的准则,如所选取的公因子的信息量的和达到总体信息量的一个合适比例为止。但对这些准则不应生搬硬套,应按具体问题具体分析,总之要使所选取的公因子能够合理地描述原始变量相关阵的结构,同时要有利于因子模型的解释。 25 目录 上页 下页 返回 结束

§6.2 .2 主轴因子法 主轴因子法也比较简单,且在实际应用中也比较普遍。用主轴因子法求解因子载荷矩阵的方法其思路与主成分法有类似的地方,两都均是从分析矩阵的结构入手;两者不同的地方在于,主成分法是在所有的 个主成分能解释标准化原始变量所有方差的基础之上进行分析的,而主轴因子法中,假定 个公共因子只能解释原始变量的部分方差,利用公因子方差(或共同度)来代替相关矩阵主对角线上的元素1,并以新得到的这个矩阵(称之为调整相关矩阵)为出发点,对其分别求解特征根与特征向量并得到因子解。 在因子模型(6.7)中,不难得到如下关于 的相关矩阵 的关系式: 2018/12/3 26 目录 上页 下页 返回 结束

§6.2 .2 主轴因子法 式中, 为因子载荷矩阵, 为一对角阵,其对角元素为相应特殊因子的方差。则称 为调整相关矩阵,显然 的主对角元素不再是1,而是共同度 。分别求解 的特征值与标准正交特征向量,进而求出因子载荷矩阵 。此时, 有 个正的特征值。设 为 的特征根, 为对应的标准正交化特征向量。 ,则因子载荷矩阵 的一个主轴因子解为: (6.16) 注意到,上面的分析是以首先得到调整相关矩阵 为基础的,而实际上, 与共同度(或相对的,剩余方差)都是未知的,需要我们先进行估计。一般我们先给出一个初始估计,然后估计出载荷矩 阵 后再给出较好的共同度或剩余方差的估计。初始估计的方法有很多,可尝试对原始变量先进行一次主成分分析,给出初始估计值。 2018/12/3 27 目录 上页 下页 返回 结束

§6.2 .3 极大似然法 如果假定公共因子 和特殊因子 服从正态分布,则能够得到因子载荷和特殊因子方差的极大似然估计。设 为来自正态总体 的随机样本,其中 。从似然函数的理论知: (6.17) 它通过 依赖于 和 。但(6.17)并不能唯一确定 ,为此,添加如下条件: (6.18) 这里, 是一个对角阵,用数值极大化的方法可以得到极大似然估计 和 。极大似然估计 、 和 ,将使 为对角阵,且使(6.17)式达到最大。 2018/12/3 28 目录 上页 下页 返回 结束

§6.2 .4 因子旋转 不管用何种方法确定初始因子载荷矩阵 ,它们都不是唯一的。设 是初始公共因子,则可以建立如下它们的线性组合得到新的一组公共因子 ,使得, ,彼此相互独立同时也能很好地解释原始变量之间的相关关系。 这样的线性组合可以找到无数组,由此便引出了因子分析的第二个步骤——因子旋转。建立因子分析模型的目的不仅在于要找公共因子,更重要的是知道每一个公共因子的意义,以便对实际问题进行分析。 2018/12/3 29 目录 上页 下页 返回 结束

§6.2 .4 因子旋转 然而我们得到的初始因子解(各主因子的典型代表变量)不是很突出,容易使因子的意义含糊不清,不便于对实际问题进行分析。出于该种考虑,可以对初始公因子进行线性组合,即进行因子旋转,以期找到意义更为明确、实际意义更明显的公因子。经过旋转后,公共因子对 的贡献 并不改变,但由于载荷矩阵发生变化,公共因子本身就可能发生很大的变化,每一个公共因子对原始变量的贡献 不再与原来相同,从而经过适当的旋转我们就可以得到比较令人满意的公共因子。 因子旋转分为正交旋转与斜交旋转,正交旋转由初始载荷矩阵 右乘一正交阵而得到。经过正交旋转而得到的新的公因子仍然保持彼此独立的性质。而斜交旋转则放弃了因子之间彼此独立这个限制,因而可能达到更为简洁的形式,其实际意义也更容易解释。 2018/12/3 30 目录 上页 下页 返回 结束

§6.2 .4 因子旋转 但不论是正交旋转还是斜交旋转,都应当使新的因子载荷系数要么尽可能地接近于0,要么尽可能的远离0。因为一个接近于0的载荷 表明 与 的相关性很弱;而一个绝对值比较大的载荷 则表明公因子 在很大程度上解释了 的变化。这样,如果任一原始变量都与某些公共因子存在较强的相关关系,而与另外的公因子之间几乎不相关的话,公共因子的实际意义就会比较容易确定。 下面介绍正交旋转中的方差最大化正交旋转,该方法由H.K凯泽(H.F.Kaiser)首先提出,是应用最为普遍的正交旋转方法。方差最大化正交旋转方法的提出以下面的假设为前提:公因子 的解释能力能够以其因子载荷平方的方差,即 的方差来度量。我们先考虑两个因子的平面正交旋转,设因子载荷矩阵为: 2018/12/3 31 目录 上页 下页 返回 结束

§6.2 .4 因子旋转 令 则 为正交阵, 记 (6.19) 32 目录 上页 下页 返回 结束

§6.2 .4 因子旋转 经过如上变换,希望所得结果能使载荷矩阵的每一列元素的绝对值向1和0两极分化,或者说使因子的贡献 尽量分散。这实际上就是希望把变量 分成两部分,一部分主要与第一因子有关,另一部分主要与第二因子有关,这也就要求 , 这两组数据的方差要尽可能地大。分别考虑两列的相对方差 (6.20) 33 目录 上页 下页 返回 结束

§6.2 .4 因子旋转 这里取 是为了消除 符号不同的影响,除以 是为了消除各个变量对公共因子依赖程度不同的影响,现在要求总的方差达到最大,即要求使 达到最大值,考虑 对 的导数,利用(6.19),(6.20)式,经过计算知要使 须满足: (6.21) 其中: 而 34 目录 上页 下页 返回 结束

§6.2 .4 因子旋转 如果公共因子多于两个,我们可以逐次对每两个进行上述的旋转,当公共因子数 时,可以每次取两个,全部配对旋转,旋转时总是对初始载荷矩阵 中的 列,列同时进行,此时公式(6.21)中只需将 , 就可以了。变换共需进行 次,这样就完成了第一轮旋转,然后对第一轮旋转所得结果用上述方法继续进行旋转,得到第二轮旋转的结果。每一次旋转后,矩阵各列平方的相对方差之和总会比上一次有所增加。如此继续下去,当总方差的改变不大时,就可以停止旋转,这样就得到了新的一组公共因子及相应的因子载荷矩阵,使得其各列元素平方的相对方差之和最大。 35 目录 上页 下页 返回 结束

§6.2 .5 因子得分 当因子模型建立起来之后,我们往往需要反过来考察每一个样品的性质及样品之间的相互关系。比如当关于企业经济效益的因子模型建立起来之后,我们希望知道每一个企业经济效益的优劣,或者把诸企业划分归类,如哪些企业经济效益较好,哪些企业经济效益一般,哪些企业经济效益较差等。这就需要进行因子分析的第三步骤的分析,即因子得分。顾名思义,因子得分就是公共因子 在每一个样品点上的得分。这需要我们给出公共因子用原始变量表示的线性表达式,这样的表达式一旦能够得到,就可以很方便的把原始变量的取值代入到表达式中求出各因子的得分值。 36 目录 上页 下页 返回 结束

§6.2 .5 因子得分 在上一章的分析中我们曾给出了主成分得分的概念,其意义和作用与因子得分相似。但是在此处公因子用原始变量线性表示的关系式并不易得到。在主成分分析中,主成分是原始变量的线性组合,当取 个主成分时,主成分与原始变量之间的变换关系是可逆的,只要知道了原始变量用主成分线性表示的表达式,就可以方便的得到用原始变量表示主成分的表达式;而在因子模型中,公共因子的个数少于原始变量的个数,且公共因子是不可观测的隐变量,载荷矩阵 不可逆,因而不能直接求得公因子用原始变量表示的精确线性组合。一个解决该问题的方法是用回归的思想求出线性组合系数的估计值,即建立如下以公因子为因变量,原始变量为自变量的回归方程: (6.22) 37 目录 上页 下页 返回 结束

§6.2 .5 因子得分 此处因为原始变量与公因子变量均为标准化变量,因此回归模型中不存在常数项。在最小二乘意义下,可以得到 的估计值: §6.2 .5 因子得分 此处因为原始变量与公因子变量均为标准化变量,因此回归模型中不存在常数项。在最小二乘意义下,可以得到 的估计值: (6.23) 式中,为因子载荷矩阵,为原始变量的相关阵, 为原始变量向量。这样,我们在得到一组样本值后,就可以代入上面的关系式求出公因子的估计得分,从而用少数公共因子去描述原始变量的数据结构,用公因子得分去描述原始变量的取值。在估计出公因子得分后,可以利用因子得分进行进一步的分析,如样本点之间的比较分析,对样本点的聚类分析等,当因子数m 较少时,还可以方便地把各样本点在图上表示出来,直观地描述样本的分布情况,从而便于把研究工作引向深入。 38 目录 上页 下页 返回 结束

§6.2 .6主成分分析与因子分析的区别 1、因子分析把展示在我们面前的诸多变量看成由对每一个变量都有作用的一些公共因子和一些仅对某一个变量有作用的特殊因子线性组合而成。因此,我们的目的就是要从数据中探查能对变量起解释作用的公共因子和特殊特殊因子,以及公共因子和特殊因子组合系数。主成分分析则简单一些,它只是从空间生成的角度寻找能解释诸多变量变异绝大部分的几组彼此不相关的新变量(主成分)。 2、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成各变量的线性组合。 3、主成分分析中不需要有假设,因子分析则需要一些假设。因子分析的假设包括:各个公共因子之间不相关,特殊因子(specific factor)之间也不相关,公共因子和特殊因子之间也不相关。 2018/12/3 39 目录 上页 下页 返回 结束

§6.2 .6主成分分析与因子分析的区别 4、抽取主因子的方法不仅仅有主成分法,还有极大似然法等,基于这些不同算法得到的结果一般也不同。而主成分只能用主成分法抽取。 5、主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,主成分一般是固定的;而因子分析中因子不是固定的,可以旋转得到不同的因子。 6、在因子分析中,因子个数需要分析者指定(spss根据一定的条件自动设定,只要是特征值大于1的因子进入分析),指定的因子数量不同而结果不同。在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。 2018/12/3 40 目录 上页 下页 返回 结束

§6.2 .6主成分分析与因子分析的区别 7、和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这种情况也可以使用因子得分做到。所以这种区分不是绝对的。 2018/12/3 41 目录 上页 下页 返回 结束

§6.3 因子分析的步骤与逻辑框图 §6.3.1 因子分析的步骤 §6.3.2 因子分析的逻辑框图 2018/12/3 42 §6.3.1 因子分析的步骤 §6.3.2 因子分析的逻辑框图 2018/12/3 42 目录 上页 下页 返回 结束

§6.3 因子分析的步骤与逻辑框图 上面我们介绍了因子分析的基本思想及基本的理论方法,下面我们把因子分析的步骤及逻辑框图总结如下,以帮助读者能更加清楚因子分析各步之间的脉络关系及更好的运用因子分析方法解决实际问题。 2018/12/3 43 目录 上页 下页 返回 结束

§6.3.1 因子分析的步骤 进行因子分析应包括如下几步: 1.根据研究问题选取原始变量; §6.3.1 因子分析的步骤 进行因子分析应包括如下几步: 1.根据研究问题选取原始变量; 2.对原始变量进行标准化并求其相关阵,分析变量之间的相关性; 3.求解初始公共因子及因子载荷矩阵; 4.因子旋转; 5.因子得分; 6.根据因子得分值进行进一步分析。 44 目录 上页 下页 返回 结束

§6.3.2 因子分析的逻辑框图 图6-1 2018/12/3 45 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 在上一章中 ,我们用SPSS的Factor Analysis模块实现了主成分分析,实际上,Factor Analysis主要是SPSS软件进行因子分析的模块,由于主成分分析与因子分析(特别是因子分析中的主成分法)之间有密切的关系,SPSS软件将这两种分析方法放到同一分析模块 中。 下面我们先用SPSS软件自带的数据说明Factor Analysis模块进行因子分析的方法,然后给出一个具体案例。为了与主成分分析进行比较,我们此处仍延用SPSS自带的Employee data.sav数据集 。 【例6.1】 数据集Employee data.sav中各变量解释说明见上一章主成分分析,用Factor Analysis模块 进行因子分析。 2018/12/3 46 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 打开Employee data.sav数据集并依次点选Analyze→Data Reduction→Factor…进入Factor Analysis对话框,选取educ、salary、salbegin、jobtime、prevexp变量进入Variables窗口。 点击对话框下侧的Extraction进入Extration对话框,在Method选项框我们看到SPSS默认是用主成分法提取因子,在Analyze框架中看到是从分析相关阵的结构出发求解公因子。点Continue按钮继续。如果这样交由程序运行的话,将得到与上一章输出结果5-1同样的结果,其中包括公因子解释方差的比例,因子载荷矩阵(即Component Matrix) 等。选中Display factor score coefficient matrix复选框,我们在主成分分析中也选了该选项,它要求SPSS输出因子得分矩阵,即标准化主成分(因子)用原始变量线性表示的系数矩阵。点Continue继续,点OK按钮运行,可以得到如下输出结果6-1: 47 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 输出结果6-1 (1) (2) 48 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 输出结果6-1 (3) (4) 中国人民大学六西格玛质量管理研究中心 2018/12/3 49 §6.4 因子分析的上机实现 输出结果6-1 (3) (4) 2018/12/3 中国人民大学六西格玛质量管理研究中心 49 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 上面这三张表我们在主成分分析中也得到过,实际上,用主成分法求解公因子与载荷矩阵,是求主成分的逆运算,这在前面我们有所表述。其中Component matrix是因子载荷矩阵,是用标准化后的主成分(公因子)近似表示标准化原始变量的系数矩阵,用fac1,fac2,fac3表示各公因子,以Current Salary为例,即有: 由上一章知,当保留5个主成分时,标准化原始变量与公因子之间有如下精确的关系式: 标准化的salary= (1) 标准化的salary 2018/12/3 50 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 可见,主成分法求解公因子就是把后面不重要的部分 §6.4 因子分析的上机实现 忽略掉而作为特殊因子反映在因子模型中,由communalities表,可知特殊因子的方差(特殊度)为1-0.896=0.104。 可见,主成分法求解公因子就是把后面不重要的部分 component score coefficient matrix(因子得分系数矩阵)是用原始变量表示标准化主成分(公因子)的系数矩阵,其关系式已在上一章给出,此处不再赘述。这里想说明的是用主成分求解公因子时因子得分系数与因子载荷之间的关系。如上面表中因子得分系数中第一个元素为0.342,它与第一主成分的方差2.477,因子载荷矩阵中第一个元素0.846之间有如下关系式: 2018/12/3 51 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 此处之所以是乘以2.477而不是它的平方根是因为此处主成分已经经过标准化了。同理有 ,可见用主成分法进行因子分析与主成分分析是完全可逆的,由此,有些研究者也用主成分求解因子分析的结果来进行主成分分析。 实际上,在进行因子分析之前,我们往往先要了解变量之间的相关性来判断进行因子分析是否合适;对此,进入Factor Analysis对话框后,点击下方的Descriptives按钮,进入Descriptives对话框,在Statistics框架中选择Univariate Descriptives会给出每个变量的均值、方差等统计量的值,在下部Correlation Matrix框架中,选中Coefficients选项以输出原始变量的相关矩阵,选中Significance levels以输出原始变量各相关系数的显著性水平。Correlation Matrix框架还有其他一些选项来帮助我们进行判断,此处不再详细说明,点击Continue按钮继续,点击OK运行,可以得到如下结果6-2: 2018/12/3 52 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 输出结果6.2: 2018/12/3 53 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 由上面结果知原始变量之间有较强的相关性,进行因子分析是合适的。 §6.4 因子分析的上机实现 由上面结果知原始变量之间有较强的相关性,进行因子分析是合适的。 得到初始载荷矩阵与公因子后,为了解释方便往往需要对因子进行旋转,设置好其他选项后点击Factor Analysis对话框下部的Rotation…按钮,进入Rotation对话框,在Method框架中可以看到SPSS给出了多种进行旋转的方法,系统默认为不旋转。可以选择的旋转方法有Varimax(方差最大正交旋转)、Direct Oblimin(直接斜交旋转)、Quartmax(四次方最大正交旋转)、Equamax(平均正交旋转)及Promax(斜交旋转), 选中Varimax选项,此时,Display框架中Rotated solution选项处于活动状态,选中该选项以输出旋转结果。点击Contunue→OK运行,除上面的结果外还可得到如下输出结果6-3: 2018/12/3 54 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 输出结果6.3 (1) 2018/12/3 55 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 输出结果6.3 (2) 2018/12/3 56 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 输出结果6.3 (3) 2018/12/3 57 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 由结果可以看到,旋转后公共因子解释原始数据的能力没有提高,但因子载荷矩阵及因子得分系数矩阵都发生了变化,因子载荷矩阵中的元素更倾向于0或者正负1。 有时为了公因子的实际意义更容易解释,往往需要放弃公因子之间互不相关的约束而进行斜交旋转,最常用的斜交旋转方法为Promax方法,对此例进行斜交旋转,可得到如下输出结果6-4: 2018/12/3 58 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 输出结果6.4: (1) 2018/12/3 59 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 输出结果6.4: (2) 2018/12/3 60 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 输出结果6.4: (3) 2018/12/3 61 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 可以看到,与正交旋转不同,斜交旋转的输出结果中没有Rotated Component Matrix而代之以Pattern Matrix和Structure Matrix,这里,Pattern Matrix即是因子载荷矩阵,而Structure Matrix为公因子与原始变量的相关阵,也就是说,在斜交旋转中,因子载荷系数不再等于公因子与原始变量的相关系数。上面三个表格存在如下关系: Structure Matrix=Pattern Matrix Correlation Matrix 2018/12/3 62 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 为了得到因子得分值,进行如下操作:在Factor Analysis对话框,点击下方的Scores按钮,进入Factor Scores(因子得分)对话框,选中Save as variables复选框,即把原始数据各样本点的因子得分值存为变量,可以看到系统默认用回归方法求因子得分系数(Method框架中Regression选项被自动选中),保留此设置。在此例中,我们还选中了Save as variables复选框,这一选项要求输出估计的因子得分值,该结果出现在数据窗口。在数据窗口,我们可以看到在原始变量后面出现了三个新的变量,变量名分别为fac1_1,fac2_1,fac3_1。这三个变量即为各个样品的第一公因子、第二公因子、第三公因子的得分。我们在前面的分析中曾提过这些得分是经过标准化的,这一点可以用下面的方法简单的验证: 2018/12/3 63 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 依次点选Analyze→Descriptive Statistics→Descriptives…进入Descriptives对话框,选中fac1_1,fac2_1,fac3_1三个变量,点击OK按钮运行,可得到如下结果6-5: 输出结果6-5: (1) 2018/12/3 64 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 可以看到,三个变量的标准差均为1(此处由于舍入原因,变量的均值不绝对等于0而是有细微差别)。 §6.4 因子分析的上机实现 可以看到,三个变量的标准差均为1(此处由于舍入原因,变量的均值不绝对等于0而是有细微差别)。 得到各个样品的因子得分后,我们就可以对样本点进行分析,如用因子得分值代替原始数据进行归类分析或是回归分析等。同时,我们还可以在一张二维图上画出各数据点,描述各样本点之间的相关关系。 依次点选Graphs→Scatter…进入Scatterplot对话框,选择Simple按Define按扭,在弹出的Simple Scatterplot对话框中,分别选择fac1_1,fac2_1作为X轴与Y轴,点击OK交由程序运行,可得如下散点图: 2018/12/3 65 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 输出结果6.5: (2) 2018/12/3 66 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 由此可以直观地描述原始数据的散布情况,为了研究需要,还可以很方便地输出第一因子与第三因子,第二因子与第三因子的散点图或同时生成三个因子的散点图,这只需选择不同的变量或图形类型即可,在此不再详述。 2018/12/3 67 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 【例6.2】 (数据见表5 -9)对企业经济效益指标体系的八项指标建立因子分析模型。(详细因子分析上机实现见例6-3) 由spss输出方差解释表及碎石图可看出,前三个特征值较大,其余五个特征值均较小。前三个公共因子对样本方差的贡献和为87.085%,于是我们选取3个公共因子。 2018/12/3 68 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 Total Variance Explained §6.4 因子分析的上机实现 Total Variance Explained Component Initial Eigenvalues Extraction Sums of Squared Loadings Total % of Variance Cumulative % 1 4.861 60.758 2 1.269 15.865 76.623 3 .837 10.463 87.085 4 .517 6.464 93.549 5 .378 4.727 98.276 6 .115 1.443 99.719 7 .021 .264 99.984 8 .001 .016 100.000 Extraction Method: Principal Component Analysis. 2018/12/3 69 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 2018/12/3 70 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 因子载荷的估计如下: Component 1 2 3 X1 .957 -.019 -.239 X2 .899 §6.4 因子分析的上机实现 Component 1 2 3 X1 .957 -.019 -.239 X2 .899 -.396 .037 X3 .862 .081 -.338 X4 .928 -.350 -.038 X5 .787 .000 .182 X6 .422 .773 .345 X7 .640 -.078 .642 X8 .571 .615 -.313 因子载荷的估计如下: Extraction Method: Principal Component Analysis. a 3 components extracted. 2018/12/3 71 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 由上表可得出企业经济效益指标体系的因子分析模型(特殊因子忽略不计): 2018/12/3 72 §6.4 因子分析的上机实现 由上表可得出企业经济效益指标体系的因子分析模型(特殊因子忽略不计): 2018/12/3 72 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 2018/12/3 73 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 由因子分析模型可知,第一个主因子 主要由固定资产利税率,资金利税率,销售收入利税率,资金利税率这四个指标所决定,这四个指标在主因子 上的载荷均在0.85以上,它代表着企业经济活动中的盈利能力,而且主因子 对 的方差贡献已达60%之多,所以更说明 是企业经济效益指标体系中的主要方面。此外,固定资产产值率对 的贡献相对也较大,这也是反映企业经济活动的盈利能力的主要指标。企业要提高经济效益,就要在这个主因子方面狠下功夫。 2018/12/3 74 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 第二个主因子 主要由流动资金周转天数所决定,说明企业经济活动中流动资金周转快慢与企业的生产经营及市场信息息息相关。企业要提高经济效益就要在产品结构的调整上想办法,要生产适销对路的产品,提高本企业产品的市场占有率。 第三个主因子 主要反映了企业的产值和能耗,产值和能耗反映的是投入与产出的关系。企业要提高经济效益就不能忽视降低生产成本。 2018/12/3 75 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 例6.3 中心城市的综合发展是带动周边地区经济发展的重要动力。在我国经济发展进程中,各个中心城市一直是该地区经济和社会发展的“引路者”。因而,分析评价全国35个中心城市的综合发展水平,无论是对城市自身的发展,还是对周边地区的进步,都具有十分重要的意义。下面应用因子分析模型,选取反映城市综合发展水平的12个指标作为原始变量,运用spss软件,对全国35个中心城市的综合发展水平作分析评价。 1.原始数据及指标解释。我们选取了反映城市综合发展水平的12个指标,其中包括8个社会经济指标,分别为: 2018/12/3 76 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 —非农业人口数(万人) —工业总产值(万元) §6.4 因子分析的上机实现 —非农业人口数(万人) —工业总产值(万元) —货运总量(万吨) —批发零售住宿餐饮业从业人数(万人) —地方政府预算内收入(万元) —城乡居民年底储蓄余额(万元) —在岗职工人数(万人) —在岗职工工资总额(万元) 4个城市公共设施水平的指标: —人均居住面积(平方米) —每万人拥有公共汽车数(辆) —人均拥有铺装道路面积(平方米) —人均公共绿地面积(平方米) 2018/12/3 77 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 指标的选取参考了《中国城市统计年鉴》中指标的设置。数据来源于《中国城市统计年鉴(2004)》。数据见表6-1。 §6.4 因子分析的上机实现 指标的选取参考了《中国城市统计年鉴》中指标的设置。数据来源于《中国城市统计年鉴(2004)》。数据见表6-1。 表6-1 x1 x2 x3 x4 x5 x6 北 京 830.8 38103630 30671.14 127.4 5925388 64413910 天 津 549.74 40496103 34679 15.38 2045295 18253200 石 家庄 331.33 11981505 10008.48 8.07 493429 10444919 太 原 222.63 5183200 15248.11 2.43 333473 6601300 呼和浩特 97.81 2407794 4155.1 2 205779 2554496 2018/12/3 78 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 续表6-1 沈 阳 440.6 10643612 14635.74 7.3 810889 14229575 长 春 313.05 15115270 10891.98 6.94 459709 8313564 哈 尔 滨 454.52 7215089 9517.8 24.99 763600 11536951 上 海 1041.39 1.03E+08 63861 35.22 8992850 60546000 南 京 391.67 25093816 14804.68 7.62 1364788 11336202 杭 州 263.67 32025226 16815.2 8.36 1503888 14664200 合 肥 160.18 5348605 4640.84 3.39 358694 3592488 福 州 205.43 12889573 8250.39 4.69 674522 8762245 南 昌 195.46 4149169 4454.45 3.62 314094 4828029 济 南 297.21 13185425 14354.4 6.6 761054 7583525 郑 州 249.72 9270494 7846.91 8.77 658737 10484859 武 汉 474.98 13344938 16610.34 13.58 804368 12855341 2018/12/3 79 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 续表6-1 长 沙 205.83 5339304 10630.5 6.31 598930 7048500 广 州 493.32 40178324 28859.45 21.47 2747707 37273276 南 宁 167.99 2083763 5893.09 4.95 362435 4514961 海 口 76.05 2025643 3304.4 2.72 122541 2843664 成 都 386.23 9700976 28798.2 8.06 895752 14944197 贵 阳 165.27 3569419 5317.55 5.75 403855 3449487 昆 明 205.34 5809573 12337.86 7.07 601101 7085278 西 安 312.88 6386627 9392 12.21 648037 12105607 兰 州 175.54 5215490 5580.8 3.7 205660 4683830 西 宁 105.13 1148959 2037.15 1.24 84397 1749293 2018/12/3 80 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 续表6-1 银 川 79.2 1464867 2127.17 1.65 122605 1930771 乌鲁木齐 142.94 3110943 12754.02 3.94 409119 4203000 大 连 297.48 15468641 21081.47 6.6 1105405 13101986 宁 波 168.81 26302862 13797.38 4.8 1394162 10596339 厦 门 83.74 13201500 3054.82 2.83 701456 3971559 青 岛 329.96 25588695 30552.6 6.72 1201398 9084693 深 圳 122.39 52451037 6792.66 10.84 2908370 21994500 重 庆 753.92 15889928 32450.2 12.83 1615618 18965569 2018/12/3 81 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 续表6-1 x7 x8 x9 x10 x11 x12 北 京 434.15 10989365 15 17.3 §6.4 因子分析的上机实现 续表6-1 x7 x8 x9 x10 x11 x12 北 京 434.15 10989365 15 17.3 8.56 44.94 天 津 174.5 3254148 18 7.99 7.23 17.45 石 家 庄 86.74 1067432 8.28 21.56 太 原 74.55 945212 16 5.06 7.88 20.58 呼和浩特 28.9 407963 3.81 8.92 26.58 沈 阳 101.7 1521548 9.32 6.7 28.36 长 春 89.7 1244167 11.87 7.03 18.75 哈 尔 滨 168.83 2102165 14 12.75 6.34 18.51 上 海 281.51 7686511 19 14.57 12.92 19.11 南 京 87.91 1950742 9.06 12.13 136.72 杭 州 75.72 1867776 17 8.93 6.5 23.19 2018/12/3 82 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 续表6-1 合 肥 37.88 526577 17 14.11 15.72 28.74 福 州 71.3 1073262 18 9.65 7.9 31.6 南 昌 49.79 692717 7.37 7.67 23.98 济 南 78.38 1256160 19 7.77 10.62 19.54 郑 州 83.99 1137056 10.11 7.63 17.77 武 汉 136.08 1868350 6.87 4.16 8.34 长 沙 60.04 1019924 10.09 9.1 29.1 广 州 182.16 5247087 11.16 12.76 178.76 南 宁 50.79 668976 9.91 9.32 35.12 海 口 22.97 340392 20 5.09 7.07 15.79 成 都 124.03 1894496 8.95 10.17 25.59 贵 阳 54.53 664234 16 9.37 3.11 105.35 2018/12/3 83 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 续表6-1 昆 明 73.34 1045469 15 15.33 4.49 23.33 西 安 113.73 1535896 7.32 4.48 8.82 兰 州 54.91 740661 10.33 6.3 11.22 西 宁 20.6 301364 17 11.47 4.92 14.2 银 川 29.12 393035 9.26 10.43 40.21 乌鲁木齐 47.42 782873 19 22.89 6.49 20.53 大 连 82.13 1442215 14 13.79 6.24 宁 波 59.88 1418635 9.88 6.81 17.65 厦 门 54.78 1042111 20 15.5 8.15 26.44 青 岛 104.55 1603305 14.78 11.41 35.78 深 圳 104.98 3259900 21 114.91 47.29 177.62 重 庆 203.79 2535070 4.94 4.24 10.8 2018/12/3 84 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 2.计算运行结果 将标准化后的数据导入到spss软件,依次点选Analyze-Data Reduction-Factor进入Factor Analysis对话框。把12个指标变量选入variables中,点击extraction按钮,在method选项中选择principal components(这时,因子分析等同于主成分分析,如果是主成分分析,则只能选择此项),点击continue按钮,回到主对话框点击ok。见图6-2. 2018/12/3 85 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 图6-2 2018/12/3 86 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 按照特征根大于1的原则,选入3个公共因子,其累计方差贡献率为87.1%,特征根及累计贡献率、碎石图、因子载荷矩阵如下。见输出结果6-6. 输出结果6-6(1) 2018/12/3 87 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 输出结果6-6(2) 输出结果6-6(3) 2018/12/3 88 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 此时得到的未旋转的公共因子的实际意义不好解释,因此,对公共因子进行方差最大化正交旋转。在factor Analysis对话框中,点击rotation按钮,进入rotation对话框,选中varimax进行方差最大化正交旋转(若是主成分分析就选择none)。得输出结果6-7. 2018/12/3 89 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 输出结果6-7(1) 输出结果6-7(2) 2018/12/3 90 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 由上表结果,原变量 可由各因子表示为: 原变量 可由各因子表示为: 其余依次类推。 §6.4 因子分析的上机实现 原变量 可由各因子表示为: 由上表结果,原变量 可由各因子表示为: 其余依次类推。 为便于得出结论,在factor analysis主对话框中点击options按钮进入options对话框,在coefficient display format框中选中sorted by size使输出的载荷矩阵中各列按载荷系数大小排列,使在同一个公因子上具有较高载荷的变量排在一起。然后点击continue,ok运行。见图6-3. 2018/12/3 91 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 图6-3 2018/12/3 92 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 输出结果6-8 2018/12/3 中国人民大学六西格玛质量管理研究中心 93 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 最后,计算因子得分,以各因子的方差贡献率占三个因子总方差贡献率的比重作为权重进行加权汇总,得出各城市的综合得分F,即 在factor analysis主对话框中点击按钮scores进入factor scores对话框,选中save as variables,在method中选择regression计算因子得分,如图6-4所示: 图6-4 2018/12/3 中国人民大学六西格玛质量管理研究中心 94 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 得到运行结果并计算综合得分,结果见表6-2: 表6-2: 城市名 F1 F2 F3 F 北 京 3.37378 §6.4 因子分析的上机实现 得到运行结果并计算综合得分,结果见表6-2: 表6-2: 城市名 F1 F2 F3 F 北 京 3.37378 0.49045 -3.04248 1.957402 天 津 0.95462 -0.65391 0.96244 0.543583 石 家 庄 -0.2163 -0.33051 0.34879 -0.18579 太 原 -0.38828 -0.38651 -0.25036 -0.37317 呼和浩特 -0.79215 -0.19351 0.25901 -0.52774 沈 阳 0.0078 -0.3284 -0.67948 -0.15083 长 春 -0.23157 -0.24054 -0.64978 -0.27799 哈 尔 滨 0.15122 -0.22201 -1.58673 -0.1279 上 海 3.58255 -0.45691 2.45561 2.428944 南 京 -0.00443 0.85387 -0.61528 0.150699 2018/12/3 95 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 续表6-2: 杭 州 0.09375 -0.30626 0.35858 0.019334 合 肥 -0.72469 0.35099 -0.009 -0.37365 福 州 -0.37922 -0.13533 0.32624 -0.2422 南 昌 -0.61726 -0.21752 -0.11274 -0.46153 济 南 -0.20362 -0.28378 0.88265 -0.10935 郑 州 -0.29528 -0.28855 0.60459 -0.19844 武 汉 0.21338 -0.72838 0.00467 -0.04972 长 沙 -0.43915 -0.13069 0.29771 -0.28228 广 州 1.12851 1.25536 -0.57767 0.980497 2018/12/3 96 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 续表6-2: 南 宁 -0.63822 -0.02424 0.17272 -0.39529 海 口 §6.4 因子分析的上机实现 续表6-2: 南 宁 -0.63822 -0.02424 0.17272 -0.39529 海 口 -0.8129 -0.37573 0.96842 -0.51268 成 都 0.2126 -0.36439 0.25407 0.069272 贵 阳 -0.66464 0.31205 -0.96072 -0.44581 昆 明 -0.38986 -0.23118 -0.77627 -0.38998 西 安 -0.13289 -0.49568 -0.92188 -0.30904 兰 州 -0.61179 -0.2757 -0.75932 -0.54122 西 宁 -0.85973 -0.29906 -0.09704 -0.63549 2018/12/3 97 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 续表6-2: 银 川 -0.89242 0.2069 -0.91362 -0.61312 乌鲁木齐 §6.4 因子分析的上机实现 续表6-2: 银 川 -0.89242 0.2069 -0.91362 -0.61312 乌鲁木齐 -0.5715 -0.11384 0.73564 -0.31618 大 连 -0.0403 -0.12453 -0.88242 -0.1508 宁 波 -0.17068 -0.2716 0.34519 -0.14198 厦 门 -0.61332 0.01069 0.99742 -0.28335 青 岛 0.16015 -0.03801 -0.15229 0.0764 深 圳 -0.11722 5.19498 1.26664 1.388438 重 庆 0.92906 -1.1585 1.74667 0.480974 2018/12/3 98 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 以 因子得分为x轴, 因子得分为y轴,画出各城市的因子得分如下,见图6-5: 图6-5 2018/12/3 §6.4 因子分析的上机实现 以 因子得分为x轴, 因子得分为y轴,画出各城市的因子得分如下,见图6-5: 图6-5 2018/12/3 99 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 其操作步骤如下:在spss中点选graphs,在出来的下拉菜单中点击scatter,进入scatterplot对话框,选择simple,点击define按钮,见图6-6: 图6-6 2018/12/3 100 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 在弹出的simple scatterplot对话框中,分别选择fac1_1,fac2_1作为x轴与y轴,点击ok,即可得到如上因子得分图。 操作图见图6-7: 图6-7: 2018/12/3 101 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 3.结果分析。由旋转后的因子载荷矩阵可以看出,公共因子 在 (非农业人口数)、 (工业总产值)、 (货运总量)、 (批发零售住宿餐饮业从业人数)、 (地方政府预算内收入)、 (城乡居民年底储蓄余额)、 (在岗职工人数)、 (在岗职工工资总额)上的载荷值都很大, , , 是反映城市规模的指标, , 反映城市工业发展规模, 反映城市第三产业的发展规模, 是政府作为国家的管理者和国有资产的所有者而获得的收入, 则在一定程度上反映了居民的收入水平,而在我国现今的收入分配格局下,政府和居民是再分配收入的获得大户 , 2018/12/3 102 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 因而 , ,则在一定程度上反映了城市的国民收入水平,因而 为反映城市规模及经济发展水平的公共因子,在这个因子上的得分越高,城市经济发展水平越高,城市规模越大;公共因子 由于在 (每万人拥有公共汽车数)、 (人均拥有铺装道路面积)、 (人均公共绿地面积)上的载荷较大,是反映城市的基础设施水平的公共因子,在此因子上的得分则反映了一个城市的基础设施水平;公共因子 仅在 (人均居住面积)上有较大的载荷,是反映城市居民住房条件的公共因子。 2018/12/3 103 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 有了各个公共因子合理的解释,结合各个城市在三个公共因子上的得分和综合得分,就可对各中心城市的综合发展水平进行评价了。在城市经济规模因子 上得分最高的前五个城市依次是上海、北京、广州、天津和重庆,其中,上海的得分为3.58,北京的为3.37,远高于其他城市,这就是说就城市经济发展规模而言,上海、北京是我国最大的城市,且其规模远大于其他城市。城市规模较小,经济发展相对较慢的城市有西宁和银川,而海口由于城市规模小,在 上的得分也较低。深圳、广州和南京在 上的得分较高,而重庆、武汉得分较低,说明深圳、广州、南京的城市基础设施在全国是较好的,而重庆等城市的基础设施相对较差,还需要下大力气进行改善。上海、重庆、深圳等城市在 上的得分比较高,说明居民在居住条件上面较别的城市好,北京、哈尔滨等则需要进行改善。 2018/12/3 104 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 将各城市在三个因子上的得分进行加权综合,就得到了综合得分。根据综合得分就可综合评价城市的发展水平。综合得分前五名的城市依次是上海、北京、深圳、广州和天津;综合得分最低的五个城市依次是西宁、银川、兰州、呼和浩特和海口。再结合各因子得分进行分析,北京在城市规模及经济发展水平,基础设施建设方面均位于前列,但是在居民住房面积上的得分较低,因此,需在这方面加大改善力度。上海在城市规模及经济发展水平及居民住房上得分最高,在基础设施方面得分不太理想,这可能是因为上海人口较多所致。而综合得分较低的城市的在经济发展水平上的得分都较低,在城市发展战略上应把经济的发展放在首位,只有经济发展了,城市设施水平及其他方面才能搞上去。 2018/12/3 105 目录 上页 下页 返回 结束

§6.4 因子分析的上机实现 另外,因子得分图分析表明,就城市规模而言,历史悠久的城市大于新兴城市;就城市设施水平而言,南方城市普遍好于北方城市,新兴城市好于老城市;综合来讲,东部地区城市发展水平高于西部地区城市。上海、北京、深圳三城市综合发展水平较接近,上海规模大,但基础设施水平较低;北京规模大、基础设施水平较高,但是居民人均住房较小;深圳规模不大,但是基础设施水平较高、人均住房面积较大。此外,综合得分值大于零的城市还有广州、天津、重庆、南京、青岛、成都、杭州等。但是这些城市与上海、北京及深圳有一定的差距。其他城市综合得分都小于零,在因子得分图中大概位于原点附近,城市综合发展水平都还较低,发展格局也较相近,其中有18个城市位于因子得分图的第三象限,而这些城市多位于中西部地区。因而,如何加快这些城市的发展以带动周边地区的进步,是影响我国整体经济发展的重要课题。 2018/12/3 106 目录 上页 下页 返回 结束

The end! Thanks! 2018/12/3 107