第二章 主成分分析 §2.1 主成分分析的基本思想与理论 §2.2 主成分分析的上机实现 2019/4/23 1

Slides:



Advertisements
Similar presentations
數學社群 教學分享 和平國小 陳淑渟老師 數學社群 教學分享 和平國小 陳淑渟老師. 小一常發生的 學習困難 定位板的應用 序數的學習 困難與教學 突破 主題大綱.
Advertisements

健康.安全年 製作 : 黃靜怡. 安全第一,我想,這是一句大家都耳熟能詳的話吧,說安全, 簡單的說,就是注意自己、眼睛要看、耳朵要聽,不要莽莽 撞撞的,安全是大家所期望的,而父母總是常常掛念我們, 就是希望我們能安全,畢竟,孩子是父母一輩子的牽掛,會 擔心我們的,往往就是關心我們的人,每個人都希望自己做.
【大願文教基金會】園藝治療師 黃盛璘督導、王麗玲執行. 年齡在 2 足歲以上 18 歲以下,經醫學中 心或區域醫 院鑑定為 重度、極重度 身心障礙,不具行動能 力、且不能自理生活,並持有身心障礙 手冊的新北市居民。 八里愛心教養院~服務對象.
第二十九课 致儿子书 张之洞.
如何陪伴孩子度過 高三歲月.
把人的生命写在教育的旗帜上 了解一个案件 欣赏一篇散文 学习一种理念 感悟一个故事.
当代大学生的性别烦恼 沈奕斐.
六大原因造成 現代人身體酸性化.
【2008年高考重庆卷】A.当冰雪皑皑之际,唯独梅花昂然绽放于枝头,对生命充满希望和自信,教人精神为之一振。
统 计 学 (第三版) 2008 作者 贾俊平 统计学.
景区讲解常用方法.
上海体育职业学院 祁社生 一、重视体育科研在提高竞技运动训练水平中的意义和作用
班級愛心小護士訓練 臺南市東區勝利國小 健康中心.
校园信息管理系统 河北科技大学网络中心 2000/4/10.
项目四 营业税 山东经贸职业学院 财政金融系.
敬业·创业·乐业 ——我的成长之路 赵谦翔.
第1章第3节 量化研究与质化研究 案例1:关于中学思想政治教师专业发展现状和需求的调查研究
四年七班親師會 自信學習,健康成長.
醫療旅遊.
社會發展學系 簡 介.
人物小传:杨嘉嵋,1975年出生,国家 重点四川大学本科毕业,中国传媒大学博士毕业,现为上海政法学院讲师。多次发表学术论文:《试论社会主义法治的目标和现代法治精神的培育》发表于钦州师范高等专科学校校报2000年04期,《西部在引进,利用外资中应重视的问题及对策》发表于四川师范学院学报2000年05期,《试论毛泽东的刑法思想》发表于达县师范高等专科学校学报2001年01期,《美国著名主持人的十点共性》发表于中国广播电视学刊2007年08期,《我国电视法治节目的现状与提升》发表于新闻战线2008年08期。
第二章 语用的主要要素分析 第一节 语境 第二节 预设 第三节 角色 第四节 视角.
从从容容中考去.
美麗的星空 陳弦希製作.
性別刻板印象.
初三8班(上) 期末总结班会.
初三(上) 期末总结班会.
一週菜單設計.
徵收苗栗市福全段147、1588及文心段10、11地號等4筆土地之
改革开放给我们带来的变化 系别:11商务流通系 班级:物流四班 组员:物四男生组.
大村國小 尋根之旅.
那年我參加瑞士巴塞爾博覽會, 除了接單做貿易,還零售賣品, 以擴大出口商品的影響。
中國醫藥大學 北港分部簡報.
西安国际港务区 入区企业相关地方税收 知识培训
拒绝毒品健康成长 ——张鸿谊.
动商研究中心 让高校体育驶入快车道 --国家“学校体育”相关文件解读 2016 年 05 月 15 日.
第三章 领悟人生真谛 创造人生价值 第一节 树立正确的人生观 创造有价值的人生 第二节 第三节 科学对待人生环境.
鸟的生殖和发育.
第十四章 中国特色社会主义事业的依靠力量. 第十四章 中国特色社会主义事业的依靠力量 内容提要 包括知识分子在内的工人、农民是中国特色社会主义事业的根本力量;改革开放以来出现的新的社会阶层是中国特色社会主义事业的建设者;必须认真贯彻尊重劳动、尊重知识、尊重知识人才、尊重创造的重大方针,最广泛最充分地调动一切积极因素;巩固和加强各族人民的团结合作。
终极(13)班 赵树杰 许志鹏 初二(13)班.
全面推廣政府服務流程改造 行政院研究發展考核委員會  主任委員 宋餘俠 102年7月17日.
中国政法大学卫生法研究中心 于秀艳 2011年6月28日 杭州
思想道德修养与法律基础.
第1課 華南地區— 海陸文化的交會區.
多元文化“地球村”—— 世界文化之旅.
歡樂大派對 六年七班 第一組 自然成果發表會.
專題報告: 沒有國哪裡會有家?.
传媒学院2013年度团委工作 总结分析报告
100道素菜 想看哪一道菜時 直接點一下就可進入 1西蘭花燒豆腐 2蕃茄炒凍豆腐 3東坡豆腐 4.西芹腰果百合 5土豆燉番瓜 6香椿豆腐
就在那裡上主要我去.
項目分析與探索式因素分析 李茂能, 2007,成大 Fred Li, 2007.
因素分析 10.1 探索性因素分析 10.2 在SPSS中使用探索性因素分析的範例 10.3 分析結果 10.4 因素命名及信度分析
環境教育宣導 疼愛地球 珍惜資源 愛護環境.
第六章 因子分分析 §6.1 因子分析的基本理论 §6.2 因子载荷的求解 §6.3 因子分析的步骤与逻辑框图 §6.4 因子分析的上机实现
第9章 因子分析 factor analysis
校外教學六福村一日遊.
債之標的 楊智傑.
契約與規範期末報告 -旅遊定型化契約書 指導老師:李惠圓 班級:四動二A 組別:第一組 組員:4970T010許欣婷 4970T041林姿汶
環境教育宣導 疼愛地球 珍惜資源 愛護環境.
介绍: 1、主成分分析与因子分析的概念 2、主成分分析与因子分析的过程
主成分分析专题 Principal Component Analysis(PCA)
Factor Analysis 因素分析 陳思先.
红利、年金、满期金自动转入聚宝盆,收益有保底,升值空间更大
第7章 基本统计分析 2019/5/14.
第十七章 因素分析 Factor Analysis 第十七章 因素分析.
附件六 慢飛天使 智能障礙介紹 炫寬愛心教養家園介紹 2019/5/27.
第三节 多重共线性的检验 本节基本内容: ● 简单相关系数检验法 ● 方差扩大(膨胀)因子法 ● 直观判断法 ● 逐步回归法.
2007年六十四个热点话题 写作提示及解说.
太空人是載人航太的核心。選拔和訓練太空人是一個國家可以獨立自主實施載人航太的重要標誌之一。
银川社保网上申报 宁夏人力资源和社会保障 网上服务大厅操作
Presentation transcript:

第二章 主成分分析 §2.1 主成分分析的基本思想与理论 §2.2 主成分分析的上机实现 2019/4/23 1 第二章 主成分分析 §2.1 主成分分析的基本思想与理论 §2.2 主成分分析的上机实现 2019/4/23 1 目录 上页 下页 返回 结束

第二章 主成分分析 主成分分析(principal components analysis)。主成分分析是利用降维的思想,在损失很少信息的前提下把多个指标转化为几个综合指标的多元统计方法。通常把转化生成的综合指标称之为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,这就使得主成分比原始变量具有某些更优越的性能。这样在研究复杂问题时就可以只考虑少数几个主成分而不至于损失太多信息,从而更容易抓住主要矛盾,揭示事物内部变量之间的规律性,同时使问题得到简化,提高分析效率。 2019/4/23 2 目录 上页 下页 返回 结束

§2.1 主成分分析的基本思想 既然研究某一问题涉及的众多变量之间有一定的相关性,就必然存在着起支配作用的共同因素,根据这一点,通过对原始变量相关矩阵或协方差矩阵内部结构关系的研究,利用原始变量的线性组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下起到降维与简化问题的作用,使得在研究复杂问题时更容易抓住主要矛盾。一般地说,利用主成分分析得到的主成分与原始变量之间有如下基本关系: 1.每一个主成分都是各原始变量的线性组合; 2.主成分的数目大大少于原始变量的数目 2019/4/23 3 目录 上页 下页 返回 结束

3.主成分保留了原始变量绝大多数信息 4.各主成分之间互不相关 通过主成分分析,可以从事物之间错综复杂的关系中找出一些主要成分,从而能有效利用大量统计数据进行定量分析,揭示变量之间的内在关系,得到对事物特征及其发展规律的一些深层次的启发,把研究工作引向深入。 2019/4/23 4 目录 上页 下页 返回 结束

§2.2 主成分分析的基本理论 设对某一事物的研究涉及个 指标,分别用 表示,这个 指标构成的 维随机向量为 。设随机向量 的均值为 ,协方差矩阵为 。 对 进行线性变换,可以形成新的综合变量,用 表示,也就是说,新的综合变量可以由原来的变量线性表示,即满足下式: (5.1) 2019/4/23 5 目录 上页 下页 返回 结束

§2.3注意的问题 1. 首先应当认识到主成分分析方法适用于变量之间存在较强相关性的数据,如果原始数据相关性较弱,运用主成分分析后不能起到很好的降维作用,即所得的各个主成分浓缩原始变量信息的能力差别不大。一般认为当原始数据大部分变量的相关系数都小于0.3时,运用主成分分析不会取得很好的效果。 2 主成分分析不能有效地剔除重叠信息,但它至少可以发现原始变量是否存在着重叠信息,这对我们减少分析中的失误是有帮助的。 2019/4/23 6 目录 上页 下页 返回 结束

§2.4 主成分分析步骤 1.根据研究问题选取初始分析变量; 2.根据初始变量特性判断由协方差阵求主成分还是由相关阵求主成分; §2.4 主成分分析步骤 1.根据研究问题选取初始分析变量; 2.根据初始变量特性判断由协方差阵求主成分还是由相关阵求主成分; 3.求协差阵或相关阵的特征根与相应标准特征向量; 4.判断是否存在明显的多重共线性,若存在,则回到第一步; 5.得到主成分的表达式并确定主成分个数,选取主成分; 6.结合主成分对研究问题进行分析并深入研究。 2019/4/23 7 目录 上页 下页 返回 结束

主成分分析的逻辑框图 主成分分析的逻辑框图见 图: 2019/4/23 8 特征值 标准正交特征向量 是否有接近0的情况 是 其他处理 否 对主成分进行分析 深入分析 选择初始变量 度量或取值范围相同? (否) 对比 分析相关阵 分析协方差阵 主成分分析的逻辑框图见 图: 2019/4/23 8 目录 上页 下页 返回 结束

§2.5主成分分析的上机实现 SPSS软件FACTOR模块提供了主成分分析的功能。下面先以SPSS软件包自带的数据Employee data.sav为例介绍主成分分析的上机实现方法,在SPSS软件的安装目录下可以找到该数据集;然后,我们举一个实际的例子介绍主成分分析的具体应用。 【例5.2】 数据集Employee data为Midwestern银行在1969-1971年之间雇员情况的数据,共包括474条观测及如下10个变量:Id(观测号)、Gender(性别)、Bdate(出生日期)、Educ(受教育程度(年数))、Jobcat(工作种类)、Salary(目前年薪)、Salbegin(开始受聘时的年薪)、Jobtime(受雇时间(月))、Prevexp(受雇以前的工作时间(月))、Minority(是否少数民族)。下面我们用主成分分析方法处理该数据,以期用少数变量来描述该地区居民的雇佣情况。 2019/4/23 9 目录 上页 下页 返回 结束

§主成分分析的上机实现 进入SPSS软件,打开数据集Employee data.sav。依次点选Analyze→Data Reduction→Factor….进入Factor Analysis(因子分析)对话框。(在SPSS软件中,主成分分析与因子分析均在Factor Analysis模块中完成。此时,数据集Employee data.sav中的变量名均已显示在左边的窗口中,依次选中变量educ、salary、salbegin、jobtime、prevexp并点向右的箭头按钮,这五个变量便进入variables窗口(此时若选中variables窗口中的变量,则窗口左侧的箭头按钮即转向左侧,点此按钮即可剔除所选中变量)。点击右侧的OK按钮,即可得到如下输出结果5-1。 2019/4/23 10 目录 上页 下页 返回 结束

§主成分分析的上机实现 输出结果5-1(1) 输出结果5-1(2) 中国人民大学六西格玛质量管理研究中心 2019/4/23 11 目录 上页 下页 返回 结束

§主成分分析的上机实现 输出结果5-1(3) 2019/4/23 12 目录 上页 下页 返回 结束

§主成分分析的上机实现 其中Communalities给出了该次分析从每个原始变量中提取的信息,表格下面的注示表明,该次分析是用Factor analysis模块默认的信息提取方法即主成分分析完成的。可以看到除受教育程度信息损失较大外,主成分几乎包含了各个原始变量至少90%的信息。Total Variance Explained表则显示了各主成分解释原始变量总方差的情况,SPSS默认保留特征根大于1的主成分,在本例中看到当保留3个主成分为宜,这3个主成分集中了原始5个变量信息的90.66%,可见效果是比较好的。实际上,主成分解释总方差的百分比也可以由Communalities表中计算得出,即 (0.896+0.916+0.999+0.968+0.754)/5=90.66%。Component Matrix表中给出了标准化原始变量用求得的主成分线性表示的近似表达式,我们以表中Current Salary一行为例,不妨用 来表示各个主成分,则由Component Matrix表可以得到: 标准化的salary 2019/4/23 13 目录 上页 下页 返回 结束

主成分分析的上机实现 在上面的主成分分析中,SPSS默认是从相关阵出发求解主成分,且默认保留特征根大于1的主成分,实际上,对主成分的个数我们可以自己确定,方法为:进入Factor Analysis对话框并选择好变量之后,点击Extraction选项,在弹出的对话框中有一个Extract选择框,默认是选择Eigenvalues over 1也就是保留特征根大于1的主成分,我们可以输入别的数值来改变SPSS软件保留特征根的大小;另外,还可以选择Number of Factors选项直接确定主成分的个数。在实际进行主成分分析时可以先按照默认设置做一次主成分,然后根据输出结果确定应保留主成分的个数,用该方法进行设定后重新分析。 因为我们上面的结果是默认从相关阵出发得到的,而由相关阵出发求得的主成分其性质有简单的表达形式,我们可以方便地加以验证。 2019/4/23 14 目录 上页 下页 返回 结束

§主成分分析的上机实现 由Component Matrix中的结果可以得到: =第一主成分的方差,这就验证了性质4。又有: 这恰好与Communalities表中三个主成分提取salary变量的信息相等。我们重做一遍主成分分析,此次将5个主成分全部保留,得到Component Matrix表如输出结果5-2: 2019/4/23 15 目录 上页 下页 返回 结束

§主成分分析的上机实现 输出结果5-2 可以看到前三个主成分的相应结果与输出结果5-1中的对应部分结果是一致的。对上表中结果有如下关系式: 2019/4/23 16 目录 上页 下页 返回 结束

§主成分分析的上机实现 这就验证了性质5。由此表还可以得到标准化原始变量用各主成分线性表示的精确的表达式,以仍以Current Salary为例,有: 标准化的salary 由SPSS软件默认选项输出的结果,我们还不能得到用原始变量表示出主成分的表达式,要得到这个结果及其他一些有用的结果,就需要对Factor Analysis模块中的设置做一些调整,方法如下: 进入Factor Analysis对话框并选择好变量之后,点击对话框下部的Scores按钮进入Factor Scores对话框,选择Display factor score coefficient matrix选项并按Continue继续,该选项是让系统输出主成分得分系数矩阵。点击OK按钮运行,则除了默认结果,还输出如下输出结果5-3: 2019/4/23 17 目录 上页 下页 返回 结束

§主成分分析的上机实现 输出结果5-3 上表中给出了用原始变量表示主成分的系数信息。因为系统默认是从相关矩阵出发进行分析,所以,上面表格中的系数是将原始变量标准化后表示主成分的系数。也就是说,有下式成立: 2019/4/23 18 目录 上页 下页 返回 结束

§主成分分析的上机实现 应当注意的是,此处SPSS给出的用原始变量表示主成分的表达式得到的是标准化后的主成分,也就是说,这样求得的主成分的方差是1,而不是原始变量相关矩阵的各个特征根了。如上式中,第一主成分的方差为2.477,而用上式求得的主成分方差为1,要得出未标准化的主成分与原始变量的表达式,只需将SPSS软件给出的系数前面乘以主成分方差的平方根即可,未标准化第一主成分与原始变量的关系式如下: 类似可以写出第二、第三个主成分用标准化后的原始变量表示的表达式。 2019/4/23 19 目录 上页 下页 返回 结束

2.6因子分析简介 因子分析(factor analysis)模型是主成分分析的推广。它也是利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。相对于主成分分析,因子分析更倾向于描述原始变量之间的相关关系;因此,因子分析的出发点是原始变量的相关矩阵。

因子分析的基本思想 因子分析的基本思想是根据相关性大小把原始变量分组,使得同组内的变量之间相关性较高,而不同组的变量间的相关性则较低。每组变量代表一个基本结构,并用一个不可观测的综合变量表示,这个基本结构就称为公共因子。对于所研究的某一具体问题,原始变量就可以分解成两部分之和的形式,一部分是少数几个不可测的所谓公共因子的线性函数,另一部分是与公共因子无关的特殊因子。在经济统计中,描述一种经济现象的指标可以有很多,比如要反映物价的变动情况,对各种商品的价格做全面调查固然可以达到目的,但这样做显然耗时耗力,为实际工作者所不取。实际上,某一类商品中很多商品的价格之间存在明显的相关性或相互依赖性,只要选择几种主要商品的价格或进而对这几种主要商品的价格进行综合,得到某一种假想的“综合商品”的价格,就足以反映某一类物价的变动情况,这里,“综合商品”的价格就是提取出来的因子。

因子分析分类 因子分析不仅仅可以用来研究变量之间的相关关系,还可以用来研究样品之间的相关关系,通常将前者称之为R 型因子分析,后者称之为Q 型因子分析。

§因子分析的基本理论及模型 一般因子分析模型 下面我们给出更为一般的因子分析模型:设有 个样品,每个样品观测 个指标,这 个指标之间有较强的相关性(要求个指标相关性较强的理由是很明确的,只有相关性较强才能从原始变量中提取出“公共”因子)。为了便于研究,并消除由于观测量纲的差异及数量级不同所造成的影响,将样本观测数据进行标准化处理,使标准化后的变量均值为0,方差为1。为方便把原始变量及标准化后的变量向量均用 表示,用 表示标准化的公共因子。 2019/4/23 23 目录 上页 下页 返回 结束

§ 因子分析的基本理论及模型 如果: (1) 是可观测随机向量,且均值向量 ,协方差矩阵 ,且协方差矩阵 与相关阵 相等; (2) ( )是不可观测的变量,其均值向 量 ,协方差矩阵 ,即向量 的各分量是相互独立的; 如果: (1) 是可观测随机向量,且均值向量 ,协方差矩阵 ,且协方差矩阵 与相关阵 相等; (3) 与 相互独立,且 , 的协方差阵 是对角方阵 2019/4/23 24 目录 上页 下页 返回 结束

§ 因子分析的基本理论及模型 即 的各分量之间也是相互独立的。则模型 (6.7) 称为因子模型,模型(6.7)式的矩阵形式为: (6.8) 其中 2019/4/23 25 目录 上页 下页 返回 结束

§6.1.2 因子分析的基本理论及模型 由模型(6.7)及其假设前提知,公共因子 相互独立且不可测,是在原始变量的表达式中都出现的因子。公共因子的含义,必须结合实际问题的具体意义确定。 叫做特殊因子,是向量 的分量 ( )所特有的因子。各特殊因子之间以及特殊因子与所有公共因子之间也都是相互独立的。矩阵 中的元素 称为因子载荷, 的绝对值大 ,表明 与 的相依程度越大,或称公共因子 对于 的载荷量越大,进行因子分析的目的之一,就是要求出各个因子载荷的值。 2019/4/23 26 目录 上页 下页 返回 结束

§ 因子分析的步骤 进行因子分析应包括如下几步: 1.根据研究问题选取原始变量; § 因子分析的步骤 进行因子分析应包括如下几步: 1.根据研究问题选取原始变量; 2.对原始变量进行标准化并求其相关阵,分析变量之间的相关性; 3.求解初始公共因子及因子载荷矩阵; 4.因子旋转; 5.因子得分; 6.根据因子得分值进行进一步分析。 2019/4/23 27 目录 上页 下页 返回 结束

§ 因子分析的逻辑框图 图6-1 2019/4/23 28 目录 上页 下页 返回 结束

§ 因子分析的上机实现 我们用SPSS的Factor Analysis模块实现了主成分分析,实际上,Factor Analysis主要是SPSS软件进行因子分析的模块,由于主成分分析与因子分析(特别是因子分析中的主成分法)之间有密切的关系,SPSS软件将这两种分析方法放到同一分析模块 中。 下面我们先用SPSS软件自带的数据说明Factor Analysis模块进行因子分析的方法,然后给出一个具体案例。为了与主成分分析进行比较,我们此处仍延用SPSS自带的Employee data.sav数据集 。 【例6.1】 数据集Employee data.sav中各变量解释说明见上一章主成分分析,用Factor Analysis模块 进行因子分析。 2019/4/23 中国人民大学六西格玛质量管理研究中心 29 目录 上页 下页 返回 结束