主成分分析方法 主成分分析的基本原理 主成分分析的计算步骤 主成分分析方法应用实例.

Slides:



Advertisements
Similar presentations
2, 多情总为无情伤 3, 南屏晚钟 4, 绿岛小夜曲 5, 千里之外 6, 月圆花好 1, 一剪梅 按上键选择或自动播放, 退出按 :  费玉清演唱的歌 请听费玉清演唱的歌 6301 编制.
Advertisements

吉林大学护理学院儿科护理教研室 主讲教师 刘晓丹 教授. 吉林大学护理学院儿科护理教研室 第一节 生长发育概述 一、生长发育规律 一、生长发育规律 二、生长发育的影响因素 二、生长发育的影响因素 第二节 生长发育评估 一、体格生长发育评估 一、体格生长发育评估 二、神经心理发育评估 二、神经心理发育评估.
第五节 全微分方程 一、全微分方程及其求法 二、积分因子法 三、一阶微分方程小结. 例如 所以是全微分方程. 定义 : 则 若有全微分形式 一、全微分方程及其求法.
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
常系数线性微分方程组 §5.3 常系数线性方程组. 常系数线性微分方程组 一阶常系数线性微分方程组 : 本节主要讨论 (5.33) 的基解矩阵的求法.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
(二) 王晓莉
大象報告 製作:周泓宇圖片:姚勝騰、柯俊安資料:林岑祐. 大象的食物 大象吃青草、樹皮、樹葉等多種不同的食 物。大象用長鼻攀折樹枝、把樹連根拔起, 還把另一些樹的樹皮剝光,讓樹木枯萎。 大象就這樣把森林變為開闊的林地,使燎 原野火易於發生,終於把那個地帶變為無 樹平原。大象喜愛有樹的地方。從前大象.
得獎作品.
物业管理实务 主讲人:黄快生 长沙民政职业技术学院民政系 二零零八年二月 湖南·长沙.
学校卫生要求.
指導教師:石燕鳳 組長:章懷升 組員:張功藝 林昀澍 陳品全
猪 生 产 主讲:刘小明.
狗的種類 作者:麥澤洋.
自我介紹 班級:運促一甲 學號:D 姓名:張晉輔.
第五章 二次型. 第五章 二次型 知识点1---二次型及其矩阵表示 二次型的基本概念 1. 线性变换与合同矩阵 2.
一、能线性化的多元非线性回归 二、多元多项式回归(线性化)
白酒生产工艺 项目三 酒曲生产技术.
“淡雅浓香 中国风尚” 山东低度浓香白酒整合传播侧记
愛錢又搞笑的日本警察 兩津勘吉.
第三章 函数逼近 — 最佳平方逼近.
中國古鎖大觀 中國鎖具歷史悠久,據出土文物考證和歷史文獻記載,鎖具發展至今有五千年歷史。古鎖初稱牡、閉、鑰、鏈、鈐。早期為竹、木結構,起源於門閂。春秋戰國至魯班於木鎖內設堂奧機關,至東漢制金屬簧片結構鎖(又稱溝槽鎖)。入唐時所之多為金、銀、銅、鐵、木。明代遂成為廣鎖、花旗鎖、首飾鎖、刑具鎖四大類。實際上還有一類密碼鎖,只是不太常見罷了。
烟草栽培学 南平农校 杨志和.
牛品种介绍及繁殖技术 张金山 研究员 新疆畜牧科学院畜牧研究所 二0一三年三月.
PET-CT-SUVmax与鼻咽癌放疗过程中原发灶 径线变化的关系
走进哆啦A梦的生活.
植物的繁殖方式与育种 第2章.
拒绝危险驾驶  安全文明出行 2015全国交通安全日专题课件.
热烈欢迎各位领导、同仁和同学们光临!.
财务绩效评价计分方法 1、基本指标计分 财务绩效定量评价的基本指标计分是按照功效系数法计分原理,将评价指标实际值对照相应行业标准值,按照规定的计分公式计算各项基本指标得分。    (1)单项指标得分= 本档基础分 调整分 + 本档基础分=指标权数×本档标准系数 功效 系数 实际值-本档标准值 调整分=
早在公元5世纪的北魏古籍中,就有关于腐乳生产工艺的记载“于豆腐加盐成熟后为腐乳”。
项目九 猪的一般饲养管理.
不确定度的传递与合成 间接测量结果不确定度的评估
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
第三章 导数与微分 习 题 课 主要内容 典型例题.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
歡迎來認識黃金獵犬 黃金獵犬的神祕小世界.
江苏省大丰市农广校.
蔬菜生产技术 茭白栽培.
体育选项课件 健美操理论课 任课教师:黄明礼 湄洲湾职业技术学院.
元素替换法 ——行列式按行(列)展开(推论)
多元统计分析 何晓群 中国人民大学出版社 2019/1/2 中国人民大学六西格玛质量管理研究中心.
第十章 方差分析.
第二章 数据预处理 2013年9月18日.
数列.
Partial Differential Equations §2 Separation of variables
自我介紹 大同國中 湯晴雯.
一、问题的背景和目的 二、问题分析 三、例题
模型分类问题 Presented by 刘婷婷 苏琬琳.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
第十章 双线性型 Bilinear Form 厦门大学数学科学学院 网址: gdjpkc.xmu.edu.cn
例7.1 (主成分分析) xi :5支股票的周回报率 x1 :JP Morgan x2 :Citibank x3 :Wells Fargo
大圓小圓展風貌 ─圓面積 製作者:蔡怡真.
第16讲 相似矩阵与方阵的对角化 主要内容: 1.相似矩阵 2. 方阵的对角化.
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
點 與 線.
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
台灣藝術家──李梅樹 李梅樹 班級:708 組別:第五組 指導老師:陳育淳.
第一节 不定积分的概念与性质 一、原函数与不定积分的概念 二、不定积分的几何意义 三、基本积分表 四、不定积分的性质 五、小结 思考题.
多层循环 Private Sub Command1_Click() Dim i As Integer, j As Integer
第一部分:概率 产生随机样本:对分布采样 均匀分布 其他分布 伪随机数 很多统计软件包中都有此工具 如在Matlab中:rand
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
§2 方阵的特征值与特征向量.
回归分析实验课程 (实验三) 多项式回归和定性变量的处理.
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
§1 向量的内积、长度及正交性 1. 内积的定义及性质 2. 向量的长度及性质 3. 正交向量组的定义及求解 4. 正交矩阵与正交变换.
第三章 线性方程组 §4 n维向量及其线性相关性(续7)
Sssss.
Presentation transcript:

主成分分析方法 主成分分析的基本原理 主成分分析的计算步骤 主成分分析方法应用实例

主成分分析 ( Principal Components Analysis) 是由Hotelling于1933年首先提出的, 它是利用降维的思想,把多指标转化 为少数几个综合指标的多元统计分析 方法。 从数学角度来看,这是一种降维处理 技术。

主成分分析的目的与功能 在多变量分析中,分析者所面临的最大难题是解决众多变量之间的关系问题。进行数据降维可以用尽可能少的新指标取代原来较多的指标变量,并能包含原来指标变量所包含的大部分信息 。 解决多元回归分析中的多重共线性问题。 综合评价中,人们总是尽可能多地选取评价指标,而这些评价指标之间往往相互重叠,信息冗余是不可避免的。主成分分析则可以把这众多指标所蕴含的信息压缩到少数几个主成分指标,然后给出这几个主成分指标的权重,综合到一个评价指标中。

主成分的主要功能 数据降维(Dimension Reduction) 变量筛选(Variables Screening)

一、数据处理 采集m维随机向量x=(x1,x2,…,xm)T的n个样品xi=(xi1,xi2,…,xim)T, i=1,2, …,n, n>m,构造样本阵X x1T x11 x12 ┅ x1m x2T x21 x22 ┅ x2m X= ┇ = ┇ ┇ ┇ xnT xn1 xn2 ┅ xnm

1.对样本阵X中的元进行如下变换 x ij , 对正指标 Y ij = - x ij, 对逆指标 得 Y= Y ij n×p

z1T z11 z12 ┅ z1m z2T = z21 z22 ┅ z2m ┇ ┇ ┇ ┇ znT zn1 zn2 ┅ znm 2 对Y中元进行如下标准化变换 其中 得标准化矩阵Z: z1T z11 z12 ┅ z1m z2T = z21 z22 ┅ z2m ┇ ┇ ┇ ┇ znT zn1 zn2 ┅ znm Z=

一、主成分分析的基本原理 假定有n个样本,每个样本共有m个变量,构成一个n×m阶的数据矩阵(标准化后的数据) (3.5.1)

当m较大时,在m维空间中考察问题比较麻烦。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息,同时它们之间又是彼此独立的。

定义:记x1,x2,…,xm为原变量指标,F1,F2,…,Fp(p≤m)为新变量指标 (3.5.2) 系数eij的确定原则: ① Fi与Fj(i≠j;i,j=1,2,…,p)相互无关;

② F1是x1,x2,…,xm的一切线性组合中方差最大者,F2是与F1不相关的x1,x2,…,xm的所有线性组合中方差最大者; …… Fp是与F1,F2,……,Fp-1都不相关的x1,x2,…xm, 的所有线性组合中方差最大者。 则新变量指标F1,F2,…,Fp分别称为原变量指标x1,x2,…,xm的第一,第二,…,第p主成分。

从以上的分析可以看出,主成分分析的实质就是确定原来变量xj(j=1,2 ,…,m)在诸主成分Fi(i=1,2,…,p)上的权重 eij( i=1,2,…,p; j=1,2 ,…,m)。

二、计算步骤 (一)计算相关系数矩阵 rij(i,j=1,2,…,m)为原变量xi与xj的相关系数, rij=rji,其计算公式为: (3.5.3) (3.5.4)

(二)计算特征值与特征向量: ① 解特征方程    ,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列 ; ② 分别求出对应于特征值 的特征向量   ,要求   =1,即     ,其中 表示向量 的第j个分量。

③ 计算主成分贡献率及累计贡献率 ▲贡献率: ▲累计贡献率: 一般取累计贡献率达85—95%的特征值 所对应的第一、第二、…、第p(p≤m)个主成分。

(三)确定主成分 1.主成分表达式: 其中 为第i个特征值所对应 的特征向量 2.计算主成分载荷 表示主成分与对应变量的相关系数

(四)排序问题: 1.主成分得分 2.综合得分:选取综合评价函数为

三、主成分分析实例1 下表是10名初中男学生的身高(cm),胸围(cm),体重(kg)的数据,试进行主成分分析。 身高x1 胸围x2 149.5 69.5 38.5 162.5 77.0 55.5 162.7 78.5 50.8 162.2 87.5 65.5 156.5 74.5 49.0 156.1 45.5 172.0 76.5 51.0 173.2 81.5 59.5 159.5 43.5 157.7 79.0 53.5

Matlab程序 %cwfac.m function result=cwfac(vector); fprintf('相关系数矩阵:\n') std=corrcoef(vector) %计算相关系数矩阵 fprintf('特征向量(vec)及特征值(val):\n') [vec,val]=eig(std) %求特征值(val)及特征向量(vec) newval=diag(val) ; [y,i]=sort(newval) ; %对特征根进行排序,y为排序结果,i为索引 fprintf('特征根排序:\n') for z=1:length(y) newy(z)=y(length(y)+1-z); end fprintf('%g\n',newy) rate=y/sum(y); fprintf('\n贡献率:\n') newrate=newy/sum(newy)

Matlab程序 sumrate=0; newi=[]; for k=length(y):-1:1 sumrate=sumrate+rate(k); newi(length(y)+1-k)=i(k); if sumrate>0.85 break; end end %记下累积贡献率大85%的特征值的序号放入newi中 fprintf('主成分数:%g\n\n',length(newi)); fprintf('主成分载荷:\n') for p=1:length(newi) for q=1:length(y) result(q,p)=sqrt(newval(newi(p)))*vec(q,newi(p)); end %计算载荷 disp(result)

主成分分析实例 2 表1是某市工业部门13个行业的8项重要经济指标的数据,这8项经济指标分别是: X1:年末固定资产净值,单位:万元;

利用Matlab求解 相关系数矩阵为 特征值为 2.42 0.53 0.045 对应的特征向量为 0.4983 0.8638 -0.0747 特征值为 2.42 0.53 0.045 对应的特征向量为 0.4983 0.8638 -0.0747 0.6063 -0.4088 -0.6822 0.6198 -0.2947 0.7274

贡献率为 0.8069 0.1781 0.0150 前两个的累计贡献率为98.5% 选取两个主成分

是反映学生身材魁梧与否的综合指标 是反映学生体形特征的综合指标。

表1是某市工业部门13个行业的8项重要经济指标的数据,这8项经济指标分别是: X1:年末固定资产净值,单位:万元; X2:职工人数据,单位:人; X3:工业总产值,单位:万元; X4:全员劳动生产率,单位:元/人年; X5:百元固定资产原值实现产值,单位:元; X6:资金利税率,单位:%; X7:标准燃料消费量,单位:吨; X8:能源利用效果,单位:万元/吨。

表1 某市工业部门13个行业8项指标

我们要考虑的是:如何从这些经济指标出发,对八个指标进行适当的缩减,便于我们对某市经济状态做定性分析?

0.002442 0.032184 0.086598 0.30408 0.64212 0.93022 2.8974 3.1049 -0.245 -0.75762 -0.065854 -0.18422 0.045303 0.10419 0.29599 0.47665 -0.52711 0.51841 -0.048451 0.30545 -0.17443 0.16298 0.27789 0.47281 0.78054 0.17404 0.099048 0.017475 0.05867 0.15626 0.37795 0.42385 -0.22013 0.24943 0.28786 -0.53941 0.51609 -0.0085443 0.45141 -0.21289 -0.030623 -0.23297 0.58229 0.4499 -0.19942 0.32113 0.33094 -0.38846 0.042355 -0.056436 -0.71357 0.31684 0.27926 0.14514 0.40274 -0.35243 -0.04116 -0.052842 0.19359 0.4182 0.75817 0.14046 -0.37741 0.21483 0.0032996 -0.067111 0.12217 0.3222 0.071855 -0.89116 0.27274 0.055034

表2 特征根和累计贡献率

表3 特征向量

载荷 成份 1 2 3 年末固定资产净值 .840 .504 .100 职工人数 .833 .473 .157 工业总产值 .747 .643 .151 全员劳动生产率 -.375 .768 -.008 百元固定资产原值实现产值 -.684 .563 .310 资金利税率 -.621 .686 .140 标准燃料消费量 .379 -.642 .135 能源利用效果 .097 .464 -.860

表4 各行业主成分得分及排序

从上表可以看出,机器行业在该地区的综合评价排在第一,原始数据也反映出机器行业存在明显的规模优势, 另外从前两个主成分得分上看,该行业也排在第一位,同样存在效益优势;而排在最后三位的分别是皮革行业、电力行业和煤炭行业。