Download presentation
Presentation is loading. Please wait.
Published by怡 宫 Modified 7年之前
1
郑伟诗 智能科学系 wszheng@ieee.org http://www.eecs.qmul.ac.uk/~jason/
统计分析进阶 郑伟诗 智能科学系 Wei-Shi Zheng 3/13/2017, Page 1
2
统计分析进阶 课程安排 程序发往 隐马尔可夫模型 多元统计分析:简介 多元主成分分析 案例分析
作业:发至 (不要发到我的ieee邮箱) 作业截止时间:9月8日 Wei-Shi Zheng 3/13/2017, Page 2
3
I 隐马尔可夫模型 隐马尔可夫模型(HMM)的由来 马尔可夫性和马尔可夫链 HMM实例 HMM的三个基本算法 Wei-Shi Zheng
3/13/2017, Page 3
4
HMM的由来 1870年,俄国有机化学家Vladimir V. Markovnikov第一次提出马尔科夫模型 马尔可夫模型 马尔可夫链
隐马尔可夫模型 Wei-Shi Zheng 3/13/2017, Page 4
5
马尔可夫性 如果一个过程的“将来”仅依赖“现在”而不依赖“过去”,则此过程具有马尔可夫性,或称此过程为马尔可夫过程
X(t+1) = f( X(t) ) 隐马尔可夫:只观察到Oi, Oi由隐含变量Xi的状态值决定,且(Oi,Xi)独立。 X1 X2 XT ………… O1 O2 OT Wei-Shi Zheng 3/13/2017, Page 5
6
马尔科夫链 时间和状态都离散的马尔科夫过程称为马尔科夫链 记作{Xn = X(n), n = 0,1,2,…}
在时间集T1 = {0,1,2,…}上对离散状态的过程相继观察的结果 链的状态空间记做I = {a1, a2,…}, ai∈R. 条件概率Pij ( m ,m+n)=P{Xm+n = aj|Xm = ai} 为马氏链在时刻m处于状态ai条件下,在时刻m+n转移到状态aj的转移概率。 Wei-Shi Zheng 3/13/2017, Page 6
7
转移概率矩阵 阴天 晴天 下雨 晴天 阴天 下雨 晴天 阴天 下雨 Wei-Shi Zheng 3/13/2017, Page 7
8
转移概率矩阵(续) 由于链在时刻m从任何一个状态ai出发,到另一时刻m+n,必然转移到a1,a2…,诸状态中的某一个,所以有
当Pij(m,m+n)与m无关时,称马尔科夫链为齐次马尔科夫链,通常说的马尔科夫链都是指齐次马尔科夫链。 Wei-Shi Zheng 3/13/2017, Page 8
9
HMM实例——实例描述 设有N个缸,每个缸中装有很多彩球,球的颜色由一组概率分布描述。实验进行方式如下
根据缸中球颜色的概率分布,随机选择一个球,记球的颜色为O1,并把球放回缸中 根据描述缸的转移的概率分布,随机选择下一口缸,重复以上步骤。 最后得到一个描述球的颜色的序列O1,O2,…,称为观察值序列O。 Observed Ball Sequence Urn 3 Urn 1 Urn 2 Veil Wei-Shi Zheng 3/13/2017, Page 9
10
HMM实例——约束 不能被直接观察缸间的转移 从缸中所选取的球的颜色和缸并不是 一一对应的 每次选取哪个缸由一组转移概率决定
在上述实验中,有几个要点需要注意: 不能被直接观察缸间的转移 从缸中所选取的球的颜色和缸并不是 一一对应的 每次选取哪个缸由一组转移概率决定 Wei-Shi Zheng 3/13/2017, Page 10
11
HMM概念 HMM的状态是不确定或不可见的,只有通过观测序列的随机过程才能表现出来
观察到的事件与状态并不是一一对应,而是通过一组概率分布相联系 HMM是一个双重随机过程,两个组成部分: 马尔可夫链:描述状态的转移,用转移概率描述。 一般随机过程:描述状态与观察序列间的关系, 用观察值概率描述。 Wei-Shi Zheng 3/13/2017, Page 11
12
HMM组成 Markov链 (, A) 随机过程 (B) HMM的组成示意图 状态序列 观察值序列 q1, q2, ..., qT
o1, o2, ..., oT HMM的组成示意图 Wei-Shi Zheng 3/13/2017, Page 12
13
HMM的基本要素 用模型五元组 =( N, M, π ,A,B)用来描述HMM,或简写为 =(π ,A,B) 参数 含义 实例 N 状态数目
缸的数目 M 每个状态可能的观察值数目 彩球颜色数目 A 与时间无关的状态转移概率矩阵 在选定某个缸的情况下,选择另一个缸的概率 B 给定状态下,观察值概率分布 每个缸中的颜色分布 p 初始状态空间的概率分布 初始时选择某口缸的概率 Wei-Shi Zheng 3/13/2017, Page 13
14
HMM可解决的问题 问题1:给定观察序列O=O1,O2,…OT,以及模型 , 如何计算P(O|λ)?
问题2:给定观察序列O=O1,O2,…OT以及模型λ,如何选择一个对应的状态序列 S = q1,q2,…qT,使得S能够最为合理的解释观察序列O? 问题3:如何调整模型参数 , 使得P(O|λ)最大? Wei-Shi Zheng 3/13/2017, Page 14
15
解决问题1 的基础方法 给定一个固定的状态序列S=(q1,q2,q3…) 表示在qt状态下观测到Ot的概率 计算量相当大
Wei-Shi Zheng 3/13/2017, Page 15
16
解决问题1 前向法 定义前向变量 初始化: 递归: 终结: Wei-Shi Zheng 3/13/2017, Page 16
3/13/2017, Page 16
17
前向法示意图 N=5, M=100, => 计算量3000 1 ... t t+1 ... qN atN . qi qj ati
aNj aij a1j at1 t t N=5, M=100, => 计算量3000 Wei-Shi Zheng 3/13/2017, Page 17
18
解决问题1 后向法 与前向法类似 定义后向变量 初始化: 递归: 终结: Wei-Shi Zheng 3/13/2017, Page 18
3/13/2017, Page 18
19
解决问题2: Viterbi算法 目的:给定观察序列O以及模型λ,如何选择一个对应的状态序列S ,使得S能够最为合理的解释观察序列O?
N和T分别为状态个数和序列长度 定义: 我们所要找的,就是T时刻最大的 所代表的那个状态序列 Wei-Shi Zheng 3/13/2017, Page 19
20
解决问题2: Viterbi算法 初始化: 递归: 终结: 求S序列: Wei-Shi Zheng 3/13/2017, Page 20
3/13/2017, Page 20
21
解决问题3: Baum-Welch算法(模型训练算法)
目的:给定观察值序列O,通过计算确定一个模型l , 使得P(O| l)最大。 算法步骤: 1. 初始模型(待训练模型) l0, 2. 基于l0 以及观察值序列O,训练新模型 l; 3. 如果 log P(X|l) - log(P(X|l0) < Delta,说明训练已经达到预期效果, 算法结束。 4. 否则,令l0 = l ,继续第2步工作 Wei-Shi Zheng 3/13/2017, Page 21
22
Baum-Welch算法(续) 定义: Wei-Shi Zheng 3/13/2017, Page 22
23
Baum-Welch算法(续2) 参数估计: Wei-Shi Zheng 3/13/2017, Page 23
3/13/2017, Page 23
24
案例:基于HMM的语音分析 我们平时在说话时,脑子就是一个信息源。我们的喉咙(声带),空气,就是如电线和光缆般的信道。听众耳朵的就是接收端,而听到的声音就是传送过来的信号。 根据声学信号来推测说话者的意思,就是语音识别。这样说来,如果接收端是一台计算机而不是人的话,那么计算机要做的就是语音自动识别。同样,在计算机中,如果我们要根据接收到的英语信息,推测说话者的汉语意思,就是机器翻译; 如果我们要根据带有拼写错误的语句推测说话者想表达的正确意思,那就是自动纠错。如果我们要根据输入的汉语词语片段推测出每个片段的语法含义,那就是自动词法标注。 Wei-Shi Zheng 3/13/2017, Page 24
25
基于HMM的语音分析 那么怎么根据接收到的信息来推测说话者真正想表达的意思呢?可以利用叫做“隐含马尔可夫模型” (Hidden Markov Model)来解决问题。 以自动词法标注为例,当我们观测到词语片断 o1,o2,o3 时,我们要根据这组信号推测出发送的词语语法片断 s1,s2,s3。显然,我们应该在所有可能的语法片断中找最有可能性的一个。用数学语言来描述,就是在已知 o1,o2,o3,...的情况下,求使得条件概率P (s1,s2,s3,...|o1,o2,o3....) 达到最大值的那个语法片断 s1,s2,s3,... Wei-Shi Zheng 3/13/2017, Page 25
26
基于HMM的语音分析 当然,上面的概率不容易直接求出,于是我们可以间接地计算它。利用贝叶斯公式并且省掉一个常数项,可以把上述公式等价变换成: P(o1,o2,o3,...|s1,s2,s3....) * P(s1,s2,s3,...) 其中 P(o1,o2,o3,...|s1,s2,s3....) 表示某个语法片断序列 s1,s2,s3...被读成 o1,o2,o3,...的可能性, 而 P(s1,s2,s3,...) 表示字串 s1,s2,s3,...本身能够成为一个合乎情理的语法片断序列的可能性,所以这个公式的意义是用发送信号为 s1,s2,s3...这个数列的可能性乘以 s1,s2,s3...本身是一个语法片断序列的可能性,得出概率。 Wei-Shi Zheng 3/13/2017, Page 26
27
基于HMM的语音分析 我们在这里做两个假设: 第一,s1,s2,s3,... 是一个马尔可夫链,也就是说,si 只由 si-1 决定 ; 第二, 第 i 时刻的接收信号 oi 只由发送信号 si 决定(又称为独立输出假设, 即 P(o1,o2,o3,...|s1,s2,s3....) = P(o1|s1) * P(o2|s2)*P(o3|s3)...。 满足上述两个假设的模型就叫隐含马尔可夫模型。我们之所以用“隐含”这个词,是因为状态 s1,s2,s3,...是无法直接观测到的。 Wei-Shi Zheng 3/13/2017, Page 27
28
基于HMM的语音分析 隐含马尔可夫模型的应用远不只在自动词法标注和语音识别中。
在上面的公式中,如果我们把 s1,s2,s3,...当成中文,把 o1,o2,o3,...当成对应的英文,那么我们就能利用这个模型解决机器翻译问题; 如果我们把 o1,o2,o3,...当成扫描文字得到的图像特征,就能利用这个模型解决印刷体和手写体的识别。 Wei-Shi Zheng 3/13/2017, Page 28
29
HMM的罐子比喻(L.R.Rabiner,1989) Wei-Shi Zheng 3/13/2017, Page 29
3/13/2017, Page 29
30
基于HMM的词性标注 问题: HMM模型: 训练: 求解 统计词性转移矩阵[aij]和词性到单词的输出矩阵[bik]
已知单词序列w1w2…wn,求词性序列c1c2…cn HMM模型: 将词性为理解为状态 将单词为理解为输出值 训练: 统计词性转移矩阵[aij]和词性到单词的输出矩阵[bik] 求解 Wei-Shi Zheng 3/13/2017, Page 30
31
基于HMM的词性标注 Wei-Shi Zheng 3/13/2017, Page 31
32
基于HMM的词性标注 Wei-Shi Zheng 3/13/2017, Page 32
33
基于HMM的词性标注 Wei-Shi Zheng 3/13/2017, Page 33
34
基于HMM的词性标注 Wei-Shi Zheng 3/13/2017, Page 34
35
基于HMM的词性标注 Wei-Shi Zheng 3/13/2017, Page 35
36
词性转移矩阵(用于转移概率计算) Wei-Shi Zheng 3/13/2017, Page 36
37
词语词性频度表(用于输出概率计算) Wei-Shi Zheng 3/13/2017, Page 37
38
词性频度表 Wei-Shi Zheng 3/13/2017, Page 38
39
算法标注示例 Wei-Shi Zheng 3/13/2017, Page 39
40
隐马尔可夫模型的其他应用(不限于) 语音识别 音字转换 词性标注(POS Tagging) 组块分析 基因分析
一般化:任何与线性序列相关的现象 Wei-Shi Zheng 3/13/2017, Page 40
41
进一步的资料 工具箱:http://www.cs.ubc.ca/~murphyk/Software/HMM/hmm.html
HMM at Wikipedia: 建议教材: 后续课程: 随机过程 (数计学院,岭南学院)***通讯及网络分析、图像分割、视频处理等*** Wei-Shi Zheng 3/13/2017, Page 41
42
II 多元统计简介 多元分布的基本概念 多元正态分布 多元线性回归分析 主成分分析 Wei-Shi Zheng
3/13/2017, Page 42
43
1 多元分布的基本概念 假定所讨论的是多个变量的总体,所研究的数据是同时观测 个指标(即变量),又进行了 次观测得到的,把这 个指标表示为 常用向量 若观测了 n 个个体,则可得到如下数据。 Wei-Shi Zheng 3/13/2017, Page 43
44
多元分布的基本概念 表示第 个样品的观测值。 表示对 第个变量 的n次观测数值。 可用矩阵语言表示为: 记 Wei-Shi Zheng
表示第 个样品的观测值。 表示对 第个变量 的n次观测数值。 记 可用矩阵语言表示为: Wei-Shi Zheng 3/13/2017, Page 44 44
45
多元分布的基本概念 1.随机向量 X的均值 设 定义随机向量X的均值为: 当 为常数矩阵时,推出如下性质: Wei-Shi Zheng
当 为常数矩阵时,推出如下性质: Wei-Shi Zheng 3/13/2017, Page 45
46
多元分布的基本概念 X的广义方差 2、随机向量 自协方差阵 Wei-Shi Zheng 3/13/2017, Page 46
2、随机向量 自协方差阵 X的广义方差 Wei-Shi Zheng 3/13/2017, Page 46
47
多元分布的基本概念 3、随机向量X 和Y 的协差阵
设 分别为p维和q维随机向量,它们之间的协方差阵定义为一个p×q矩阵,其元素是cov(Xi,Yj) ,即 Wei-Shi Zheng 3/13/2017, Page 47
48
多元分布的基本概念 当A、B为常数矩阵时,有如下性质: (3)设X为p维随机向量,期望和协方差存在记 则
对称阵,同时总是非负定(也称半正定)的。 Wei-Shi Zheng 3/13/2017, Page 48
49
若随机向量 的协差阵存在,且每个分量的方差大于零,则X的相关阵定义为:
多元分布的基本概念 4、随机向量X 的相关阵 若随机向量 的协差阵存在,且每个分量的方差大于零,则X的相关阵定义为: 也称为分量 与 之间的(线性)相关系数。 Wei-Shi Zheng 3/13/2017, Page 49
50
多元分布的基本概念 在数据处理时,为了克服由于指标的量纲不同对统计分析结果带来的影响,往往在使用某种统计分析方法之前,常需将每个指标“标准化”,即做如下变换 Wei-Shi Zheng 3/13/2017, Page 50
51
2. 多元正态分布 本节将介绍多元正态分布的定义,并简要给出它的基本性质。
多元正态分布是一元正态分布的推广。迄今为止,多元分析的主要理论都是建立在多元正态总体基础上的, 本节将介绍多元正态分布的定义,并简要给出它的基本性质。 Wei-Shi Zheng 3/13/2017, Page 51
52
多元正态分布的定义 定义1: 若p元随机向量 的概率密度函数为: 则称 遵从p元正态分布,也称X为p元正态变量。记为
|∑|为协差阵∑的行列式。 Wei-Shi Zheng 3/13/2017, Page 52
53
定理 设 则 Wei-Shi Zheng 3/13/2017, Page 53
54
多元正态分布的性质 1、如果正态随机向量 的协方差阵∑是对角阵,则X的各分量是相互独立的随机变量。
2、多元正态分布随机向量X的任何一个分量子集的分布(称为X的边缘分布)仍然遵从正态分布。而反之,若一个随机向量的任何边缘分布均为正态,并不能导出它是多元正态分布。 Wei-Shi Zheng 3/13/2017, Page 54
55
例如,设 有密度 容易验证, 但 显然不是正态分布。 3、多元正态向量的任意线性变换仍然服从多元正态分布 Wei-Shi Zheng
例如,设 有密度 容易验证, 但 显然不是正态分布。 3、多元正态向量的任意线性变换仍然服从多元正态分布 Wei-Shi Zheng 3/13/2017, Page 55
56
4、若 ,则 Wei-Shi Zheng 3/13/2017, Page 56
57
条件分布和独立性 设 p≥2,将X、μ和Σ剖分如下: , 我们希望求给定
的条件分布,即 的分布。下一个定理指出:正态分布的条件分布仍为正态分布。 Wei-Shi Zheng 3/13/2017, Page 57
58
定理: 设 ,Σ>0,则 Wei-Shi Zheng 3/13/2017, Page 58
59
均值向量和协方差阵的估计 均值向量的估计 在一般情况下,设样本矩阵为:
设样品 相互独立,同遵从于P元正态分布 ,而且n>p,Σ>0,则总体参数均值μ的估计量是 Wei-Shi Zheng 3/13/2017, Page 59
60
即均值向量μ的估计量,就是样本均值向量.这可由极大似然法推导出来。
Wei-Shi Zheng 3/13/2017, Page 60
61
协方差阵的估计 总体参数协差阵Σ的极大似然估计是 Wei-Shi Zheng 3/13/2017, Page 61
3/13/2017, Page 61
62
其中L是离差阵,它是每一个样品(向量)与样本均值(向量)的离差积形成的n个 阶对称阵的和。同一元相似, 不是Σ的无偏估计,为了得到无偏估计我们常用样本协差阵
作为总体协差阵的估计。 Wei-Shi Zheng 3/13/2017, Page 62 62
63
3. 多元线性回归分析 1.多元线性回归的数学模型 2.模型参数的最小二乘估计 Wei-Shi Zheng
3/13/2017, Page 63
64
多元线性回归的数学模型 设 是 个自变量(解释变量), 是因变量,则多元线性回归模型的理论假设是 其中, 是 个未知参数, 称 为回归常数,
模型的理论假设 设 是 个自变量(解释变量), 是因变量,则多元线性回归模型的理论假设是 其中, 是 个未知参数, 称 为回归常数, 称为回归系 数 为随机误差. Wei-Shi Zheng 3/13/2017, Page 64
65
求 p 元线性函数 的经验回归方程 其中, 是 的统计估计, 分别是 的统计估计,称为经验回归系数. 模型的建立
Wei-Shi Zheng 3/13/2017, Page 65
66
模型的数据结构 设对变量向量 的 次观测得到的样本 数据为 为了今后讨论 方便,我们引进矩阵 Wei-Shi Zheng
3/13/2017, Page 66
67
模型的数据结构 于是,多元线性回归模型的数据结构为 称为多元样本回归方程,其中 且各个 相互独立.由于矩阵 是 样本数据,
的数据可以进行设计和控制,因此,矩阵 称为回归设计矩阵或资料矩阵. Wei-Shi Zheng 3/13/2017, Page 67
68
对多元线性回归模型理论假设的说明 的个数应当大于解释变量的个数. 违反该假设时, 称模型存在多重共线性问题. ⑴ 条件 表明, 是一个满稚矩
阵,即矩阵 列向量(解释变量)间线性无关,样本容量 的个数应当大于解释变量的个数. 违反该假设时, 称模型存在多重共线性问题. ⑵ 条件 且各个 相互独立 Wei-Shi Zheng 3/13/2017, Page 68 68
69
当模型违反上述假设后,就不能使用最小二乘法估计来求解回归系数.解决方法可参考回归分析相关教材。先介绍模型符合假设时的参数估计方法.
时,称回归模型存在异方差.当 时,称回归模型存在自相关. 当模型违反上述假设后,就不能使用最小二乘法估计来求解回归系数.解决方法可参考回归分析相关教材。先介绍模型符合假设时的参数估计方法. Wei-Shi Zheng 3/13/2017, Page 69
70
模型参数的最小二乘估计 定义离差平方和 求 使得 参数估计的准则 Wei-Shi Zheng 3/13/2017, Page 70
3/13/2017, Page 70
71
称 为模型参数 的最小二乘估 计,称 为因变量 的回归拟合值,简称回归值或 拟合值.称 为因变量 的残差. Wei-Shi Zheng
3/13/2017, Page 71
72
参数估计的算法 当满足元线性回归模型理论假设的条件时,模型参数 的最小二乘解为 可以证明 Wei-Shi Zheng
3/13/2017, Page 72
73
波动大小可以由抽样过程中进行控制.同一元线性回归分
其中 由此可见, 是 的无偏估计.协方差阵 反映出估计量 的波动大 小,由于 是 右乘一个矩阵 所以 的 波动大小可以由抽样过程中进行控制.同一元线性回归分 析一样,在多元线性回归中, 样本抽样要尽可能的分散. Wei-Shi Zheng 3/13/2017, Page 73
74
主成分分析 主成分分析 主成分回归 Wei-Shi Zheng 3/13/2017, Page 74
75
例子 汇报什么? 假定你是一个公司的财务经理,掌握了公司的所有数据,比如固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等。 如果让你向上面介绍公司状况,你能够把这些指标和数字都原封不动地摆出去吗? 当然不能。 你必须要把各个方面作出高度概括,用一两个指标简单明了地把情况说清楚。 Wei-Shi Zheng 3/13/2017, Page 75 75
76
主成分分析 每个人都会遇到有很多变量的数据。 比如全国或各个地区的带有许多经济和社会变量的数据;各个学校的研究、教学等各种变量的数据等等。
这些数据的共同特点是变量很多,在如此多的变量之中,有很多是相关的。人们希望能够找出它们的少数“代表”来对它们进行描述。 介绍两种把变量维数降低以便于描述、理解和分析的方法:主成分分析(principal component analysis)和因子分析(factor analysis)。实际上主成分分析可以说是因子分析的一个特例。在引进主成分分析之前,先看下面的例子。 Wei-Shi Zheng 3/13/2017, Page 76
77
主成分基本思想 一个经济学的例子: 一项十分著名的工作是美国的统计学家斯通(stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。 Wei-Shi Zheng 3/13/2017, Page 77 77
78
在进行主成分分析后,竟以97.4%的精度,用三新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展或衰退的趋势F3。更有意思的是,这三个变量其实都是可以直接测量的。斯通将他得到的主成分与实际测量的总收入I、总收入变化率I以及时间t因素做相关分析,得到下表: Wei-Shi Zheng 3/13/2017, Page 78
79
F1 F2 F3 i t 1 0.995 -0.041 0.057 l -0.056 0.948 -0.124 -0.102 -0.369 -0.282 -0.836 -0.414 -0.112 Wei-Shi Zheng 3/13/2017, Page 79
80
主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法。 在社会经济的研究中,为了全面系统的分析和研究问题,必须考虑许多经济指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但在某种程度上存在信息的重叠,具有一定的相关性。 Wei-Shi Zheng 3/13/2017, Page 80
81
成绩数据: 100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。
Wei-Shi Zheng 3/13/2017, Page 81
82
目前的问题是,能不能把这个数据的6个变量用一两个综合变量来表示呢?
从本例可能提出的问题 目前的问题是,能不能把这个数据的6个变量用一两个综合变量来表示呢? 这一两个综合变量包含有多少原来的信息呢? 能不能利用找到的综合变量来对学生排序呢?这一类数据所涉及的问题可以推广到对企业,对学校进行分析、排序、判别和分类等问题。 Wei-Shi Zheng 3/13/2017, Page 82
83
例中的的数据点是六维的;也就是说,每个观测值是6维空间中的一个点。我们希望把6维空间用低维空间表示。
主成分分析 例中的的数据点是六维的;也就是说,每个观测值是6维空间中的一个点。我们希望把6维空间用低维空间表示。 先假定只有二维,即只有两个变量,它们由横坐标和纵坐标所代表;因此每个观测值都有相应于这两个坐标轴的两个坐标值;如果这些数据形成一个椭圆形状的点阵(这在变量的二维正态的假定下是可能的) 那么这个椭圆有一个长轴和一个短轴。在短轴方向上,数据变化很少;在极端的情况,短轴如果退化成一点,那只有在长轴的方向才能够解释这些点的变化了;这样,由二维到一维的降维就自然完成了。 Wei-Shi Zheng 3/13/2017, Page 83 83
84
几何分析 主成分分析 当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就描述了数据的主要变化,而代表短轴的变量就描述了数据的次要变化。
但是,坐标轴通常并不和椭圆的长短轴平行。因此,需要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆的长短轴平行。 如果长轴变量代表了数据包含的大部分信息,就用该变量代替原先的两个变量(舍去次要的一维),降维就完成了。 椭圆(球)的长短轴相差得越大,降维也越有道理。 Wei-Shi Zheng 3/13/2017, Page 84 84
85
几何分析 Wei-Shi Zheng 3/13/2017, Page 85
86
几何分析 主成分分析 对于多维变量的情况和二维类似,也有高维的椭球,只不过无法直观地看见罢了。
首先把高维椭球的主轴找出来,再用代表大多数数据信息的最长的几个轴作为新变量;这样,主成分分析就基本完成了。 注意,和二维情况类似,高维椭球的主轴也是互相垂直的。这些互相正交的新变量是原先变量的线性组合,叫做主成分(principal component)。 Wei-Shi Zheng 3/13/2017, Page 86 86
87
主成分分析试图在力保数据信息丢失最少的原则下,对这种多变量的截面数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理。
很显然,识辨系统在一个低维空间要比在一个高维空间容易得多。 Wei-Shi Zheng 3/13/2017, Page 87
88
在力求数据信息丢失最少的原则下,对高维的变量空间降维,寻找主成分,即研究指标体系的少数几个线性组合,这些综合指标将尽可能多地保留原来指标变异方面的信息。 要讨论的问题是:
(1) 基于相关系数矩阵还是基于协方差矩阵做主成分分析。当分析中所选择的经济变量具有不同的量纲,变量水平差异很大,应该选择基于相关系数矩阵的主成分分析。 Wei-Shi Zheng 3/13/2017, Page 88 88
89
(2) 选择几个主成分。主成分分析的目的是简化变量,一般情况下主成分的个数应该小于原始变量的个数。关于保留几个主成分,应该权衡主成分个数和保留的信息。
(3)如何解释主成分所包含的实际意义。 Wei-Shi Zheng 3/13/2017, Page 89
90
数学模型与几何解释 假设我们所讨论的实际问题中,有p个指标,我们把这p个指标看作p个随机变量,记为X1,X2,…,Xp,主成分分析就是要把这p个指标的问题,转变为讨论p个指标的线性组合的问题,而这些新的指标F1,F2,…,Fk(k≤p),按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。 Wei-Shi Zheng 3/13/2017, Page 90
91
这种由讨论多个指标降为少数几个综合指标的过程在数学上就叫做降维。主成分分析通常的做法是,寻求原指标的线性组合Fi。
Wei-Shi Zheng 3/13/2017, Page 91
92
每个主成分的系数平方和为1。即 满足如下的条件: 主成分之间相互独立,即无重叠的信息。即 主成分的方差依次递减,重要性依次递减,即
Wei-Shi Zheng 3/13/2017, Page 92
93
平移、旋转坐标轴 主成分分析的几何解释 • Wei-Shi Zheng 3/13/2017, Page 93
3/13/2017, Page 93
94
为了方便,我们在二维空间中讨论主成分的几何意义。 设有n个样品,每个样品有两个观测变量xl和x2,在由变量xl和x2 所确定的二维平面中,n个样本点所散布的情况如椭圆状。由图可以看出这n个样本点无论是沿着xl 轴方向或x2轴方向都具有较大的离散性,其离散的程度可以分别用观测变量xl 的方差和x2 的方差定量地表示。显然,如果只考虑xl和x2 中的任何一个,那么包含在原始数据中的经济信息将会有较大的损失。 Wei-Shi Zheng 3/13/2017, Page 94
95
平移、旋转坐标轴 主成分分析的几何解释 • Wei-Shi Zheng 3/13/2017, Page 95
3/13/2017, Page 95
96
如果我们将xl 轴和x2轴先平移,再同时按逆时针方向旋转角度,得到新坐标轴Fl和F2。Fl和F2是两个新变量。
Wei-Shi Zheng 3/13/2017, Page 96
97
旋转变换的目的是为了使得n个样品点在Fl轴方向上的离 散程度最大,即Fl的方差最大。变量Fl代表了原始数据的绝大 部分信息,在研究某经济问题时,即使不考虑变量F2也无损大局。经过上述旋转变换原始数据的大部分信息集中到Fl轴上,对数据中包含的信息起到了浓缩作用。 Wei-Shi Zheng 3/13/2017, Page 97
98
Fl,F2除了可以对包含在Xl,X2中的信息起着浓缩作用之外,还具有不相关的性质,这就使得在研究复杂的问题时避免了信息重叠所带来的虚假性。二维平面上的个点的方差大部分都归结在Fl轴上,而F2轴上的方差很小。Fl和F2称为原始变量x1和x2的综合变量。F简化了系统结构,抓住了主要矛盾。 Wei-Shi Zheng 3/13/2017, Page 98
99
主成分分析数学基础简介 其中 是A的特征根。 一、两个线性代数的结论 1、若A是p阶实对称阵,则一定可以找到正交阵U,使
Wei-Shi Zheng 3/13/2017, Page 99
100
则实对称阵 属于不同特征根所对应的特征向量是正交的,即有
2、若上述矩阵的特征根所对应的单位特征向量为 令 则实对称阵 属于不同特征根所对应的特征向量是正交的,即有 Wei-Shi Zheng 3/13/2017, Page 100
101
主成分的推导 由于Σx为非负定的对称阵,则有利用线性代数的知识可得,必存在正交阵U,使得 (一) 第一主成分 设X的协方差阵为
Wei-Shi Zheng 3/13/2017, Page 101
102
其中1, 2,…, p为Σx的特征根,不妨假设1 2 … p 。而U恰好是由特征根相对应的特征向量所组成的正交阵。
变量的线性组合是否有最大的方差。 Wei-Shi Zheng 3/13/2017, Page 102
103
设有P维正交向量 Wei-Shi Zheng 3/13/2017, Page 103
104
等号成立: Wei-Shi Zheng 3/13/2017, Page 104
105
当且仅当a1 =u1时,即 时,有最大的方差1。因为Var(F1)=u’1xu1=1。 如果第一主成分的信息不够,则需要寻找第二主成分。
Wei-Shi Zheng 3/13/2017, Page 105
106
(二) 第二主成分 则,对p维向量 ,有 在约束条件 下,寻找第二主成分 因为 所以 Wei-Shi Zheng
在约束条件 下,寻找第二主成分 因为 所以 则,对p维向量 ,有 Wei-Shi Zheng 3/13/2017, Page 106
107
所以如果取线性变换: 则 的方差次大。 类推 Wei-Shi Zheng 3/13/2017, Page 107
则 的方差次大。 类推 Wei-Shi Zheng 3/13/2017, Page 107
108
写为矩阵形式: Wei-Shi Zheng 3/13/2017, Page 108
109
主成分的性质 二、方差为所有特征根之和 tr(cov(F))=tr(U’cov(X)U)=tr(cov(X))
一、均值 二、方差为所有特征根之和 tr(cov(F))=tr(U’cov(X)U)=tr(cov(X)) 说明主成分分析把P个随机变量的总方差分解成为P个不相关的随机变量的方差之和。 协方差矩阵的对角线上的元素之和等于特征根之和。 Wei-Shi Zheng 3/13/2017, Page 109 109
110
精度分析 1)贡献率:第i个主成分的方差在全部方差中所占比重 ,称为贡献率 ,反映了原来P个指标多大的信息,有多大的综合能力 。
2)累积贡献率:前k个主成分共有多大的综合能力,用这k个主成分的方差和在全部方差中所占比重 来描述,称为累积贡献率。 Wei-Shi Zheng 3/13/2017, Page 110 110
111
我们进行主成分分析的目的之一是希望用尽可能少的主成分F1,F2,…,Fk(k≤p)代替原来的P个指标。到底应该选择多少个主成分,在实际工作中,主成分个数的多少取决于能够反映原来变量80%以上的信息量为依据,即当累积贡献率≥80%时的主成分的个数就足够了。最常见的情况是主成分为2到3个。 Wei-Shi Zheng 3/13/2017, Page 111
112
原始变量与主成分之间的相关系数 Wei-Shi Zheng 3/13/2017, Page 112
113
可见, 和 的相关的密切程度取决于对应线性组合系数的大小。
可见, 和 的相关的密切程度取决于对应线性组合系数的大小。 Wei-Shi Zheng 3/13/2017, Page 113
114
原始变量被主成分的提取率 前面我们讨论了主成分的贡献率和累计贡献率,他们度量了F1,F2,……,Fm分别从原始变量X1,X2,……XP中提取了多少信息。那么X1,X2,……XP各有多少信息分别F1,F2,……,Fm被提取了。应该用什么指标来度量?我们考虑到当讨论F1分别与X1,X2,……XP的关系时,可以讨论F1分别与X1,X2,……XP的相关系数,但是由于相关系数有正有负,所以只有考虑相关系数的平方。 Wei-Shi Zheng 3/13/2017, Page 114 114
115
如果我们仅仅提出了m个主成分,则第i 原始变量信息的被提取率为:
是Fj 能说明的第i 原始变量的方差 是Fj 提取的第i 原始变量信息的比重 如果我们仅仅提出了m个主成分,则第i 原始变量信息的被提取率为: Wei-Shi Zheng 3/13/2017, Page 115
116
例 设 的协方差矩阵为 ,, 解得特征根为 第一个主成分的贡献率为5.83/( )=72.875%,尽管第一个主成分的贡献率并不小,但在本题中第一主成分不含第三个原始变量的信息,所以应该取两个主成分。 Wei-Shi Zheng 3/13/2017, Page 116 116
117
平方 xi 1 0.925 0.855 2 -0.998 0.996 3 Xi与F1的 相关系数 Xi与F2的相关系数 信息提取率
2 -0.998 0.996 3 Wei-Shi Zheng 3/13/2017, Page 117
118
总结:主成分分析的步骤 一、基于协方差矩阵 在实际问题中,X的协方差通常是未知的,样品有
第一步:由X的协方差阵Σx,求出其特征根,即解方程 ,可得特征根 。 Wei-Shi Zheng 3/13/2017, Page 118
119
第二步:求出分别所对应的特征向量U1,U2,…,Up,
第三步:计算累积贡献率,给出恰当的主成分个数。 第四步:计算所选出的k个主成分的得分。将原始数据的中心化值: 代入前k个主成分的表达式,分别计算出各单位k个主成分的得分,并按得分值的大小排队。 Wei-Shi Zheng 3/13/2017, Page 119
120
案例分析 例一 应收账款是指企业因对外销售产品、材料、提供劳务及其它原因,应向购货单位或接受劳务的单位收取的款项,包括应收销货款、其它应收款和应收票据等。出于扩大销售的竞争需要,企业不得不以赊销或其它优惠的方式招揽顾客,由于销售和收款的时间差,于是产生了应收款项。应收款赊销的效果的好坏,不仅依赖于企业的信用政策,还依赖于顾客的信用程度。由此,评价顾客的信用等级,了解顾客的综合信用程度,做到“知己知彼,百战不殆”,对加强企业的应收账款管理大有帮助。某企业为了了解其客户的信用程度,采用西方银行信用评估常用的5C方法,5C的目的是说明顾客违约的可能性。 Wei-Shi Zheng 3/13/2017, Page 120
121
1、品格(用X1表示),指顾客的信誉,履行偿还义务的可能性。企业可以通过过去的付款记录得到此项。 2、能力(用X2表示),指顾客的偿还能力。即其流动资产的数量和质量以及流动负载的比率。顾客的流动资产越多,其转化为现金支付款项的能力越强。同时,还应注意顾客流动资产的质量,看其是否会出现存货过多过时质量下降,影响其变现能力和支付能力。 3、资本(用X3表示),指顾客的财务势力和财务状况,表明顾客可能偿还债务的背景。 4、附带的担保品(用X4表示),指借款人以容易出售的资产做抵押。 5、环境条件(用X5表示),指企业的外部因素,即指非企业本身能控制或操纵的因素。 Wei-Shi Zheng 3/13/2017, Page 121
122
首先并抽取了10家具有可比性的同类企业作为样本,又请8位专家分别给10个企业的5个指标打分,然后分别计算企业5个指标的平均值,如表。
76.5 81.5 76 75.8 71.7 85 79.2 80.3 84.4 70.6 73 67.6 68.1 78.5 94 87.5 89.5 92 90.7 87.3 91 80 84.6 66.9 68.8 64.8 66.4 77.5 73.6 70.9 69.8 74.8 57.7 60.4 57.4 60.8 65 85.6 68.5 70 62.2 69.2 64.9 68.9; Wei-Shi Zheng 3/13/2017, Page 122
123
[COEFF, latent, explained] = pcacov(X) COEFF (特征向量)=
COV = cov(X'); [COEFF, latent, explained] = pcacov(X) COEFF (特征向量)= Latent(特征根) = 7.9303 explained (累计贡献率)= 7.6450 2.9805 2.0814 1.2790 Wei-Shi Zheng 3/13/2017, Page 123
124
在正确评估了顾客的信用等级后,就能正确制定出对其的信用期、收帐政策等,这对于加强应收帐款的管理大有帮助。
第一主成份的贡献率为86%,第一主成份 Z1=0.466X X X X4+0.42X5 的各项系数大致相等,且均为正数,说明第一主成份对所有的信用评价指标都有近似的载荷,是对所有指标的一个综合测度,可以作为综合的信用等级指标。可以用来排序。将原始数据的值中心化后,代入第一主成份Z1的表示式,计算各企业的得分,并按分值大小排序: 序号 1 2 3 4 5 6 7 8 9 10 得分 10.017 3.198 -0.695 -8.674 1.727 8.044 -2.151 -4.032 -4.522 -2.912 排序 1 3 5 10 4 2 6 8 9 7 在正确评估了顾客的信用等级后,就能正确制定出对其的信用期、收帐政策等,这对于加强应收帐款的管理大有帮助。 Wei-Shi Zheng 3/13/2017, Page 124
125
例二 基于相关系数矩阵的主成分分析。对美国纽约上市的有关化学产业的3个证券和石油产业的2个证券做了100周的收益率调查。下表是其相关系数矩阵。
1)利用相关系数矩阵做主成分分析。 2)决定要保留的主成分个数,并解释意义。 1 0.577 0.509 0.0063 0.0037 0.599 0.389 0.52 0.436 0.426 0.523 Wei-Shi Zheng 3/13/2017, Page 125
126
>> [U,D] = eig(A) U = D = Wei-Shi Zheng 3/13/2017, Page 126
127
主成分分析主要有以下几方面的应用 根据主成分分析的定义及性质,我们已大体上能看出主成分分析的一些应用。概括起来说,主成分分析主要有以下几方面的应用。 1.主成分分析能降低所研究的数据空间的维数。即用研究m维的Y空间代替p维的X空间(m<p),而低维的Y空间代替 高维的x空间所损失的信息很少。即:使只有一个主成分Yl(即 m=1)时,这个Yl仍是使用全部X变量(p个)得到的。例如要计算Yl的均值也得使用全部x的均值。在所选的前m个主成分中,如果某个Xi的系数全部近似于零的话,就可以把这个Xi删除,这也是一种删除多余变量的方法。 Wei-Shi Zheng 3/13/2017, Page 127
128
2.有时可通过因子负荷(uij)的结构,弄清X变量间的某些关系。
3. 多维数据的一种图形表示方法。我们知道当维数大于3时便不能画出几何图形,多元统计研究的问题大都多于3个变量。要把研究的问题用图形表示出来是不可能的。然而,经过主成分分析后,我们可以选取前两个主成分或其中某两个主成分,根据主成分的得分,画出n个样品在二维平面上的分布况,由图形可直观地看出各样品在主分量中的地位。 Wei-Shi Zheng 3/13/2017, Page 128
129
4.由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量x做回归分析。 5.用主成分分析筛选回归变量。回归变量的选择有着重要的实际意义,为了使模型本身易于做结构分析、控制和预报,好从原始变量所构成的子集合中选择最佳变量,构成最佳变量集合。用主成分分析筛选变量,可以用较少的计算量来选择量,获得选择最佳变量子集合的效果。 Wei-Shi Zheng 3/13/2017, Page 129
130
Dimensionality Reduction
Locality-Preserving Projection (LPP) Unsupervised learning method LPP transformation matrix is defined as D is the n-dimensional diagonal matrix with i-th diagonal element being A simple one is to define if is the k-nearest neighbor of or vise versa, otherwise Wei-Shi Zheng 3/13/2017, Page 130
131
Clustering K-Means Clustering Partition n observations to k clusters
Observations: Clusters: is the mean of points in Si Step1: Assignment step Step2: Update step Until the assignment no longer changes Wei-Shi Zheng 3/13/2017, Page 131
132
Non-negativity Matrix Factorization(NFM,非负矩阵分解)
Wei-Shi Zheng 3/13/2017, Page 132
133
NMF: Equations Objective Function: V为数据矩阵(每列为一个样本) W为局部特征(每列为一个特征)
H为系数矩阵(每列对应一个样本的重构系数) Wei-Shi Zheng 3/13/2017, Page 133
134
NMF: Equations Update equations: Wei-Shi Zheng 3/13/2017, Page 134
3/13/2017, Page 134
135
Faces Training set: 2429 examples First 25 examples shown at right
Set consists of 19x19 centered face images Wei-Shi Zheng 3/13/2017, Page 135
136
Faces Basis Images: Rank: 49 Iterations: 50 Wei-Shi Zheng
3/13/2017, Page 136
137
Faces Original x = Wei-Shi Zheng 3/13/2017, Page 137
138
Faces Basis Images Rank: 49 Iterations: 500 Wei-Shi Zheng
3/13/2017, Page 138
139
Faces Original x = Wei-Shi Zheng 3/13/2017, Page 139
140
Matlab: 主成分分析 求特征值:eig 排序:sort pca Wei-Shi Zheng 3/13/2017, Page 140
3/13/2017, Page 140
141
进一步学习 后续基础课程:多元统计,高等统计学(数计学院) 后续专业课程:模式识别、机器学习、(现代)数字图像处理、生物信息学、人工智能
Wei-Shi Zheng 3/13/2017, Page 141
142
Exercises I Wei-Shi Zheng 3/13/2017, Page 142
143
Exercise I Wei-Shi Zheng 3/13/2017, Page 143
144
大家:由于技术原因,上面只能显示9行数据,请点击上述表格,会共有10列数据。谢谢!
Exercise II 下表给出的数据,对某农业生态经济系统做主成分分析。 大家:由于技术原因,上面只能显示9行数据,请点击上述表格,会共有10列数据。谢谢! Wei-Shi Zheng 3/13/2017, Page 144
145
Wei-Shi Zheng 3/13/2017, Page 145
146
(1)将上表中的数据作标准差标准化处理,然后计算相关系数矩阵。
步骤如下: (1)将上表中的数据作标准差标准化处理,然后计算相关系数矩阵。 (2)由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率。 (3)计算对应最大的特征值的3个特征向量,并计算各变量在这些特征成分上的载荷。 (4)对结果作出分析 Wei-Shi Zheng 3/13/2017, Page 146
147
大作业1 查资料,分别至少运用隐马尔可夫模型、回归模型(regression)、PCA(主成分分析)、NMF(非负矩阵分解)中的两种方法对附件的ORL数据库做人脸识别。 要求:给出详细的报告,包括识别方法流程、数据分析等。 Wei-Shi Zheng 3/13/2017, Page 147
148
That is all! 谢谢大家! Wei-Shi Zheng 3/13/2017, Page 148
149
平移、旋转坐标轴 主成分分析的几何解释 • • • • • • • • • • • • • • • • • • • • • • • • •
Wei-Shi Zheng 3/13/2017, Page 149
150
平移、旋转坐标轴 主成分分析的几何解释 • • • • • • • • • • • • • • • • • • • • • • • • •
Wei-Shi Zheng 3/13/2017, Page 150
Similar presentations