聚类分析法预测(Cluster Analysis)

聚类分析法预测(Cluster Analysis)
第十讲聚类分析法预测(Cluster Analysis)

主要内容第一节引言第二节聚类统计量第三节系统聚类法第四节动态聚类法 YOUR SITE HERE

第一节引言 YOUR SITE HERE

人类认识事物、认识世界，往往从分类开始。聚类分析和判别分析是研究事物分类的基本方法。在数学分类和模式识别中，有两类问题：
　　人类认识事物、认识世界，往往从分类开始。　　聚类分析和判别分析是研究事物分类的基本方法。　　在数学分类和模式识别中，有两类问题：　　第一类问题:研究对象存在一个事前分类，将未知个体归属于其中的一类——判别分析（有监督或称有导师的Supervised，样品的类别属性是“被标记了”的labeled）另一类问题:不存在一个事前分类，对数据结构进行分类（分组） ——聚类分析（无监督或称无导师的Unsupervised） YOUR SITE HERE

判别分析数据格式 YOUR SITE HERE

聚类分析数据格式 YOUR SITE HERE

在地学领域中，经常面临着大量的分类问题，即对一定量的事物(如地质体、样品或变量)按其属性进行归类。
　　在地学领域中，经常面临着大量的分类问题，即对一定量的事物(如地质体、样品或变量)按其属性进行归类。　　由于地质对象的复杂性，单靠定性标志或少数定量标志进行分类，常常不能揭示客观事物内在本质的差别和联系，难以确定地质体本质属性的归属。同时也造成很多分类计算具有很大的主观性和任意性，而且所得的结果因人而异，常不能反映客观实际情况。　　地学研究中的分类问题较多，如岩石分类、矿物分类、构造期次研究、古气候古环境划分等，这些都有可能需要利用聚类分析来研究。 YOUR SITE HERE

物以类聚，人以群分聚类分析是一种研究分类问题的多元统计方法。
　　聚类分析是一种研究分类问题的多元统计方法。　　聚类分析的职能是建立一种分类方法，它将一批样品或变量，按照它们在性质上的亲疏、相似程度进行分类。　　聚类分析的出发点是研究对象之间可能存在的相似性和亲疏关系。所以，根据研究对象之间各种特征标志的相似程度或相关程度的大小，可将它们进行分类归组。 YOUR SITE HERE

聚类分析的目的是把分类对象按一定规则分成若干类，这些类不是事先给定的，而是根据数据的特征而确定。
　　聚类分析的目的是把分类对象按一定规则分成若干类，这些类不是事先给定的，而是根据数据的特征而确定。　　聚类分析的分类原则是　　①同一类中的分类对象在某种意义上趋于彼此相似（有较大的相似性）；　　②不同类中的分类对象趋于不相似（有很大的差异）。 YOUR SITE HERE

聚类分析基本思想　　根据已知数据，计算各观察个体或变量之间亲疏关系的统计量（距离、相关系数等），根据某种准则（最短距离法、最长距离法、中间距离法、重心法等），使同一类内的差别较小，而类与类之间的差别较大，最终将观察个体或变量分为若干类。 YOUR SITE HERE

两个“距离”概念按照远近程度来聚类需要明确两个概念：一个是点和点之间的距离，一个是类和类之间的距离。
　　按照远近程度来聚类需要明确两个概念：　　一个是点和点之间的距离，一个是类和类之间的距离。　　点间距离有很多定义方式。最简单的是欧氏距离，还有其他的距离。　　当然还有一些和距离相反但起同样作用的概念，比如相似性等，两点越相似度越大，就相当于距离越短。　　由一个点组成的类是最基本的类；如果每一类都由一个点组成，那么点间的距离就是类间距离。但是如果某一类包含不止一个点，那么就要确定类间距离， YOUR SITE HERE

在计算时，各种点间距离和类间距离的不同选择,其结果会有所不同，但一般不会差太多。
　　类间距离是基于点间距离定义的：比如两类之间最近点之间的距离可以作为这两类之间的距离，也可以用两类中最远点之间的距离作为这两类之间的距离；当然也可以用各类的中心之间的距离来作为类间距离。　　在计算时，各种点间距离和类间距离的不同选择,其结果会有所不同，但一般不会差太多。 YOUR SITE HERE

聚类分析的分类按聚类方法分系统聚类法，也叫分层聚类法，hierarchical clustr
动态聚类法，也叫快速聚类e法quick cluster逐步聚类、迭代聚类k-均值聚类 k-means cluster 最优分割法（有序样品聚类法）模糊聚类法图论聚类法聚类预报法等按聚类方法分 YOUR SITE HERE

聚类分析的分类按聚合方式分聚合法: 分类开始时每个样品自成一类。最常用，分类结果常用分类谱系图表达。
分裂法: 分类开始将全部样品看成一类。通常只能是求局部最优解的方法。调优法: 首先对样品进行粗糙的分个类。动态聚类法就是其中最典型的方法。加入法: 业已存在一个分类结果，确定每个新加入样品在分类结构中最合适的位置。等按聚合方式分 YOUR SITE HERE

R型聚类：对变量的聚类 (variables)
聚类分析的分类 Q型聚类：对样品的聚类 (cases) R型聚类：对变量的聚类 (variables) 按聚类对象 R型聚类和Q型聚类　　这两种聚类在数学处理上是对称的，没有什么不同。

R型聚类分析和Q型聚类分析样品3 变量3 变量1 变量2 样品2 样品1 1. R型聚类分析(对变量的聚类) 是一种降维的方法
　　研究变量之间的相似程度，对变量进行分组。从几何意义上说，是以N个样品为坐标轴，每个变量视为坐标空间的一点或一个向量，研究样本空间变量点之间的关系。样品3 变量3 变量1 变量2 　　如研究控矿地质因素及矿化标志间的相关关系，多用于矿物，化学元素等方面的分组，以助于矿床成因问题的研究。样品2 样品1 YOUR SITE HERE

R型聚类分析和Q型聚类分析变量3 样品3 样品1 样品2 变量2 变量1 2. Q型聚类分析(对样品的聚类)
　　研究样品之间的相似程度，对样品进行分类。从几何意义上说，是以P个变量为坐标轴，每个样品视为p维空间中一点或一个向量，研究样本空间样品点之间的关系。变量3 样品3 样品1 样品2 变量2 变量1 YOUR SITE HERE

　　对矿床统计预测来说，主要是进行Q型聚类。
　　（1）对研究区所划分的单元，可视为样品，各单元所测定的各种地质特征作为变量构成原始数据组。　　（2）各单元成矿远景的好坏，决定于单元内有利成矿地质因素及矿化标志的发育程度，根据这些地质因素和标志的相似程度对单元进行归类分组。这实际上是一种对地质环境的分类。　　（3）然后，据分类中已知有矿和已知无矿单元的分类归组，结合地质条件分析，相对地评价各未知单元的成矿远景。

dij Cij rij 绝对值距离欧氏距离闵可夫斯基距离切比雪夫距离方差加权距离兰氏距离距离马哈拉诺比斯距离系数聚类
Q型聚类统计量距离系数 dij 聚类统计量（也称相似性统计量）相似程度越高 |dij|越小，相似系数 Cij 夹角余弦统计量 R型聚类 |Cij|, |rij|越接近于1，相似程度越高相关系数 rij

夹角余弦距离系数变量3 样品3 样品3 变量3 样品1 变量1 样品2 变量2 变量2 样品2 变量1 样品1
YOUR SITE HERE

dij2 = 1-rij2 距离和相似系数之间的转换一般说来，距离越小，两样品之间关系越密切，而相似系数越大，两变量之间关系越密切。
　　一般说来，距离越小，两样品之间关系越密切，而相似系数越大，两变量之间关系越密切。　　为了聚类方便起见，可以用下面的公式从相关系数得到变量间的距离。 dij2 = 1-rij2 YOUR SITE HERE

第三节系统聚类法 hierarchical clustering method 系统聚类方式：聚合法：先视每个为一类,再合并为几大类
分裂法：先视为一大类，再分成几类可用于Q型聚类和 R型聚类

一、系统聚类的特点　　开始时将每个样品（或变量）都视为一类，然后将各样品（或变量）相互之间两两加以比较，根据聚类统计量逐步归类，关系密切的聚合到一个小的分类单位，关系疏远的聚合到一个较大的分类单位，直到把所有样品（或变量）都聚合并为一大类完毕为止，形成一个由小到大的分类系统，并绘制聚类谱系图，把样品之间的亲疏关系简明直观地展示出来。 YOUR SITE HERE

二、系统聚类的基本思路和做法（1）先将待聚类的n个样品（或者变量）各作为一类；
　　（2）选定聚类统计量，计算每两个类之间的聚类统计量，将关系最密切的两类并为一类，其余不变，即得n-1类。再按前面的计算方法，计算新类与其它类之间的距离（或者相似系数），再将关系最密切的两类并为一类，其余不变，即得n-2类；　　（3）如此继续下去，每次重复都减少一类，直到最后所有所有样品（或变量）归为一类为止。 YOUR SITE HERE

X = x2 k=4 k=3 相似性标尺 k=2 k=1 x1 YOUR SITE HERE

以上聚类方法的计算步骤完全相同，仅类与类之间的定义不同。
三、系统聚类方法 1.最短距离法(single linkage) 2.最长距离法(complete linkage) 3.中间距离法(median linkage) 4.重心法(centroid method) 5.类平均法(average linkage) 6.可变类平均法(flexible-beta method) 7. 可变法 8. 离差平方和法(亦称Ward法，Ward's minimum-variance method)等以上聚类方法的计算步骤完全相同，仅类与类之间的定义不同。 YOUR SITE HERE

四、谱系图的形成和应用聚类的原则（谱系图的形成过程）一步形成法多步形成法 YOUR SITE HERE

1.聚类的原则（谱系图的形成过程）聚合归类时一般应遵从以下四条原则： ①若选出的一对样品在已经分好的组中都未出现过，则把它们形成一个新组。
②若选出的一对样品中，有一个出现在已经分好的组里，则把另一个也加入到该组。 ③若选出的两个样品，它们分别出现在已经分好的两组中，则把这两个组连在一起。 ④若选出的两个样品都出现在同一组中，则不须再分组。按上述四条原则反复进行，直到将所有的样品（或变量）都聚合完毕为止。最终可形成谱系图，也称树状图。

2. 一步形成法(一次计算分类法) 一步形成法是一种最简单的聚类方法，计算量不大。它由距离矩阵或相似性系数矩阵出发得到最终的分类结果。
　　一步形成法是一种最简单的聚类方法，计算量不大。它由距离矩阵或相似性系数矩阵出发得到最终的分类结果。　　方法原理：根据距离或相似系数的大小，依次将诸样品（或变量）归类连接起来，形成一个从小类到大类的分类系统。　　在连接过程中，要遵循前述四条原则。 YOUR SITE HERE

根据相似性水平的地质意义对谱系图进行分组，并对每组作出地质解释。
相似性水平的不同反映了要求精度的差别，其结果表现为分组的粗细不同。 Cu矿化 58 79 56 80 83 98 102 Cu型 Cu Cu/W/Mo型

３. 多步形成法(逐步计算成群法) 以距离作为聚类统计量（Q型聚类）情形：见前关于类间距离的系统聚类方法
　　以相关系数作为聚类统计量（R型聚类）情形： (1) 转换成距离来处理 (2) 连续计算相关系数矩阵　　与一步形成法基本步骤相似，唯一的区别是每一步分类后，要把分过类变量合并成为一个新的变量，即在相关系数矩阵中划出最大的元素，将相应的变量合并，赋予新的记号，把合并的变量的数据加权平均作为新的变量的数据，再计算合并后新变量与其余各变量的相关系数，建立新的相关矩阵，再进行下一步分类，重复这一过程直到把所有变量都合并为一类。最后按归类作谱系图。 YOUR SITE HERE

例：五个销售员的销售量x1与教育水平x2 X1 x2 1 2 3 4 5 6 8 9 聚类统计量：欧氏聚类聚类方法：最短距离法
聚类统计量：欧氏聚类　　聚类方法：最短距离法 YOUR SITE HERE

第四节动态聚类法也叫快速聚类法、逐步聚类、迭代聚类 quick cluster method, k-means model
样本量很大，用系统聚类法计算的工作量极大，作出的树状图也十分复杂, 不便于分析

动态聚类的基本思想计算步骤：首先将样品粗略地分为若干类，然后在按照某种原则逐步修改直到合理的分类为止。
　　首先将样品粗略地分为若干类，然后在按照某种原则逐步修改直到合理的分类为止。计算步骤：（1）选取若干样品作为初始凝聚点（给出允许分类的最大个数k）；（2）计算各样品与各凝聚点的距离，并作初始分类；（3）根据初始分类，计算各类重心，用重心代替初始凝聚点，进行第二次分类；（4）重复（2）步，直至所有样品都不再调整，分类达到稳定为止（称为聚类过程收敛）选凝聚点，作初始分类调整不适合点——修改分类 YOUR SITE HERE

小结 YOUR SITE HERE

　　与多元分析的其他方法相比，尽管聚类分析较为粗糙，没有明显的理论性，但应用方面取得了很大成功，确实是模式识别研究中非常有用的一类技术。
　　聚类分析方法与传统的统计分组方法相比，具有如下优点：（1）综合性：Q型聚类分析可以利用多个变量的信息对样本进行分类，克服单一指标分类的弊端。（2）形象性：聚类分析可以利用聚类图直观地表现其分类形态，及类与类之间的内在关系。（3）客观性：聚类分析结果克服主观因素，比传统分类方法更客观、细致、全面和合理。

应用中须注意的问题同一批数据采用不同的聚类统计量，有时会得到不同的分类结果。
　　同一批数据采用不同的聚类统计量，有时会得到不同的分类结果。　　同一批数据采用相同的聚类统计量，但采用不同的聚类方法，有时会产生不同的分类结果。　　采用不同的数据变换方法可得到不同的分类结果。　　在进行Q型聚类时，采用的变量并非越多越好，要选择对研究的分类问题具有价值的变量。 YOUR SITE HERE

应用中须注意的问题对聚类分析结果的解释要谨慎。聚类分析是一种数字分类法，数字上相似，地质上不一定相似。
　　对聚类分析结果的解释要谨慎。聚类分析是一种数字分类法，数字上相似，地质上不一定相似。　　聚类分析是一种探索性技术，对于同一问题，可获得多种结果，解释需要结合专业知识。统计标志及数量特征上的相似，决不等于地质环境的相似——要选取能反映地质环境特征的变量及合理取值（要加强地质分析研究，这是一切定量方法必须遵守的共同点） YOUR SITE HERE

(1)平移变换：将某一指标的数据同减去一数，一般是减去均值。 (2)极差变换：将某一指标的数据同除以该指标的极差。
　　在实际问题中，不同的变量一般取的量纲不同，为了使不同的量纲也能放在一起比较，通常需要对数据作一些变换，有时即使变量用的同一量纲，为了使数据更适用某种数学模型，也需要将数据变换。常用的变换有：　　(1)平移变换：将某一指标的数据同减去一数，一般是减去均值。　　(2)极差变换：将某一指标的数据同除以该指标的极差。　　(3)标准差变换：将某一指标的数据同除以该指标的标准差。　　(4)主成分变换：将数据用它们的主成分代替，有时为了简化，只取前几个主成分、舍去次要的主成分。　　(5)对数变换：将数据取对数，当数据之间数量级相差较大时常采用这一变换。　　以上的变换有时同时采用，例如将数据标准化，就是先作变换(1)，后作变换(3) 。 YOUR SITE HERE

　　如果特征空间是各向同性的并且数据大致均匀地分布在各个方向上，选择欧氏距离作为相似性度量一般是合理的。
　　选用欧氏距离的分类结果不会因特征空间的平移和旋转而改变（点作刚体运动）。但是，一般地说，对线性变换或其它扭曲距离关系的变换是不能保证的。　　缩放坐标轴会映现最小聚类聚类方法的聚类结果

聚类分析法预测(Cluster Analysis)

Similar presentations

Presentation on theme: "聚类分析法预测(Cluster Analysis)"— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

聚类分析法预测(Cluster Analysis)

Similar presentations

Presentation on theme: "聚类分析法预测(Cluster Analysis)"— Presentation transcript:

Similar presentations

About project

反馈