Presentation is loading. Please wait.

Presentation is loading. Please wait.

聚类分析法预测(Cluster Analysis)

Similar presentations


Presentation on theme: "聚类分析法预测(Cluster Analysis)"— Presentation transcript:

1 聚类分析法预测(Cluster Analysis)
第十讲 聚类分析法预测(Cluster Analysis)

2 主要内容 第一节 引言 第二节 聚类统计量 第三节 系统聚类法 第四节 动态聚类法 YOUR SITE HERE

3 第一节 引言 YOUR SITE HERE

4 人类认识事物、认识世界,往往从分类开始。 聚类分析和判别分析是研究事物分类的基本方法。 在数学分类和模式识别中,有两类问题:
  人类认识事物、认识世界,往往从分类开始。   聚类分析和判别分析是研究事物分类的基本方法。   在数学分类和模式识别中,有两类问题:   第一类问题:研究对象存在一个事前分类,将未知个体归属于其中的一类——判别分析(有监督或称有导师的Supervised,样品的类别属性是“被标记了”的labeled)另一类问题:不存在一个事前分类,对数据结构进行分类(分组) ——聚类分析(无监督或称无导师的Unsupervised) YOUR SITE HERE

5 判别分析数据格式 YOUR SITE HERE

6 聚类分析数据格式 YOUR SITE HERE

7 在地学领域中,经常面临着大量的分类问题,即对一定量的事物(如地质体、样品或变量)按其属性进行归类。
  在地学领域中,经常面临着大量的分类问题,即对一定量的事物(如地质体、样品或变量)按其属性进行归类。   由于地质对象的复杂性,单靠定性标志或少数定量标志进行分类,常常不能揭示客观事物内在本质的差别和联系,难以确定地质体本质属性的归属。同时也造成很多分类计算具有很大的主观性和任意性,而且所得的结果因人而异,常不能反映客观实际情况。   地学研究中的分类问题较多,如岩石分类、矿物分类、构造期次研究、古气候古环境划分等,这些都有可能需要利用聚类分析来研究。 YOUR SITE HERE

8 物以类聚,人以群分 聚类分析是一种研究分类问题的多元统计方法。
  聚类分析是一种研究分类问题的多元统计方法。   聚类分析的职能是建立一种分类方法,它将一批样品或变量,按照它们在性质上的亲疏、相似程度进行分类。   聚类分析的出发点是研究对象之间可能存在的相似性和亲疏关系。 所以,根据研究对象之间各种特征标志的相似程度或相关程度的大小,可将它们进行分类归组。 YOUR SITE HERE

9 聚类分析的目的是把分类对象按一定规则分成若干类,这些类不是事先给定的,而是根据数据的特征而确定。
  聚类分析的目的是把分类对象按一定规则分成若干类,这些类不是事先给定的,而是根据数据的特征而确定。   聚类分析的分类原则是   ①同一类中的分类对象在某种意义上趋于彼此相似(有较大的相似性);   ②不同类中的分类对象趋于不相似(有很大的差异)。 YOUR SITE HERE

10 聚类分析基本思想   根据已知数据,计算各观察个体或变量之间亲疏关系的统计量(距离、相关系数等),根据某种准则(最短距离法、最长距离法、中间距离法、重心法等),使同一类内的差别较小,而类与类之间的差别较大,最终将观察个体或变量分为若干类。 YOUR SITE HERE

11 两个“距离”概念 按照远近程度来聚类需要明确两个概念: 一个是点和点之间的距离,一个是类和类之间的距离。
  按照远近程度来聚类需要明确两个概念:   一个是点和点之间的距离,一个是类和类之间的距离。   点间距离有很多定义方式。最简单的是欧氏距离,还有其他的距离。   当然还有一些和距离相反但起同样作用的概念,比如相似性等,两点越相似度越大,就相当于距离越短。   由一个点组成的类是最基本的类;如果每一类都由一个点组成,那么点间的距离就是类间距离。但是如果某一类包含不止一个点,那么就要确定类间距离, YOUR SITE HERE

12 在计算时,各种点间距离和类间距离的不同选择,其结果会有所不同,但一般不会差太多。
  类间距离是基于点间距离定义的:比如两类之间最近点之间的距离可以作为这两类之间的距离,也可以用两类中最远点之间的距离作为这两类之间的距离;当然也可以用各类的中心之间的距离来作为类间距离。   在计算时,各种点间距离和类间距离的不同选择,其结果会有所不同,但一般不会差太多。 YOUR SITE HERE

13 聚类分析的分类 按聚类方法分 系统聚类法,也叫分层聚类法,hierarchical clustr
动态聚类法,也叫快速聚类e法quick cluster逐步聚类、迭代聚类k-均值聚类 k-means cluster 最优分割法(有序样品聚类法) 模糊聚类法 图论聚类法 聚类预报法 按聚类方法分 YOUR SITE HERE

14 聚类分析的分类 按聚合方式分 聚合法: 分类开始时每个样品自成一类。最常用,分类结果常用分类谱系图表达。
分裂法: 分类开始将全部样品看成一类。通常只能是求局部最优解的方法。 调优法: 首先对样品进行粗糙的分个类。动态聚类法就是其中最典型的方法。 加入法: 业已存在一个分类结果,确定每个新加入样品在分类结构中最合适的位置。 按聚合方式分 YOUR SITE HERE

15 R型聚类:对变量的聚类 (variables)
聚类分析的分类 Q型聚类:对样品的聚类 (cases) R型聚类:对变量的聚类 (variables) 按聚类对象 R型聚类和Q型聚类   这两种聚类在数学处理上是对称的,没有什么不同。

16 R型聚类分析和Q型聚类分析 样品3 变量3 变量1 变量2 样品2 样品1 1. R型聚类分析(对变量的聚类) 是一种降维的方法
  研究变量之间的相似程度,对变量进行分组。从几何意义上说,是以N个样品为坐标轴,每个变量视为坐标空间的一点或一个向量,研究样本空间变量点之间的关系。 样品3 变量3 变量1 变量2   如研究控矿地质因素及矿化标志间的相关关系,多用于矿物,化学元素等方面的分组,以助于矿床成因问题的研究。 样品2 样品1 YOUR SITE HERE

17 R型聚类分析和Q型聚类分析 变量3 样品3 样品1 样品2 变量2 变量1 2. Q型聚类分析(对样品的聚类)
  研究样品之间的相似程度,对样品进行分类。从几何意义上说,是以P个变量为坐标轴,每个样品视为p维空间中一点或一个向量,研究样本空间样品点之间的关系。 变量3 样品3 样品1 样品2 变量2 变量1 YOUR SITE HERE

18   对矿床统计预测来说,主要是进行Q型聚类。
  (1)对研究区所划分的单元,可视为样品,各单元所测定的各种地质特征作为变量构成原始数据组。   (2)各单元成矿远景的好坏,决定于单元内有利成矿地质因素及矿化标志的发育程度,根据这些地质因素和标志的相似程度对单元进行归类分组。这实际上是一种对地质环境的分类。   (3)然后,据分类中已知有矿和已知无矿单元的分类归组,结合地质条件分析,相对地评价各未知单元的成矿远景。

19 dij Cij rij 绝对值距离 欧氏距离 闵可夫斯基距离 切比雪夫距离 方差加权距离 兰氏距离 距离 马哈拉诺比斯距离 系数 聚类
Q型聚类统计量 距离 系数 dij 聚类 统计量 (也称相似性统计量) 相似程度越高 |dij|越小, 相似系数 Cij 夹角余弦 统计量 R型聚类 |Cij|, |rij|越接近于1, 相似程度越高 相关系数 rij

20 夹角余弦 距离系数 变量3 样品3 样品3 变量3 样品1 变量1 样品2 变量2 变量2 样品2 变量1 样品1
YOUR SITE HERE

21 dij2 = 1-rij2 距离和相似系数之间的转换 一般说来,距离越小,两样品之间关系越密切,而相似系数越大,两变量之间关系越密切。
  一般说来,距离越小,两样品之间关系越密切,而相似系数越大,两变量之间关系越密切。   为了聚类方便起见,可以用下面的公式从相关系数得到变量间的距离。 dij2 = 1-rij2 YOUR SITE HERE

22 第三节 系统聚类法 hierarchical clustering method 系统聚类方式: 聚合法:先视每个为一类,再合并为几大类
分裂法:先视为一大类,再分成几类可用于Q型聚类和 R型聚类

23 一、系统聚类的特点   开始时将每个样品(或变量)都视为一类,然后将各样品(或变量)相互之间两两加以比较,根据聚类统计量逐步归类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个较大的分类单位,直到把所有样品(或变量)都聚合并为一大类完毕为止,形成一个由小到大的分类系统,并绘制聚类谱系图,把样品之间的亲疏关系简明直观地展示出来。 YOUR SITE HERE

24 二、系统聚类的基本思路和做法 (1)先将待聚类的n个样品(或者变量)各作为一类;
  (2)选定聚类统计量,计算每两个类之间的聚类统计量,将关系最密切的两类并为一类,其余不变,即得n-1类。再按前面的计算方法,计算新类与其它类之间的距离(或者相似系数),再将关系最密切的两类并为一类,其余不变,即得n-2类;   (3)如此继续下去,每次重复都减少一类,直到最后所有所有样品(或变量)归为一类为止。 YOUR SITE HERE

25 X = x2 k=4 k=3 相似性标尺 k=2 k=1 x1 YOUR SITE HERE

26 以上聚类方法的计算步骤完全相同,仅类与类之间的定义不同。
三、系统聚类方法 1.最短距离法(single linkage) 2.最长距离法(complete linkage) 3.中间距离法(median linkage) 4.重心法(centroid method) 5.类平均法(average linkage) 6.可变类平均法(flexible-beta method) 7. 可变法 8. 离差平方和法(亦称Ward法,Ward's minimum-variance method)等 以上聚类方法的计算步骤完全相同,仅类与类之间的定义不同。 YOUR SITE HERE

27 四、谱系图的形成和应用 聚类的原则(谱系图的形成过程) 一步形成法 多步形成法 YOUR SITE HERE

28 1.聚类的原则(谱系图的形成过程) 聚合归类时一般应遵从以下四条原则: ①若选出的一对样品在已经分好的组中都未出现过,则把它们形成一个新组。
②若选出的一对样品中,有一个出现在已经分好的组里,则把另一个也加入到该组。 ③若选出的两个样品,它们分别出现在已经分好的两组中,则把这两个组连在一起。 ④若选出的两个样品都出现在同一组中,则不须再分组。 按上述四条原则反复进行,直到将所有的样品(或变量)都聚合完毕为止。最终可形成谱系图,也称树状图。

29 2. 一步形成法(一次计算分类法) 一步形成法是一种最简单的聚类方法,计算量不大。它由距离矩阵或相似性系数矩阵出发得到最终的分类结果。
  一步形成法是一种最简单的聚类方法,计算量不大。它由距离矩阵或相似性系数矩阵出发得到最终的分类结果。   方法原理:根据距离或相似系数的大小,依次将诸样品(或变量)归类连接起来,形成一个从小类到大类的分类系统。   在连接过程中,要遵循前述四条原则。 YOUR SITE HERE

30 根据相似性水平的地质意义对谱系图进行分组,并对每组作出地质解释。
相似性水平的不同反映了要求精度的差别,其结果表现为分组的粗细不同。 Cu矿化 58 79 56 80 83 98 102 Cu型 Cu Cu/W/Mo型

31 3. 多步形成法(逐步计算成群法) 以距离作为聚类统计量(Q型聚类)情形:见前关于类间距离的系统聚类方法
  以相关系数作为聚类统计量(R型聚类)情形: (1) 转换成距离来处理 (2) 连续计算相关系数矩阵   与一步形成法基本步骤相似,唯一的区别是每一步分类后,要把分过类变量合并成为一个新的变量,即在相关系数矩阵中划出最大的元素,将相应的变量合并,赋予新的记号,把合并的变量的数据加权平均作为新的变量的数据,再计算合并后新变量与其余各变量的相关系数,建立新的相关矩阵,再进行下一步分类,重复这一过程直到把所有变量都合并为一类。最后按归类作谱系图。 YOUR SITE HERE

32 例:五个销售员的销售量x1与教育水平x2 X1 x2 1 2 3 4 5 6 8 9 聚类统计量:欧氏聚类 聚类方法:最短距离法
聚类统计量:欧氏聚类  聚类方法:最短距离法 YOUR SITE HERE

33 第四节 动态聚类法 也叫快速聚类法、逐步聚类、迭代聚类 quick cluster method, k-means model
样本量很大,用系统聚类法计算的工作量极大,作出的树状图也十分复杂, 不便于分析

34 动态聚类的基本思想 计算步骤: 首先将样品粗略地分为若干类,然后在按照某种原则逐步修改直到合理的分类为止。
  首先将样品粗略地分为若干类,然后在按照某种原则逐步修改直到合理的分类为止。 计算步骤: (1)选取若干样品作为初始凝聚点(给出允许分类的最大个数k); (2)计算各样品与各凝聚点的距离,并作初始分类; (3)根据初始分类,计算各类重心,用重心代替初始凝聚点,进行第二次分类; (4)重复(2)步,直至所有样品都不再调整,分类达到稳定为止(称为聚类过程收敛) 选凝聚点,作初始分类 调整不适合点——修改分类 YOUR SITE HERE

35 小 结 YOUR SITE HERE

36   与多元分析的其他方法相比,尽管聚类分析较为粗糙,没有明显的理论性,但应用方面取得了很大成功,确实是模式识别研究中非常有用的一类技术。
  聚类分析方法与传统的统计分组方法相比,具有如下优点: (1)综合性:Q型聚类分析可以利用多个变量的信息对样本进行分类,克服单一指标分类的弊端。 (2)形象性:聚类分析可以利用聚类图直观地表现其分类形态,及类与类之间的内在关系。 (3)客观性:聚类分析结果克服主观因素,比传统分类方法更客观、细致、全面和合理。

37 应用中须注意的问题 同一批数据采用不同的聚类统计量,有时会得到不同的分类结果。
  同一批数据采用不同的聚类统计量,有时会得到不同的分类结果。   同一批数据采用相同的聚类统计量,但采用不同的聚类方法,有时会产生不同的分类结果。   采用不同的数据变换方法可得到不同的分类结果。   在进行Q型聚类时,采用的变量并非越多越好,要选择对研究的分类问题具有价值的变量。 YOUR SITE HERE

38 应用中须注意的问题 对聚类分析结果的解释要谨慎。聚类分析是一种数字分类法,数字上相似,地质上不一定相似。
  对聚类分析结果的解释要谨慎。聚类分析是一种数字分类法,数字上相似,地质上不一定相似。   聚类分析是一种探索性技术,对于同一问题,可获得多种结果,解释需要结合专业知识。统计标志及数量特征上的相似,决不等于地质环境的相似——要选取能反映地质环境特征的变量及合理取值(要加强地质分析研究,这是一切定量方法必须遵守的共同点) YOUR SITE HERE

39 (1)平移变换:将某一指标的数据同减去一数,一般是减去均值。 (2)极差变换:将某一指标的数据同除以该指标的极差。
  在实际问题中,不同的变量一般取的量纲不同,为了使不同的量纲也能放在一起比较,通常需要对数据作一些变换,有时即使变量用的同一量纲,为了使数据更适用某种数学模型,也需要将数据变换。 常用的变换有:   (1)平移变换:将某一指标的数据同减去一数,一般是减去均值。   (2)极差变换:将某一指标的数据同除以该指标的极差。   (3)标准差变换:将某一指标的数据同除以该指标的标准差。   (4)主成分变换:将数据用它们的主成分代替,有时为了简化,只取前几个主成分、舍去次要的主成分。   (5)对数变换:将数据取对数,当数据之间数量级相差较大时常采用这一变换。   以上的变换有时同时采用,例如将数据标准化,就是先作变换(1),后作变换(3) 。 YOUR SITE HERE

40   如果特征空间是各向同性的并且数据大致均匀地分布在各个方向上,选择欧氏距离作为相似性度量一般是合理的。
  选用欧氏距离的分类结果不会因特征空间的平移和旋转而改变(点作刚体运动)。但是,一般地说,对线性变换或其它扭曲距离关系的变换是不能保证的。   缩放坐标轴会映现最小聚类聚类方法的聚类结果


Download ppt "聚类分析法预测(Cluster Analysis)"

Similar presentations


Ads by Google