第三节 模糊聚类分析 一、聚类分析 对事物按一定要求进行分类的数学方法,叫做聚类分析。现实的分类问题,大多伴随着模糊性。如地质上水油层之间的边界是不分明的,对农业区划的分界也是模糊的等等。利用模糊聚类分析法去对地质分类,进行农业区划就更合理。
聚类分析的步骤 : 1.确定聚类单元 这是第一步工作。在确定聚类单元时,主要根据研究对象和聚类的目的进行综合分析来确定。如研究的对象是三江平原大系统,则聚类单元以县为单位较妥;如研究对象是某个县,则以乡为单元较妥;如研究的目的是将耕地按肥力不同分成不同的类别,则以地块作为聚类单元。这里有一点需要注意,不管单元如何划定,保证行政区划的完整性是必要的,只有如此,才能确保把聚类结果应用到实际生产中去。
2. 确定聚类准则和聚类因子 聚类准则又叫聚类原则,是对聚类目的性的概括描述,也是筛选聚类因子的基本依据。如气候条件准则、经济发展水平准则、土壤肥力准则等。不难看出,这三个准则将指导把聚类单元分成不同气候区、经济发展区和土壤肥力分类等。 根据聚类准则要进一步确定聚类因子,这项工作应请有关专家参与,以便把握住与准则密切相关的特征参数,确保聚类的精确性。 根据需要可同时选择不同准则分别进行聚类分析,然后通过综合取交的方法,以做到兼顾多目标,使分类结果更科学。
3. 数据处理—无量纲化 由于聚类因子的量纲不同,不具有横向可比性,为此必须对基础数据进行无量纲处理。 关于无量纲处理的方法,主要是相对系数评分法,该法适用于具有数量指标的因子进行相对评分;其次是模糊经验评分法,该法适用于定性因子的评分。于是得到聚类因子矩阵如下:聚类因子矩阵的一般表达式: 式中:n-聚类单元数; m-聚类因子数。 注意,聚类因子阵也是计算机求解的输入矩阵。
4. 求模糊相似关系矩阵 设 式中: -叫相似系数。 计算相似系数可以按照实际情况,采用不同的计算公式来计算,常用的有12种方法。 (1) 数量积法 其中M为一适当选择的正数,且满足
(2) 夹角余弦法 (3) 指数相似系数法 其中 为适当选定的正数。
(4) 相关系数法 其中 (5) 最大最小方法
(6) 非参数法 令 而 和 分别为 中大于0和小于0的个数。
(7) 算术平均最小法 (8) 几何平均最小法
(9) 绝对值指数法 (10) 绝对值倒数法 其中 适当选取,使
(11) 绝对值减数法 其中C适当选取,使 。 (12) 主观评定法 请有经验的专家直接对 与 的相似程度评分,一般可用百分制,然后再除以100,即得闭区间[0,1]的一个数。为避免主观,也可采用多人评分再取平均值的方法来定出 。
5. 求模糊等价关系矩阵 用上述方法建立起来的模糊矩阵 ,一般说来只满足自反性和对称性,不一定满足传递性,即 不一定是模糊等价关系,需要将 改造成模糊等价矩阵 ,然后再在适当的阈值上进行截取,便可得所需分类。 改造的方法是将 自乘得 ,再自乘 ,如此继续下去,得 ……,至某一步出现 为止。则 便是一个模糊等价关系。这个方法是由所谓“传递闭包”理论而来,我们在此拿来直接应用,不再作详细介绍。
6. 截取等价类 模糊等价关系矩阵为系统聚类奠定了基础,要想在此基础上进行分类,还必须将模糊等价关系转变成非模糊的等价关系。为此定义模糊等价关系矩阵的 截矩阵如下: 设 为U上的一个模糊等价关系矩阵,且 ,则对任意一个 ,定义 则称 为 的一个 截矩阵。 很显然,取不同的 值就对应不同的分类结果,从而可以根据实际情况进行分类。
根据 结果可知, 取值越大,分类就越细,这无疑对更精确地研究问题是有利的。但如果一个单元划为一类,不仅工作量巨大,而且失去了聚类的意义。相反, 取值越小,分的类就越少(粗),同样这对研究问题也是不可取的。当然,究竞将系统划分为几类,还应结合具体情况作具体分析,特别是要注意征询有关专家的意见,在多数专家认可的情况下,才做为最终的结果输出。
7. 撰写聚类分析报告 聚类分析是一项独立的研究工作,这项工作完成的好坏关系全局。作为聚类分析报告一般应包括以下几部分内容: 1.聚类分析的目的和意义。 2.聚类分析所采用的方法和研究结果。 3.结果分析。这部分的主要工作是将不同类上的基本情况和特征参数进行综合分析,指出不同类的特点,发展优势和问题等。
二、应用实例 我们以1980年荣获北京市科技成果一等奖的《北京市东南郊环境污染治理》为例,从中抽象出一个环境单元分类问题。 每个环境单元包括空气,水份,土壤,作物四要素。环境单元的污染状况由污染物在四要素中含量的超限度来描述。为了示意,假设只有五个单元,它们的污染数据如下: I (5, 5, 3, 2 ) , II(2, 3 , 4, 5) , III (5, 5, 2, 3) , IV (1, 5, 3, 1) , V(2, 4, 5, 1)。
取论域U = {I,II,III, IV, V}。按方法(11)(取 ),得到模糊相似矩阵 Ⅰ Ⅱ Ⅲ Ⅳ Ⅴ
是—个模糊相似矩阵,不能直接分类,对它进行如下改造:
再自乘则得 。因此选定 为模糊等价矩阵,即 ,由此进行聚类。 当 时, 的 截矩阵为 因此U可分为五类 {I},{II},{III}, {IV},{V}。
当 时 的 截矩阵为 因此U可分为四类 {I,III}, {II}, {IV}, {V}
当 时, 的 截矩阵为 当 时,分为三类 {I, III}, {II }, {IV, V} 当 时,分为两类 {I , III, IV, V}, {II}
当 取不同值时,得聚类图见图3-15所示。 1 1 2 1 2 3 1 2 3 4 1 2 3 4 5 U=Ⅰ Ⅲ Ⅱ Ⅳ Ⅴ 当 取不同值时,得聚类图见图3-15所示。 1 λ = 0.4为一类 λ= 0.5为二类 1 2 λ = 0.6为三类 1 2 3 λ = 0.8为四类 1 2 3 4 λ = 1.0为五类 1 2 3 4 5 U=Ⅰ Ⅲ Ⅱ Ⅳ Ⅴ 图 3-15
设样本空间 ( 为样本总数), ,其中 为分类特征个数, 三、最佳水平 的确定 设样本空间 ( 为样本总数), ,其中 为分类特征个数, 为 的第 个特征。设 为对应 值的类数, 为第 类的样本数,第 类样本为 。第 类的聚类中心为向量 其中, 为该类样本第个特征的平均值,即
总体样本的中心向量为 ,其中 构造下列形式的F统计量, 其中, ,为 与 的距离, 为第 类中样本 与 的距离。
统计量分子表征类与类之间的距离, 分母表示类内样本间距离,因此 值越大,说 明类与类之间的距离大,表明类与类间的差异 大,分类就越合理。对应于 统计量最大的水 平 即为最佳值。
第四节 动态聚类方法 动态聚类亦称逐步聚类。这种方法的基本思路是:首先将 个聚类单元 粗略地分成若干类,然后用某种最优准则一次又一次地调整,直至不能调整为止,即得到最终分类结果。由于修改调整的方法不同,又有不同的动态聚类方法,经常用的是重心法(或称最短距离法)。下面就介绍这种方法。
一、重心法聚类的步骤 1.初选凝聚点; 2.分别计算每个单元 至第 个凝聚点的欧氏距离; 3.进行初始分类; 4.计算每类重心,并以此作为新的凝聚点; 5. 重复第2步计算; 6. 进行下一次分类; 7. 根据分类结果,判别是不需要调整。
1.初选凝聚点 这是第一步工作,也是最重要的工作。这不仅因为凝聚点的个数代表最终分类个数,而且凝聚点选的好,将使调整次数减少,节省计算时间。选择凝聚点常用的方法有: 1) 根据对每个聚类单元在不同聚类因子下的取值分析,预先给出一个初始分类,然后在每一类中选一个有代表性的单元作为凝聚点。 2)根据经验人为的分为p类,然后计算每类的重心(即该类中各单元指标向量的均值向量),并以这些重心作为凝聚点。 3)根据经验直接给出p个凝聚点。
2.分别计算每个单元 至 个凝聚点的欧氏距离,即 式中: -第 个单元与第 个凝聚点的欧氏距离 -第 单元的指标向量 -第 个凝聚点的指标向量。 为简便起见,常取欧氏距离平方,即
3.进行初始分类 根据 结果,按下面条件进行分类: 则 归为第 类。这样便得到初始分类结果,即 式中:U-聚类单元全集; -第 类单元集合。
4.计算每类重心,并以此作为新的凝聚点。 有了初始分类还无法判别分类是否合理。为此必须给出新的凝聚点再次进行分类。这个新的凝聚点就是每类的重心,这也是重心法的由来。 前面已经提到,把各类中每个单元指标总和向量的均值向量定义该类的重心,于是有 式中: -第 类重心向量; -第 类单元指标总和向量; -第 类中单元数。
5.重复第2步计算,即求 6.根据 计算结果,按 式进行新的分类。于是得到第一次分类结果: 7 5.重复第2步计算,即求 6.根据 计算结果,按 式进行新的分类。于是得到第一次分类结果: 7. 判别第一次分类结果是否需进一步调整,其方法是比较 和 是否相等,若相等则分类结束,否则应继续进行调整。
二、应用实例 这是个仅有两个聚类因子的简单例子。已知奥帕克-2玉米杂交种和普通玉米杂交种赖氨酸含量数据如表3-3所示。其中代号1至12为奥帕克-2玉米杂交种,13与14为普通玉米杂交种。试用重心法进行分类。 表3-3 玉米杂交种的赖氨酸含量数据表 玉米品种代号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 赖氨酸/全籽粒(%) 0.37 0.38 0.43 0.33 0.42 0.39 0.36 0.40 0.35 0.45 0.28 0.26 赖氨酸/百克蛋白质 3.88 4.81 4.52 3.84 4.40 4.50 4.29 4.73 5.10 5.05 4.36 2.70 3.06
聚类步骤: 1.初选凝聚点:根据对指标向量 的分析,分为三类比较合适,即 。并取1、8、13三个单元为凝聚点。三个凝聚点的指标向量为 , 。 2.计算每个单元与三个凝聚点的欧氏距离平方,即 计算结果如表3-4所示。 表3-4 各单元至凝聚点的距离及分类结果 类 距离 1 2 3 4 5 6 7 8 9 10 11 12 13 14 G1(0) X8=(0.36,4.73) 0.72 0.01 0.05 0.79 0.11 0.20 0.14 4.13 2.80 G2(0) X1=(0.37,3.88) 0.87 0.41 0.003 0.27 0.39 0.17 1.49 1.38 0.23 1.40 0.69 G3(0) X13=(0.28,2.7) 1.4 4.46 3.34 1.3 2.91 3.25 2.55 5.77 3.32 5.55 2.77 0.13 所属类别
3.初始分类结果。根据表3-4计算结果,按 原则进行分类,具体结果是: 3.初始分类结果。根据表3-4计算结果,按 原则进行分类,具体结果是:
4.计算每类重心,并以此作为新的凝聚点,结果是:
5.计算每个单元到三个新凝聚点的欧氏距离,结果如表3-5所示。 表3-5 各单元至三个新凝聚点的距离及分类结果 类 距离 1 2 3 4 5 6 7 8 9 10 11 12 13 14 G1(1) =(0.40, 4.67) 0.63 0.02 0.69 0.07 0.03 0.15 0.01 0.19 0.10 3.90 2.61 G2(1) =(0.37, 4.00) 0.66 0.27 0.16 0.25 0.09 0.53 1.21 1.11 0.13 1.70 0.90 G3(1) =(0.27, 2.88) 1.01 3.74 2.72 0.93 2.33 2.64 2.01 3.43 4.95 2.70 4.74 2.21 所属类别
说明第一次分类结果与初始分类结果相同,分类至此结束。最终分类是: 各类品种的平均赖氨酸含量如表3-6所示。 由表3-5的分类结果知: 说明第一次分类结果与初始分类结果相同,分类至此结束。最终分类是: 各类品种的平均赖氨酸含量如表3-6所示。 表3-6 各类品种的平均赖氨酸含量 类 平均赖氨酸/全籽料(%) 平均赖氨酸/百克蛋白质 G1 0.40 4.67 G2 0.37 4.00 G3 0.27 2.88
第五节 系统聚类分析 一、距离和聚合指数 如前文所述,要用数量化的方法对事物进行分类,就必须用数量化的方法描述事物之间的相似程度。对于一群有待分类的事物或称为样本点,可以用若干个(如个)特征来描述,因此每样本点可以看成空间的一个点。所以,样本点之间的相似程度可以用样本点之间的距离来表征。
记 为样本点集合, ,则样本点 与 的距离 是 的一个函数,并且满足以下条件: (1) (2) (3) (4)
在聚类分析中,最为常用的闵可夫斯基距离: 这里, , 当 时,则分别得到 (1)哈明(Hamming)距离 (2)欧氏(Euclid)距离
如果有两类样本点 和 ,怎样测量它们之间的距离呢?假设 是从 的一个函数,我们称其为聚合指数,它有多种定义方法,比如 1、最短距离法 它的直观意义为两类中最近两点间的距离。 2、最长距离法 其直观意义为两类中最远两点间的距离。
3、重心法 其中 分别为 和 的重心。 4、类平均法 它等于 和 中两两样本点距离的平均,其中 和 分别为 和 中的样本点的个数。
系统聚类分析是聚类分析方法中常用的一种方法,其优点在于可以指出由粗到细的多种分类情况,典型的系统聚类结果是由一个谱系图展示出来的。 二、系统聚类分析的功能和特点 系统聚类分析是聚类分析方法中常用的一种方法,其优点在于可以指出由粗到细的多种分类情况,典型的系统聚类结果是由一个谱系图展示出来的。 例如,在平面上由7个点 (如图3-18(a)),可以用谱系图(图3-18(b))来表示聚类结果。 (a) (b) 图3-18 系统聚类方法示意图
记 ,聚类结果依聚合指数不同而不同 聚合指数取 ,分成一类 聚合指数取 ,分两类 , 聚合指数取 ,分三类 , ,
聚合指数取 ,分四类 , , , 聚合指数取 ,分六类 , , , , , 聚合指数取小于 ,分成七类,每一个点 自成一类。
怎样才能生成这样的谱系图呢。它的工作步骤可以概述如 下。 设 (1) 计算 个样本两两之间的距离 ,形成矩阵 。 (2) 首先构造 个类,每一个类中只包含一个样本,每一类的平台高度均为零。 (3) 合并距离最近的两类为新类,并且以这两类间的聚合指数为谱系图中新的平台高度。
(4) 计算新类与当前类的距离,若类的个数已等于1,转入步骤(5);否则,回到步骤(3)。 (5) 画谱系图。 (6) 决定类的个数和类。 显而易见,这种系统归类过程与计算类与类之间的聚合指数方法有关,采用不同的聚合指数,有可能得到不同的聚类结果。
如果使用最短距离法来测量类与类之间的聚合指数,即称其为系统聚类法中的最短距离法。 三、最短距离法和最长距离法 如果使用最短距离法来测量类与类之间的聚合指数,即称其为系统聚类法中的最短距离法。 下面举例说明最短距离法的计算步骤。 设某农机企业有5个销售员 ,他们的销售业绩由二维向量( )描述,见表3-7 表3-7 销售员业绩表 销售员 v1(销售量)/百件 v2(四收款员)/万元 W1 1 W2 W3 3 2 W4 4 W5 5
如果使用哈明距离来测量样本点之间的距离,使用最短距离法来测量类与类的聚合指数,则可以计算出距离矩阵。
第一步,所有的元素自成一类。如果以 表示 的所有可能的类集合, 。这时,就有 ,每一个类的平台高度为零,即 。 第一步,所有的元素自成一类。如果以 表示 的所有可能的类集合, 。这时,就有 ,每一个类的平台高度为零,即 。 第二步,从距离矩阵中可以看出, 和 的推销业绩最为近似,即距离最近,把它们聚为一个新类 ,新类的平台高度(即聚合水平)等于它的聚合指数, 。这时的分类情况是 。
第三步,计算新类 与 的聚合指数。例如, ,即 与 第三步,计算新类 与 的聚合指数。例如, ,即 与 组推销业绩相差的距离,按照 与 组中业绩最近似于他的那个人之间的距离来确定。从而得到如下矩阵 选择距离最近的两类合并,即 和 合并,形成 ,这时新类的平台高度 。分类情况为 。
第四步,计算新类 和 , 的聚合指数 从而得到矩阵为 选择聚合指数最小的两类合并,得到 ,新类的平台高度为 。此时分类情况为 。
第五步,计算新类 与 的聚合指数 将 与 聚为一类 ,其平台高度 ,此时 已把所有样本点聚为一类。因此,可以画出谱系图,如图3-19(a)所示,事实上,这是一棵二分树,如图3-19 (b)所示。
完全类似于上述步骤,如果以最长距离法来计算聚合指数,则称为系统聚类法中的最长距离法。 (a) (b) 图3-19 最短距离法 完全类似于上述步骤,如果以最长距离法来计算聚合指数,则称为系统聚类法中的最长距离法。
四、相邻距离法 另一种系统聚类方式称为相邻聚类法。当取同样的聚合指数时,它的计算结果与前面介绍的方法相同。但相邻聚类法的计算速度快许多,尤其在样本点很多时,更能显示出其优越性。
仍用上述例题说明这一算法的基本过程。在得到距离矩阵后,第一步,可以同时聚合 , 仍用上述例题说明这一算法的基本过程。在得到距离矩阵后,第一步,可以同时聚合 , 。因为这两个聚合过程中没有元素相交,并且聚合指数均达到最小 , 。
所以有 , 得到矩阵 显而易见,这一分类结果与前面的最短距离法完全一致。