2.1 距离聚类的概念 2.2 相似性测度和聚类准则 2.3 基于距离阈值的聚类算法 2.4 系统聚类法 2.5 分解聚类法

Slides:



Advertisements
Similar presentations
第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
Advertisements

2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
第八章 第四节 机动 目录 上页 下页 返回 结束 一个方程所确定的隐函数 及其导数 隐函数的微分法.
2.6 隐函数微分法 第二章 第二章 二、高阶导数 一、隐式定义的函数 三、可微函数的有理幂. 一、隐函数的导数 若由方程 可确定 y 是 x 的函数, 由 表示的函数, 称为显函数. 例如, 可确定显函数 可确定 y 是 x 的函数, 但此隐函数不能显化. 函数为隐函数. 则称此 隐函数求导方法.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
练一练: 在数轴上画出表示下列各数的点, 并指出这些点相互间的关系: -6 , 6 , -3 , 3 , -1.5, 1.5.
第十一章SPSS的聚类分析 11.1聚类分析的一般问题 聚类分析的意义
复习: :对任意的x∈A,都有x∈B。 集合A与集合B间的关系 A(B) A B :存在x0∈A,但x0∈B。 A B A B.
《解析几何》 -Chapter 3 §7 空间两直线的相关位置.
第五章 二次型. 第五章 二次型 知识点1---二次型及其矩阵表示 二次型的基本概念 1. 线性变换与合同矩阵 2.
第三章 函数逼近 — 最佳平方逼近.
《高等数学》(理学) 常数项级数的概念 袁安锋
第五节 微积分基本公式 、变速直线运动中位置函数与速度 函数的联系 二、积分上限函数及其导数 三、牛顿—莱布尼茨公式.
第四章 函数的积分学 第六节 微积分的基本公式 一、变上限定积分 二、微积分的基本公式.
第5章 定积分及其应用 基本要求 5.1 定积分的概念与性质 5.2 微积分基本公式 5.3 定积分的换元积分法与分部积分法
不确定度的传递与合成 间接测量结果不确定度的评估
第三节 格林公式及其应用(2) 一、曲线积分与路径无关的定义 二、曲线积分与路径无关的条件 三、二元函数的全微分的求积 四、小结.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
2-7、函数的微分 教学要求 教学要点.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
元素替换法 ——行列式按行(列)展开(推论)
§2 求导法则 2.1 求导数的四则运算法则 下面分三部分加以证明, 并同时给出相应的推论和例题 .
第十章 方差分析.
第8章 静电场 图为1930年E.O.劳伦斯制成的世界上第一台回旋加速器.
第4章 非线性规划 4.5 约束最优化方法 2019/4/6 山东大学 软件学院.
第一章 函数与极限.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
计算.
抽样和抽样分布 基本计算 Sampling & Sampling distribution
模型分类问题 Presented by 刘婷婷 苏琬琳.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
线 性 代 数 厦门大学线性代数教学组 2019年4月24日6时8分 / 45.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
WPT MRC. WPT MRC 由题目引出的几个问题 1.做MRC-WPT的多了,与其他文章的区别是什么? 2.Charging Control的手段是什么? 3.Power Reigon是什么东西?
复习.
聚类 IRLAB.
Lightweight Data-flow Analysis for Execution-driven Constraint Solving
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
第4章 Excel电子表格制作软件 4.4 函数(一).
复习: 若A(x1,y1,z1) , B(x2,y2,z2), 则 AB = OB - OA=(x2-x1 , y2-y1 , z2-z1)
正切函数的图象和性质 周期函数定义: 一般地,对于函数 (x),如果存在一个非零常数T,使得当x取定义域内的每一个值时,都有
第16讲 相似矩阵与方阵的对角化 主要内容: 1.相似矩阵 2. 方阵的对角化.
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
3.1 变化率与导数   3.1.1 变化率问题 3.1.2 导数的概念.
3.1.2 空间向量的数量积运算 1.了解空间向量夹角的概念及表示方法. 2.掌握空间向量数量积的计算方法及应用.
1.2 子集、补集、全集习题课.
第4课时 绝对值.
多层循环 Private Sub Command1_Click() Dim i As Integer, j As Integer
学习任务三 偏导数 结合一元函数的导数学习二元函数的偏导数是非常有用的. 要求了解二元函数的偏导数的定义, 掌握二元函数偏导数的计算.
第七、八次实验要求.
《工程制图基础》 第五讲 投影变换.
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
正弦、余弦函数的性质 华容一中 伍立华 2017年2月24日.
§2 方阵的特征值与特征向量.
欢迎大家来到我们的课堂 §3.1.1两角差的余弦公式 广州市西关外国语学校 高一(5)班 教师:王琦.
基于列存储的RDF数据管理 朱敏
异分母分数加、减法.
第四节 向量的乘积 一、两向量的数量积 二、两向量的向量积.
第四章 函数的 积分学 第七节 定积分的换元积分法     与分部积分法 一、定积分的换元积分法 二、定积分的分部积分法.
聚类分析(第2部分) Cluster Analysis 统计本科应用多元分析教学.
线性规划 Linear Programming
第三节 数量积 向量积 混合积 一、向量的数量积 二、向量的向量积 三、向量的混合积 四、小结 思考题.
三角 三角 三角 函数 余弦函数的图象和性质.
§4.5 最大公因式的矩阵求法( Ⅱ ).
第二次课后作业答案 函数式编程和逻辑式编程
最小生成树 最优二叉树.
§2 自由代数 定义19.7:设X是集合,G是一个T-代数,为X到G的函数,若对每个T-代数A和X到A的函数,都存在唯一的G到A的同态映射,使得=,则称G(更严格的说是(G,))是生成集X上的自由T-代数。X中的元素称为生成元。 A变, 变 变, 也变 对给定的 和A,是唯一的.
3.3.2 两点间的距离 山东省临沂第一中学.
Presentation transcript:

2.1 距离聚类的概念 2.2 相似性测度和聚类准则 2.3 基于距离阈值的聚类算法 2.4 系统聚类法 2.5 分解聚类法 第2章 聚类分析 2.1 距离聚类的概念 2.2 相似性测度和聚类准则 2.3 基于距离阈值的聚类算法 2.4 系统聚类法 2.5 分解聚类法 2.6 动态聚类法

分类与聚类的区别 分类:用已知类别的样本训练集来设计分类器(监督学习) 聚类(集群):用事先不知样本的类别,而利用样本的先验知识来构造分类器(无监督学习)

2.1 距离聚类的概念 1. 概念:“物以类聚” 聚类分析:根据模式之间的相似性对模式进行分类,是一种非监督分类方法。 2.相似性的含义 2.1 距离聚类的概念 1. 概念:“物以类聚” 聚类分析:根据模式之间的相似性对模式进行分类,是一种非监督分类方法。 2.相似性的含义 有n个特征值则组成n维向量 ,称为该样本的特征向量。它相当于特征空间中的一个点,以特征空间中,点间的距离函数作为模式相似性的测量,以“距离”作为模式分类的依据,距离越小,越“相似”。 注意:聚类分析是否有效,与模式特征向量的分布形式有很大关系。选取的特征向量是否合适非常关键。 例:酱油与可乐。

2.2 相似性测度和聚类准则 2.2.1 相似性测度 相似性测度:衡量模式之间相似性的一种尺度。如:距离。 复习:已知向量 ,则:

1. 欧氏距离(Euclid,欧几里德) ——简称距离 设X1、X2为两个n维模式样本, 欧氏距离定义为: 距离越小,越相似。 ( D_Distance ) 注意: 1)各特征向量对应的维上应当是相同的物理量; 注意物理量的单位。 某些维上物理量采用的单位发生变化,会导致对同样的点集出现不同聚类结果的现象。

2)解决方法:使特征数据标准化,使其与变量的单位无关。 b(5,0) d(4,5) c(1,4) a(0,1) 1 2 3 4 5 (a) d(0.4,5) c(0.1,4) a(0,1) 1 2 3 4 5 b(0.5,0) (b) b(5,0) c(1,0.4) d(4,0.5) a(0,0.1) 1 2 3 4 5 (c) 2)解决方法:使特征数据标准化,使其与变量的单位无关。

2. 马氏距离(Maharanobis) 平方表达式: 式中,X:模式向量; M:均值向量; C:该类模式总体的协方差矩阵。 ( M_Mean ) ( C_covariance) 对n维向量: ,

表示的概念是各分量上模式样本到均值的距离,也就是在各维上模式的分散情况。 越大,离均值越远。 优点:排除了模式样本之间的相关影响 。 当C = I 时,马氏距离为欧氏距离。

n维模式样本向量Xi、Xj间的明氏距离表示为 : 3. 明氏距离( Minkowaki ) n维模式样本向量Xi、Xj间的明氏距离表示为 : 式中, xik、xjk分别表示Xi和Xj的第k个分量。 当m=2时,明氏距离为欧氏距离。 当m=1时: 称为“街坊”距离 (“City block”distance)。 欧氏 街坊 当k=2时:图示

4.汉明(Hamming)距离 设Xi、Xj 为n维二值(1或-1)模式样本向量,则 汉明距离: 式中, xik、xjk分别表示Xi和Xj的第k个分量。 两个模式向量的各分量取值均不同:Dh(Xi, Xj)=n; 全相同: Dh(Xi, Xj)=0 5.角度相似性函数 是模式向量Xi,Xj之间夹角的余弦。

6.Tanimoto测度 用于0,1二值特征的情况, 相似性测度函数的共同点都涉及到把两个相比较的向量Xi,Xj的分量值组合起来,但怎样组合并无普遍有效的方法,对具体的模式分类,需视情况作适当选择。

2.2.2 聚类准则 聚类准则:根据相似性测度确定的,衡量模式之间是否相似的标 准。即把不同模式聚为一类还是归为不同类的准则。 确定聚类准则的两种方式: 1. 阈值准则:根据规定的距离阈值进行分类的准则。 2. 函数准则:利用聚类准则函数进行分类的准则。 聚类准则函数:在聚类分析中,表示模式类间相似或差异性 的函数。 它应是模式样本集{X }和模式类别 的函数。可使聚类分析转化为寻找准则函数极值的最优化问题。一种常用的指标是误差平方之和。

聚类准则函数: 式中:c为聚类类别的数目, 为属于 集的样本的均值向量, 为 中样本数目。 J代表了分属于c个聚类类别的全部模式样本与其相应类别模式均值之间的误差平方和。 适用范围: 适用于各类样本密集且数目相差不多,而不同类间的样本又明显分开的情况。

例1: 类长轴两端距离中心很远,J值较大,结果不易令人满意。 类内误差平方和很 小,类间距离很远。 可得到最好的结果。

例2:另一种情况 有时可能把样本数目多的一类分拆为二,造成错误聚类。 原因:这样分开,J值会更小。 正确分类 错误分类

2.3 基于距离阈值的聚类算法 2.3.1 近邻聚类法 1. 问题:有N个待分类的模式 ,要求按距离阈值T分类到以 为聚类中心的模式类中。 2.3 基于距离阈值的聚类算法 2.3.1 近邻聚类法 1. 问题:有N个待分类的模式 ,要求按距离阈值T分类到以 为聚类中心的模式类中。 (T_threshold ) 2. 算法描述 ① 任取样本Xi 作为第一个聚类中心的初始值,如令Z1 = X1 。 ② 计算样本X2 到Z1 的欧氏距离 , 若 ,定义一新的聚类中心Z2 = X2 ; 否则 X2 ∈以Z1为中心的聚类。

……依此类推,直到将所有的N个样本都进行分类。 ③ 假设已有聚类中心Z1、Z2,计算 和 , 若 且 ,则建立第三个聚类中心Z3 = X3; 否则X3∈离Z1和Z2中最近者(最近邻的聚类中心)。 3. 算法特点 1)局限性:很大程度上依赖于第一个聚类中心的位置选择、待 分类模式样本的排列次序、距离阈值T的大小以及样本分布 的几何性质等。 2)优点:计算简单。(一种虽粗糙但快速的方法)

4.算法讨论 用先验知识指导阈值T 和起始点Z1的选择,可获得合理的聚类结果。否则只能选择不同的初值重复试探,并对聚类结果进行验算,根据一定的评价标准,得出合理的聚类结果。 对结果验算,类内各样本点间距离方差之和太大 减小T,修改中心Z。

2.3.2 最大最小距离算法(小中取大距离算法 ) 1. 问题:已知N个待分类的模式 , 分类到聚类中心 对应的类别中 。 2. 算法描述 ① 选任意一模式样本做为第一聚类中心Z1。 ② 选择离Z1距离最远的样本作为第二聚类中心Z2。 ③ 逐个计算各模式样本与已确定的所有聚类中心之间的距离,并选出其中的最小距离。例当聚类中心数k=2时,计算 min( Di1 , Di2 ),i=1,…,N (N个最小距离)

④ 在所有最小距离中选出最大距离,如该最大值达到 的一定分数比值( 阈值T ) 以上,则相应的样本点取为新的聚类中心,返回③;否则,寻找聚类中心的工作结束。 例k =2时 (θ:用试探法取为一固定分数,如1/2。) 则Z3存在。 ⑤ 重复步骤③④,直到没有新的聚类中心出现为止。 ⑥ 将样本 按最近距离划分到相应聚类中心对应 的类别中。 思路总结: 先找中心后分类;关键:怎样开新类,聚类中心如何定。 为使聚类中心更有代表性,可取各类的样本均值作为聚类中心。

例2.1 对图示模式样本用最大最小距离算法进行聚类分析。 例2.1 对图示模式样本用最大最小距离算法进行聚类分析。 10个最小距离中,X7对应的距离>T, ③ ②距Z1最远,选为Z2。计算T。 ③对应最小距离中的最大值, 且>T,选作Z3。 ④ 用全体模式对三个聚类中心计算最小距离中的最大值,无>T 情况,停止寻找中心。 结果:Z1=X1;Z2=X6; Z3=X7 。 ①选Z1=X1 ⑤ 聚类

2.4 系统聚类法 思路:每个样本先自成一类,然后按距离准则逐步合并,减少类数。 2.4 系统聚类法 思路:每个样本先自成一类,然后按距离准则逐步合并,减少类数。 系统聚类:先把每个样本作为一类,然后根据它们间的相似性和相邻性聚合。 相似性、相邻性一般用距离表示 1. 算法描述 1)N个初始模式样本自成一类,即建立N 类: 计算各类之间(即各样本间)的距离,得一N×N维距离矩阵D(0)。“0”表示初始状态。 (G_Group)

2)假设已求得距离矩阵D(n)(n为逐次聚类合并的次数),找出D(n)中的最小元素,将其对应的两类合并为一类。由此建立新的分类: 4)跳至第2步,重复计算及合并。 。 结束条件: 1)取距离阈值T,当D(n)的最小分量超过给定值 T 时,算法停 止。所得即为聚类结果。 2)或不设阈值T,一直将全部样本聚成一类为止,输出聚类的分 级树。

1)最短距离法 两类中相距最近的两样品间的距离。 2. 问题讨论:类间距离计算准则 1)最短距离法 两类中相距最近的两样品间的距离。 如H、K是两个聚类,则两类间的最短距离定义为: :H类中的某个样本XH和K类中的某个样本XK之间 的欧氏距离。 DHK:H类中所有样本与K类中所有样本之间的最小距离。 H K

2)最长距离法两类中相距最远的两个样本间的距离。 如果K类由I和J两类合并而成,则 √ H K I J 得到递推公式: 2)最长距离法两类中相距最远的两个样本间的距离。 若K类由I、J两类合并而成,则 有:

2、最长距离 :两类中相距最远的两个样本间的距离。 3、中间距离:最短距离和最长距离都有片面性,因此有时用中间距离。设ω1类和ω23类间的最短距离为d12,最长距离为d13,ω 23类的长度为d23,则中间距离为: 上式推广为一般情况:

4、重心距离:均值间的距离 5、类平均距离:两类中各个元素两两之间的距离平方相加后取平均值

6、 离差平方和: 设N个样品原分q类,则定义第i类的离差平方和为: 离差平方和增量:设样本已分成ωp,ωq两类,若把ωp,ωq合为ωr类,则定义离差平方:

(2)系统聚类的算法(略) 例:如下图所示 1、设全部样本分为6类, 2、作距离矩阵D(0)

ω1 ω2 ω3 ω4 ω5 9 1 16 49 64 25 4 36 ω6 81

3、求最小元素: 4、把ω1,ω3合并ω7=(1,3) ω4,ω6合并ω8=(4,6) 5、作距离矩阵D(1) ω7 ω2 ω8 9 49 16 ω5 25 4

6、若合并的类数没有达到要求,转3。否则停止。 7、求最小元素: 8、ω8,ω5,ω2合并, ω9=(2,5,4,6)

例:给出6个五维模式样本如下,按最短距离准则进行系统聚类分类。 解:(1)将每一样本看作单独一类,得: 计算各类间欧氏距离: , , , ; ; …

得距离矩阵D(0): (2)将最小距离 对应的类 和 合并为1类,得 新的分类。 计算聚类后的距离矩阵D(1): (2)将最小距离 对应的类 和 合并为1类,得 新的分类。 D(0) * 计算聚类后的距离矩阵D(1): 由D(0) 递推出D(1) 。

D(0) D(1) * * (3)将D(1)中最小值 对应的类合为一类, 得D(2)。 D(2)

(4)将D(2)中最小值 对应的类合为一类,得D(3)。 * D(3) 若给定的阈值为 ,D(3)中的最小元素 ,聚类结束。 若无阈值,继续分下去,最终全部样本归为一类。可给出聚类过程的树状表示图。

类间距离 阈值增大, 分类变粗。 层次聚类法的树状表示

2.5 分解聚类 N:总样本数, :ω1类样本数 :ω2类样本数, 分解聚类:把全部样本作为一类,然后根据相似性、相邻性分解。 2.5 分解聚类 分解聚类:把全部样本作为一类,然后根据相似性、相邻性分解。 目标函数 两类均值方差 N:总样本数, :ω1类样本数 :ω2类样本数,

分解聚类框图: 初始分类 调整分类方案 最终结果 目标函数 达到最优先?

例:已知21个样本,每个样本取二个特征,原始资料矩阵如下表: 对分算法:略 例:已知21个样本,每个样本取二个特征,原始资料矩阵如下表: 样本号 1 2 3 4 5 6 7 8 9 10 x1 x2 11 12 13 14 15 16 17 18 19 20 21 -4 -2 -3 -5 1 -1 3 2

解:第一次分类时计算所有样本,分别划到 时的E值,找出最大的。 1、开始时, ∴目标函数 ∴

2、分别计算当 划入 时的E值 把 划入 时有

E(1)=56.6 再继续进行第二,第三次迭代… 计算出 E(2) , E(3) , … 然后再把 划入 时对应的E值,找出一个最大的E值。 ∴ E(1)=56.6 再继续进行第二,第三次迭代… 计算出 E(2) , E(3) , …

次数 E值 1 56.6 2 79.16 3 90.90 4 102.61 5 120.11 6 137.15 7 154.10 8 176.15 9 195.26 10 213.07 11 212.01

每次分类后要重新计算 的值。可用以下递推公式: 第10次迭代 划入 时,E最大。于是分成以下两类: ∴ 每次分类后要重新计算 的值。可用以下递推公式:

作业: 样本 1 2 3 4 5 6 7 8 0 2 1 5 6 5 6 7 0 2 1 3 3 4 4 5 用对分法编程上机,分成两类画出图形。

2.6 动态聚类——兼顾系统聚类和分解聚类 一、动态聚类的方法概要 ① 先选定某种距离作为样本间的相似性的度量; 2.6 动态聚类——兼顾系统聚类和分解聚类 一、动态聚类的方法概要 ① 先选定某种距离作为样本间的相似性的度量; ② 确定评价聚类结果的准则函数; ③ 给出某种初始分类,用迭代法找出使准则函数取极值的最好的聚类结果。

* 迭代自组织的数据分析算法(ISODATA, iterative self-organizing 判断 合理性 选初始 中心 聚类 合理 不合理 输出 修改 两种常用算法: * K-均值算法(或C-均值算法) * 迭代自组织的数据分析算法(ISODATA, iterative self-organizing data analysis techniques algorithm)

2.5.1 K-均值算法 基于使聚类准则函数最小化, 准则函数:聚类集中每一样本点到该类中心的距离平方和。 对于第j个聚类集,准则函数定义为 Sj:第j个聚类集(域),聚类中心为Zj ; Nj:第j个聚类集Sj中所包含的样本个数。 对所有K个模式类有 K-均值算法的聚类准则:聚类中心的选择应使准则函数J极小, 即使Jj的值极小。

应有 即 可解得 上式表明,Sj类的聚类中心应选为该类样本的均值。 1. 算法描述 (1)任选K个初始聚类中心:Z1(1), Z2(1),…, ZK(1) 括号内序号:迭代运算的次序号。

(2)按最小距离原则将其余样品分配到K个聚类中心中的某一 个,即: 若 ,则 注意:k——迭代运算次序号;K——聚类中心的个数 。 (3)计算各个聚类中心的新向量值: Nj:第j类的样本数。 这里:分别计算K个聚类中的样本均值向量,故称K-均值算法。 (4)如果 ,则回到(2),将模式 样本逐个重新分类,重复迭代计算。 如果 ,算法收敛,计算完毕。

“动态”聚类法 ? 聚类过程中, 聚类中心位置或个数发生变化。 2. 算法讨论 结果受到所选聚类中心的个数和其初始位置,以及模式样 2. 算法讨论 结果受到所选聚类中心的个数和其初始位置,以及模式样 本的几何性质及读入次序等的影响。实际应用中需要试探不同 的K值和选择不同的聚类中心起始值。

二、代表点的选取方法:代表点就是初始分类的聚类中心数k ① 凭经验选代表点,根据问题的性质、数据分布,从直观上看来较合理的代表点k;

③ 按密度大小选代表点: ④ 用前k个样本点作为代表点。 ③ 按密度大小选代表点: 以每个样本作为球心,以d为半径做球形;落在球内的样本数称为该点的密度,并按密度大小排序。首先选密度最大的作为第一个代表点,即第一个聚类中心。再考虑第二大密度点,若第二大密度点距第一代表点的距离大于d1(人为规定的正数)则把第二大密度点作为第二代表点,,否则不能作为代表点,这样按密度大小考察下去,所选代表点间的距离都大于d1。d1太小,代表点太多,d1太大,代表点太小,一般选d1=2d。对代表点内的密度一般要求大于T。T>0为规定的一个正数。 ④ 用前k个样本点作为代表点。

三、初始分类和调整 ① 选一批代表点后,代表点就是聚类中心,计算其它样本到聚类中心的距离,把所有样本归于最近的聚类中心点,形成初始分类,再重新计算各聚类中心,称为成批处理法。 ② 选一批代表点后,依次计算其它样本的归类,当计算完第一个样本时,把它归于最近的一类,形成新的分类。再计算新的聚类中心,再计算第二个样本到新的聚类中心的距离,对第二个样本归类。即每个样本的归类都改变一次聚类中心。此法称为逐个处理法。 ③ 直接用样本进行初始分类,先规定距离d,把第一个样品作为第一类的聚类中心,考察第二个样本,若第二个样本距第一个聚类中心距离小于d,就把第二个样本归于第一类,否则第二个样本就成为第二类的聚类中心,再考虑其它样本,根据样本到聚类中心距离大于还是小于d,决定分裂还是合并。

最佳初始分类。 如图所示,随着初始分类k的增大,准则函数下降很快,经过拐点A后,下降速度减慢。拐点A就是最佳初始分类。

第一步:令K=2,选初始聚类中心为 四、K次平均算法:成批处理法( 算法略) 例:已知有20个样本,每个样本有2个特征,数据分布如下图 样本序号 x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 特征x1 1 2 3 6 7 特征x2 x11 x12 x13 x14 x15 x16 x17 x18 x19 x20 8 6 7 9 第一步:令K=2,选初始聚类中心为

转第二步。 第四步: ∵ 第二步:重新计算 到z1(2) , z2(2) 的距离,把它们归为最近聚类中心,重新分为两类, 第三步:根据新分成的两类建立新的聚类中心 第四步: ∵ 转第二步。 第二步:重新计算 到z1(2) , z2(2) 的距离,把它们归为最近聚类中心,重新分为两类,

第三步,更新聚类中心

第四步, 第二步, 第三步,更新聚类中心

上机作业 已知十个样本,每个样本2个特征,数据如下: 用K次平均算法和ISODATA算法分成3类,编程上机,并画出分类图。 样本序号 1 2 3 4 5 6 7 8 9 10 x1 0 1 2 4 5 5 6 1 1 1 x2 0 1 1 3 3 4 5 4 5 6

例2.3:已知20个模式样本如下,试用K-均值算法分类。 ② 计算距离,聚类: : :

: : ……,可得到: ③ 计算新的聚类中: ④ 判断: ,故返回第②步。

② 从新的聚类中心得: : ┋ : 有: ③ 计算聚类中心:

④ 返回第②步,以Z1(3), Z2(3)为中心进行聚类。 ② 以新的聚类中心分类,求得的分类结果与前一次迭代结果相 同: ③ 计算新聚类中心向量值,聚类中心与前一次结果相同,即: ④ ,故算法收敛,得聚类中心为 结果图示:

X1 X4 X3 X5 X8 X9 X7 X10 X2 X6 x1 x2 1 3 5 7 9 X11 X12 X13 X14 X15 X16 X17 X18 X19 X20 图2.10 K-均值算法聚类结果

上述K-均值算法,其类型数目假定已知为K个。当K未知时, 可以令K逐渐增加, 此时J j 会单调减少。最初减小速度快,但当 3、聚类准则函数Jj与K的关系曲线 上述K-均值算法,其类型数目假定已知为K个。当K未知时, 可以令K逐渐增加, 此时J j 会单调减少。最初减小速度快,但当 K 增加到一定数值时,减小速度会减慢,直到K =总样本数N 时,Jj = 0。Jj-K关系曲线如下图: Jj A 1 3 5 7 2 4 6 8 10 9 K 曲线的拐点 A 对应着接近最优 的K值(J 值减小量、计算量以及 分类效果的权衡)。 并非所有的情况都容易找到关 系曲线的拐点。迭代自组织的数据 分析算法可以确定模式类的个数K 。

2.5.2 迭代自组织的数据分析算法 (iterative self-organizing data analysis techniques algorithm,ISODATA) 算法特点 加入了试探性步骤,组成人机交互的结构; 可以通过类的自动合并与分裂得到较合理的类别数。 与K-均值算法比较: 相似:聚类中心的位置均通过样本均值的迭代运算决定。 相异: K-均值算法的聚类中心个数不变; ISODATA的聚类中心个数变化。 1.算法简介

基本思路: (1)选择初始值——包括若干聚类中心及一些指标。可在迭代运 算过程中人为修改,据此将N个模式样本分配到各个聚类中 心去。 (2)按最近邻规则进行分类。 (3)聚类后的处理:计算各类中的距离函数等指标,按照给定的 要求,将前次获得的聚类集进行分裂或合并处理,以获得新 的聚类中心,即调整聚类中心的个数。 (4)判断结果是否符合要求: 符合,结束; 否则,回到(2)。

算法共分十四步: 第一 ~ 六步:预选参数,进行初始分类。 为合并和分裂准备必要的数据。 第七步:决定下一步是进行合并还是进行分裂。 第八 ~ 十步:分裂算法。 第十一 ~ 十三步:合并算法。 第十四步:决定算法是否结束。 2.算法描述 设有N个模式样本X1,X2,…,XN 。 预选参数,进行初始分类。 第一步:预选NC个聚类中心 , NC也是聚类过程 中实际的聚类中心个数。预选指标:

K:希望的聚类中心的数目。 θN:每个聚类中应具有的最少样本数。若样本少于θN ,则该 类不能作为一个独立的聚类,应删去。 θS :一个聚类域中样本距离分布的标准差阈值。标准差向量的 每一分量反映样本在特征空间的相应维上,与聚类中心的 位置偏差(分散程度)。要求每一聚类内,其所有分量中 的最大分量应小于θS,否则该类将被分裂为两类。 θC :两聚类中心之间的最小距离。若两类中心之间距离小于 θC,则合并为一类。 L:在一次迭代中允许合并的聚类中心的最大对数。 I:允许迭代的次数。

第二步:把N个样本按最近邻规则分配到NC个聚类中。 若 则 第三步:若Sj中的样本数Nj<θN ,则取消该类,并且NC减去1。 第四步:修正各聚类中心值。 θN:每类应具有的 最少样本数。 第五步:计算Sj类的类内平均距离 。 第六步:计算总体平均距离 ,即全部样本到各自聚类中心距 离的平均距离。

第七步:判决是进行分裂还是进行合并,决定迭代步骤等。 判断分裂还是合并。 第七步:判决是进行分裂还是进行合并,决定迭代步骤等。 1) 如迭代已达I次(最后一次),置θC=0 ,跳到第十一步(合并)。 2) 若NC≤K/2,即聚类中心小于或等于希望数的一半,进入 第八步(分裂) 。 3) 如果迭代的次数是偶数,或NC≥2K,即聚类中心数目大于或 等于希望数的两倍,则跳到第十一步(合并)。否则进入第八步 (分裂)。 I:允许迭代的次数。 θC :两聚类中心之间的最小距离。 NC:预选的聚类中心数。 K:希望的聚类中心的数目。

分裂处理。 第八步:计算每个聚类中样本距离的标准差向量。对第Sj类有 分量: 是聚类数; 是维数(特征个数 )。 第九步:求每个标准差向量的最大分量。σj的最大分量记为 σjmax, j=1,2, …,NC。

说明Sj类样本在对应方向上的标准差大于允许的值。此 时,又满足以下两个条件之一: 第十步:在最大分量集 中,如有 , 说明Sj类样本在对应方向上的标准差大于允许的值。此 时,又满足以下两个条件之一: 1) 和 ,即类内平均距离大于总体平均距离, 并且Sj类中样本数很大。 2) ,即聚类数小于或等于希望数目的一半。 则将Zj分裂成两个新的聚类中心 和 ,并且NC加1。其中 :分裂系数 按邻近规则聚类 若完成了分裂运算,迭代次数加1,跳回第二步;否则,继续。 θS :聚类域中样本距离分布的标准差阈值。 θN:每个聚类中应具有的最少样本数。

第十一步:计算所有聚类中心之间的距离。Si类和Sj类中心间 的距离为 合并处理。 第十一步:计算所有聚类中心之间的距离。Si类和Sj类中心间 的距离为 第十二步:比较所有Dij与θC的值,将小于θC的Dij按升序排列 第十三步:如果将距离为 的两类合并,得到新的聚类中心 为 每合并一对,NC减1。 θC :两聚类中心之间的最小距离。