Chameleon: Hierarchical Clustering Using Dynamic Modeling

Chameleon: Hierarchical Clustering Using Dynamic Modeling
——变色龙：一个利用动态模型的层次聚类算法梁敏

内容简介与以往算法的比较变色龙算法聚类步骤稀疏图相对互连性相对近似性聚类对比试验总结

与以往算法的比较以往算法的不足变色龙算法同时考虑了互连性和近似性只处理符合某静态模型的簇忽略了不同簇间的信息忽略互连性
互连性：簇间距离较近数据对的多少。忽略近似性近似性：簇间数据对的相似度(最近距离)。变色龙算法同时考虑了互连性和近似性

变色龙算法的聚类步骤步骤

稀疏图节点表示数据项边表示数据项的相似度图的表示基于k-最近邻居图的方法边表示边的一个节点v在另一个节点u的k个最相似点中。好处：
距离很远的数据项完全不相连边的权重代表了潜在的空间密度信息在密集和稀疏区域的数据项都同样能建模表示的稀疏便于使用有效的算法

相对互连性(RI) 相对互连性函数： EC( Ci, Cj):连接簇Ci和Cj的所有边的权重和。
EC( Ci):把簇Ci划分为两个大致相等部分的最小等分线切断的所有边的权重和。相对互连性能处理簇间形状不同和互连程度不同的问题。

相对近似性(RC) 相对近似性函数： :连接簇Ci和Cj的边的平均权重。
k-最近邻居图中，边的权重很好的表示了簇间接口层中数据项的相似度。对孤立点和噪声不敏感。优先合并簇间近似度与簇内近似度相近的簇。

聚类第一阶段：得到子簇原因：准确计算簇内的互连性和近似性要求簇足够数据项用hMetis算法
hMetis算法根据最小化截断的边的权重和来分割k-最近邻居图

聚类(续）第二阶段：合并子簇用户指定阈值(TRI和TRC) 函数定义访问每个簇，计算它与临近簇的RI和RC。
合并RI和RC分别超过TRI和TRC的簇对。若满足条件的临近簇多于一个，合并具有最高绝对互连性的簇。重复上两步，直到没有可合并的簇。函数定义度量函数：RI( Ci, Cj)× RC( Ci, Cj)α α>1,更重视相对近似性 α<1,更重视相对互连性选择使该函数值最大的簇对合并。

对比试验变色龙算法与CURE和DBScan算法比较

对比试验（续）变色龙算法的聚类结果（ k＝10，α＝2）

对比试验（续） CURE算法的聚类结果 25个簇个簇 25个簇个簇

对比试验（续） DBScan算法的聚类结果

总结变色龙算法将互连性和近似性都大的簇合并。可以发现高质量的任意形状的簇问题
k-最近邻居图中k值的选取。最小二等分的选取。用户指定方式中阈值的选取。在最坏情况下，高维数据的处理代价可能需要O(n2)的时间。

谢谢！

Chameleon: Hierarchical Clustering Using Dynamic Modeling

Similar presentations

Presentation on theme: "Chameleon: Hierarchical Clustering Using Dynamic Modeling"— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

Chameleon: Hierarchical Clustering Using Dynamic Modeling

Similar presentations

Presentation on theme: "Chameleon: Hierarchical Clustering Using Dynamic Modeling"— Presentation transcript:

Similar presentations

About project

反馈