聚类工具 聚类 分类 聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。 不知晓每个分类的具体含义。 与分类规则不同,进行聚类前并不知道将要划分成什么样的组,也不知道根据哪些空间区分规则来定义组。 聚类 每个分类有人为规定的具体含义。 简单地说,分类(Categorization or Classification)就是按照某种标准给对象贴标签(label),再根据标签来区分归类。 分类
聚类工具:应用举例 商业: 聚类分析被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征。 聚类分析是细分市场的有效工具,同时也可用于研究消费者行为,寻找新的潜在市场、选择实验的市场,并作为多元分析的预处理。 生物: 聚类分析被用来动植物分类和对基因进行分类,获取对种群固有结构的认识
聚类工具:应用举例 自然语言: 作为一种无监督的机器学习方法,聚类由于不需要训练过程、以及不需要预先对文档手工标注类别,因此具有较高的灵活性和自动化处理能力,成为对文本信息进行有效组织、摘要和导航的重要手段。 例如词向量 将实体表示为多维向量 执行聚类算法
聚类算法 最常用的聚类算法:k-means 1.选取k个初始中心点 本例将样本点分为三类,初始中心点为(0.2,0.2) (0.3,0.3) (0.4,0.4)
聚类算法 最常用的聚类算法:k-means
聚类算法 最常用的聚类算法:k-means 3.计算属于同一类的所有点的均值点,作为该类新的中心点
聚类算法 最常用的聚类算法:k-means 1.选取k个初始中心点 3.计算属于同一类的所有点的均值点,作为该类新的中心点(更新中心点) 4.迭代2~3步,直到中心点不再变化
聚类算法
聚类算法 1.思想简单,容易实现 2.计算复杂度低 3.收敛迅速,且效果中上(别人说的) 4.参数只有一个(k),方便调参试验 K-means的优点: 1.思想简单,容易实现 2.计算复杂度低 3.收敛迅速,且效果中上(别人说的) 4.参数只有一个(k),方便调参试验
聚类算法 K-means算法的改进方案有很多,例如k-medoids等。 它们都属于聚类算法中的Partitional aproach(分割方法): 建立数据的不同分割,然后用相同标准评价聚类结果。(比如最小化平方误差和) 而即将介绍的GMM聚类算法则属于Model-based(基于模型的方法): 对于每个类假定一个分布模型(高斯分布),试图找到每个类最好的模型参数
GMM= Gauss Mixture Model (高斯混合模型) 混合,指使用多个参数不同的高斯分布 高斯分布
高斯 与高斯分布 正态分布又通常被称为高斯分布,在科学领域,冠名权那是一个很高的荣誉。去过德国的兄弟们还会发现,德国的钢镚和10马克的纸币上都留有高斯的头像和正态密度曲线。
以高斯命名的数学和物理概念
高斯 与高斯分布 下面展示的是一维高斯分布的函数表达式。
高斯 与高斯分布 下面展示的是多维高斯分布的函数表达式。
高斯 与高斯分布 对于GMM,某一点(i)属于某个类(k)的概率由以下公式计算:
GMM的模型参数 对于每个类的高斯分布模型,有以下参数需要确定: 均值 系数 方差
GMM算法 GMM聚类算法: 算法流程(与k-means较为相似): 1.初始化模型参数(miu,sigma,pi,*cov) 2.依据公式计算每个点属于每个类的概率p(i,k) 3.依据公式更新各个模型参数 4.重复迭代2~3步,直至达到门限值
E EM M EM算法 (expectation)求期望 (maximum)求极大 这个算法出现的时间比较早,属于经典的统计学习算法,在李航先生的《统计学习方法》中有相关原理介绍。 (maximum)求极大 EM算法是一种迭代算法(一轮迭代包含E和M两步),1977年由Dempster等人总结提出,用于含有隐变量的概率模型参数的极大似然估计,或极大后验概率估计。
总结: GMM的收敛速度相对较慢,计算复杂度也比较高,但是由于高斯分布的普遍存在性,其聚类的结果比k-means更加科学,更符合客观规律。 但这两种算法都对初值敏感,而且容易陷入局部最优解。 聚类的方法还有很多,有些算法也很普遍,比如层次聚类等等。
附录: 从最大似然到EM算法浅解:http://blog.csdn.net/zouxy09/article/details/8537620/ 正态分布的前世今生: https://www.52ml.net/2691.html 聚类算法K-Means, K-Medoids, GMM, Spectral clustering,Ncut : http://blog.csdn.net/abcjennifer/article/details/8170687 我的代码: https://github.com/zuoquanGong/cluster
谢谢 公佐权 2017.4.23