聚类分析(第2部分) Cluster Analysis 统计本科应用多元分析教学
第四军医大学卫生统计学教研室 2002年11月
第四军医大学卫生统计学教研室 2002年11月
第四军医大学卫生统计学教研室 2002年11月
第四军医大学卫生统计学教研室 2002年11月
第四军医大学卫生统计学教研室 2002年11月
第四军医大学卫生统计学教研室 2002年11月
(二)最长距离法 (complete linkage,furthest neighbor) * B1 A1 * * B3 * 样品间:欧氏距离类类间:两类间样品两两距离最长。即图中样品A2和B3之间的距离 第四军医大学卫生统计学教研室 2002年11月
第四军医大学卫生统计学教研室 2002年11月
第四军医大学卫生统计学教研室 2002年11月
第四军医大学卫生统计学教研室 2002年11月
第四军医大学卫生统计学教研室 2002年11月
第四军医大学卫生统计学教研室 2002年11月
(三)中间距离法 (median method) 最长距离夸大了类间距离,最短距离低估了类间距离。介于两者间的距离即为中间距离 L K M J 第四军医大学卫生统计学教研室 2002年11月
(四)中间距离法的变形 ——可变法 第四军医大学卫生统计学教研室 2002年11月
(五)类平均法 (average linkage between group) SPSS作为默认方法,称为 between-groups linkage L K M J 第四军医大学卫生统计学教研室 2002年11月
第四军医大学卫生统计学教研室 2002年11月
(六)可变类平均法 (flexible-beta method) K M 类平均法的变型 J 第四军医大学卫生统计学教研室 2002年11月
(七)重心法 (centroid method) B2 A2 * * B1 A1 * * B3 * 类类间的距离用各自重心间的距离表示 第四军医大学卫生统计学教研室 2002年11月
(八)Ward最小方差法 (Ward’ minimum variance method) 先将n个样品各自成一类,然后每次每缩小一类,每缩小一类离差平方和就要增加,选择使离差平方和增加(SSM-SSK-SSL)最小的两类合并,直至所有的样品归为一类为止。 第四军医大学卫生统计学教研室 2002年11月
第四军医大学卫生统计学教研室 2002年11月
(九)八种系统聚类方法的统一 第四军医大学卫生统计学教研室 以上聚类方法的计算步骤完全相同,仅类与类之间的定义不同。Lance和Williams于1967年将其统一为: 第四军医大学卫生统计学教研室 2002年11月
八种系统聚类法公式的参数 第四军医大学卫生统计学教研室 2002年11月
系统聚类法的性质 第四军医大学卫生统计学教研室 单调性 中间距离法、重心法不具有单调性 空间的浓缩与扩张 不同聚类法作图,横坐标的范围可相差很大。最短距离法与重心法比较浓缩;可变类平均比较扩张;类平均法比较适中。 第四军医大学卫生统计学教研室 2002年11月
有关问题 第四军医大学卫生统计学教研室 几种聚类方法获得的结果不一定相同 指标聚类采用相似系数,相似系数大或距离小则表示类间关系密切,为了统一,可采用以下公式变换。 第四军医大学卫生统计学教研室 2002年11月
五、快速聚类法 (quick cluster method k-means model ) 也叫动态聚类、逐步聚类、迭代聚类) 样本量很大,用系统聚类法计算的工作量极大,作出的树状图也十分复杂, 不便于分析 第四军医大学卫生统计学教研室 2002年11月
原理 选择初始凝聚点 根据欧氏距离将每个样品归类 各类的重心代替初始凝聚点 根据欧氏距离将每个样品归类,…… 直至分类达到稳定 第四军医大学卫生统计学教研室 2002年11月
初始凝聚点 initial cluster seeds ;cluster centers 自动选择 必须给出允许分类的最大个数k( SAS中用MAXCLUSTERS=k(或MAXC=k) ) 凭经验选择 以初始凝聚点建立一个数据文件,在SAS的FASTCLUS过程的SEED=选择项中输入该数据文件 第四军医大学卫生统计学教研室 2002年11月
六、变量聚类法 第四军医大学卫生统计学教研室 原理与以上聚类法类似, 只是将标准化后的变量视为“个体”,变量间的相关系数描述“个体”间的相似程度。 SAS中采用VARCLUS过程。 第四军医大学卫生统计学教研室 2002年11月
七、小结 第四军医大学卫生统计学教研室 2002年11月 与判别分析的区别(作用,数据要求?) 聚类分析是一种探索性技术,对于同一问题,可获得多种结果,解释需要结合专业知识 样品量大可采用快速聚类方法 变量的形式?距离与相似系数? 系统聚类常用方法? 第四军医大学卫生统计学教研室 2002年11月
存在的问题 分类数的确定 专业知识 聚类方法的选择 试用多种方法,系统聚类与快速聚类相结合 第四军医大学卫生统计学教研室 2002年11月
八、软件计算与实例分析 (一)SPSS聚类分析 第四军医大学卫生统计学教研室 2002年11月
1.系统聚类 第四军医大学卫生统计学教研室 2002年11月
指定参与聚类的变量名和样品号 第四军医大学卫生统计学教研室 2002年11月
Statistics 聚类进度表 相似矩阵 样品或变量的分类情况 第四军医大学卫生统计学教研室 2002年11月
Plot 树状结构图 冰柱图 冰柱的方向 第四军医大学卫生统计学教研室 2002年11月
Method 聚类方法 亲疏关系指标 标准化变换 第四军医大学卫生统计学教研室 2002年11月
Method 将分类结果存入数据文件中 第四军医大学卫生统计学教研室 2002年11月
2. 快速聚类 第四军医大学卫生统计学教研室 2002年11月
选项 人为固定分类数 ANOVA表,初始凝聚点等 读写凝聚点 第四军医大学卫生统计学教研室 2002年11月
SINGLE, TWO, TWOSTAGE, WAR, WARD); (二)SAS聚类分析 样品聚类:PROC CLUSTER pseudo RSQUARE STD METHOD=(AVE, AVERAGE, CEN, CENTROID, COM, COMPLETE, DEN, DENSITY, EML, FLE, FLEXIBLE, MCQ, MCQUITTY, MED, MEDIAN, SIN, SINGLE, TWO, TWOSTAGE, WAR, WARD); ID national; PROC TREE HORIZONTAL; ID national; 第四军医大学卫生统计学教研室 2002年11月
变量聚类:PROC VARCLUS CORR CENTROID HIERARCHY MAXC=4; 快速聚类:PROC FASTCLUS MAXC=4 MAXITER=100 ; ID national; 资料预处理:PROC ACECLUS ;(ACECLUS (Approximate Covariance Estimation for CLUStering) ) 第四军医大学卫生统计学教研室 2002年11月
如果要采用非欧式距离,SAS中可用宏程序(%distance)计算。或 变换。 数据为距离矩阵形式时,应在Data语句中说明,如“DATA a (TYPE=DISTANCE);”(见p202) 第四军医大学卫生统计学教研室 2002年11月
The End Author: ChuanHua Yu 2002.11, Xi’An, China yuchua@163.com