第六章 聚类分析 §6.1 引言 §6.2 距离和相似系数 §6.3 系统聚类法 §6.4 动态聚类法.

Slides:



Advertisements
Similar presentations
如何學好數學? 黃駿耀老師
Advertisements

辅助核算 3.5.
10 郑和远航.
三个偶像的故事和功绩 ——第12课 明清时期的反侵略斗争 董飞燕.
捣蛋鬼历险记 初一四班 孙嘉佑小组.
中國歷史 明代之患禍及民變.
10 郑和远航 郑和 郑和,1371年生于云南昆阳州(今昆明晋宁县)一个信奉伊斯兰教的回族家庭,原名马和,小字三宝,十一岁时在明太祖朱元璋发动的统一云南的战争中被俘进宫,后当朱元璋四子燕王朱棣的近侍。1403年朱棣登基,史称明成祖。次年正月初一,朱棣念他有勇有谋,屡立奇功,便赐姓“郑”,改称郑和,并提拔为内宫太监,于永乐三年(1405年7月11日)率领庞大船队首次出使西洋。自1405年到1433年,漫长的28年间,郑和船队历经亚非三十余国,涉十万余里,与各国建立了政治,经济,文化的联系,完成了七下西洋的伟
明清 抗击外国侵略的英勇斗争 雅克萨反击战(俄) 戚继光抗倭(日) 郑成功收复台湾(荷兰) 荷兰 俄 罗 斯 日 本 台湾 沙 俄 入 侵
戚继光抗倭.
刑事訴訟法 授課人:林俊益副教授 時間:95.9.~96.6..
妩媚人生 云 计 算 与 大规模数据并行处理技术 黄 宜 华 南 京 大 学 计算机科学与技术系 软件新技术国家重点实验室 妩媚人生 妩媚人生
第16 课 中外的交往与冲突 授课人:鲍婷.
历史上的中日关系.
云南外事外语职业学院 入党积极分子培训 赵田甜.
第四章 清代臺灣的社會文化變遷 第一節 移墾社會的形成
認識食品中毒 一、什麼是食品中毒? 二人或二人以上攝取相同的食品而發生相似的症狀,並且自可疑的食餘檢體及患者糞便、嘔吐物、血液等人體檢體,或者其它有關環境檢體(如空氣、水、土壤等)中分離出相同類型(如血清型、噬菌 體型)的致病原因,則稱為一件“食品中毒”。 但如因攝食肉毒桿菌毒素或急性化學性中毒而引起死亡,即使只有一人,也視為一件“食品中毒”。
題目:四大古文明 班級:六年八 班 組員:賴宣光.游家齊.陳羿文 吳佳芬.許淑婷.許芳瑜..
食 物 中 毒.
琦君 《髻》 S 康倩瑜.
眼乾乾唔使慌.
滑膜皱襞综合征.
“公平”是最热的关键词 1、胡锦涛首次进行“总动员”,提出“在促进发展的同时,把维护社会公平放到更加突出的位置” 。
贵州省公务员面试 备考指导 中公教育 面试讲师 刘运龙.
外 套 各式領型與變化 武 玫 莉 製 作.
第4节 人体对食物的消化吸收.
陈冤之魅,心鬼之泪 ——雾里探花 《东方快车谋杀案》 By第二小组.
高考作文等级评分标准/发展等级10分 深刻 丰富 有文采 有创意 ①透过现象 深入本质 ②揭示问题 产生的原因 ③观点具有 启发作用
文明礼仪在我心 文明礼仪在我心.
第10课 社会生活的变迁.
故事会 盘古开天劈地 在很久很久以前,天地可不象我们现在看到的这样————天高高的在上面,地在我们的脚下,中间隔着几千几万米远。那个时候的天地就象是一个包在大黑壳里的鸡蛋,混混沌沌的,什么也看不清。人们走路都得弯着腰,耕田打猎都很不方便,因为一不小心抬个头,就会碰到天,惹它生气,接着就会招来狂风暴雨。因此所有的植物也都长不高,所以结的粮食和果实都很少,根本就不够大家吃。还经常会发生饿死人的事情。
面向三农,拓宽信息渠道 辐射千村,服务百万农民
三招 让孩子爱上阅读 主讲人:芝莺妈妈 2012年10月19日.
FUZHUANGZHITUYANGBANZHIZUO
如何挑選吳郭魚 嗨~ 餐旅二乙 4a2m0105 白妤潔 4a2m0122 何姿瑩.
学校春季呼吸道传染病预防知识 连云港市疾病预防控制中心
服裝整理概論.
印染纺织类艺术.
创业计划书的编写.
创业计划书撰写.
第九章 进行充分调研 选择自主创业.
香溢饺子馆创业计划书.
第三章 中国的民族民俗 第一节 概论 第二节 汉族 第三节 满族 蒙古族 维吾尔族 回族 朝鲜族 第四节 壮族 土家族 苗族 黎族
第 4 章 投资银行: 基于资本市场的主业架构.
创业数字图书馆.
中国管理科学发展探索 成思危 2006年8月18日于上海复旦大学.
“四文”交融,虚实并举,打造具有鲜明职教特色的校园文化 ——江苏省扬州商务高等职业学校校园文化建设汇报
103年度高職優質化輔助方案計畫申辦及輔導訪視說明會
“十二五”科技发展思路 与科技计划管理 科技部发展计划司 刘敏 2012年9月.
社区妇幼保健工作 江东区妇幼保健院 胡波瑛.
人生不要太圓滿 ◎ 張忠謀.
导致羊水过少的五大因素.
胎教.
怎样进行一次宣讲 何惠玲.
第三课 中国共产党的历程.
[聚會時,請將傳呼機和手提電話關掉,多謝合作]
规范母婴保健服务 努力降低孕产妇死亡率 市卫生局基妇科 朱静.
中国地质科学院矿产资源研究所 财务报账培训
白天的月亮 想與日爭輝 人生不要太圓滿 文字取自於:張忠謀 攝於陽明山 阿道的攝影工作坊.
第十章(上) 实现中华民族的伟大复兴.
营养要均衡.
ㄩ.
高中新课程历史必修(Ⅰ) 教材比较研究 四川师范大学历史文化学院教授 陈 辉 教育部2009普通高中历史课改远程研修资料.
十年职业生涯规划 —— 年 姓名:刘娟 学号:.
主考官眼中的面试 ——面试主考官教你备战2016年国考面试 主讲老师:李海鹏.
国内知名高校 医学院(部、中心) 院系及附属医院设置情况 调研报告
財務報表分析 授課教師:陳依婷.
第六章 可供出售金融资产 一、可供出售金融资产的概念和特征 二、可供出售金融资产的核算.
主讲人:刘文波 (四会国税 政策法规股) 2014年4月
智慧宁波 智慧财税 . 宁波市地方税务局.
第六模块礼仪文书写作 第一节求职信、应聘信 QIUZHIXINYINGPINXIN.
Presentation transcript:

第六章 聚类分析 §6.1 引言 §6.2 距离和相似系数 §6.3 系统聚类法 §6.4 动态聚类法

§6.1 引言 聚类分析:将分类对象分成若干类,相似的归为同一类,不相似的归为不同的类。 §6.1 引言 聚类分析:将分类对象分成若干类,相似的归为同一类,不相似的归为不同的类。 聚类分析和判别归类有着不同的分类目的,彼此之间既有区别又有联系。 聚类分析分为Q型(分类对象为样品)和R型(分类对象为变量)两种。

相似性的不同定义

§6.2 距离和相似系数 相似性度量:距离和相似系数。 §6.2 距离和相似系数 相似性度量:距离和相似系数。 样品之间的距离和相似系数有着各种不同的定义,而这些定义与变量的类型有着非常密切的关系。 变量的测量尺度:间隔、有序和名义尺度。 间隔变量:变量用连续的量来表示,如长度、重量、速度、温度等。 有序变量:变量度量时不用明确的数量表示,而是用等级来表示,如某产品分为一等品、二等品、三等品等有次序关系。 名义变量:变量用一些类表示,这些类之间既无等级关系也无数量关系,如性别、职业、产品的型号等。

间隔变量也称为定量变量,有序变量和名义变量统称为定性变量或属性变量或分类变量。 对于间隔变量,距离常用来度量样品之间的相似性,相似系数常用来度量变量之间的相似性。 本章主要讨论具有间隔尺度变量的样品聚类分析方法。 一、距离 二、相似系数

一、距离 设x =(x1,x2,⋯,xp)′ 和y =(y1,y2,⋯,yp)′为两个样品,则所定义的距离一般应满足如下三个条件: (i)非负性:d(x, y)≥0,d(x, y)=0当且仅当x=y; (ii)对称性:d(x, y) = d(y, x); (iii)三角不等式:d(x, y)≤d(x,z) + d(z, y)。

常用的距离 1.明考夫斯基(Minkowski)距离 2.兰氏(Lance和Williams)距离 3.马氏距离

1.明考夫斯基距离 明考夫斯基距离(简称明氏距离): 这里q≥1。 明氏距离的三种特殊形式: (i)当q=1时, ,称为绝对值距离,常被形象地称作“城市街区”距离; (ii)当q=2时, ,这是欧氏距离,它是聚类分析中最常用的一个距离; (iii)当q=∞时, ,称为切比雪夫距离。

绝对值距离图示

对各变量的数据作标准化处理 当各变量的单位不同或测量值范围相差很大时,应先对各变量的数据作标准化处理。最常用的标准化处理是,令 其中 和sii分别为xi的样本均值和样本方差。

2.兰氏距离 当所有的数据皆为正时,可以定义x与y之间的兰氏距离为 该距离与各变量的单位无关,且适用于高度偏斜或含异常值的数据。

3.马氏距离 x和y之间的马氏距离为 其中S为样本协差阵。

名义尺度变量的一种距离定义 例6.2.1 某高校举办一个培训班,从学员的资料中得到这样六个变量: x1 :性别(男,女) 例6.2.1 某高校举办一个培训班,从学员的资料中得到这样六个变量: x1 :性别(男,女) x2 :外语语种(英语,非英语) x3 :专业(统计,非统计) x4 :职业(教师,非教师) x5 :居住处(校内,校外) x6 :学位(硕士,学士) 现有两名学员: x=(男,英语,统计,非教师,校外,学士)′ y=(女,英语,非统计,教师,校外,硕士)′

一般地,若记 m1:配合的变量数 m2:不配合的变量数 则它们之间的距离可定义为 故按此定义,本例中x 与y 之间的距离为2/3。

二、相似系数 变量之间的相似性度量,在一些应用中要看相似系数的大小,而在另一些应用中要看相似系数绝对值的大小。 相似系数(或其绝对值)越大,认为变量之间的相似性程度就越高;反之,则越低。 聚类时,比较相似的变量倾向于归为一类,不太相似的变量归属不同的类。

变量间相似系数一般应满足的条件 (1)cij=±1,当且仅当xi=axj+b,a(≠0) 和b是常数; (2)|cij|≤1,对一切i,j; (3)cij=cji,对一切i,j。

两个向量的夹角余弦

1.夹角余弦 变量xi与xj的夹角余弦定义为 它是Rn中变量xi的观测向量(x1i,x2i,⋯,xni)′与变量xj的观测向量(x1j,x2j,⋯,xnj)′之间夹角θij的余弦函数,即cij(1)=cosθij。

2.相关系数 变量xi与xj的相关系数为 如果变量xi与xj是已标准化了的,则它们间的夹角余弦就是相关系数。

相似系数除常用来度量变量之间的相似性外有时也用来度量样品之间的相似性,同样,距离有时也用来度量变量之间的相似性。 由距离来构造相似系数总是可能的,如令 这里dij为第i个样品与第j个样品的距离,cij可作为相似系数,用来度量样品之间的相关性。 距离必须满足定义距离的三个条件,所以不是总能由相似系数构造。高尔(Gower)证明,当相似系数矩阵(cij)为非负定时,如令 则dij满足距离定义的三个条件。

§6.3 系统聚类法 系统聚类法(或层次聚类法)是通过一系列相继的合并或相继的分割来进行的,分为聚集的和分割的两种,适用于样品数目n不是非常大的情形。 聚集系统法的基本思想是:开始时将n个样品各自作为一类,并规定样品之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其他类的距离;重复进行两个最近类的合并,每次减少一类,直至所有的样品合并为一类。

一开始每个样品各自作为一类

分割系统法的聚类步骤与聚集系统法正相反。由n个样品组成一类开始,按某种最优准则将它分割成两个尽可能远离的子类,再用同样准则将每一子类进一步地分割成两类,从中选一个分割最优的子类,这样类数将由两类增加到三类。如此下去,直至所有n个样品各自为一类或采用某种停止规则。 聚集系统法最为常用,本节着重介绍其中常用的六种方法并略提另两种方法,所有这些聚类方法的区别在于类与类之间距离的定义不同。

§6.3 系统聚类法 一、最短距离法 二、最长距离法 三、类平均法 四、重心法 *五、中间距离法 六、离差平方和法(Ward方法) §6.3 系统聚类法 一、最短距离法 二、最长距离法 三、类平均法 四、重心法 *五、中间距离法 六、离差平方和法(Ward方法) *七、系统聚类法的统一 八、系统聚类法的性质 九、使用图形作聚类及对效果的评估 十、对变量的聚类 十一、类的个数

一、最短距离法 定义类与类之间的距离为两类最近样品间的距离,即 图6.3.1 最短距离法:DKL=d23

最短距离法的聚类步骤 (1)规定样品之间的距离,计算n个样品的距离矩阵D(0),它是一个对称矩阵。 (2)选择D(0)中的最小元素,设为DKL,则将GK和GL合并成一个新类,记为GM,即GM= GK∪GL。 (3)计算新类GM与任一类GJ之间距离的递推公式为

递推公式的图示理解

最短距离法的聚类步骤(续) 在D(0)中,GK和GL所在的行和列合并成一个新行新列,对应GM ,该行列上的新距离值由上述递推公式求得,其余行列上的距离值不变,这样就得到新的距离矩阵,记作D(1) 。 (4)对D(1)重复上述对D(0)的两步得D(2) ,如此下去直至所有元素合并成一类为止。

如果某一步D(m)中最小的元素不止一个,则称此现象为结,对应这些最小元素的类可以任选一对合并或同时合并。最短距离法最容易产生结,且有一种挑选长链状聚类的倾向,称为链接倾向。 最短距离法不适合对分离得很差的群体进行聚类。 结的图示:

一个最短距离法产生链接的例子 (例6.3.4)

例6.3.1 设有五个样品,每个只测量了一个指标,分别是1,2,6,8,11,试用最短距离法将它们分类。 例6.3.1 设有五个样品,每个只测量了一个指标,分别是1,2,6,8,11,试用最短距离法将它们分类。 记G1={1},G2={2},G3={6},G4={8},G5={11},样品间采用绝对值距离。 表6.3.1 D(0) G1 G2 G3 G4 G5 1 5 4 7 6 2 10 9 3

其中G6= G1∪G2 其中G7= G3∪G4 表6.3.2 D(1) G6 G3 G4 G5 4 6 2 9 5 3 4 6 2 9 5 3 其中G6= G1∪G2 表6.3.3 D(2) G6 G7 G5 4 9 3 其中G7= G3∪G4

表6.3.4 D(3) G6 G8 4 其中G6= G1∪G2 图6.3.2 最短距离法树形图

二、最长距离法 类与类之间的距离定义为两类最远样品间的距离,即 图6.3.3 最长距离法:DKL=d15

最长距离法与最短距离法的并类步骤完全相同,只是类间距离的递推公式有所不同。 递推公式:

对例6.3.1采用最长距离法。 图6.3.4 最长距离法树形图

异常值的影响 最长距离法容易被异常值严重地扭曲。

三、类平均法 有两种定义。 定义1:类GK和GL之间的距离定义为 图6.3.5 类平均法

递推公式:

定义2:类GK和GL之间的平方距离定义为 递推公式: 类平均法较好地利用了所有样品之间的信息,在很多情况下它被认为是一种比较好的系统聚类法。

例6.3.2 在例6.3.1中采用(使用平方距离的)类平均法进行聚类。一开始将D(0)的每个元素都平方,并记作 。 表6.3.5 G1 G2 G3 G4 G5 1 25 16 49 36 4 100 81 9

表6.3.6 G6 G3 G4 G5 20.5 42.5 4 90.5 25 9 表6.3.7 G6 G7 G5 31.5 90.5 17

表6.3.8 G6 G8 51.17 图6.3.6 类平均法树形图

四、重心法 设类GK和GL的重心(均值)分别为 ,则GK与GL之间的平方距离定义为 图6.3.7 重心法

GM= GK∪GL的重心是 其中nM=nK+nL为GM的样品个数。 递推公式: 与其他系统聚类法相比,重心法在处理异常值方面更稳健,但是在别的方面一般不如类平均法或离差平方和法的效果好。

*五、中间距离法 设GM= GK∪GL ,对于任一类GJ,考虑由DKJ,DLJ和DKL为边长组成的三角形,取DKL边的中线作为DMJ。DMJ的计算公式为 图6.3.8 中间距离法的几何表示

六、离差平方和法(Ward方法) (类内)离差平方和:类中各样品到类重心(均值)的平方欧氏距离之和。 设类GK和GL合并成新类GM,则GK, GL和GM的离差平方和分别是 对固定的类内样品数,它们反映了各自类内样品的分散程度。

类内离差平方和的几何解释 类内离差平方和WK是类GK内各点到类重心点 的直线距离之平方和。

定义GK和GL之间的平方距离为 也可表达为 离差平方和法使得两个大的类倾向于有较大的距离,因而不易合并;相反,两个小的类却因倾向于有较小的距离而易于合并。这往往符合我们对聚类的实际要求。

图6.3.9 离差平方和法与重心法的聚类比较

递推公式: 对例6.3.1采用离差平方和法进行聚类。 图6.3.10 离差平方和法树形图

例6.3.3 表6.3.9列出了1999年全国31个省、直辖市和自治区的城镇居民家庭平均每人全年消费性支出的八个主要变量数据。这八个变量是 x1:食品 x5:交通和通讯 x2:衣着 x6:娱乐教育文化服务 x3:家庭设备用品及服务 x7:居住 x4:医疗保健 x8:杂项商品和服务 分别用最短距离法、重心法和Ward方法对各地区作聚类分析。为同等地对待每一变量,在作聚类前,先对各变量作标准化变换。

表6.3.9 消费性支出数据 单位:元 地区 x1 x2 x3 x4 x5 x6 x7 x8 北京 2959.19 730.79 表6.3.9 消费性支出数据 单位:元 地区 x1 x2 x3 x4 x5 x6 x7 x8 北京 2959.19 730.79 749.41 513.34 467.87 1141.82 478.42 457.64 天津 2459.77 495.47 697.33 302.87 284.19 735.97 570.84 305.08 河北 1495.63 515.9 362.37 285.32 272.95 540.58 364.91 188.63 山西 1406.33 477.77 290.15 208.57 201.5 414.72 281.84 212.1 内蒙古 1303.97 524.29 254.83 192.17 249.81 463.09 287.87 192.96 辽宁 1730.84 553.9 246.91 279.81 239.18 445.2 330.24 163.86 吉林 1561.86 492.42 200.49 218.36 220.69 459.62 360.48 147.76 黑龙江 1410.11 510.71 211.88 277.11 224.65 376.82 317.61 152.85 上海 3712.31 550.74 893.37 346.93 527 1034.98 720.33 462.03 江苏 2207.58 449.37 572.4 211.92 302.09 585.23 429.77 252.54 浙江 2629.16 557.32 689.73 435.69 514.66 795.87 575.76 323.36 安徽 1844.78 430.29 271.28 126.33 250.56 513.18 314 151.39 福建 2709.46 428.11 334.12 160.77 405.14 461.67 535.13 232.29 江西 1563.78 303.65 233.81 107.9 209.7 393.99 509.39 160.12 山东 1675.75 613.32 550.71 219.79 272.59 599.43 371.62 211.84

河南 1427.65 431.79 288.55 208.14 217 337.76 421.31 165.32 湖北 1783.43 511.88 282.84 201.01 237.6 617.74 523.52 182.52 湖南 1942.23 512.27 401.39 206.06 321.29 697.22 492.6 226.45 广东 3055.17 353.23 564.56 356.27 811.88 873.06 1082.82 420.81 广西 2033.87 300.82 338.65 157.78 329.06 621.74 587.02 218.27 海南 2057.86 186.44 202.72 171.79 329.65 477.17 312.93 279.19 重庆 2303.29 589.99 516.21 236.55 403.92 730.05 438.41 225.8 四川 1974.28 507.76 344.79 203.21 240.24 575.1 430.36 223.46 贵州 1673.82 437.75 461.61 153.32 254.66 445.59 346.11 191.48 云南 2194.25 537.01 369.07 249.54 290.84 561.91 407.7 330.95 西藏 2646.61 839.7 204.44 209.11 379.3 371.04 269.59 389.33 陕西 1472.95 390.89 447.95 259.51 230.61 490.9 469.1 191.34 甘肃 1525.57 472.98 328.9 219.86 206.65 449.69 249.66 228.19 青海 1654.69 437.77 258.78 303 244.93 479.53 288.56 236.51 宁夏 1375.46 480.89 273.84 317.32 251.08 424.75 228.73 195.93 新疆 1608.82 536.05 432.46 235.82 250.28 541.3 344.85 214.4

图6.3.11 最短距离法

图6.3.12 重心法

图6.3.13 离差平方和法

从这三个树形图来看,只有Ward方法较好地符合了我们的实际聚类要求。可将31个地区分为以下三类: 第Ⅰ类:北京、浙江、上海和广东。这些都是我国经济最发达、城镇居民消费水平最高的地区。 第Ⅱ类:天津、江苏、云南、重庆、河北、新疆、山东、湖北、四川、湖南、福建、广西、海南和西藏。这些地区在我国基本上属于经济发展水平和城镇居民消费水平中等的地区。 第Ⅲ类:山西、甘肃、内蒙古、辽宁、黑龙江、吉林、青海、宁夏、安徽、贵州、河南、陕西和江西。这些地区在我国基本上属于经济欠发达地区,城镇居民的消费水平也较低。 如果分为五类,则广东和西藏将各自为一类。

*七、系统聚类法的统一 Lance和Williams于1967年将递推公式统一为: 其中αK, αL, β, γ是参数,不同的系统聚类法,它们有不同的取值。表6.3.10列出了上述八种方法四个参数的取值。

表6.3.10 系统聚类法参数表

八、系统聚类法的性质 1.单调性 *2.空间的浓缩与扩张 3.一个说明性的例子

1.单调性 令Di是系统聚类法中第i次并类时的距离,如果一种系统聚类法能满足D1≤D2≤D3≤⋯ ,则称它具有单调性。 这种单调性符合系统聚类法的思想,先合并较相似的类,后合并较疏远的类。 最短距离法、最长距离法、类平均法、离差平方和法、可变法和可变类平均法都具有单调性,但重心法和中间距离法不具有单调性。

*2.空间的浓缩与扩张 设A=(aij)和B=(bij)是两个元素非负的同阶矩阵,若aij≥bij(对一切i, j),则记作A≥B。该记号仅在本节中使用。 设有两种系统聚类法,它们在第i步的距离矩阵分别为Ai和Bi,i=0,1,⋯,n−1,若Ai≥Bi,i=1,⋯,n−1,则称第一种方法比第二种方法使空间扩张,或第二种方法比第一种方法使空间浓缩。 设聚类中的某步将类GK和GL合并成新类GM,由于接下来的一步在计算类之间的距离时,老类之间的距离仍保持不变,故比较不同聚类法的聚类距离我们只需比较任一老类GJ到新类GM的距离即可。用D(*)表示用“*”方法聚类时的距离矩阵。

以类平均法为基准,有如下一些结论: (1) D(短)≤ D(平),D(重)≤ D(平)。 (2) D(长)≥ D(平)。 (3) 当0<β<1时,D(变平)≤ D(平);当β<0时, D(变平)≥ D(平)。 太浓缩的方法不够灵敏,太扩张的方法可能因灵敏度过高而容易失真。 类平均法比较适中,它既不太浓缩也不太扩张,因此它在这方面是比较理想的。最短距离法是一种非常浓缩的方法,容易出现链接倾向。

3.一个说明性的例子(例6.3.4)

(1)采用最短距离法。可以算得: 当聚成两类时,C1和C11组成一类,其余所有的点组成另一类,这里出现了链接现象; 当聚成三类时,C1和C11组成第Ⅰ类,其余的C点组成第Ⅱ类,所有的A点和B点组成第Ⅲ类。 (2)采用类平均法。经算得: 当聚成两类时,一类由所有C点构成,另一类由所有A点和所有B点构成; 当聚成三类时,A点群、B点群和C点群各自作为一类。

九、使用图形作聚类及对聚类效果的评估 1.使用图形作直观的聚类 2.使用图形对聚类效果的评估

1.使用图形作直观的聚类 当p=2时,可以直接在散点图上进行主观的聚类,其效果未必逊于、甚至好于正规的聚类方法,特别是在寻找“自然的”类和符合我们实际需要的类方面。 当p=3时,我们可使用统计软件产生三维旋转图,通过三维旋转从各个角度来观测散点图,作直观的聚类。但由于其视觉效果及易操作性远不如平面散点图,故实践中很少采用。 当p≥3时,有时我们可采用主成分分析或因子分析的技术将维数降至2(或3)维,然后再生成散点图(或旋转图),从直觉上进行主观的聚类。

寻找“自然的”类

2.使用图形对聚类效果的评估 经聚类分析已将类分好之后,常常希望从统计的角度看一下聚类的效果:不同类之间是否分离得较好,同一类内的样品(或变量)是否彼此相似。 通常可通过构造图形作直观的观测,所使用的图形有如下两种: (1)将p维数据画于平面图上,方法有平行(坐标)图、星形图、切尔诺夫脸谱图、星座图和安德鲁曲线图等; (2)使用费希尔判别的降维方法,将p维数据降至2(或3)维再构造散点图(或旋转图)。 如果方法(2)能够成功,则往往更值得推荐,尤其在样品数很大的场合下。

平行图中的八个变量轴相互平行等间隔,各变量轴上的坐标是已标准化了的值。 例6.3.5 在例6.3.3中,为了从原始数据的直观图形上来看一下按Ward方法聚成三类的效果,使用JMP软件的聚类结果中带有的并排平行图(或称轮廓图)。 平行图中的八个变量轴相互平行等间隔,各变量轴上的坐标是已标准化了的值。 前两类中的高亮轮廓线分别属于广东和西藏,它们在类内显得较为异类,需要时皆可自成一类。 图6.3.15 Ward方法所分三类的平行图

图6.3.16 按图6.3.13分三类的两个判别函数得分的散点图

图6.3.17 按图6.3.13分五类的两个判别函数得分的散点图

十、对变量的聚类 最短距离法、最长距离法和类平均法都属于连接方法,它们既可以用于样品的聚类,也能够用于变量的聚类。不过并非所有的系统聚类方法都适用于对变量的聚类。

例6.3.7 对305名女中学生测量八个体型指标: x1:身高 x5:体重 x2:手臂长 x6:颈围 x3:上肢长 x7:胸围 例6.3.7 对305名女中学生测量八个体型指标: x1:身高 x5:体重 x2:手臂长 x6:颈围 x3:上肢长 x7:胸围 x4:下肢长 x8:胸宽 表6.3.11 各对变量之间的相关系数   x1 x2 x3 x4 x5 x6 x7 x8 1.000 0.846 0.805 0.881 0.859 0.826 0.801 0.473 0.376 0.380 0.436 0.398 0.326 0.319 0.329 0.762 0.301 0.277 0.237 0.327 0.730 0.583 0.382 0.415 0.345 0.365 0.629 0.577 0.539

单从该相关矩阵就可直观地判断出聚成两类:{x1,x2,x3,x4}和{x5,x6,x7,x8},这两类的特征明显,其类内变量分别都是身材方面的“纵向”指标和“横向”指标。  分别用最短距离法、最长距离法和(6.3.5)式的类平均法对变量进行聚类,这三种方法的类与类之间的相似系数分别定义为两类变量间的最大、最小和平均相关系数,每次聚类时合并两个相似系数最大的类。 从图6.3.18可见,聚成两类:{x1,x2,x3,x4}和{x5,x6,x7,x8} 。 最短距离法和类平均法也都有与此相同的聚成两类的结果。

图6.3.18 八个体型变量的最长距离法树形图

十一、类的个数 如果能够分成若干很分开的类,则类的个数就比较容易确定;反之,如果无论怎样分都很难分成明显分开的若干类,则类个数的确定可能就比较困难了。 确定类个数的常用方法有: 1.给定一个阈值T。 2.观测样品的散点图。 *3.使用统计量。

1.给定一个阈值T 通过观测树形图,给出一个你认为合适的阈值T,要求类与类之间的距离要大于T,有些样品可能会因此而归不了类或只能自成一类。这种方法有较强的主观性,这是它的不足之处。

2.观测样品的散点图 如果样品只有两个(或三个)变量,则可通过观测数据的散点图(或旋转图)来主观确定类的个数。 如果变量个数超过三个,则可对每一可能考虑的聚类结果,将所有样品的前两个(或三个)费希尔判别函数得分制作成散点图(或旋转图),目测类之间是否分离得较好。 该图既能帮助我们评估聚类效果的好坏,也能帮助我们判断所定的类数目是否恰当。 例6.3.8 在例6.3.6中,图6.3.16显示分为三类是合适的,图6.3.17显示分为五类也是合适的。最终到底分为几类还需综合考虑,该例分成三类似乎更符合实际的需要。

*3.使用统计量 (1)R2统计量。 (2)半偏R2统计量。 (3)伪F统计量。 (4)伪t统计量。

§6.4 动态聚类法 在系统聚类法中,对于那些先前已被“错误”分类的样品不再提供重新分类的机会,而动态聚类法 (或称逐步聚类法)却允许样品从一个类移动到另一个类中。 动态聚类法的计算量要比建立在距离矩阵基础上的系统聚类法小得多。因此,使用动态聚类法计算机所能承受的样品数目n要远远超过使用系统聚类法所能承受的n。

动态聚类法的基本思想是,选择一批凝聚点或给出一个初始的分类,让样品按某种原则向凝聚点凝聚,对凝聚点进行不断的修改或迭代,直至分类比较合理或迭代稳定为止。类的个数k需先指定一个。 选择初始凝聚点(或给出初始分类)的一种简单方法是采用随机抽选(或随机分割)样品的方法,可以要求凝聚点之间至少应间隔某个距离值。 动态聚类法只能用于对样品的聚类,而不能用于对变量的聚类。 动态聚类法有许多种方法,在这一节中,我们将讨论一种比较流行的动态聚类法——k均值法。它是由麦奎因 (MacQueen,1967)提出并命名的一种算法。

k均值法的基本步骤 (1)选择k个样品作为初始凝聚点,或者将所有样品分成k个初始类,然后将这k个类的重心(均值)作为初始凝聚点。 (2)对所有的样品逐个归类,将每个样品归入凝聚点离它最近的那个类(通常采用欧氏距离),该类的凝聚点更新为这一类目前的均值,直至所有样品都归了类。 (3)重复步骤(2),直至所有的样品都不能再分配为止。

最终的聚类结果在一定程度上依赖于初始凝聚点或初始分类的选择。经验表明,聚类过程中的绝大多数重要变化均发生在第一次再分配中。 例6.4.1 对例6.3.1采用k均值法聚类,指定k=2,具体步骤如下: (1) 随意将这些样品分成 两类,则这两个初始类的均值分别是5和 。 (2)计算1到两个类(均值)的欧氏距离

1不用重新分配,计算6到两个类的距离 故6应重新分配到 中,修正后的两个类为 ,新的类均值分别为 。计算

结果8重新分配到 中,两个新类为 , ,其类均值分别为1和 。再计算 重新分配2到 中,两个新类为 ,其类均值分别为 。 (3)再次计算每个样品到类均值的距离,结果列于表6.4.1。 最终得到的两个类为{1,2}和{6,8,11}。

表6.4.1 各样品到类均值的距离

例6.4.2 对例6.3.3使用k均值法进行聚类,聚类前对各变量作标准化变换,聚类结果如下: 第Ⅰ类:北京、上海和浙江。 第Ⅱ类:广东。 第Ⅲ类:天津、江苏、福建、山东、湖南、广西、 重庆、四川和云南。 第Ⅳ类:河北、山西、内蒙古、辽宁、吉林、黑龙 江、安徽、江西、河南、湖北、海南、贵 州、陕西、甘肃、青海、宁夏和新疆。 第Ⅴ类:西藏。

由于k均值法对凝聚点的初始选择有一定敏感性,故再试一下其他初始的凝聚点也许是个不错的想法。如果不同初始凝聚点的选择产生明显不同的最终聚类结果,或者迭代的收敛是极缓慢的,那么可能表明没有自然的类可以形成。 k均值法有时也可用来改进系统聚类的结果,例如,先用类平均法聚类,然后将其各类的重心作为k均值法的初始凝聚点重新聚类,这可使得系统聚类时错分的样品能有机会获得重新的分类。不过,k均值法能否有效地改善系统聚类,我们不能一概而论,还应视聚类的最终结果而定。