第九单元 第3课 聚类分析 1.聚类分析 2.距离 3.相似系数 4.动态聚类法
1.聚类分析
将分类对象分成若干类,相似的归为同一类,不相似的归为不同的类。聚类分析分为Q型(分类对象为样品)和R型(分类对象为变量) 两种。 2
3.变量的测量尺度 通常变量按测量尺度的不同可以分为间隔、有序和名义尺度变量三类。 间隔尺度变量:变量用连续的量来表示,如长度、重量、速度、温度等。 有序尺度变量:变量度量时不用明确的数量表示,而是用等级来表示,如某产品分为一等品、二等品、三等品等有次序关系。 名义尺度变量:变量用一些类表示,这些类之间既无等级关系也无数量关系,如性别、职业、产品的型号等。
2.距离 设xij为第i个样品的第j个指标,数据矩阵列于表35.1。 变量 x1 x2 ⋯ xp 样品 1 x11 x12 x1p 2 x2 ⋯ xp 样品 1 x11 x12 x1p 2 x21 x22 x2p ⋮ n xn1 xn2 xnp
2.距离dij一般应满足的四个条件 (i)dij≥0,对一切i,j; (ii)dij=0,当且仅当第i个样品与第j个样品的各变量值相同; (iii)dij=dji,对一切i,j; (iv)dij≤dik+dkj,对一切i,j,k。
3.常用的距离 a.明考夫斯基(Minkowski)距离 b.兰氏(Lance和Williams)距离 c.马氏(Mahalanobis)距离 d.斜交空间距离 4.名义尺度变量的一种距离定义
例35.1 某高校举办一个培训班,从学员的资料中得到这样六个变量:性别(x1),取值为男和女;外语语种(x2),取值为英、日和俄;专业(x3),取值为统计、会计和金融;职业(x4),取值为教师和非教师;居住处(x5),取值为校内和校外;学历(x6),取值为本科和本科以下。现有两名学员: x1=(男,英,统计,非教师,校外,本科) x2=(女,英,金融,教师,校外,本科以下)′ 这两名学员的第二个变量都取值“英”,称为配合的,第一个变量一个取值为“男”,另一个取值为“女”,称为不配合的。一般地,若记配合的变量数为m1,不配合的变量数为m2,则它们之间的距离可定义为 ,故按此定义本例中x1与x2之间的距离为2/3。
3.相似系数 1.聚类分析方法不仅用来对样品进行分类,而且可用来对变量进行分类,在对变量进行分类时,常常采用相似系数来度量变量之间的相似性。 变量之间的这种相似性度量,在一些应用中要看相似系数的大小,而在另一些应用中要看相似系数绝对值的大小。 相似系数(或其绝对值)越大,认为变量之间的相似性程度就越高;反之,则越低。 聚类时,比较相似的变量倾向于归为一类,不太相似的变量归属不同的类。
2.相似系数一般需满足的条件 (1)cij=±1,当且仅当xi=axj+b,a(≠0)和b是常数; (2)|cij|≤1,对一切i,j; (3)cij=cji,对一切i,j。 3.夹角余弦 变量xi与xj的夹角余弦定义为 它是Rn中变量xi的观测向量(x1i,x2i,⋯,xni)′与变量xj的观测向量(x1j,x2j, ⋯,xnj)′之间夹角θij的余弦函数,即cij(1)=cosθij
4.相关系数 变量xi与xj的相关系数为 如果变量xi与xj是已标准化了的,则它们间的夹角余弦就是相关系数。 相似系数除常用来度量变量之间的相似性外有时也用来度量样品之间的相似性,同样,距离有时也用来度量变量之间的相似性。
4.动态聚类法 1.动态聚类法 基本思想:选择一批凝聚点或给出一个初始的分类,让样品按某种原则向凝聚点凝聚,对凝聚点进行不断的修改或迭代,直至分类比较合理或迭代稳定为止。类的个数k可以事先指定,也可以在聚类过程中确定。选择初始凝聚点(或给出初始分类)的一种简单方法是采用随机抽选(或随机分割)样品的方法。动态聚类法有许多种方法,这里只讨论一种比较流行的动态聚类法——k均值法。k均值法是由麦奎因(MacQueen,1967)提出并命名的一种算法
(1)选择k个样品作为初始凝聚点,或者将所有样品分成k个初始类,然后将这k个类的重心(均值)作为初始凝聚点。 (2)对除凝聚点之外的所有样品逐个归类,将每个样品归入凝聚点离它最近的那个类(通常采用欧氏距离),该类的凝聚点更新为这一类目前的均值,直至所有样品都归了类。 (3)重复步骤(2),直至所有的样品都不能再分配为止。 最终的聚类结果在一定程度上依赖于初始凝聚点或初始分类的选择。经验表明,聚类过程中的绝大多数重要变化均发生在第一次再分配中。 图34.1
例35.2 设有五个样品,每个只测量了一个指标,分别是1,2,6,8, 11,采用k均值法将它们分类。指定k=2,具体步骤如下: