Download presentation
Presentation is loading. Please wait.
1
多元统计分析 何晓群 中国人民大学出版社 2019/4/4 中国人民大学六西格玛质量管理研究中心
2
第三章 聚类分析 §3.1 聚类分析的思想 §3.2 相似性度量 §3.3 类和类的特征 §3.4 系统聚类法 §3.5 模糊聚类分析
§3.1 聚类分析的思想 §3.2 相似性度量 §3.3 类和类的特征 §3.4 系统聚类法 §3.5 模糊聚类分析 §3.6 K-均值聚类和有序样本聚类 §3.7 计算步骤与上机实现 §3.8 社会经济案例研究 2019/4/4 中国人民大学六西格玛质量管理研究中心
3
第三章 聚类分析 人们往往会碰到通过划分同种属性的对象很好地解决问题的情形,而不论这些对象是个体、公司、产品甚至行为。如果没有一种客观的方法,基于在总体内区分群体的战略选择,比如市场细分将不可能,其他领域也会遇到类似的问题,研究者都在基于一个多维剖面的观测中寻找某种“自然”结构。 为此最常用的技巧是聚类分析,聚类分析将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。目的在于使类间对象的同质性最大化和类与类间对象的异质性最大化。本章将介绍聚类分析的性质和目的,并且引导研究者使用各种聚类分析方法。 2019/4/4 3 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
4
§3.1 聚类分析的思想 3.1.1 导言 在古老的分类学中,人们主要靠经验和专业知识,很少利用数学方法。随着生产技术和科学的发展,分类越来越细,以致有时仅凭经验和专业知识还不能进行确切分类,于是数学这个有用的工具逐渐被引进到分类学中,形成了数值分类学。近些年来,数理统计的多元分析方法有了迅速的发展,多元分析的技术自然被引用到分类学中,于是从数值分类学中逐渐的分离出聚类分析这个新的分支。 2019/4/4 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
5
§3.1 聚类分析的思想 我们认为,所研究的样品或指标(变量)之间是存在着程度不同的相似性(亲疏关系)。于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间的相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另外一类,…。关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统。最后再把整个分类系统画成一张分群图(又称谱系图),用它把所有的样品(或指标)间的亲疏关系表示出来。 2019/4/4 5 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
6
§3.1 聚类分析的思想 在经济、社会、人口研究中,存在着大量分类研究、构造分类模式的问题。过去人们主要靠经验和专业知识,作定性分类处理,致使许多分类带有主观性和任意性,不能很好的提示客观事物内在的本质差别和联系,特别是对于多因素、多指标的分类问题,定性分类更难以实现准确分类。 2019/4/4 6 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
7
§3.1 聚类分析的思想 为了克服定性分类时存在的不足,数学这个有用的工具逐渐被引进到分类学中,形成数值分类学。后来随着多元分析的引进,聚类分析可以用来对案例进行分类,也可以用来对变量进行分类。 对样品的分类常称为Q型聚类分析,对变量的分类常称为R型聚类分析。 与多元分析的其他方法相比,聚类分析的方法是很粗糙的,理论上还不完善,但由于它能解决许多实际问题,很受人们的重视,和回归分析、判别分析一起被称为多元分析的三大方法。 2019/4/4 7 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
8
§3.1 聚类分析的思想 3.1.2 聚类的目的 在一些社会、经济问题中,我们面临的往往是比较复杂的研究对象,如果能把相似的样品(或指标)归成类,处理起来就大为方便,聚类分析的目的就是把相似的研究对象归成类。 【例3.1】若我们需要将下列11户城镇居民按户主个人的收入进行分类,对每户作了如下的统计,结果列于表3.1。在表中,“标准工资收入” 、“职工奖金” 、“职工津贴” 、“性别” 、“就业身份”等称为指标,每户称为样品。若对户主进行分类,还可以采用其他指标,如“子女个数” 、“政治面貌” 等,指标如何选择取决于聚类的目的。 2019/4/4 8 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
9
§3.1 聚类分析的思想 2019/4/4 9 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
10
§3.1 聚类分析的思想 例3.1中的8个指标,前6个是定量的,后2个是定性的。如果分得更细一些,指标的类型有三种尺度
§3.1 聚类分析的思想 例3.1中的8个指标,前6个是定量的,后2个是定性的。如果分得更细一些,指标的类型有三种尺度 间隔尺度。变量用连续的量来表示。 有序尺度。指标用有序的等级来表示,有次序关系,但没有数量表示。 名义尺度。指标用一些类来表示,这些类之间没有等级关系也没有数量关系。 不同类型的指标,在聚类分析中,处理的方式是大不一样的。总的来说,提供给间隔尺度的指标的方法较多,对另两种尺度的变量处理的方法不多。 2019/4/4 10 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
11
§3.1 聚类分析的思想 聚类分析根据实际的需要可能有两个方向,一是对样品(如例3.1中的户主),一是对指标聚类。
§3.1 聚类分析的思想 聚类分析根据实际的需要可能有两个方向,一是对样品(如例3.1中的户主),一是对指标聚类。 第一位重要的问题是“什么是类”?粗糙地讲,相似样品(或指标)的集合称作类。由于经济问题的复杂性,欲给类下一个严格的定义是困难的,在§3.2中,我们将给类一些待探讨的定义。 聚类分析给人们提供了丰富多采的方法进行分类,这些方法大致可归纳为:(1) 系统聚类法。(2)模糊聚类法。(3) K-均值法。(4) 有序样品的聚类。(5) 分解法。(6) 加入法。 2019/4/4 11 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
12
§ 相似性度量 从一组复杂数据产生一个相当简单的类结构,必然要求进行“相关性”或“相似性“度量。在相似性度量的选择中,常常包含许多主观上的考虑,但是最重要的考虑是指标(包括离散的、连续的和二态的)性质或观测的尺度(名义的、次序的、间隔的和比率的)以及有关的知识。 当对样品进行聚类时,“靠近”往往由某种距离来刻画。另一方面,当对指标聚类时,根据相关系数或某种关联性度量来聚类。 2019/4/4 12 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
13
§ 相似性度量 2019/4/4 13 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
14
§ 相似性度量 2019/4/4 14 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
15
§ 相似性度量 2019/4/4 15 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
16
§3.2 相似性度量 (1)当各指标的测量值相差悬殊时,先对数据标准化,然后用标准化后的数据计算距离,即兰氏距离。
§ 相似性度量 (1)当各指标的测量值相差悬殊时,先对数据标准化,然后用标准化后的数据计算距离,即兰氏距离。 (2)一种改进的距离就是在前面曾讨论过的马氏距离,它对一切线性变换是不变的,不受指标量纲的影响。它对指标的相关性也作了考虑,我们仅用一个例子来说明。 2019/4/4 16 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
17
§ 相似性度量 2019/4/4 17 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
18
§ 相似性度量 2019/4/4 18 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
19
§3.2 相似性度量 以上几种距离均是适用于间隔尺度的变量,如果指标是有序尺度或名义尺度时也有一些定义距离的方法。
§ 相似性度量 以上几种距离均是适用于间隔尺度的变量,如果指标是有序尺度或名义尺度时也有一些定义距离的方法。 2019/4/4 19 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
20
§3.2 相似性度量 定义距离的较灵活的思想方法。
§ 相似性度量 定义距离的较灵活的思想方法。 【例3.3】 欧洲各国的语言有许多相似之处,有的十分相似。为了研究这些语言的历史关系,也许通过比较它们数字的表达比较恰当。表3.3列举了英语、挪威语、丹麦语、荷兰语、德语、法语、西班牙语、意大利语、波兰语、匈牙利语和芬兰语的1,2,…,10的拼法,希望计算这11种语言之间的距离。 2019/4/4 20 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
21
§ 相似性度量 显然,此例无法直接用上述公式来计算距离,仔细观察表3.3,发现前三种文字(英、挪、丹)很相似,尤其每个单词的第一个字母,于是产生一种定义距离的办法:用两种语言的10个数词中的第一个字母不相同的个数来定义两种语言之间的距离,例如英语和挪威语中只有1和8的第一个字母不同,故它们之间的距离为2。十一种语言之间两两的距离列于表3.4中。 2019/4/4 21 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
22
§ 相似性度量 2019/4/4 22 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
23
§3.2 相似性度量 对于间隔尺度,常用的相似系数有:
§ 相似性度量 对于间隔尺度,常用的相似系数有: (1) 夹角余弦。这是受相似形的启发而来,图3.1中的曲线AB和CD尽管长度不一,但形状相似,当长度不是主要矛盾时,应定义一种相似系数使AB和CD呈现出比较密切的关系。而夹角余弦适合这一要求。 2019/4/4 23 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
24
§ 相似性度量 2019/4/4 24 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
25
§3.2 相似性度量 (2) 相关系数。这是大家最熟悉的统计量,它是将数据标准化后的夹角余弦。
§ 相似性度量 (2) 相关系数。这是大家最熟悉的统计量,它是将数据标准化后的夹角余弦。 有时指标之间也可用距离来描述它们的接近程度。实际上距离和相似系数之间可以互相转化, 2019/4/4 25 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
26
§ 3.3 类和类的特征 目的是聚类,那么什么叫类呢?由于客观事物的千差万别,在不同的问题中类的含义是不尽相同的。给类下一个严格的定义,决非易事。 下面给出类的适用于不同的场合几个定义。 2019/4/4 26 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
27
§ 3.3 类和类的特征 2019/4/4 27 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
28
§ 3.3 类和类的特征 易见,定义3.1的要求是最高的,凡符合它的类,一定也是后三种定义的类。此外,凡符合定义3.2的类,也一定是定义3.3的类。 2019/4/4 28 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
29
§ 3.3 类和类的特征 2019/4/4 29 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
30
§ 3.3 类和类的特征 在聚类分析中,不仅要考虑各个类的特征,而且要计算类与类之间的距离。由于类的形状是多种多样的,所以类与类之间的距离也有多种计算方法。 2019/4/4 30 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
31
§ 3.3 类和类的特征 (1) 最短距离法。(nearest neighbor或single linkage method)
§ 3.3 类和类的特征 (1) 最短距离法。(nearest neighbor或single linkage method) 2019/4/4 31 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
32
§ 3.3 类和类的特征 (2) 最长距离法(farthest neighbor或complete linkage method)。
§ 3.3 类和类的特征 (2) 最长距离法(farthest neighbor或complete linkage method)。 2019/4/4 32 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
33
§ 3.3 类和类的特征 (3) 类平均法(group average method)。 中国人民大学六西格玛质量管理研究中心
§ 3.3 类和类的特征 (3) 类平均法(group average method)。 2019/4/4 33 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
34
§ 3.3 类和类的特征 (4) 重心法(Centroid method)。
§ 3.3 类和类的特征 (4) 重心法(Centroid method)。 (5) 离差平方和法(Sum of Squares method)。 2019/4/4 34 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
35
§3.4 系统聚类法 系统聚类法(hierarchical clustering method)在聚类分析中诸方法中用的最多,包含下列步骤:
§ 系统聚类法 系统聚类法(hierarchical clustering method)在聚类分析中诸方法中用的最多,包含下列步骤: 2019/4/4 35 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
36
§3.4 系统聚类法 不同的距离定义方式用到系统聚类程序中,得到不同的系统聚类法。我们现在通过一个简单的例子,来说明各种系统聚类法。
§ 系统聚类法 不同的距离定义方式用到系统聚类程序中,得到不同的系统聚类法。我们现在通过一个简单的例子,来说明各种系统聚类法。 【例3.4】 为了研究辽宁等5省份2000年城镇居民消费支出的分布规律,根据调查资料作类型划分。指标名称及原始数据见表3.5。资料来源[10] 2019/4/4 36 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
37
§ 系统聚类法 2019/4/4 37 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
38
§3.4 系统聚类法 3.4.1 最短距离法和最长距离法 所谓最短距离法就是类与类之间的距离采用(3.12)的系统聚类方法。
§ 系统聚类法 3.4.1 最短距离法和最长距离法 所谓最短距离法就是类与类之间的距离采用(3.12)的系统聚类方法。 2019/4/4 38 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
39
§ 系统聚类法 2019/4/4 39 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
40
§ 系统聚类法 2019/4/4 40 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
41
§ 系统聚类法 2019/4/4 41 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
42
§ 系统聚类法 2019/4/4 42 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
43
§ 系统聚类法 所谓最长距离法是类与类之间的距离采用(3.13)的系统聚类法。选择最大的距离作为新类与其他类之间的距离,然后将类间距离最小的两类进行合并,一直合并到只有一类为止。 上述两方法中,主要的不同是计算新类与其他类的距离的递推公式不同。 2019/4/4 43 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
44
§ 系统聚类法 最短距离法也可用于对指标的分类,分类时可以用距离也可以用相似系数。但用相似系数时应找最大的元素并类,计算新类与其他类的距离应使用公式(3.19)。 最短距离法的主要缺点是它有链接聚合的趋势,因为类与类之间的距离为所有距离中的最短者,两类合并以后,它与其他类的距离缩小了,这样容易形成一个比较大的类,大部分样品都被聚在一类中,在树状聚类图中,会看到一个延伸的链状结构,所以最短距离法的聚类效果并不好,实际中不提倡使用。 2019/4/4 44 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
45
§ 系统聚类法 最长距离法克服了最短距离法链接聚合的缺陷,两类合并以后与其他类的距离是原来两个类中的距离最大者,加大了合并后的类与其他类的距离。 本例中最短距离法与最长距离法得到的结果是相同的。 2019/4/4 45 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
46
§ 系统聚类法 3.4.2 重心法和类平均法 从物理的观点看,一个类用它的重心(该类样品的均值)做代表比较合理,类与类之间的距离就用重心之间的距离来代表。 2019/4/4 46 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
47
§ 系统聚类法 重心法虽有很好的代表性,但并未充分利用各样本的信息,有人建议将两类之间的距离平方定义为这两类元素两两之间的平均平方距离,即类平均法。 类平均法是聚类效果较好、应用比较广泛的一种聚类方法。它有两种形式,一种是组间联结法(Between-groups linkage),另一种是组内联结法(Within-groups linkage)。组间联结法在计算距离时只考虑两类之间样品之间距离的平均,组内联结法在计算距离时把两组所有个案之间的距离都考虑在内。 2019/4/4 47 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
48
§ 系统聚类法 2019/4/4 48 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
49
§3.4 系统聚类法 3.4.3 离差平方和法(或称Ward方法)
§ 系统聚类法 3.4.3 离差平方和法(或称Ward方法) 离差平方和方法是由Ward提出来的,许多资料上称做Ward法。他的思想是来于方差分析,如果类分得正确,同类样品的离差平方和应当较小,类与类之间的离差平方和应当较大。 2019/4/4 49 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
50
§ 系统聚类法 2019/4/4 50 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
51
§ 系统聚类法 离差平方和法放弃了在一切分类中求的极小值的要求,而是设计出某种规格:找到一个局部最优解,Ward法就是找局部最优解的一个方法。 其思想是先将n个样品各自成一类,然后每次缩小一类,每缩小一类离差平方和就要增大,选择使增加最小的两类合并,直到所有的样品归为一类为止。 2019/4/4 51 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
52
§3.4 系统聚类法 3.4.4 分类数的确定 如何选择分类数是各种聚类方法中的主要问题之一。
§ 系统聚类法 3.4.4 分类数的确定 如何选择分类数是各种聚类方法中的主要问题之一。 在K均值聚类法中聚类之前需要指定分类数,谱系聚类法(系统聚类法)中我们最终得到的只是一个树状结构图,从图中可以看出存在很多类,但问题是如何确定类的最佳个数。 确定分类数的问题是聚类分析中迄今为止尚未完全解决的问题之一,主要的障碍是对类的结构和内容很难给出一个统一的定义,这样就给不出从理论上和实践中都可行的虚无假设。 实际应用中人们主要根据研究的目的,从实用的角度出发,选择合适的分类数。 2019/4/4 52 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
53
§3.4 系统聚类法 Demir-men曾提出了根据树状结构图来分类的准则:
§ 系统聚类法 Demir-men曾提出了根据树状结构图来分类的准则: 准则1:任何类都必须在邻近各类中是突出的,即各类重心之间距离必须大。 准则2:各类所包含的元素都不要过分地多。 准则3:分类的数目应该符合使用的目的。 准则4:若采用几种不同的聚类方法处理,则在各自的聚类图上应发现相同的类。 系统聚类中每次合并的类与类之间的距离也可以作为确定类数的一个辅助工具。首先把离得近的类合并,在并类过程中聚合系数呈增加趋势,聚合系数小,表示合并的两类的相似程度较大,两个差异很大的类合到一起,会使该系数很大。 如果以y轴为聚合系数,x轴表示分类数,画出聚合系数随分类数的变化曲线,会得到类似于因子分析中的碎石图,可以在曲线开始变得平缓的点选择合适的分类数。 2019/4/4 53 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
54
§ 系统聚类法 3.4.5 系统聚类法的统一 上面介绍的五种系统聚类法,并类的原则和步骤是完全一样的,所不同的是类与类之间的距离有不同的定义,从而得到不同的递推公式,如果能将它们统一为一个公式,将大大有利于编制计算机程序。Lance和Williams于1967年给出了一个统一的公式 2019/4/4 54 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
55
§ 系统聚类法 一般而言,不同的方法聚类的结果不完全相同。最短距离法适用于条形的类。最长距离法、重心法、类平均法、离差平方和法适用于椭圆形的类。 . 2019/4/4 55 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
56
§ 系统聚类法 由于上述的聚类方法得到的结果是不完全相同的。于是产生一个问题:我们应当选择哪一个结果为好?为了解决这个问题,需要研究系统聚类法的性质,现简要介绍如下。 2019/4/4 56 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
57
§ 系统聚类法 2019/4/4 57 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
58
§ 系统聚类法 关系统聚类法的性质,还可从其他角度提出了比较优与劣的原则。将n个样品,欲分为k类,有人定义一个分类函数(或叫损失函数),然后寻找这个函数的最优解,在某些条件下,最短距离法的解是最优的,而系统聚类法的其他方法都不具有这个性质(参见[6]、[7]),故最短距离法在实际中也很被推崇。系统聚类法的各种方法的比较仍是值得研究的一个课题,例如,有人用随机模拟作了研究,发现最长距离法不可取。 2019/4/4 58 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
59
§ 模糊聚类分析 模糊集的理论是二十世纪六十年代中期美国的自动控制专家查德(L.A.Zadeh)教授首先提出的。模糊集的理论已广泛应用于许多领域,将模糊集概念用到聚类分析中便产生了模糊聚类分析。 3.5.1 模糊聚类的几个基本概念 1.特征函数 2019/4/4 59 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
60
§ 模糊聚类分析 2. 隶属函数。 当我们要了解某企业完成年计划利润程度的大小时,仅用特征函数就不够了。模糊数学把它推广到[0,1]闭区间,即用0和1之间的一个数去度量它。这个数就叫隶属度。当用函数来表示隶属度的变化规律时,就叫做隶属函数。 3. 模糊矩阵的运算法则。 2019/4/4 60 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
61
§ 3.5 模糊聚类分析 3.5.2 模糊分类关系 1.乘积空间 2.分类关系 中国人民大学六西格玛质量管理研究中心 2019/4/4 61
§ 模糊聚类分析 3.5.2 模糊分类关系 1.乘积空间 2.分类关系 2019/4/4 61 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
62
§ 3.5 模糊聚类分析 模糊聚类分析的实质就是根据研究对象本身的属性而构造模糊矩阵,在此基础上根据一定的隶属度来确定其分类关系。
§ 模糊聚类分析 模糊聚类分析的实质就是根据研究对象本身的属性而构造模糊矩阵,在此基础上根据一定的隶属度来确定其分类关系。 2019/4/4 62 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
63
§ 模糊聚类分析 2019/4/4 63 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
64
§ 模糊聚类分析 2019/4/4 64 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
65
§ 3.5 模糊聚类分析 3.5.3 模糊聚类分析计算步骤 1.对原始数据进行变换。变换方法通常有标准化变换、极差变换、对数变换等。
§ 模糊聚类分析 3.5.3 模糊聚类分析计算步骤 1.对原始数据进行变换。变换方法通常有标准化变换、极差变换、对数变换等。 2019/4/4 65 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
66
§ 模糊聚类分析 2019/4/4 66 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
67
§ 模糊聚类分析 2019/4/4 67 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
68
§ 3.6 K-均值聚类和有序样品的聚类 3.6.1 K-均值法(快速聚类法)
非谱系聚类法或者一开始就对元素分组,或者从一个构成各类核心的“种子”集合开始。选择好的初始构形,将能免除系统的偏差。一种方法是从所有项目中随机地选择“种子”点或者随机地把元素分成若干个初始类。 2019/4/4 68 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
69
§ 3.6 K-均值聚类和有序样品的聚类 K-均值法, 又叫快速聚类法,是Macqueen于1967年提出的,其思想是把每个样品聚集到其最近形心(均值)类中去。在它的最简单说明中,这个过程由下列三步所组成: 把样品粗略分成K个初始类; 进行修改,逐个分派样品到其最近均值的类中去(通常用标准化数据或非标准化数据计算欧氏距离)。重新计算接受新样品的类和失去样品的类的形心(均值); 重复第2步,直到各类无元素进出。 2019/4/4 69 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
70
§ 3.6 K-均值聚类和有序样品的聚类 若不在一开始就粗略地把样品分到K个预先指定的类(第1步),那我们也可以指定K个最初形心(种子点),然后进行第2步。 样品的最终聚类在某种程度上依赖于最初的划分,或种子点的选择。 为了检验聚类的稳定性,可用一个新的初始分类重新检验整个聚类算法。如最终分类与原来一样,则不必再行计算;否则,须另行考虑聚类算法。见[11] 2019/4/4 70 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
71
§ 3.6 K-均值聚类和有序样品的聚类 3.6.2 有序样品的聚类
在前几节的讨论中,分类的样品是相互独立的,分类时彼此是平等的。但在有些实际问题中,要研究的现象与时间的顺序密切相关。例如我们想要研究,从1949年到2003年以来,国民收入可以划分为几个阶段,阶段的划分必须以年份顺序为依据,总的想法是要将国民收入接近的年份划分到一个段内,要完成类似这样的问题的研究,用前几节分类的方法显然是不行了。 2019/4/4 71 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
72
§ 3.6 K-均值聚类和有序样品的聚类 对于这类有序样品的分类,实质上是需要找出一些分点,将它们划分成几个分段,每个分段看作一类,称这种分类为分割。显然,分点在不同位置可以得到不同的分割。这样就存在一个如何决定分点,使达到所谓最优分割的问题。即要求一个分割能使各段内部样品间的差异最小,而各段之间样品的差异最大。这就是决定分割点的依据。 2019/4/4 72 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
73
§ 3.6 K-均值聚类和有序样品的聚类 1、可能的分类数目 中国人民大学六西格玛质量管理研究中心 2019/4/4 73
目录 上页 下页 返回 结束
74
§ 3.6 K-均值聚类和有序样品的聚类 2、最优分割法 中国人民大学六西格玛质量管理研究中心 2019/4/4 74
目录 上页 下页 返回 结束
75
§ 3.6 K-均值聚类和有序样品的聚类 2019/4/4 75 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
76
§ 3.6 K-均值聚类和有序样品的聚类 2019/4/4 76 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
77
§ 3.6 K-均值聚类和有序样品的聚类 2019/4/4 77 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
78
§3.7 计算步骤与上机实践 本书以SPSS15.0和S-Plus2000两种软件来说明前面讲述的几种聚类法的实现过程。具体步骤如下:
§3.7 计算步骤与上机实践 本书以SPSS15.0和S-Plus2000两种软件来说明前面讲述的几种聚类法的实现过程。具体步骤如下: 分析所需要研究的问题,确定聚类分析所需要的多元变量; 选择对样品聚类还是对指标聚类; 选择合适的聚类方法; 选择所需的输出结果。 我们将实现过程用逻辑框图表示为图3.8。 2019/4/4 78 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
79
§3.7 计算步骤与上机实践 2019/4/4 79 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
80
§3.7 计算步骤与上机实践 3.7.1 系统聚类法 用SPSS软件自带的数据文件World95.sav来做一个实例分析。
§3.7 计算步骤与上机实践 3.7.1 系统聚类法 用SPSS软件自带的数据文件World95.sav来做一个实例分析。 为了研究亚洲国家的经济发展水平和文化教育水平,以便于对亚洲国家进行分类研究,这里我们进行聚类分析(在World95.sav数据中筛选出亚洲国家,使用Data→Select Cases→If condition is satisfied中选入region=3)。 详细步骤如下: (1) 打开数据。使用菜单中File→Open命令,然后选中要分析的数据World95.sav。 2019/4/4 80 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
81
§3.7 计算步骤与上机实践 (2)在菜单中的选项中选择Analyze→Classify命令,Classify命令下有两个聚类分析命令,一是K-means cluster(K-均值聚类),二是Hierarchical cluster(系统聚类法)。这里我们选择系统聚类法。 (3) 在系统聚类法中,我们看到Cluster下有两个选项,Cases(样品聚类或Q型聚类)和Variables (变量聚类或R型聚类)。这里我们选择对样品进行聚类。 (4) Display下面有两个选项,分别是Statistics (统计量)、Plots(输出图形),我们可以选择所需要输出的统计量和图形。 2019/4/4 81 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
82
§3.7 计算步骤与上机实践 (5) 在系统聚类法中底下有四个按纽,分别是Statistics、Plots、Method、Save。
§3.7 计算步骤与上机实践 (5) 在系统聚类法中底下有四个按纽,分别是Statistics、Plots、Method、Save。 (a)在Statistics中,有Agglomeration schedule(每一阶段聚类的结果),Proximity matrix(样品间的相似性矩阵)。由Cluster membership可以指定聚类的个数,none选项不指定聚类个数,Single solution指定一个确定类的个数,Range of solution指定类的个数的范围(如从分3类到分5类)。 (b)在Plots中,有Dendrogram(谱系聚类图,也称树状聚类图)、Icicle(冰柱图)、Orientation指冰柱图的方向(Horizontal 水平方向、Vertical垂直方向)。 (c)在Method中, Cluster可以选择聚类方法,Measure中可以选择计算的距离。 (d)在Save中,可以选择保存聚类结果。 选好每个选项后,点“OK”就可以执行了。 2019/4/4 82 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
83
§3.7 计算步骤与上机实践 在这个数据文件中,我们选择的变量(Variables(s))有Urban(城市人口比例),Lifeexpf(女性平均寿命)、Lifeexpm(男性平均寿命)、Literacy(有读写能力的人所占比例)、Gdp_cap(人均国内生产总值),以Country(国家或地区)来标识(Label Cases)本例中的17个亚洲国家或地区,并以其他5个变量进行Q型聚类分析,即对国家进行聚类。 这里我们将原始变量标准化(在Method选项下Transform Values的Standardize空白框内,选择Z Scores),在Statistics选项中选择Agglomeration Schedule,聚类方法选择组内联结法(Within-group linkage),计算距离选择平方欧氏距离,输出冰柱图和树状聚类图。得到的结果如下: 2019/4/4 83 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
84
§3.7 计算步骤与上机实践 2019/4/4 84 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
85
§3.7 计算步骤与上机实践 2019/4/4 85 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
86
§3.7 计算步骤与上机实践 将表3-8的聚合系数利用Excel作出聚合系数随分类数变化曲线,如图3-13.
§3.7 计算步骤与上机实践 将表3-8的聚合系数利用Excel作出聚合系数随分类数变化曲线,如图3-13. 2019/4/4 86 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
87
§3.7 计算步骤与上机实践 2019/4/4 87 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
88
§3.7 计算步骤与上机实践 输出结果中,表3.9表示接近度矩阵,是反映样品之间相似性或者相异性的矩阵。本例中由于计算距离使用的是平方欧氏距离,所以样品间距离越大,样品越相异,如果我们计算距离选择Pearson相关系数,则接近度矩阵是相似性矩阵。由表中矩阵可以看出,Bangladesh(孟加拉国)与Cambodia(柬埔寨)的距离是最小的,因此它们最先聚为一类。 图3.9是冰柱图,也是反映样品聚类情况的图,如果按照设定的类数,在那类数的行上从左到右就可以找到各类所包含的样品。比如我们希望分为三类,最左边的类数应选3,每个样品右边都有一列X,如果某个样品右边的X个数少于3,那么它和前面多于3个X的样品聚为一类,如此下去,直到找到全部三类为止。例如,Hong Kong右边的列只有两个X,那么它就与Japan和Singapore聚为一类了,而China右边的列只有一个X,那么从Taiwan到China又被聚为一类,后面样品聚为另一类。 2019/4/4 88 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
89
§3.7 计算步骤与上机实践 表3.10是反映每一阶段聚类的结果,Coefficients表示聚合系数,第2列和第3列表示聚合的类,比如第一阶段时(Stage=1)第2个样品——Bangladesh(孟加拉国)与第三个样品——Cambodia(柬埔寨)聚为一类,注意这时有16类(17-1=16)。因此某阶段的分类数等于总的样品数减去这个阶段的序号。 图3.10是聚合系数随分类数变化的曲线。由图可以看出,当分类数为3或4时, 曲线变得比较平缓,这个分类数也符合我们分类的目的。 2019/4/4 89 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
90
§3.7 计算步骤与上机实践 图3.11是树状聚类图,从图中可以由分类个数得到分类情况。如果我们选择分类数为3,就从距离为10的地方往下切,得到分类结果如下。{1:孟加拉国、柬埔寨、阿富汗、印度、巴基斯坦};{2:香港、新加坡、日本};{3:泰国、越南、中国、印度尼西亚、马来西亚、菲律宾、韩国、台湾和朝鲜}。我们可以从经济发展水平和文化教育水平来理解所作的分类。第2类应该是亚洲国家中经济发达程度最高的国家或地区,第1类的经济水平和文教水平都比较低,第3类国家的经济水平和文教水平居中。 2019/4/4 90 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
91
§3.7 计算步骤与上机实践 3.7.2 快速聚类法(K-means cluster)。
§3.7 计算步骤与上机实践 3.7.2 快速聚类法(K-means cluster)。 同样我们使用上面的数据文件World95.sav,从中筛选出亚洲国家,试图将亚洲国家按经济和文教水平分为3类。可以使用快速聚类法对样品进行聚类。 我们使用的变量有Country(国家或地区)、Urban(城市人口比例),Lifeexpf(女性平均寿命)、Lifeexpm(男性平均寿命)、Literacy(有读写能力的人所占比例)、Gdp_cap(人均国内生产总值),以Country来标识本例中的17个亚洲国家或地区,并以其他5个变量进行Q型聚类分析,即对国家进行聚类。 2019/4/4 91 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
92
§3.7 计算步骤与上机实践 在SPSS软件中选择Analyze→Classify→K-Means Cluster。进入K-均值聚类对话框以后,将上面5个变量选入Variable,将Country用于标识(Label cases by)。将分类数(Number of clusters)定为3。我们可以在Option选项中选择Initial cluster center(最初分类重心),ANOVA(方差分析表),Cluster information for each case(每个样品的分类信息)。得到如下分类结果: 2019/4/4 92 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
93
§3.7 计算步骤与上机实践 2019/4/4 93 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
94
§3.7 计算步骤与上机实践 2019/4/4 94 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
95
§3.7 计算步骤与上机实践 输出结果中表3.9表示最初各类的重心,也就是种子点。表3.10是样品的分类情况。这里我们看到快速聚类法将亚洲国家或地区分为这样3类。{1:阿富汗、孟加拉国、柬埔寨、中国、印度、印度尼西亚、马来西亚、朝鲜、巴基斯坦、泰国、越南}。{2:香港、日本、新加坡}。{3:韩国、台湾}。我们也可以对分类结果做分析。第1类国家或地区经济和文教卫生水平较低。第2类国家或地区是亚洲国家或地区中的佼佼者,其经济发达程度和文教卫生水平都是很高的。第3类国家或地区处于两者中间。这个结果可以结合表3.13(最后各类的重心)来分析,我们看到第2类的人均GDP比另外两组要高。 表3.12是方差分析表,但是应当注意值只能作为描述所用,而不能根据该值判断各类均值是否有显著差异。通过方差分析表我们可以看出,有4个变量对分类贡献显著。 2019/4/4 95 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
96
§3.7 计算步骤与上机实践 三、模糊聚类法 继续使用上面的例子,希望将亚洲国家或地区分成3类进行分析研究。这里我们使用S-Plus2000软件。 进入S-Plus软件以后,首先打开上述数据文件,可以用File→Import Data→From File,然后选择数据形式为*.sav(SPSS数据)。打开数据后,使用Statistics→Cluster Analysis→ Fuzzy Partitioning实现模糊聚类分析。 在Variables中选择Urban(城市人口比例),Lifeexpf(女性平均寿命)、Lifeexpm(男性平均寿命)、Literacy(有读写能力的人所占比例)、Gdp_cap(人均国内生产总值)进行Q型聚类分析,即对国家或地区进行聚类。在Option选项中指定类的个数为3。选择好变量以后,点“OK”就可以得到结果。我们还选择了Plot选项中的Cluster Plot(分类图)和Silhouette Plot(侧影图)两个图输出。得到以下结果。 2019/4/4 96 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
97
§3.7 计算步骤与上机实践 2019/4/4 97 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
98
§3.7 计算步骤与上机实践 2019/4/4 98 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
99
§3.7 计算步骤与上机实践 表3.15是各类的分类系数,由于我们指定分为3类,某个样品在这3类中的某类上系数最大,则将该样品聚为该类。比如第1个样品在第1类的系数最大,说明第1个样品在第1类中。 表3.16是聚类结果。由结果可以看出,与K-均值快速聚类得到的结果是完全一致的。 图3.12是样品的分类图,由图可以看出,各类很明显地被分开。 图3.13是样品的侧影图,类似于水平的冰柱图或者树形图,可以看出三类中,各类包含哪些样品。 我们看到此例中,由模糊聚类得到的结果与K-均值聚类得到的结果是一样的。同时我们应该看到这种分类带有较强的主观性,而且分类结果也比较粗糙。一般仅适合于对大量数据的快速聚类。 2019/4/4 99 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
100
§ 社会经济案例研究 例3.5 城镇居民消费水平通常用表3.15中的八项指标来描述,八项指标间存在一定的线性相关。为研究城镇居民的消费结构,需将相关性强的指标归并到一起,这实际就是对指标聚类。原始数据列于表3.15。 将原始数据录入SPSS,并依次点击“Analyze”→ “Correlate” →“Bivariate”,打开Bivariate Correlations对话框,把八个变量选入Variables栏中,单击“OK”,得到这八个指标对应的相关系数,列于表3.16。 2019/4/4 100 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
101
§ 社会经济案例研究 2019/4/4 101 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
102
§ 社会经济案例研究 表3.16中最大的相关系数为r4,8=0.837,将G4和G8并成一新类G9,然后计算G9与各类的相关系数,再找最大的相关系数,每次缩小一类得图3-17。 我们可以看出全国城镇居民得消费结构大致可以分为三个方面,一类是各种副食、日用品及交通通信、文化教育和住房等支出,这是在消费结构中起主导作用的方面;其次是居民购买烟、酒、饮料及着装支出;粮食和水电燃料是两项很重要的消费指标,但目前在城镇居民的消费中占的比例较小,可将它们归并为同一类。 2019/4/4 102 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
103
§ 社会经济案例研究 上面介绍的几种系统聚类方法,并类的原则和步骤基本一致,所不同的是类与类的距离有不同的定义。其实可以把这几种方法统一起来,有利于在计算机上灵活地选择更有意义的谱系图。 2019/4/4 103 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
104
§3.8 社会经济案例研究 对例3.5,我们采用欧氏距离分别用类平均法、最短距离法、最长距离法把31个省市分类。
§ 社会经济案例研究 对例3.5,我们采用欧氏距离分别用类平均法、最短距离法、最长距离法把31个省市分类。 类平均法聚类在SPSS中的操作为:点选“Analyze”→“Classify” →“Hierarchical Cluster”,打开Hierarchical Cluster Analysis对话框,将八个聚类指标选入Variables栏中,将表示地区的变量选入Label Cases By栏中,按“Plots”按钮,在弹出的窗口中选中Dendrogram(谱系图)选项,按“Continue”返回主对话框,在按“Method”按钮,在Cluster Method下拉菜单中选择Between-groups linkage(组间连接法,即类平均法)选项,返回主对话框后按“OK”即可得到聚类结果。 2019/4/4 104 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
105
§ 社会经济案例研究 最短距离法和最长距离法操作步骤与类平均法一样,只不过要在Cluster Method下拉菜单中分别选择Nearest Neighbor和Furthest Neighbor选项。图3.18、图3.19、图3.20分别显示了三种方法的分类结果。为便于对照,将三种方法分类的结果综合列于表3.18。 直观看出,类平均法分为三类:{1,9,11,19}为第一类,{13,2,22,10}为第二类,其他为第三类;最短距离法分为两类,{1,9,11,19}为一类,其余的省市归为一大类;最长距离法也分为三类:{1,9,11,19}为第一类,{10,22,2,13,26}为第二类,其余的省市为第三类。很显然,这三种方法的分类效果是有差异的。 2019/4/4 105 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
106
§ 社会经济案例研究 那么究竟采用哪一种分类为好呢?一种方法是根据分类问题本身的知识来决定取舍。另一种方法是将几种方法的共性取出来,有争议的样品根据其实际情况再划分。综合考虑这两点,笔者认为从全国各省、市、区的消费情况来看,分为三类较为合适。 由分类结果可以看出,类平均法和最长距离法的分类结果基本上一致,只是在西藏应该划入第二类还是第三类上存在差异,从表3.15的实际情来看,西藏的经济发展和消费水平与始终处在第二类的福建、天津、重庆和江苏有较大差距,因此划入第三类较为合适,即这个聚类分析用类平均法较为合适。 2019/4/4 106 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
107
§ 社会经济案例研究 2019/4/4 107 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
108
§ 社会经济案例研究 2019/4/4 108 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
109
§ 社会经济案例研究 例3.6 我们仍以2005年31个省、市、自治区的城镇居民月平均消费支出数据为例,在SPSS中利用K-均值法对31个省、市、自治区的城镇居民消费水平进行聚类分析。 在SPSS中依次点击“Analyze”→“Classify” →“K-Means Cluster”,打开K-Means Cluster Analysis对话框,将8个变量选入Variable框中,将表示地区的变量选入Label Cases By栏中,将分类数(Number of clusters)定为3。另外,点击Iterate按钮可以在其中输入最大迭代次数(Maximum iterations)和收敛标准(Convergence criterion);在Save按钮中可以选择保存样本的聚类结果(Cluster membership)和各样本距各自中心点的距离(Distance from cluster center);在Options按钮中可以选择输出初始类中心点、方差分析表等结果,读者可以根据实际情况来选择。点击“OK”得到聚类结果如下: 2019/4/4 109 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
110
§ 社会经济案例研究 2019/4/4 110 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
111
§ 社会经济案例研究 其中第一个表显示了3个类的初始类中心情况,可以看出,第一类的各指标值总体上是最优的,往下依次为第二类和第三类。第二个表展示了3个类中心点每次迭代的偏移情况,可知第一次迭代3个类的中心点分别偏移了42.593,48.416,66.676,直到第三次迭代3个类的中心点偏移才达到指定判定标准(0)。第三个表展示了3个类的最终类中心情况,总体来看,第一类各指标值仍是最优的。最后一个表给出了各类中的样品数目,第一类包括4个地区,第二类包括6个地区,第三类包括21个地区。如果在操作过程中选择了保存样本的聚类结果,可以返回数据表,看到名为QCL_1的变量,其各值表示对应地区所属的类别:北京、上海、浙江和广东为第一类;天津、江苏、福建、山东、湖南和重庆为第二类;其他为第三类。 2019/4/4 111 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
112
The end! Thanks! 2019/4/4 112 中国人民大学六西格玛质量管理研究中心
Similar presentations