多元统计分析 何晓群 中国人民大学出版社 2017/3/13 1 中国人民大学六西格玛质量管理研究中心
第三章 聚类分析 §3.1 聚类分析的思想 §3.2 相似性度量 §3.3 类和类的特征 §3.4 系统聚类法 §3.5 模糊聚类分析 §3.1 聚类分析的思想 §3.2 相似性度量 §3.3 类和类的特征 §3.4 系统聚类法 §3.5 模糊聚类分析 §3.6 K-均值聚类和有序样本聚类 §3.7 计算步骤与上机实现 §3.8 社会经济案例研究 2017/3/13 中国人民大学六西格玛质量管理研究中心
§3.7 计算步骤与上机实践 本书以SPSS15.0软件来说明前面讲述的几种聚类法的实现过程。具体步骤如下: §3.7 计算步骤与上机实践 本书以SPSS15.0软件来说明前面讲述的几种聚类法的实现过程。具体步骤如下: *分析所需要研究的问题,确定聚类分析所需要的多元变量; *选择对样品聚类还是对指标聚类; *选择合适的聚类方法; *选择所需的输出结果。 我们将实现过程用逻辑框图表示为图3.8。 2017/3/13 3 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
§3.7 计算步骤与上机实践 2017/3/13 4 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
§3.7 计算步骤与上机实践 § 3.7.1 系统聚类法 3.7.1 系统聚类法 §3.7 计算步骤与上机实践 § 3.7.1 系统聚类法 3.7.1 系统聚类法 用SPSS软件自带的数据文件World95.sav来做一个实例分析。 为了研究亚洲国家的经济发展水平和文化教育水平,以便于对亚洲国家进行分类研究,这里我们进行聚类分析(在World95.sav数据中筛选出亚洲国家,使用Data→Select Cases→If condition is satisfied中选入region=3)。 详细步骤如下: (1) 打开数据。使用菜单中File→Open命令,然后选中要分析的数据World95.sav。 2017/3/13 5 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
§ 3.7.1 系统聚类法 (2)在菜单中的选项中选择Analyze→Classify命令,Classify命令下有两个聚类分析命令,一是K-means cluster(K-均值聚类),二是Hierarchical cluster(系统聚类法)。这里我们选择系统聚类法。 (3) 在系统聚类法中,我们看到Cluster下有两个选项,Cases(样品聚类或Q型聚类)和Variables (变量聚类或R型聚类)。这里我们选择对样品进行聚类。 (4) Display下面有两个选项,分别是Statistics (统计量)、Plots(输出图形),我们可以选择所需要输出的统计量和图形。 2017/3/13 10 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
§ 3.7.1 系统聚类法 (5) 在系统聚类法中底下有四个按纽,分别是Statistics、Plots、Method、Save。 (a)在Statistics中,有Agglomeration schedule(每一阶段聚类的结果),Proximity matrix(样品间的相似性矩阵)。由Cluster membership可以指定聚类的个数,none选项不指定聚类个数,Single solution指定一个确定类的个数,Range of solution指定类的个数的范围(如从分3类到分5类)。 (b)在Plots中,有Dendrogram(谱系聚类图,也称树状聚类图)、Icicle(冰柱图)、Orientation指冰柱图的方向(Horizontal 水平方向、Vertical垂直方向)。 (c)在Method中, Cluster可以选择聚类方法,Measure中可以选择计算的距离。 (d)在Save中,可以选择保存聚类结果。 选好每个选项后,点“OK”就可以执行了。 2017/3/13 12 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
§ 3.7.1 系统聚类法 在这个数据文件中,我们选择的变量(Variables(s))有Urban(城市人口比例),Lifeexpf(女性平均寿命)、Lifeexpm(男性平均寿命)、Literacy(有读写能力的人所占比例)、Gdp_cap(人均国内生产总值),以Country(国家或地区)来标识(Label Cases)本例中的17个亚洲国家或地区,并以其他5个变量进行Q型聚类分析,即对国家进行聚类。 这里我们将原始变量标准化(在Method选项下Transform Values的Standardize空白框内,选择Z Scores),在Statistics选项中选择Agglomeration Schedule,聚类方法选择组内联结法(Within-group linkage),计算距离选择平方欧氏距离,输出冰柱图和树状聚类图。得到的结果如下: 2017/3/13 17 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
§ 3.7.1 系统聚类法 输出结果中,表3.7表示接近度矩阵,是反映样品之间相似性或者相异性的矩阵。本例中由于计算距离使用的是平方欧氏距离,所以样品间距离越大,样品越相异,如果我们计算距离选择Pearson相关系数,则接近度矩阵是相似性矩阵。由表中矩阵可以看出,Bangladesh(孟加拉国)与Cambodia(柬埔寨)的距离是最小的,因此它们最先聚为一类。 2017/3/13 20 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
接近度矩阵 2017/3/13 21 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
聚类冰柱图 22 2017/3/13 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
§ 3.7.1 系统聚类法 图3.12是冰柱图,也是反映样品聚类情况的图,如果按照设定的类数,在那类数的行上从左到右就可以找到各类所包含的样品。比如我们希望分为三类,最左边的类数应选3,每个样品右边都有一列X,如果某个样品右边的X个数少于3,那么它和前面多于3个X的样品聚为一类,如此下去,直到找到全部三类为止。例如,Hong Kong右边的列只有两个X,那么它就与Japan和Singapore聚为一类了,而China右边的列只有一个X,那么从Taiwan到China又被聚为一类,后面样品聚为另一类。 2017/3/13 23 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
表3-8 组内连接法聚合表
§ 3.7.1 系统聚类法 表3.8是反映每一阶段聚类的结果,Coefficients表示聚合系数,第2列和第3列表示聚合的类,比如第一阶段时(Stage=1)第2个样品——Bangladesh(孟加拉国)与第3个样品——Cambodia(柬埔寨)聚为一类,注意这时有16类(17-1=16)。因此某阶段的分类数等于总的样品数减去这个阶段的序号。 2017/3/13 25 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
聚合系数曲线 将表3-8的聚合系数利用Excel作出聚合系数随分类数变化曲线,如图3-13. 中国人民大学六西格玛质量管理研究中心 2017/3/13 26 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
§ 3.7.1 系统聚类法 图3.13是聚合系数随分类数变化的曲线。由图可以看出,当分类数为3或4时, 曲线变得比较平缓,这个分类数也符合我们分类的目的。 2017/3/13 27 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
系统树状图 2017/3/13 28 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
图3.14 树状聚类图, 图3.14是树状聚类图,从图中可以由分类个数得到分类情况。如果我们选择分类数为3,就从距离为10的地方往下切,得到分类结果如下。{1:孟加拉国、柬埔寨、阿富汗、印度、巴基斯坦};{2:香港、新加坡、日本};{3:泰国、越南、中国、印度尼西亚、马来西亚、菲律宾、韩国、台湾和朝鲜}。我们可以从经济发展水平和文化教育水平来理解所作的分类。第2类应该是亚洲国家中经济发达程度最高的国家或地区,第1类的经济水平和文教水平都比较低,第3类国家的经济水平和文教水平居中。 2017/3/13 29 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
§ 3.7.2 快速聚类法 同样我们使用上面的数据文件World95.sav,从中筛选出亚洲国家,试图将亚洲国家按经济和文教水平分为3类。可以使用快速聚类法对样品进行聚类。 我们使用的变量有Country(国家或地区)、Urban(城市人口比例),Lifeexpf(女性平均寿命)、Lifeexpm(男性平均寿命)、Literacy(有读写能力的人所占比例)、Gdp_cap(人均国内生产总值),以Country来标识本例中的17个亚洲国家或地区,并以其他5个变量进行Q型聚类分析,即对国家进行聚类。 2017/3/13 30 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
§ 3.7.2 快速聚类法 在SPSS软件中选择Analyze→Classify→K-Means Cluster。进入K-均值聚类对话框以后,将上面5个变量选入Variable,将Country用于标识(Label cases by)。将分类数(Number of clusters)定为3。我们可以在Option选项中选择Initial cluster center(最初分类重心),ANOVA(方差分析表),Cluster information for each case(每个样品的分类信息)。得到如下分类结果: 2017/3/13 31 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
§ 3.7.2 快速聚类法
§3.7 计算步骤与上机实践 2017/3/13 33 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
§ 3.7.2 快速聚类法 输出结果中表3.9表示最初各类的重心,也就是种子点。表3.10是样品的分类情况。这里我们看到快速聚类法将亚洲国家或地区分为这样3类。{1:阿富汗、孟加拉国、柬埔寨、中国、印度、印度尼西亚、马来西亚、朝鲜、巴基斯坦、泰国、越南}。{2:香港、日本、新加坡}。{3:韩国、台湾}。我们也可以对分类结果做分析。第1类国家或地区经济和文教卫生水平较低。第2类国家或地区是亚洲国家或地区中的佼佼者,其经济发达程度和文教卫生水平都是很高的。第3类国家或地区处于两者中间。这个结果可以结合表3.13(最后各类的重心)来分析,我们看到第2类的人均GDP比另外两组要高。 2017/3/13 34 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
§ 3.7.2 快速聚类法
§ 3.7.2 快速聚类法 36 2017/3/13 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
§ 3.7.2 快速聚类法 表3.12是方差分析表,但是应当注意值只能作为描述所用,而不能根据该值判断各类均值是否有显著差异。通过方差分析表我们可以看出,有4个变量对分类贡献显著。 2017/3/13 37 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
继续使用上面的例子,希望将亚洲国家或地区分成3类进行分析研究。这里我们使用S-Plus2000软件。 §3.7.3 计算步骤与上机实践 模糊聚类法 继续使用上面的例子,希望将亚洲国家或地区分成3类进行分析研究。这里我们使用S-Plus2000软件。 (略) 2017/3/13 38 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
§3.8 社会经济案例研究 2017/3/13 39 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
§3.8 社会经济案例研究 例3.5 城镇居民消费水平通常用表3.15中的八项指标来描述,八项指标间存在一定的线性相关。为研究城镇居民的消费结构,需将相关性强的指标归并到一起,这实际就是对指标聚类。原始数据列于表3.15。 将原始数据录入SPSS,并依次点击“Analyze”→ “Correlate” →“Bivariate”,打开Bivariate Correlations对话框,把八个变量选入Variables栏中,单击“OK”,得到这八个指标对应的相关系数,列于表3.16。 40 2017/3/13 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
§3.8 社会经济案例研究 2017/3/13 45 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
§3.8 社会经济案例研究 表3.16中最大的相关系数为r4,8=0.837,将G4和G8并成一新类G9,然后计算G9与各类的相关系数,再找最大的相关系数,每次缩小一类得图3-17。 我们可以看出全国城镇居民得消费结构大致可以分为三个方面,一类是各种副食、日用品及交通通信、文化教育和住房等支出,这是在消费结构中起主导作用的方面;其次是居民购买烟、酒、饮料及着装支出;粮食和水电燃料是两项很重要的消费指标,但目前在城镇居民的消费中占的比例较小,可将它们归并为同一类。
§3.8 社会经济案例研究 2017/3/13 47 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
§3.8 社会经济案例研究 上面介绍的几种系统聚类方法,并类的原则和步骤基本一致,所不同的是类与类的距离有不同的定义。其实可以把这几种方法统一起来,有利于在计算机上灵活地选择更有意义的谱系图。
§3.8 社会经济案例研究 对例3.5,采用欧氏距离分别用类平均法、最短距离法、最长距离法把31个省市分类。 §3.8 社会经济案例研究 对例3.5,采用欧氏距离分别用类平均法、最短距离法、最长距离法把31个省市分类。 类平均法聚类在SPSS中的操作为:点选“Analyze”→“Classify” →“Hierarchical Cluster”,打开Hierarchical Cluster Analysis对话框,将八个聚类指标选入Variables栏中,将表示地区的变量选入Label Cases By栏中,按“Plots”按钮,在弹出的窗口中选中Dendrogram(谱系图)选项,按“Continue”返回主对话框,在按“Method”按钮,在Cluster Method下拉菜单中选择Between-groups linkage(组间连接法,即类平均法)选项,返回主对话框后按“OK”即可得到聚类结果。 2017/3/13 49 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
§3.8 社会经济案例研究 最短距离法和最长距离法操作步骤与类平均法一样,只不过要在Cluster Method下拉菜单中分别选择Nearest Neighbor和Furthest Neighbor选项。图3.18、图3.19、图3.20分别显示了三种方法的分类结果。为便于对照,将三种方法分类的结果综合列于表3.18。 直观看出,类平均法分为三类:{1,9,11,19}为第一类,{13,2,22,10}为第二类,其他为第三类;最短距离法分为两类,{1,9,11,19}为一类,其余的省市归为一大类;最长距离法也分为三类:{1,9,11,19}为第一类,{10,22,2,13,26}为第二类,其余的省市为第三类。很显然,这三种方法的分类效果是有差异的。 2017/3/13 50 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
§3.8 社会经济案例研究 那么究竟采用哪一种分类为好呢?一种方法是根据分类问题本身的知识来决定取舍。另一种方法是将几种方法的共性取出来,有争议的样品根据其实际情况再划分。综合考虑这两点,笔者认为从全国各省、市、区的消费情况来看,分为三类较为合适。 由分类结果可以看出,类平均法和最长距离法的分类结果基本上一致,只是在西藏应该划入第二类还是第三类上存在差异,从表3.15的实际情来看,西藏的经济发展和消费水平与始终处在第二类的福建、天津、重庆和江苏有较大差距,因此划入第三类较为合适,即这个聚类分析用类平均法较为合适。 2017/3/13 51 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
§3.8 类平均法树状图 52 2017/3/13 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
§3.8 最短距离法树状图
§3.8 最长距离法树状图 2017/3/13 54 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
§3.8 社会经济案例研究 例3.6 我们仍以2005年31个省、市、自治区的城镇居民月平均消费支出数据为例,在SPSS中利用K-均值法对31个省、市、自治区的城镇居民消费水平进行聚类分析。 在SPSS中依次点击“Analyze”→“Classify” →“K-Means Cluster”,打开K-Means Cluster Analysis对话框,将8个变量选入Variable框中,将表示地区的变量选入Label Cases By栏中,将分类数(Number of clusters)定为3。另外,点击Iterate按钮可以在其中输入最大迭代次数(Maximum iterations)和收敛标准(Convergence criterion);在Save按钮中可以选择保存样本的聚类结果(Cluster membership)和各样本距各自中心点的距离(Distance from cluster center);在Options按钮中可以选择输出初始类中心点、方差分析表等结果,读者可以根据实际情况来选择。点击“OK”得到聚类结果如下: 2017/3/13 56 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
§3.8 社会经济案例研究 2017/3/13 58 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
§3.8 社会经济案例研究 其中第一个表显示了3个类的初始类中心情况,可以看出,第一类的各指标值总体上是最优的,往下依次为第二类和第三类。第二个表展示了3个类中心点每次迭代的偏移情况,可知第一次迭代3个类的中心点分别偏移了42.593,48.416,66.676,直到第三次迭代3个类的中心点偏移才达到指定判定标准(0)。第三个表展示了3个类的最终类中心情况,总体来看,第一类各指标值仍是最优的。最后一个表给出了各类中的样品数目,第一类包括4个地区,第二类包括6个地区,第三类包括21个地区。 2017/3/13 59 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
§3.8 社会经济案例研究
The end! Thanks! 2017/3/13 61 中国人民大学六西格玛质量管理研究中心