Download presentation
Presentation is loading. Please wait.
1
统 计 学 (第三版) 2008 作者 贾俊平 统计学
2
现实是复杂的,是绝对不可能由一 个有组织的科学模型完全描述出来 的。 ——Thomas Kuhn
统计名言 现实是复杂的,是绝对不可能由一 个有组织的科学模型完全描述出来 的。 ——Thomas Kuhn 2008年8月
3
第 12 章 聚类分析 聚类分析的基本原理 层次聚类 K-均值聚类
4
学习目标 聚类分析的基本思想和原理 层次聚类和K-均值聚类的基本过程 解释聚类的结果 层次聚类和K-均值聚类的差异及应用条件
聚类分析的注意事项 用SPSS进行聚类分析 As a result of this class, you will be able to ... 2008年8月
5
怎样把消费者分类? 南京雅兴市场研究有限公司在A城市的14个城区抽取3000个15岁以上具有独立购买能力的消费者样本, 研究消费者的生活方式。调查中采用一系列关于对社会活动、价值观念等内容的陈述,请消费者根据自己的情况做出评价。评价结果采用7分评价法,1分表示“非常同意”,7分表示“非常不同意” 对调查结果先通过因子分析将一系列的测试语句进行综合,根据消费者的回答情况,将这些语句分为几大类,最后得到5个主要因子,它们的含义分别是:对时尚的观点、个人的事业性与进取性、对经济利益的看法、社交能力与影响力、生活的计划性。根据因子分析的结果对样本的回答按照新的类型进行重新评估打分,然后根据这些评价进行聚类分析 根据每一类消费者的因子的特征,最终将消费者的生活方式分为6个类别,即:时尚型、自保型、领袖型、上进型、迷茫型(缺乏生活目标型)和平庸型 2008年8月
6
怎样把消费者分类? 时尚型:这类消费者约占样本量的约21%,主要特征为:年龄相对较轻,平均年龄在35岁左右,教育程度相对较高,一般具有高中以上文化程度,虽然平均家庭月收入较好,平均在2200元左右,同时也是分散程度最高的,表明喜爱时尚并不是高收入者的专利。这一类型中的三资企业员工的比例最大,未婚的比例较大,约占1/4,女性的比例为55%,高于男性 自保型:这类消费者占16%,他们更多的是为自己的生计考虑,考虑自己能否有稳定的经济来源,维持家庭的经济保障是他们最关心的问题。这些人的平均受教育程度较低,中年人的比例较高,平均年龄在44岁左右,家庭月收入较低,平均在1600元左右,国营企业员工以及离退休人员的比例较高。女性的比例高于男性 领袖型:这类消费者占13%。教育程度处于社会平均水平,主要为中年人,有较多的生活阅历,年龄多在45-54岁之间。家庭月平均收入一般在1800元左右。在职业上没有显著特征。已婚比例是各类消费者中最高的,这似乎表明有稳定的家庭也是成为领袖的一个条件。男性比例占55%,高于女性 2008年8月
7
怎样把消费者分类? 上进型:占消费者总人数的不到13%。他们对生活的态度积极,多为未婚青年,平均年龄在28岁左右,25岁以下的占40%,单身未婚的比例占1/2以上。职业上的显著特征是:1/3为学生,三资企业员工的比例达1/10。男性的比例高于女性。这类消费者是受教育程度最高的,他们的平均家庭收入却是最高的,月平均收入在2300元左右 迷茫(缺乏生活目标)型:约占15%,他们既不注重经济保障,也不参加培训,生活节奏较缓慢。这类消费者主要为退休人员,约占该类型人员的2/3,剩下的主要为国营企业员工。平均年龄在50岁以上,他们的教育程度是最低的,家庭收入也是最低的,平均不到1600元。在性别分布上,女性的比例远远高于男性,占62% 平庸型:这类消费者约占23%,最大的特点是生活没有计划,日常生活没有规律,而其他指标则均处于中间状态。这类消费者在年龄上比较分散,从15岁到54岁之间的各年龄段均有相当比例,平均教育程度一般,家庭月平均收入在1900元左右。在职业上没有显著特征,但待岗人员的比例稍高于其他各类型。在性别上,男性稍高于女性 2008年8月
8
聚类分析 (cluster analysis)
在现实生活中,分类问题是十分常见的 根据经济发展水平把各个国家分成发达国家、中等发达国家、发展中国家 按照消费者的特征对消费者分类,按照产品特征对产品分类 这些分类中,有的事先并不知道存在什么类别,完全按照反映对象特征的数据把对象进行分类,这在统计上称为聚类分析;有的则是在事先有了某种分类标准之后,判定一个新的研究对象应该归属到哪一类别,这在统计上则称为判别分析(discriminant analysis) 本章主要介绍聚类分析方法 2008年8月
9
第 12 章 聚类分析 聚类分析的基本原理 什么是聚类分析? 相似性的度量
10
聚类分析的思想和原理 什么是聚类分析?
11
什么是聚类分析? (cluster analysis)
把“对象”分成不同的类别 这些类不是事先给定的,而是直接根据数据的特征确定的 把相似的东西放在一起,从而使得类别内部的“差异”尽可能小,而类别之间的“差异”尽可能大 聚类分析就是按照对象之间的“相似”程度把对象进行分类 2008年8月
12
什么是聚类分析? (两种分类方式) 聚类分析的“对象”可以是所观察的多个样本,也可以是针对每个样本测得的多个变量
什么是聚类分析? (两种分类方式) 聚类分析的“对象”可以是所观察的多个样本,也可以是针对每个样本测得的多个变量 按照变量对所观察的样本进行分类称为Q型聚类 按照多项经济指标(变量)对不同的地区(样本)进行分类 按照样本对多个变量进行分类,则称为R型聚类 按照不同地区的样本数据对多个经济变量进行分类 两种聚类没有什么本质区别,实际中人们更感兴趣的通常是根据变量对样本进行分类(Q型聚类) 2008年8月
13
什么是聚类分析? (按什么分类) 按对象的“相似”程度分类
什么是聚类分析? (按什么分类) 按对象的“相似”程度分类 根据样本的观测数据测度变量之间的相似性程度可以使用夹角余弦、Pearson相关系数等工具,也称为相似系数 变量间的相似系数越大,说明它们越相近 根据变量来测度样本之间的相似程度则使用“距离” 把离得比较近的归为一类,而离得比较远的放在不同的类 2008年8月
14
聚类分析的思想和原理 相似性的度量
15
相似性的度量 聚类分析中是用“距离”或“相似系数”来度量对象之间的相似性
在第13章例13.1中,31个地区的人均GDP数据就是直线上的31个点,每一个点对应一个地区 如果按照人均GDP对它们进行分类,就可以把在直线上离得比较近的那些点归为一类。如果再考虑财政收入,那么人均GDP和财政收入就是二维平面上的一个点,31个地区就是平面中的31个点 多个变量就是高维空间中的一个点,31个地区就是高维空间中的31个点 各个点之间距离的远近就是分类的依据 2008年8月
16
相似性的度量 (样本点间距离的计算方法) 在对样本进行分类时,度量样本之间的相似性使用点间距离 点间距离的计算方法主要有
欧氏距离(Euclidean distance) 平方欧氏距离(Squared Euclidean distance) Block距离(Block distance) Chebychev距离(Chebychev distance) 马氏距离(Minkovski distance) 最常用的是平方欧氏距离 2008年8月
17
相似性的度量 (样本点间距离的计算方法) Euclidean距离 Squared Euclidean距离 Block距离
Chebychev距离 Minkovski距离 2008年8月
18
相似性的度量 (变量相似系数的计算方法) 在对变量进行分类时,度量变量之间的相似性常用相似系数,测度方法有 夹角余弦 Pearson相关系数
2008年8月
19
第 12 章 聚类分析 层次聚类 层次聚类的两种方式 类间距离的计算方法 层次聚类的应用
20
层次聚类 层次聚类的两种方式
21
层次聚类 (hierarchical cluster)
层次聚类又称系统聚类 事先不确定要分多少类,而是先把每一个对象作为一类,然后一层一层进行分类 根据运算的方向不同,层次聚类法又分为合并法和分解法,两种方法的运算原理一样,只是方向相反 2008年8月
22
层次聚类 (合并法) 将每一个样本作为一类,如果是k个样本就分k成类
再计算出新产生的类别与其他各类别之间的距离,并将距离最近的两个类别合并为一类。这时,如果类别的个数仍然大于1,则继续重复这一步,直到所有的类别都合并成一类为止 总是先把离得最近的两个类进行合并 合并越晚的类,距离越远 事先并不会指定最后要分成多少类,而是把所有可能的分类都列出,再视具体情况选择一个合适的分类结果 2008年8月
23
层次聚类 (分解法) 分解方法原理与合并法相反
先把所有的对象(样本或变量)作为一大类,然后度量对象之间的距离或相似程度,并将距离或相似程度最远的对象分离出去,形成两大类(其中的一类只有一个对象) 再度量类别中剩余对象之间的距离或相似程度,并将最远的分离出去,不断重复这一过程,直到所有的对象都自成一类为止 SPSS中只提供了合并法 2008年8月
24
层次聚类 类间距离的计算方法
25
类间距离的计算方法 在层次聚类法中,当类别多于1个时,就涉及到如何定义两个类别之间的距离问题
计算类间距离(与上面介绍的点间距离不同)的方法有很多,不同方法会得到不同的聚类结果 实际中较常用的是离差平方和法(Ward’s method),又称Ward法 2008年8月
26
类间距离的计算方法 最短距离法 (Nearest neighbor) 最长距离法 (Furthest neighbor) 重心法
(Centroid clustering) 组间平均距离 (Between-groups linkage) 离差平方和法 (Ward’s method) 2008年8月
27
类间距离的计算方法 Nearest neighbor(最短距离法)—用两个类别中各个数据点之间最短的那个距离来表示两个类别之间的距离
Furthest neighbor(最长距离法)—用两个类别中各个数据点之间最长的那个距离来表示两个类别之间的距离 Centroid clustering(重心法)—用两个类别的重心之间的距离来表示两个类别之间的距离 between-groups linkage(组间平均距离法)—SPSS的默认方法。是用两个类别中间各个数据点之间的距离的平均来表示两个类别之间的距离 Ward‘s method(离差平方和法)—使各类别中的离差平方和较小,而不同类别之间的离差平方和较大 2008年8月
28
层次聚类 层次聚类的应用
29
层次聚类的应用 (实例分析) 【例】根据我国31个省市自治区2006年的6项主要经济指标数据,采用层次聚类法进行分类,并对结果进行分析
层次聚类的应用 (实例分析) 【例】根据我国31个省市自治区2006年的6项主要经济指标数据,采用层次聚类法进行分类,并对结果进行分析 2008年8月
30
用SPSS进行层次聚类 第1步 选择【Analyze】下拉菜单,并选择【Classify-
Hierarchical Cluster】,进入主对话框 第2步 将用于聚类的所有变量选入【Variable(s)】;把区分样 本的标签 (本例为“地区”)选入【Label Cases by】;若 对样本进行聚类,在【Cluster】下选择【Cases】(本 例选择对样本聚类),若对变量进行聚类,在 【Cluster】下选择【Variables】 第3步 点入【Statistics】选中【Agglomeration schedule】, 点击【Continue】回到主对话框 第4步 点入【Plots】选中【Dendrogram】,点击 【Continue】回到主对话框 2008年8月
31
用SPSS进行层次聚类 第5步 点入【Method】,在【Cluster Method】中选择类间距离的
定义方法(本例选择Ward’s method);在【Measure】下选择 点间距离的定义方法(本例使用Squared Euclidean distance);在【Transform Values】的【Standardize】框中 选择否对原始数据进行标准化处理(本例选择了【Z scores】)。点击【Continue】回到主对话框 第6步 点入【Save】,在【Cluster Membership】下选择在原始数 据中保留分类结果,其中【Single solution】表示指定要分成 类时各样本所属的类,【Range of solution】表示指定要分成 最少类、最多类时各样本所属的类(SPSS会将分类的结果以 变量形式保存到原数据窗口中),点击【Continue】【OK】 2008年8月
32
SPSS的输出结果 (实例分析) 层 次 聚 类 过 程 的 步 骤 号 2008年8月
33
SPSS的输出结果 (实例分析) 第1列是聚类的步骤号。第2列和第3列给出了每一步被合并的对象(这里是地区)
层次聚类过程的步骤号 第1列是聚类的步骤号。第2列和第3列给出了每一步被合并的对象(这里是地区) 首先把31个地区各自作为一类(共有31类)。第1步是把距离最近的两个地区21(海南)和地区30(宁夏)合并成一类。在后面的步骤中,对于包含多个样本的新类别,实际上是用类中的一个样本来代表该类别,比如,第2步被合并的是21和地区29(青海),这里的“21”实际上是指在第1步中被合并的类别,只是用“21”表示21(海南)所在的类别 2008年8月
34
SPSS的输出结果 (实例分析) 层次聚类过程的步骤号
第4列给出每一步被合并的两个类之间的聚类系数(即距离)。距离按从小到大排列,越早合并的类距离越近。0.013是地区21(海南)和地区30(宁夏)之间的距离,而0.040是先被合并的第一小类与地区29(青海)之间的距离 第5列和第6列表示本步聚类中参与聚类的是原始的样本还是已经合并的小类,0表示本步聚类的是原始的样本,第一次出现在聚类过程中,其他数字则表示第几步聚类生成的小类参与了本步聚类。第7列给出了在每一步中合并形成的新类别下一次将在第几步中与其他类别合并。例如,在第2步中,参与聚类的是第1步形成的小类(21号样本所在的类)和地区29(青海),第5列的“1”表示21号类是在第1步中形成的小类,而“0”表示地区29(青海)是第一次出现在本步聚类中的原始样本,第7列中的“10”表示这一类将在第10步中与其他类别合并,其余类推 2008年8月
35
Cluster Membership 分成2类到5类时各地区所属的类别 2008年8月
36
cut 层 分成四类 次 聚 类 的 树 状 分成两类 图 2008年8月 最大距离作为相对距离25
,其余的距离都换算成与 之相比的相对距离大小 分成两类 cut 2008年8月
37
层次聚类的应用 (分类汇总) 类别 地区 地区个数 第一类 北京,天津,上海 3 第二类 河北,辽宁,安徽,福建,河南,湖北,湖南,四川 8
层次聚类的应用 (分类汇总) 类别 地区 地区个数 第一类 北京,天津,上海 3 第二类 河北,辽宁,安徽,福建,河南,湖北,湖南,四川 8 第三类 山西,内蒙古,吉林,黑龙江,江西,广西,海南,重庆,贵州,云南,西藏,陕西,甘肃,青海,宁夏,新疆 16 第四类 江苏,浙江,山东,广东 4 2008年8月
38
使用SPSS中的Means过程 (计算分类统计量)
据表中应包括SPSS以变量名CLU5_1、CLU4_1、 CLU3_1、CLU2_1等保存的结果,然后按下列步骤操作 第一步 选择【Analyze】下拉菜单,并选择 【Compare Means-Means】主对话框 第二步 将用于描述的所有变量选入【Dependentlist】,把地 区所属的类别号变量选入【Independent list】 第三步 点击【Options】并选 择所需要的统计量,点击 【Continue】主对话框 【OK】 2008年8月
39
层次聚类的应用 (类别检验) 各类别所属地区的描述统计量 2008年8月
40
层次聚类的应用 (类别检验) 不同类别6项经济指标的方差分析表 2008年8月
41
第 12 章 聚类分析 12.3 K-均值聚类 12.3.1 K-均值聚类的基本过程 12.3.2 K-均值聚类的应用
第 12 章 聚类分析 K-均值聚类 K-均值聚类的基本过程 K-均值聚类的应用 使用聚类方法的注意事项
42
K-均值聚类 (K-means cluster)
层次聚类事先不需要确定要分多少类,聚类过程一层层进行,最后得出所有可能的类别结果,研究这根据具体情况确定最后需要的类别。该方法可以绘制出树状聚类图,方便使用者直观选择类别,但其缺点是计算量较大,对大批量数据的聚类效率不高 K-均值聚类事先需要确定要分的类别数据,计算量要小得多,效率比层次聚类要高, 也被称为快速聚类(quick cluster) 2008年8月
43
K-均值聚类 K-均值聚类的基本过程
44
K-均值聚类 (步骤) 第1步:确定要分的类别数目K 第2步:确定K个类别的初始聚类中心 需要研究者自己确定
在实际应用中,往往需要研究者根据实际问题反复尝试,得到不同的分类并进行比较,得出最后要分的类别数量 第2步:确定K个类别的初始聚类中心 要求在用于聚类的全部样本中,选择K个样本作为K个类别的初始聚类中心 与确定类别数目一样,原始聚类中心的确定也需要研究者根据实际问题和经验来综合考虑 使用SPSS进行聚类时,也可以由系统自动指定初始聚类中心 2008年8月
45
K-均值聚类 (步骤) 第3步:根据确定的K个初始聚类中心,依次计算每个样本到K个聚类中心的距离欧氏距离,并根据距离最近的原则将所有的样本分到事先确定的K个类别中 第4步:根据所分成的K个类别,计算出各类别中每个变量的均值,并以均值点作为新的K个类别中心。根据新的中心位置,重新计算每个样本到新中心的距离,并重新进行分类 2008年8月
46
K-均值聚类 (步骤) 第5步:重复第4步,直到满足终止聚类条件为止
迭代次数达到研究者事先指定的最大迭代次数(SPSS隐含的迭代次数是10次) 新确定的聚类中心点与上一次迭代形成的中心点的最大偏移量小于指定的量(SPSS隐含的是0.02) K-均值聚类法是根据事先确定的K个类别反复迭代直到把每个样本分到指定的里类别中。类别数目的确定具有一定的主主观性,究竟分多少类合适,需要研究者对研究问题的了解程度、相关知识和经验 2008年8月
47
K-均值聚类 K-均值聚类的应用
48
K-均值聚类的应用 (实例分析) 【例】根据我国31个省市自治区2006年的6项主要经济指标数据,采用层次聚类法进行分类,并对结果进行分析
2008年8月
49
数据检查 K-均值聚类的应用 (实例分析) 若原始变量取值差异较大,应先将原始数据进行标准化,避免变量值差异过大对分类结果的影响
可以先观察6项经济指标的有关描述统计量 2008年8月
50
数据标准化(SPSS) K-均值聚类的应用 (实例分析)
【Analyze】【Descriptive Statistics】 【Descriptives】主对话框 将需要标准化的变量选入【Variable(s)】 【Save standardized values as variables】 【OK】 2008年8月
51
K-均值聚类的应用 (实例分析) 分成4类的初始聚类中心
该表列出每一类别的初始聚类中心,本例的这些中心是由SPSS自动生成的,它实际上就是数据集中的某一条记录。聚类中心的选择原则是中心点距离其他点尽可能远。例如,第一类的聚类中心是 ,这实际上就是上海的人均GDP标准化后的值。第二类聚类中心是 则是天津的标准化人均GDP,等等 2008年8月
52
K-均值聚类的应用 (实例分析) 分成4类的迭代过程
该表从表中可以看出每次迭代过程中类别中心的变化,随着迭代次数的增加,类别中心点的变化越来越小。本例只4次就已经收敛了 2008年8月
53
K-均值聚类的应用 (实例分析) 分成4类的最终聚类中心
表中的数据表示各个类别在各变量上的平均值。如,第一类的 表示被分到第一类的地区(北京和上海)标准化后的人均GDP平均值 2008年8月
54
K-均值聚类的应用 (实例分析) 分类后各个变量在类别之间的方差分析表
利用方差分析表可以判断所分的类别是否合理。从表中可以看出,分类后各变量在不同类别之间的差异都是显著的(P值均接近0) 2008年8月
55
K-均值聚类的应用 (实例分析) 分成4类时每一类的地区数量
由该表可以看出,第一类包括2个地区,第二类包括11个地区,第三类包括4个地区,第四类包括14个地区 2008年8月
56
K-均值聚类的应用 (实例分析) 分成4类时每个地区所属的类别 2008年8月
57
K-均值聚类的应用 (分类汇总) 类别 地区 地区个数 第一类 上海,北京 2 第二类
天津,内蒙古,吉林,海南,重庆,贵州,西藏,甘肃,青海,宁夏,新疆 11 第三类 江苏,浙江,山东,广东 4 第四类 河北,山西,辽宁,黑龙江,安徽,福建,江西,河南,湖北,湖南,广西,四川,云南,陕西 14 2008年8月
58
K-均值聚类 使用聚类方法的注意事项
59
聚类分析的注意事项 除分层聚类法和K-均值聚类法外,1996年还提出一种新的聚类方法,即两步聚类法(TwoStep Cluster)(SPSS提供了该聚类方法的程序) 无论那种分类方法,最终要分成多少类别,并不是完全由方法本身来决定,研究者应结合具体问题而定 聚类分析是一种探索性的数据分析方法。相同的数据采用不同的分类方法,也会的得到不同的分类结果。分类的结果没有对错之分,只是分类标准不同而已 使用聚类方法时,首先要明确分类的目的,再考虑选择哪些变量(或数据)参与分类,最后才需要考虑方法的选择。至于分类结果是否合理,该如何解释,更多取决于研究者对所研究问题的了解程度、相关的背景知识和经验 2008年8月
60
聚类分析的注意事项 从数据要求上看 参与分类的变量首先应符合要求
各变量的取值不应有数量级上的过大差异,否则会对分类结果产生较大影响。这时需要对变量进行标准化处理(SPSS提供的层次聚类法中在聚类时可以选择对变量做标准化处理,而K-均值聚类法则需要单独做标准化处理,尔后再进行聚类) 各变量间不应有较强的相关关系。若两个强相关的变量同时参与聚类分析,在测度距离时,就加大了它们的贡献,而其他变量则相对被削弱 2008年8月
61
聚类分析的注意事项 从聚类方法的选择上 首先看数据的类型,如果参与分类的变量是连续变量,层次聚类法、K-均值聚类法、以及两步聚类法都是适用的。如果变量中包括离散变量(计数变量),则需要将先对离散变量进行连续化处理,否则应该使用两步聚类法。当数据量较少时(比如小于100),三种方法都可以选用,当数据量较多时(比如大于1000),则应该考虑选用K-均值聚类法或两步聚类法 要看分类的对象。如果是对样本分类,三种方法都可用;如果是对变量分类则应选择层次聚类法(至少SPSS的程序是这样) 2008年8月
62
聚类分析的注意事项 注意对分类结果的检验 分类结果是否合理取决于它是否“有用”,但分类结果是否可靠和稳定,则需要反复聚类和比较
一般来说,在所分的类别中,各类所包含的对象(样本或变量)的数量应该大致相当。至少这从表面上看更漂亮一些 2008年8月
63
本章小节 聚类分析的基本思想和原理 层次聚类和K-均值聚类的基本过程 解释聚类的结果 层次聚类和K-均值聚类的差异及应用条件
聚类分析的注意事项 用SPSS进行聚类分析 As a result of this class, you will be able to ... 2008年8月
64
结 束 THANKS
Similar presentations