Presentation is loading. Please wait.

Presentation is loading. Please wait.

第九章 SPSS的聚类分析.

Similar presentations


Presentation on theme: "第九章 SPSS的聚类分析."— Presentation transcript:

1 第九章 SPSS的聚类分析

2 聚类分析概述 概念: 聚类分析是统计学中研究“物以类聚”的一种方法,属多元统计分析方法. 例如:细分市场、消费行为划分 聚类分析是建立一种分类,是将一批样本(或变量)按照在性质上的“亲疏”程度,在没有先验知识的情况下自动进行分类的方法.其中:类内个体具有较高的相似性,类间的差异性较大.

3 聚类分析概述 两类:(A B) (C D E) 三类:(A B) (C) (D E) 依据平均得分的差距,差距较小的为一类.
分类过程中,没有事先指定分类的标准.完全根据样本数据客观产生分类结果. 两类:(A B) (C D E) 三类:(A B) (C) (D E)

4 聚类分析概述 亲疏远程度的衡量指标 定距型个体间的距离: 相似性:数据间相似程度的度量
距离: 数据间差异程度的度量.距离越近,越“亲密”,聚成一类;距离越远,越“疏远”,分别属于不同的类 定距型个体间的距离: 把每个个案数据看成是n维空间上的点,在点和点之间定义某种距离.一般适用于定距数据 欧氏距离(EUCLID) 平方欧氏距离(SEUCLID)

5 聚类分析概述 品质型个体间的距离 姓名 授课方式 上机时间 选某门课程 张三 李四 王五

6 聚类分析概述 品质型个体间的距离 1 0 1 a b 0 c d 简单匹配(simple matching)系数:适用二值变量。 个体j
a b c d a为个体i与个体j在所有变量上同时取1的个数;d为同时取0的个数 特点:排除同时拥有或同时不拥有某特征的情况;取0和1地位等价,编码方案的变化不会引起系数的变化。 个体i

7 聚类分析概述 品质型个体间的距离 简单匹配(simple matching)系数:适用二值变量。 姓名 授课方式 上机时间 选某门课程
姓名 授课方式 上机时间 选某门课程 张三 李四 王五 (张三,李四):a=2 b=1 c=0 d=0 d(x,y)=1/(1+2)=1/3 (张三,王五):a=1 b=2 c=0 d=0 d(x,y)=2/(1+2)=2/3 张三距李四近

8 聚类分析概述 品质型个体间的距离 根据临床表现研究病人是否有类似的病 姓名 性别 发烧 咳嗽 检查1 检查2 检查3 检查4
姓名 性别 发烧 咳嗽 检查1 检查2 检查3 检查4 张三 男 李四 女 王五 男 ……..

9 聚类分析概述 品质型个体间的距离 1 0 1 a b 0 c d 雅科比(Jaccard)系数:适用二值变量
a为个体i与个体j在所有变量上同时取1的个数;d为同时取0的个数 特点:排除同时不拥有某特征的情况;取1的状态比取0更有意义(如:临床检验中的阳性特征);编码方案会引起系数的变化 个体j a b c d 个体i

10 聚类分析概述 品质型个体间的距离 雅科比(Jaccard)系数:适用二值变量 姓名 授课方式 上机时间 选某门课程
姓名 授课方式 上机时间 选某门课程 张三 (0) (0) (0) 李四 (0) (0) (1) 王五 (1) (1) (0) (张三,李四) 1: a=2 b=1 c=0 d=0 d(x,y)=1/(1+2)=1/3 (张三,李四) 2: a=0 b=0 c=1 d=2 d(x,y)=1/(1+2)=1/3 (相同) (张三,李四) 1: a=2 b=1 c=0 d=0 J(x,y)=1/(1+2)=1/3 (张三,李四) 2: a=0 b=0 c=1 d=2 J(x,y)=1/1=1 (不相同)

11 聚类分析概述 品质型个体间的距离 Jaccard系数举例:根据临床表现研究病人是否有类似的病
姓名 性别 发烧 咳嗽 检查1 检查2 检查3 检查4 张三 男 李四 女 王五 男 …….. 结论:张三和李四最有可能得类似的病;李四和王五不太有可能

12 聚类分析概述 品质型个体间的距离 卡方距离:计数变量 姓名 选修课门数(期望频数) 专业课门数(期望频数) 得优门数(期望频数) 合计 张三
9(8.5) 6(6) 4(4.5) 19 李四 8(8.5) 5(4.5) 17 12 9 38

13 聚类分析概述 说明 聚类过程中如果数据在数量级上存在差异时,应进行标准化处理。 例如: 样本的欧氏距离 元 万元
元 万元 (1,2) (1,3) (2,3)

14 聚类分析概述 说明 聚类分析中的变量选择问题 变量应和聚类分析的目标密切相关 聚类结果仅是所选定变量所具数据特点的反应.
变量之间不应具有高度相关性,否则相当于给这些变量进行了加权 聚类分析包括:个案聚类和变量聚类两种。 聚类分析包括:分层聚类和快速聚类

15 分层聚类 思路:聚类过程具有一定的层次性 以合并(凝聚)的方式聚类(SPSS采用) 可见,随着聚类的进行,类内的“亲密”性在逐渐减低
首先,每个个体自成一类 其次,将最“亲密”的个体聚成一小类 然后,将最“亲密”的小类或个体再聚成一类 重复上述过程,即:把所有的个体和小类聚集成越来越大的类,直到所有的个体都到一起(一大类)为止 可见,随着聚类的进行,类内的“亲密”性在逐渐减低

16 分层聚类 思路 以分解的方式聚类 可见,随着聚类的进行,类内的亲密性在逐渐增强 首先,所有个体都属于一类
其次,将大类中最“疏远”的小类或个体分离出去 然后,分别将小类中最“疏远”的小类或个体再分离出去 重复上述过程,即:把类分解成越来越小的小类,直到所有的个体自成一类为止 可见,随着聚类的进行,类内的亲密性在逐渐增强

17 分层聚类 “亲疏”程度的衡量对象 个体间距离 个体和小类间、小类和小类间的距离

18 分层聚类 个体和小类、类和类间的距离 最短距离法(nearest neighbor): 两类间的距离定义为两类中距离最近的两个个案之间的距离
最长距离法(furthest neighbor): 两类间的距离定义为两类中距离最远的两个个案之间的距离 平均链锁法(within-groups linkage) 两类之间的距离定义为两类个案之间距离的平均值。包括: 组间平均链锁法(between-groups linkage):只考虑两类间个案的距离 组内平均链锁法(With-groups linage):考虑所有个案间的距离

19 分层聚类 基本操作步骤 1.基本操作 A.菜单选项: analyze->classify->hierachical cluster B.选择参与聚类分析的变量入variables框 C.选择一字符型变量作为个案的标记变量(label cases) D.选择个案聚类还是变量聚类

20 分层聚类 基本操作步骤 2. 选择距离计算方法(method选项) cluster method:计算类间距离的方法
measure:计算样本距离的方法 transform values:对数据进行标准化处理 by variable:以变量为单位标准化,适于个案聚类 by case:对个案为单位标准化,适于变量聚类

21 分层聚类 进一步的工作 1.数据输出(statistics选项) agglomeration schedule:凝聚状态表(默认)
distance matrix:样本的距离矩阵 cluster membership:类成员 none:不输出类成员(默认) single solution:聚成n类时各样本的归属 range of solutions:聚成m~n类时各样本的归属(m<n<总样本数)

22 分层聚类 进一步的工作 2. 图形输出(plot选项) dendrogram:树型图 icicle:冰柱图
all cluster:聚类的每一步均在冰柱图中体现 specified range of clusters:将聚类的第n1类开始到第n2类结束,间隔n3类的聚类分析过程在冰柱图中体现 orientation:冰柱图的方向 vertical:纵向; horizontal:横向

23 分层聚类 进一步的工作 3. 结果保存(save选项)
single solution:生成一新变量存储在聚成n类时各样本属于哪一类(cluN_M: N为聚类数,M为第几次做的) range of solutions:生成若干个变量分别存放聚成n~m类时各样本的归属情况

24 分层聚类 聚类数目的确定 聚类数目确定尚无统一标准,一般原则: 分层聚类中可以将类间距离作为确定类数目的辅助工具 各类所包含的元素都不应过多
分类数目应符合分析的目的 分层聚类中可以将类间距离作为确定类数目的辅助工具 SPSS中,聚类过程中,类间距离呈增加趋势 类间距离小,类的相似性大;距离大,相似性小 绘制碎石图(X轴为类距离,Y轴为类数)

25 K-means快速聚类 (一)出发点 希望: 做法: 克服分层聚类在大样本时产生的困难,提高聚类效率 通过用户事先指定聚类数目的方式提高效率
因此,分层聚类可以对不同的聚类数而产生一系列的聚类解,而快速聚类只能产生单一的聚类解

26 K-means快速聚类 (二)思路 1.指定最后要聚成K类 2.用户指定k个样本作为初始类中心或系统自动确定k个样本作为初始类中心
5.重复3步和4步,直到达到指定的迭代次数或达到终止迭代的条件

27 K-means快速聚类 (二)思路 SPSS中两个判断聚类是否结束的条件,满足其中一个即可结束聚类过程.
达到指定迭代次数(maximum iteration),默认10次。 收敛标准(convergence),默认0.02,即:本次迭代产生的任意新类,各中心位置变化较小.其中最大的变化率小于2%.

28 K-means快速聚类 (三)基本操作步骤 A.菜单选项:analyze->classify->k means cluster
B.选定参加快速聚类分析的变量到variables框 C.确定快速聚类的类数(number of clusters).类数应小于个案总数 D.选择聚类方法(method):默认iterate and classify,即:在聚类的每一步都重新计算新的类中心 E.确定聚类终止条件(iterate)

29 K-means快速聚类 (四)其他 1. 保存快速聚类的结果(save)
cluster membership:将各个案所属类的类号保存到qcl_1变量中 distance from cluster center:将各样本距所属类中心的距离保存到qcl_2变量中.

30 K-means快速聚类 (四)其他 2.输出选项(option) initial cluster centers:输出初始类中心点
ANOVA table:输出各类的方差分析表 cluster information for each case:输出每个样本的分类结果和距离

31 K-means快速聚类 (四)其他 3. use running means项:
选中:表示每个样本被分配到一类后立即计算新的类中心。聚类结果与个案的先后次序有关. 不选中:表示完成了所有个案的依次分配后再计算类中心.省时.

32 K-means快速聚类 (四)其他 4.用户指定类中心(center)
read initial from:若不指定则系统自动确定初始类中心。指定则从某.sav文件中读入初始类中心数据(应设一个名为Cluster_的变量名)。 Write final as:在分析的最后将各类中心写入某.sav文件


Download ppt "第九章 SPSS的聚类分析."

Similar presentations


Ads by Google