第17章 集群分析 本章的學習主題 1. 集群分析的概念 2. 相似性及最近距離的衡量 3. 階層分析法 4. 非階層分析法 第17章 集群分析 本章的學習主題 1. 集群分析的概念 2. 相似性及最近距離的衡量 3. 階層分析法 4. 非階層分析法 5.集群分析SPSS軟體操作實例說明
17.1 集群分析概念 集群分析 (cluster analysis) 是一種將樣本觀察值進行分析, 若具有某些共同特性者予以整合在一起,然後分配到特定 的群體,最後形成許多不同集合集群的一種分析方法。 集群分析與因素分析的概念大致相同,但前者係將不同 的觀察值依相對距離的遠近加以分類成不同集群,然後對 不同集群所具有的特性程度加以歸納並命名;而後者乃係 將不同的變數依照相關程度加以萃取成少數的因素,然後 依照各因素中所含變數來加以命名。
17.1 集群分析概念 集群分析是將某些具有共同特性的objects或樣本予以 整合,集群分析的結果顯示出內部同質性與外部異質性, 即達到群內差異最小、群間差異最大。集群分析係將不同 觀察值,依相對距離遠近加以分類為不同集群,其主要目 的在界定資料結構,將最相似的觀察值納入同一集群中。 例如表17─1中係收集15家商店的銷售數量及顧客人次 的資料,若我們希望以商店的業績(銷售數量及顧客人次) 作分群,將15家商店作不同業績的歸納,使同群內的商店 其業績很接近,而不同群的商店其業績相差很大。
17.1 集群分析概念 表 17-1 商店業績統計表 圖 17-1 商店業績分群示意圖 商店編號 1 2 3 4 5 6 7 8 9 10 17.1 集群分析概念 表 17-1 商店業績統計表 商店編號 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 銷售數量 1153 1135 1155 1151 1146 1147 1141 1139 1148 1145 1150 1134 1140 顧客人次 216 199 222 218 213 214 211 202 205 215 223 207 210 圖 17-1 商店業績分群示意圖
17.2 界定研究問題 圖 17-2 集群分析步驟 界定研究問題 變數及資料篩選 相似性衡量 選擇集群方法 及 決定集群數目 解釋及驗證集群 17.2 界定研究問題 界定研究問題 變數及資料篩選 相似性衡量 選擇集群方法 及 決定集群數目 解釋及驗證集群 探索性 驗證性 變數的共線性 極端值的剔除 資料的標準化 距離衡量 歐式距離 馬式距離 街道距離 混合式距離 集群方法 層次集群方法 非層次集群方法 集群數目之決定 觀察值集合順序表 垂直冰柱圖 樹狀圖 層次集群與非層次集群之比較 區別分析 圖 17-2 集群分析步驟
17.3 變數與資料的篩選 集群分析在變數與資料的篩選上須考量: 1.變數的共線性 2.極端值的剔除 3.資料的標準化
17.4 相似性衡量 相似性乃係指任何二個樣本,相對於其他樣本而言, 如果在各種變數上有相近之處,即代表它們在很多方面具 有共同的特性,則這對樣本可視為是具有相似性。 進行相似性衡量必須決定要採用何種設定基礎,不同 的衡量方法,可能產生不同的分群結果。而所謂距離衡量 係指以點與點之間的距離為代表,即計算點與點間的距離, 透過找到點與點間距離最小的,來辨識其相似性。
在集群的概念中,距離最小的樣本會先集結,然後再找距離比較大者集結,至最後全部集結為止,其中較重要且較常使用到的,仍屬歐氏距離衡量法。 17.4 相似性衡量 在集群的概念中,距離最小的樣本會先集結,然後再找距離比較大者集結,至最後全部集結為止,其中較重要且較常使用到的,仍屬歐氏距離衡量法。 圖 17—3 集群分析歐氏距離計算方法 歐氏距離之公式為:
17.4 相似性衡量 表 17 – 2 歐氏距離計算表 觀察值 1 2 3 4 5 6 7 8 9 10 2.250 6.460 10.960 8.592 16.842 1.644 3.189 6.939 0.573 2.434 1.869 6.369 1.653 2.563 0.389 5.699 12.449 0.889 0.332 1.020 1.073 15.189 2.073 0.284 1.889 0.270 6.842 13.592 0.644 0.250 1.184 1.563 0.082 0.434 7.063 14.563 0.083 1.735 0.144 在本章範例中,是以績效表現之構念作為分群變數,根據工作滿意度和工作表現兩個因素來作為分群的標準,而在本範例中,其前10個觀察值的歐氏距離平方如表17-2所示:
17.5 選擇集群方法及決定集群數目 集群分析的方法,可分為兩大類,五種方法: 1.層次集群方法(hierarchical methods) (1)單一連鎖法(single linkage) (2)完全連鎖法(complete linkage) (3)中心法(centroid method) (4)華德法(Ward’s methods) 2.非層次集群方法(non-hierarchical methods) (1)K平均數法(k-means methods)
17.5 選擇集群方法及決定集群數目 一、層次集群法 1.單一連結法 17.5 選擇集群方法及決定集群數目 一、層次集群法 1.單一連結法 又稱為最近法(nearest neighbor)。最近法對A、B兩群距 離的定義是以A群內每一點到B群內每一點的距離之最小 值,作為A、B兩群的距離。而群集時是依據此值最小者 做為選取下一步結合之對象,最近法的概念表示如下: 圖 17-4 單一連結法
17.5 選擇集群方法及決定集群數目 2.完全連結法 又稱為最遠法(farthest neighbor)。最遠距離法的計算是以A群內每一點到B群內每一點的距離中之最大值,作為A、B兩群的距離。而群集時依然是以此值最小者做為選取下一步結合之對象,而最遠法的概念可表示如下: 圖 17-5 完全連結法
17.5 選擇集群方法及決定集群數目 3.中心法 中心法也稱平均連結法,是以計算A群的中心點到B群中心點的距離,作為A、B兩群的距離。集群時也是以此中心距離最小者為選取下一步結合的對象,中心法的概念可表示如下: 圖 17-6 中心法
17.5 選擇集群方法及決定集群數目 4.華德法 又稱最小變異數法(minimum variance method)。華德法的分群方式是先將每一個個體視為一個集群,然後將各集群依序合併,合併之順序完全視合併後集群之組內總變異數之大小而定。凡使群內總變異數產生最小增量的個體即予以優先合併,愈早合併之個體表示其間的相似性愈高。
17.5 選擇集群方法及決定集群數目 在華德法的集群分析中,是透過所產生的逐次聚合係數來加以分析,由表中我們可以得知,當從第三群要分到第二群時,其係數的變化量增加183.579,顯示到該結點時,係數必須耗費很大的力氣(係數變化量) ,才能再次凝聚群集,故可考慮放棄聚合而選擇分三群即可。 群集數 階段 組合集群 係數 係數變化 (%) 先出現的階段集群 下一 階段 集群1 集群2 10 352 1 2 86.934 337 345 354 9 353 37 41 94.865 9.12 331 341 360 8 18 107.843 13.68 338 361 7 355 3 40 121.125 12.31 350 351 358 6 356 140.796 16.24 348 346 5 357 4 12 162.305 15.28 349 340 359 204.948 26.27 281.904 37.55 422.896 50.01 599.011 41.6
17.5 選擇集群方法及決定集群數目 華德法下樹狀圖分佈
17.5 選擇集群方法及決定集群數目 二、非層次集群方法: 非層次集群方法是在各階段分群過程中,將原有的集 群予以打散,並重新形成新的集群。其主要的運用方法是: K平均數法(k-means methods)。 所謂K平均數法係先由觀察值中指定K群的中心值 (cluster seed),然後以K個中心值為中心,開始將觀察樣本 值中與中心值較接近者納入各群中,並依各觀察值到各群 中心值之距離遠近重新計算出各集群之集結係數,再試著 移動中心值之位置,並重新計算集結係數。如此重複進行, 直到中心點及各群之樣本不能再移動為止。
表 17-4 非階層 ( k-means ) 集群之各組成員分析表(1/2) 17.5 選擇集群方法及決定集群數目 表 17-4 非階層 ( k-means ) 集群之各組成員分析表(1/2) 觀察值 集群 3 1 2 8 4 19 5 13 24 6 18 37 7 25 39 9 30 41 10 36 43 11 40 47 12 42 55 . 357 348 359 358 352 355 360 354 353 361 362 351
17.5 選擇集群方法及決定集群數目 三、集群數目的決定 在進行集群時,一個很重要的問題是要決定分為多少 群才有意義,以下幾項準則可以用來作為參考: 1.集群之群數以在2~6群為宜,超過 6 群則其後續分析將 變得相當瑣碎,因此除非另有特殊的考量,集群之群 數以不超過 6 群為宜。 2.集群完成後,各群之觀察值應盡量接近,即各群之觀察 值不要相差太遠。 (例如,若第一群有100個觀察值,第二群只有5個觀察 值即非常不適當。)
17.5 選擇集群方法及決定集群數目 3. 當集群數減少,集群內各觀察值的同質性便會降低。研 究者應權衡集群數與同質性兩者,儘可能找到較少的 集群,但仍滿足同質性的必要水準。 4. 集群係數之增量太大則放棄集結,如表17─3所示,如利 用華德法進行分群,集結力太大,則代表分群之事實 相當明顯,應即停止集結。
17.5 選擇集群方法及決定集群數目 5. 集群時,各集群變數在各群之分數應具有顯著性,即集 群變數應具有區分之效度,否則,該集群變數是否存 在對於分群即沒有顯著的作用。 6. 集群之後,實際分群與理論分群之比較結果,其命中率 應達顯著之水準。 7.集群時,要盡量依照過去文獻之建議來決定集群數目。
17.6 集群之解釋與命名 本書範例以績效表現之構念(包括工作表現和工作滿意度 等兩個因素)做為分群變數。由表17─5可知,分群結果第二 群在工作表現及工作滿意度之三個集群變數中所得分數最高, 故命名為高滿意高績效;第三群在三個集群變數中,工作表 現所得分數次高,但工作滿意度所得分數最低,故命名為低 滿意中績效群,第一群在三群變數中績效分數最低,工作滿 意度次高,因此命名為中滿意低績效群。
17.6 集群之解釋與命名 表 17-5 分群平均值差異檢定(ANOVA) 構面與因素名稱 中滿意 低績效 n=233 高滿意 高績效 17.6 集群之解釋與命名 表 17-5 分群平均值差異檢定(ANOVA) 構面與因素名稱 中滿意 低績效 n=233 高滿意 高績效 n=77 低滿意 中績效 n=52 F值 P值 Duncan 工作滿意度 4.55 5.76 2.85 365.276 .000*** (3,1,2) 工作表現 4.70 5.89 5.49 144.160 (1,32) ***:P<0.001;**:P<0.01;*:P<0.05
17.6 集群之解釋與命名 表 17-6 分群在其他構面之平均值差異檢定 研究 構面 成分變數 Factor 代號 中滿意低績效 高滿意 17.6 集群之解釋與命名 表 17-6 分群在其他構面之平均值差異檢定 研究 構面 成分變數 Factor 代號 中滿意低績效 高滿意 高績效 低滿意 中績效 F P-value Duncan n=233 n=77 n=52 仁慈 領導 個別照顧 BLF1 3.9700 4.7013 2.6314 68.470 .000*** (3,1,2) 維護面子 BLF2 4.7682 5.5273 3.1423 102.301 德行 公私分明 MLF1 4.9142 5.6623 3.4038 52.087 以身作則 MLF2 4.7103 5.6667 3.2340 86.102 感恩 圖報 TGF1 5.1602 6.2338 4.5962 72.169 TGF2 4.9292 5.9416 4.2740 69.047 認同 效法 AGRF1 4.5386 5.6548 3.2073 163.933 AGRF2 3.9678 5.0325 2.4712 105.565 ***:P<0.001;**:P<0.01;*:P<0.05
17.7 集群分析方法實際流程 為使集群之作業更為周延,通常我們以二階段法來進行 集群分析法。所謂二階段法係結合階層分群法與非階層分群 法二種方式,第一階段先以華德法做出凝聚係數及樹狀圖, 由研究人員根據本書所建議的分群法則來判斷分幾群。決定 群組個數之後,第二階段再以K組平均數法進行集群分類以 決定特定觀察值要分到哪一特定群組之中。 使用二階段法的目的在於利用第一階段華德法以層次集 群分析法進行分群,我們利用分群之準則決定群數以後,再 利用第二階段以K組平均法,屬於非層次分群法予以分群。
17.7 集群分析方法實際流程 排除樣本資料因為衡量尺度的不同, 資料標準化 所可能造成的影響,同時排除異常值 第一次階層分群 17.7 集群分析方法實際流程 資料標準化 第一次階層分群 ( 華德法 ) 非階層分析法 ( K 組平均數法 ) 排除樣本資料因為衡量尺度的不同, 所可能造成的影響,同時排除異常值 進行第一次階層分群的目在於經由華 德法提供之資料來判斷並決定分群數 根據華德法所決定之分群數進行非階 層分析,探討分群變數之分群效度 圖 17-8 集群分析法實際流程