集群分析(Cluster) 根據觀察值在一群變項上的測量值進行分類的多變量分析方法。 在不同專業領域也稱為 Q型分類(Q Analysis)、 分類建構(typology construction)、 類型分析(classification) analysis) 及數值分類法(numerical taxonomy)。
意義與目的 集群分析可用在醫學商將各種疾病加以分類、行銷上將各客戶加以分群。 主要方法是使用一組的計量資料,加以計算各觀察值得相似性或相異性,然後使用各種分析的方法,將這些觀察值加以分類,進而能更有效地掌握各級群的性質。
相似性與相異性 資料的相異性多以距離來判斷。距離衡量有 距離值愈大,表示兩倍觀察個體距離愈大,因此相異性也愈大。 街道距離(city block): 歐氏距離(Euclidean distance): 敏可斯基距離(Minkowski distance): 馬氏距離(Mahalanobis distance): 距離值愈大,表示兩倍觀察個體距離愈大,因此相異性也愈大。 另外可利用被觀察個體間的相關矩陣(稱為Q型矩陣),來表示其相似性。
分析方法 分成階層式及非階層式兩大類。
階層式 階層式的聚合步驟,是先計算出各被觀察個體間的距離或組內誤差矩陣,然後將最接近的兩個被觀察個體加以合併成一集群,在計算合併後各被觀察個體間的距離或組內誤差,並重複以上的程序,直到所有的觀察個體合併成同一集群。 常用的聚合方法有平均連結法(average linkage method)、單一連結法(single linkage method)、完全連結法(complete linkage method)、形心法(centroid method)、中位數法(median method)、華德法(Ward`s method)。
非階層式 非階層式的集群分析,一般常用K平均數法(K-mean method): 一預先假定的集群個數 K,將所也被觀察值分成K群,然後計算各級群的形心。也可以先設定K 個種子點 (seed)。 計算每個觀察個體到各集群形心的距離,然後將其分派到最近的一群。 重新計算各集群形心。 重複上兩個步驟,直到無法重新分派為止。
方法的選擇 Milligan指出平均連結法及華德法較佳。模擬研究顯示各分析結果並不一致。 建議 多使用幾種方法再選擇較理想的結果。 先使用階層法決定集群數,再用非階層法集群。
分析結果的呈現 分析結果可以用樹狀圖或是冰柱圖顯示分群狀況。 有些軟體也報導一些判斷標準。
範例說明 利用工業人口百分比、商業人口百分比、淨遷入率、離婚千分率、高等際遇人口百分比、文盲率,集犯罪萬分率等七種際遇、社會及犯罪資料,對23個縣市進行分類。檔案