Download presentation
Presentation is loading. Please wait.
Published byHengki Sugiarto Modified 5年之前
2
Chapter 10 集群分析
3
概念及應用 集群分析(cluster analysis)是一種用來將屬量的觀測點分群或分類的分析方法
經過集群分析分群之後,在同一群內的觀測點針對某些特性而言,會具有一致性;而分屬不同群的觀測點,針對同樣的特性則會有顯著的不同 基於上述的定義,集群分析得以應用於財務、行銷、政治等許多的領域 利用集群分析可以將具有類似財務狀況的公司歸為一群,以利選取投資標的 在行銷方面,則可以將具有類似消費偏好的消費者區隔出來,以利於產品的定位和行銷
4
集群分析的基本想法 學生數學及英文成績散佈群
假設某高中有一班共有15位同學,將其依數學及英文兩科學習的表現予以分群,以判斷哪些同學需要進行特殊的輔導
5
集群分析的步驟 選擇衡量相似性(similarity)的方式 選擇分群的原則(如層級或非層級) 選擇分群的方法(如層級法中之華德法)
決定分群的群數 解釋分群的結果
6
衡量相似性的方式 衡量相似性的方式 利用距離來衡量相似性 距離(distance)
關聯係數(association coefficients) 相關係數(correlation coefficients) 利用距離來衡量相似性 依據任兩個觀測點或兩個群體間,在p個座標空間(即有p個據以分群的特性或變數)中的距離來決定哪些觀測點或群體是應該歸屬於同一類 兩個點i與j在p維的空間中的歐幾里得距離 標準化資料計算歐幾里得距離 馬式距離(Mahalanobis distance)
7
分群的原則與分群的方法 先根據分群的變數計算兩兩觀測點間的距離,然後將距離最近的點歸為一群
要做進一步的分群時,我們需要額外計算的是:已經分在一起的那一群觀測點全體與其他尚未分群的每一個觀測點之間的距離 將觀測點歸併時的順序考量 層級(hierarchical) 非層級(nonhierarchical) 兩階段法
8
層級分群法 層級分群法在分群時可分為凝聚分層(agglomerative)與分離分層(divisive) 凝聚分層法 分離分層法
在分群開始時,先將每一觀測點視為一群(因此如果有個樣本點,即有群),接著再逐步將接近的樣本點合為一群,使群數逐步減少 分離分層法 先確定想要分群的群數,將所有樣本點各自歸入其中的一群,再計算各群的中心值,然後針對每一樣本點,計算其至各群中心點的距離後,將其重新移動至距離最近的一群當中。反覆操作,直到不需重新移動為止
9
分群群數之決定 集群分析之樹狀圖
10
凝聚分層法(1) 單一聯結法 兩群體之間的距離定義為,以兩群體各自群體內任一觀測點至另一群體中任一觀測點距離(通常以歐幾里得距離平方代表;如果兩群體各有n1 及n2 個觀測點,則共有n1x n2 個距離)中最近者,作為兩群體間之距離 當群體間的距離確定之後,距離近的群體可以進一步合為同一群,再重新計算群與群之間的距離,並進行下一步的合併
11
凝聚分層法(2) 完全聯結法 兩群體之間的距離定義為,以兩群體各自群體內任一觀測點至另一群體中任一觀測點距離中最遠者,作為兩群體間之距離
相同地,當群體間的距離確定後,距離近的群體可以進一步合為同一群,再重新計算群與群之間的距離,並進行下一步的合併
12
凝聚分層法(3) 平均聯結法 兩群體之間的距離定義為,以兩群體各自群體內任一觀測點至另一群體中任一觀測點所有距離的平均值,作為兩群體間之距離
13
凝聚分層法(4) 中心法 兩群體之間的距離定義為,以兩群體中心點之間的距離,作為兩群體間之距離
14
凝聚分層法(5) 華德法 求取所有群體的組內平方和(within-cluster sum of squares)最小的情況下,找到最適的分群狀況 在每一次的分群(由多群逐漸凝聚成少群)過程中,都會先計算各種可能分群情況下,各群體的組內平方和及其總和,然後再比較各種可能分群情況之組內平方和總和,並選取組內平方和總和最小的分群情況作為分群的結果
15
分離分層法 K組平均法(K-means) 先確定想要分群的群數,接著將所有樣本點各自歸入其中的一群,下一步再計算各群的中心值,然後針對每一樣本點,計算其至各群中心點的距離後,將其重新移動至距離最近的一群當中 計算各群的中心值,也針對每一樣本點計算其至各群新的中心點的距離,並將之重新移動至距離最近的一群當中
16
兩階段法 第一階段先以凝聚分層法(如華德法)分群,並決定選取的群數 第二階段再以此一決定的群數,以非凝聚分層法的K組平均法進行分群
既可某種程度解決非凝聚分層法主觀決定群數的問題,也可以改善層級分群法無法將觀測點變換所屬群體的問題
17
集群分析的相關檢定 新群體之root-mean-square standard deviation (RMSSTD) R-squared
Semipartial R-squared (SPR) 如果此一指標值很大,代表此合併步驟會使群組內差異擴大,故不適合加以合併;而若相似度損失值很小,則表示新的分群較為合適 Pseudo Hotelling’s T2 Test 可用來檢定兩個群體的平均數是否具有顯著的差異,並且判斷兩個群體是否適合加以合併
Similar presentations