量化研究與統計分析集群分析 Cluster analysis 謝寶煖 2006年5月27日.

量化研究與統計分析集群分析 Cluster analysis 謝寶煖 2006年5月27日

15位學生的身高和體重

集群分析的基本概念將性質相近的現象歸為一類，以便在大量複雜的特徵歸類後，找出其所存在的規律性，如經濟現象
是定量研究分類問題的一種多元統計方法找出同一類中的個體有較大的相似性之間相似度的統計量，以此為依據，採用某種集群方法（cluster method），將所有樣本（或變數）分別集群到不同的類中 High internal (within-cluster) homogeneity High external (between-cluster) heterogeneity  類內同質類間異質

距離和相似係數研究變數間親疏程度的指標有兩個距離相似係數距離與相似係數計算公式的選擇，與資料特徵、測量尺度和集群方法有關。
指兩個事物距離多遠的測量，通常將每一個樣本看成m維（變數的個數）空間中的一個點，在這m維空間定義點與點之間距離，距離較近的點歸為同一類，距離較遠的點歸入不同的類。相似係數指兩個事物距離多近的測量，性質越近的樣本，它們之間的相似係數越接近於1（或－1），而彼此無關的樣本，它們之間的相似係數越接近於零。在進行集群處理時，將比較相似的樣本歸為一類，不怎麼相似的樣本歸為不同的類。距離與相似係數計算公式的選擇，與資料特徵、測量尺度和集群方法有關。

集群分析的分類對象 Q型集群也叫樣本（case）集群，是針對樣本進行分類處理。方法是根據樣本有關變數的特徵，將特徵相似的樣本歸為一類，例如在股市模組分析中，根據上市公司的每股收益、每股淨資產、股東權益率、淨資產收益率、淨利潤等五個指標，將股票分為不同的類型，如指標股、一般股等。 R型集群也叫變數（variable）集群，是以變數為單位進行集群。

分層集群分析 Hierarchical Cluster Analysis 也叫系統集群分析，是集群分析中應用最廣泛的一種方法。
集群過程：把參與集群的樣本（或變數）各視為一類，然後根據兩類之間的距離或相似度逐步合併，直到所有樣本（或變數）合併為一個大類為止。

分層集群分析可用於樣本集群，也可用於變數集群分析步驟選擇分析變數資料標準化
選擇距離或相似係數的計算公式，計算所有樣本或變數兩兩間的距離或相似係數，產生距離矩陣或相似矩陣。選擇集群方法，將距離最近的兩個樣本合併為一類。常用集群方法有：最短距離法、最長距離法、重心法、類平均法、離差平方合法等。分類個數大於1,則繼續前兩個步驟，直到所有樣本歸為一類為止輸出集群結果和系統集群圖，包括樹型圖和冰柱圖。根據研究對象的背景知識，按某種分類標準或分類原則，得出最終的分類結果。

分層集群分析分析＞分類＞階層集群分析法

分層集群分析例：研究各種飲料在市場消費的分配規律，共抽取了6個縣市消費的5種飲料有關的指標資料，請確定各種飲料的消費類型。
Cluster1

Case Cluster

選擇集群方法：群間連結（between-group linkage）距離測量採區間（Interval）的Squared Euclidean Distance

選擇輸出統計量：集群凝聚過程相似性矩陣各集群組員：由3到6

選擇輸出集群圖：樹狀圖冰柱圖方向：垂直

集群1或集群2中，有一個為0,表示樣本與類的合併
集群1＝集群2＝0,表示兩個樣本合併為一類/組集群1或集群2中，有一個為0,表示樣本與類的合併 1和4合併為一類，6獨立為一類集群的順序集群1和集群2，都不為0，表示類與類的合併。集群1是1、集群2是3

集群共分5階段。第一階段首先合併距離最近的樣本3和5,形成G1；下一階段（最右一欄）為4,故接續看在第4階段中，G1和樣本3形成複集群，因此在「先出現的階段集群」中，集群為3和1。
係數隨著集群的進行逐漸增大，開始增加得慢，後面增加快，表示集群開始時類間的差異小，結束時類間的差異大。

先出現的階段集群第一次出現複集群的階段集群1＝集群2＝0,表示兩個樣本合併集群1或集群2中，有一個為0,表示樣本與類的合併
集群1和集群2，都不為0,表示類與類的合併

集群1放3、集群2放5，但因集群1和集群2的先出現的階段集群都是0，表示集群1和集群2應合併為一類，所以群I是3和5。
下一階段是4，所以看階段4。集群1放1，集群2放3，且先出現集群都不為0，表示1要放在一個集群，3要和在另一個集群；但是先出現的階段集群，集群1已經有3了，所以3是集群1（根據階段1集群1現有3和5），集群2要放1。群 II：1 群 I：3, 5

下一階段是5，所以看階段5。集群1放1，集群2放6，且先出現集群1為4，表示1要和4放在一個集群；集群2的先出現集群為0，表示集群2的6要自己歸在一個集群中。集群1（根據階段4集群1現有3和5），集群2要放1。群 II：1, 4 群 III：6 群 I：3, 5

還有階段2和階段3還沒有檢視。階段2中，集群1放1 ，集群2放4。先出現的集群都是0，表示1和4要放在同一群中。群 II：1, 4 群 III：6 群 I：3, 5

下一階段是3。階段3中，集群1放1 ，集群2放2。先出現的集群1是2，表示1和2要放在同一群中。而集群2的先出現集群是0；結束。群 II：1, 4, 2 群 III：6 群 I：3, 5

由組間平均距離連接法，可知6個樣本明顯地分為三類
I：3、5 II：1、2、4 III：6

冰柱圖

樹狀圖

快速基因資料集群分析也稱為逐步集群或動態群集
開始按照一定方法選取一批凝聚點，其次讓樣本項最近的凝聚點凝聚，形成起始分類，然後按最近距離原則修改不合理的分類，直到合理為止。適合於大基因資料檔案的Q型集群分析

分析步驟選擇分析變數指定集群數目，即要將樣本聚為幾類選擇K個樣本作為集群的種子，K的最小值為2 ，最大值不超過樣本個數
輸出集群結果根據研究對象的背景知識，按某個分類標準或分類原則，得出最終的分類結果。

集群分析分析＞分類＞階層集群分析法

澳洲某農莊14年來葡萄生產量，是否可以加以區分為有意義的集群？（可用產量的差距來衡量年度之間的距離）
Cluster2

各集群組員：無：表示不印出集群個體，為內定選項。單一集群：印出單一集群的成員。如果研究者想了解劃分成三個集群時，集群內的成員為那些觀察值，可以選取此項，並在其後的空格中輸入3. 集群個數範圍：印出某個範圍內集群的成員。如研究者想了解分成2個、3個集群時，各集群內的個體為何，可以選取此項，而在不同空格內輸入2、3.

樹狀圖：3群

由階層集群分析結果可知，葡萄生產量可以區分為三個集群：
I： 2、5、11、13 （ 11、13、2、5 ） II：1、3、4、6、7、8（1、6、3、8、7、4） III：9、10、12、14（10、14、9、12）

樹狀圖：4群

那麼，該分3群？還是4群呢？ Interpretation!

台北捷運公司依兩個站間的距離，將淡水捷運線七大捷運站新店、景美、公館、古亭、火車站、北投、淡水，作分類。
cluster3

老師為評比學生之學科與術科，決定以學科與術科成績為基準，欲將學生分為高、中、低三個等級。
Cluster4

因學科與術科之成績計算方法不同，應先將資料標準化
分析＞摘要＞描述性統計量

再進行集群分析變數：標準化後之指標變數統計量選擇：單一集群：3

根據集群分析結果，可將12名學生分為三組： I：2、3、4、8、11 II：1、5、6、7、10 III：9、12

身高 vs. 體重(標準化)

JCR Information Science & Library Science之54種期刊是否可以依其index加以分類
Impact factor vs. immediacy index 排名好又熱門（叫好又叫座的期刊） Impact factor vs. articles 排名好又好登（便宜又大碗） Immediacy index vs. articles 熱門又好登

Impact factor vs. immediacy index
3: MIS QUART 4: J AM MED INFORM ASSN 1: ANNU REV INFORM SCI 2: INFORM SYST RES II: 5~54

Impact factor vs. articles Immediacy index vs. articles
42: LIBR J 43: SCIENTIST II: 1~41 44~45

Impact factor, Immediacy index, articles, cites
2群 I：3 5 4 3 MIS QUART 5 J AM SOC INF SCI TEC 4 J AM MED INFORM ASSN II： 4群

3 MIS QUART 5 J AM SOC INF SCI TEC 4 J AM MED INFORM ASSN

量化研究與統計分析集群分析 Cluster analysis 謝寶煖 2006年5月27日.

Similar presentations

Presentation on theme: "量化研究與統計分析集群分析 Cluster analysis 謝寶煖 2006年5月27日."— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

量化研究與統計分析 集群分析 Cluster analysis 謝寶煖 2006年5月27日.

Similar presentations

Presentation on theme: "量化研究與統計分析 集群分析 Cluster analysis 謝寶煖 2006年5月27日."— Presentation transcript:

Similar presentations

About project

反馈

量化研究與統計分析集群分析 Cluster analysis 謝寶煖 2006年5月27日.

Presentation on theme: "量化研究與統計分析集群分析 Cluster analysis 謝寶煖 2006年5月27日."— Presentation transcript: