量化研究與統計分析 集群分析 Cluster analysis 謝寶煖 2006年5月27日.

Slides:



Advertisements
Similar presentations
第七节 心 悸 郑祖平. 一、概述 心悸是一种自觉心脏跳动的不适感或心 慌感。当心率加快时感到心脏跳动不适, 心率缓慢时则感到搏动有力。心悸时,心 率可快、可慢,也可有心律失常,心率和 心律正常者亦可有心悸。 一般认为与心肌收缩力心搏量的变化及 患者的精神状态注意力是否集中等多种因 素有关。
Advertisements

台北縣私立多芮咪托兒所 家 長 手 冊. 序言 親愛的家長 : 關心寶貝與學前教育的過程,是您我共同的 責任;為寶貝創造更美好的明天,是我們共同 的心願。歡迎您的寶貝來本園就讀,並感謝您 對我們的信任與支持。為了使您更了解本園所 的一切,我們特別寫這篇家長手冊,以便您隨 時可以參考,並與學校配合,了解學校的教學.
1/67 美和科技大學 美和科技大學 社會工作系 社會工作系. 2/67 社工系基礎學程規劃 ( 四技 ) 一上一下二上二下三上 校訂必修校訂必修 英文 I 中文閱讀與寫作 I 計算機概論 I 體育 服務與學習教育 I 英文 II 中文閱讀與寫作 II 計算機概論 II 體育 服務與學習教育 II.
佛教陳榮根紀念學校 姜曉霞老師、吳麗媚老師 元朗區小學教師發展日 二年級喜閱寫意校本整合 寫作教學.
“ 育人 ” 即 “ 育己 ” 的五年 答 辩 人:晏向华 研究方向:动物分子营养学 单 位:动物科技学院 动物营养与饲料科学系 2012 年研究生指导教师 “ 教书育人奖 ” 答辩.
聖若翰天主教小學 聖若翰天主教小學歡迎各位家長蒞臨 自行分配中一學位家長會 自行分配中一學位家長會.
認識食品標示 東吳大學衛生保健組製作.
簡 報 大 綱 壹、前言 貳、我國教育進步軌跡 叁、我國教育競爭力 肆、教育施政理念 伍、主要教育政策 陸、教育創新與突破 柒、結語 1.
海洋教育:教科書、教師與教學 第七至十章導讀 宏仁國中 林珮瑜
后勤保卫竞聘讲演报告 竞聘岗位: 后勤保卫副科长 竞聘人: XX 2014年5月2日.
第八章 互换的运用.
丹頂鶴繁殖地在中國的三江平原的松嫩平原、俄羅斯的遠東和日本等地。它在中國東南沿海各地及長江下游、朝鮮海灣、日本等地越冬。
手术切口的分级与抗菌药物的应用 贵阳医学院附属白云医院感染管理科 沈 锋
颞下颌关节常见病.
「健康飲食在校園」運動 2008小學校長高峰會 講題:健康飲食政策個案分享 講者:啟基學校-莫鳳儀校長 日期:二零零八年五月六日(星期二)
致理科技大學保險金融管理系 實習月開幕暨頒獎典禮
脊柱损伤固定搬运术 无锡市急救中心 林长春.
行政訴訟法 李仁淼 教授.
2013年二手车市场环境分析.
結腸直腸腫瘤的認知.
經歷復活的愛 約翰福音廿一1-23.
心在哪裡 夢在哪裡.
2013年临床科室述职报告.
中国博士后科学基金 交流体会.
郭詩韻老師 (浸信會呂明才小學音樂科科主任)
第二章 研究设计与评价.
四象限工作分析法.
荆楚理工学院 申请学士学位授权单位 自 评 报 告 荆楚理工学院:吴麟章
电气与信息工程学院 学科建设情况汇报
公務員廉政倫理規範與案例介紹 報告人:法務部 廉政署 防貪組 社會參與科 科長 陳敏森 2017/3/19 1.
務要火熱服事主.
第十九章 聯合分析、多元尺度方法 和集群分析
周星驰电影鉴赏.
作业现场违章分析.
原型法 原型法概述: 原型是一个可以实际运行、反复修改,可以不断完善的系统。.
蒙福夫妻相处之道 经文:弗5:21-33.
《中文自修》VS.《读者》VS.《当代学生》
2. 戰後的經濟重建與復興 A. 經濟重建的步驟與措施 1.
學習共同體實施心得分享 新泰國中 報告者 張國振校長.
好好學習 標點符號 (一) 保良局朱正賢小學上午校.
2014創新創業教育研習營 本梯次限額50名,以報名順序額滿為止!! 課程內容及時間:
中华医学杂志英文版简介 中华医学杂志英文版 汪谋岳.
學生:蔡耀峻、許裕邦 座號:23號、21號 指導老師:黃耿凌 老師
4. 聯合國在解決國際衝突中扮演的角色 C. 聯合國解決國際衝突的個案研究.
6.5滑坡 一、概述 1.什么是滑坡? 是斜坡的土体或岩体在重力作用下失去原有的稳定状态,沿着斜坡内某些滑动面(滑动带)作整体向下滑动的现象。
新陸書局股份有限公司 發行 第十九章 稅捐稽徵法 稅務法規-理論與應用 楊葉承、宋秀玲編著 稅捐稽徵程序.
学堂讲座通知 化学系 于吉红 院士 吉林大学化学学院 分子筛多孔功能材料的定向设计与构筑 报告人: 报告题目:
民法第四章:權利主體 法人 楊智傑.
學術期刊之發展趨勢與品質指標 Trends and Qualitative indicators of academic journals
Journal Citation Report
第十六章 集群分析.
教育部技專院校共用性電子資料庫使用教育訓練
“精彩十分钟” 外文数据库系列讲座 ISI Web of knowledge 演讲:黄群庆
四年級 中 文 科.
聚类分析 电子工业出版社.
第二章 商业银行资本管理.
聖本篤堂 主日三分鐘 天主教教理重温 (94) (此簡報由聖本篤堂培育組製作).
第五章 三角比 二倍角与半角的正弦、余弦和正切 正弦定理、余弦定理和解斜三角形.
聖誕禮物 歌羅西書 2:6-7.
政府採購法 第四章 履約管理 報 告 人:郭明恩 政府採購法及其子法相關規定 本法 第四章(§63~70)【8】
第17章 集群分析 本章的學習主題  1. 集群分析的概念 2. 相似性及最近距離的衡量 3. 階層分析法 4. 非階層分析法
Web of Science系統收錄內容 各學科領域收刊種數不同,無法相加比較 資料庫 收錄期刊數量 主題描述
如何查询影响因子.
Chapter 10 集群分析. Chapter 10 集群分析 概念及應用 集群分析(cluster analysis)是一種用來將屬量的觀測點分群或分類的分析方法 經過集群分析分群之後,在同一群內的觀測點針對某些特性而言,會具有一致性;而分屬不同群的觀測點,針對同樣的特性則會有顯著的不同.
集群分析(Cluster) 根據觀察值在一群變項上的測量值進行分類的多變量分析方法。 在不同專業領域也稱為
Worldlib外文文献平台简介 2018年3月1日.
依撒意亞先知書 第一依撒意亞 公元前 740 – 700 (1 – 39 章) 天主是宇宙主宰,揀選以民立約,可惜他們犯罪遭
基督是更美的祭物 希伯來書 9:1-10:18.
期刊使用因子 (Journal Usage Factor) -电子期刊定量评价新指标
經文 : 創世紀一章1~2,26~28 創世紀二章7,三章6~9 主講 : 周淑慧牧師
Presentation transcript:

量化研究與統計分析 集群分析 Cluster analysis 謝寶煖 2006年5月27日

15位學生的身高和體重

集群分析的基本概念 將性質相近的現象歸為一類,以便在大量複雜的特徵歸類後,找出其所存在的規律性,如經濟現象 是定量研究分類問題的一種多元統計方法 找出同一類中的個體有較大的相似性之間相似度的統計量,以此為依據,採用某種集群方法(cluster method),將所有樣本(或變數)分別集群到不同的類中 High internal (within-cluster) homogeneity High external (between-cluster) heterogeneity  類內同質 類間異質

距離和相似係數 研究變數間親疏程度的指標有兩個 距離 相似係數 距離與相似係數計算公式的選擇,與資料特徵、測量尺度和集群方法有關。 指兩個事物距離多遠的測量,通常將每一個樣本看成m維(變數的個數)空間中的一個點,在這m維空間定義點與點之間距離,距離較近的點歸為同一類,距離較遠的點歸入不同的類。 相似係數 指兩個事物距離多近的測量,性質越近的樣本,它們之間的相似係數越接近於1(或-1),而彼此無關的樣本,它們之間的相似係數越接近於零。在進行集群處理時,將比較相似的樣本歸為一類,不怎麼相似的樣本歸為不同的類。 距離與相似係數計算公式的選擇,與資料特徵、測量尺度和集群方法有關。

集群分析的分類對象 Q型集群 也叫樣本(case)集群,是針對樣本進行分類處理。方法是根據樣本有關變數的特徵,將特徵相似的樣本歸為一類,例如在股市模組分析中,根據上市公司的每股收益、每股淨資產、股東權益率、淨資產收益率、淨利潤等五個指標,將股票分為不同的類型,如指標股、一般股等。 R型集群 也叫變數(variable)集群,是以變數為單位進行集群。

分層集群分析 Hierarchical Cluster Analysis 也叫系統集群分析,是集群分析中應用最廣泛的一種方法。 集群過程:把參與集群的樣本(或變數)各視為一類,然後根據兩類之間的距離或相似度逐步合併,直到所有樣本(或變數)合併為一個大類為止。

分層集群分析 可用於樣本集群,也可用於變數集群 分析步驟 選擇分析變數 資料標準化 選擇距離或相似係數的計算公式,計算所有樣本或變數兩兩間的距離或相似係數,產生距離矩陣或相似矩陣。 選擇集群方法,將距離最近的兩個樣本合併為一類。常用集群方法有:最短距離法、最長距離法、重心法、類平均法、離差平方合法等。 分類個數大於1,則繼續前兩個步驟,直到所有樣本歸為一類為止 輸出集群結果和系統集群圖,包括樹型圖和冰柱圖。 根據研究對象的背景知識,按某種分類標準或分類原則,得出最終的分類結果。

分層集群分析 分析>分類>階層集群分析法

分層集群分析 例:研究各種飲料在市場消費的分配規律,共抽取了6個縣市消費的5種飲料有關的指標資料,請確定各種飲料的消費類型。 Cluster1

Case Cluster

選擇集群方法: 群間連結(between-group linkage) 距離測量採區間(Interval)的Squared Euclidean Distance

選擇輸出統計量: 集群凝聚過程 相似性矩陣 各集群組員:由3到6

選擇輸出集群圖: 樹狀圖 冰柱圖方向:垂直

集群1或集群2中,有一個為0,表示樣本與類的合併 集群1=集群2=0,表示兩個樣本合併為一類/組 集群1或集群2中,有一個為0,表示樣本與類的合併 1和4合併為一類,6獨立為一類 集群的順序 集群1和集群2,都不為0,表示類與類的合併。 集群1是1、集群2是3

集群共分5階段。第一階段首先合併距離最近的樣本3和5,形成G1;下一階段(最右一欄)為4,故接續看在第4階段中,G1和樣本3形成複集群,因此在「先出現的階段集群」中,集群為3和1。 係數隨著集群的進行逐漸增大,開始增加得慢,後面增加快,表示集群開始時類間的差異小,結束時類間的差異大。

先出現的階段集群 第一次出現複集群的階段 集群1=集群2=0,表示兩個樣本合併 集群1或集群2中,有一個為0,表示樣本與類的合併 集群1和集群2,都不為0,表示類與類的合併

集群1放3、集群2放5,但因集群1和集群2的先出現的階段集群都是0,表示集群1和集群2應合併為一類,所以群I是3和5。 下一階段是4,所以看階段4。集群1放1,集群2放3,且先出現集群都不為0,表示1要放在一個集群,3要和在另一個集群;但是先出現的階段集群,集群1已經有3了,所以3是集群1(根據階段1集群1現有3和5),集群2要放1。 群 II:1 群 I:3, 5

下一階段是5,所以看階段5。集群1放1,集群2放6,且先出現集群1為4,表示1要和4放在一個集群;集群2的先出現集群為0,表示集群2的6要自己歸在一個集群中。集群1(根據階段4集群1現有3和5),集群2要放1。 群 II:1, 4 群 III:6 群 I:3, 5

還有階段2和階段3還沒有檢視。 階段2中,集群1放1 ,集群2放4。先出現的集群都是0,表示1和4要放在同一群中。 群 II:1, 4 群 III:6 群 I:3, 5

下一階段是3。 階段3中,集群1放1 ,集群2放2。先出現的集群1是2,表示1和2要放在同一群中。而集群2的先出現集群是0;結束。 群 II:1, 4, 2 群 III:6 群 I:3, 5

由組間平均距離連接法,可知6個樣本明顯地分為三類 I:3、5 II:1、2、4 III:6

冰柱圖

樹狀圖

快速基因資料集群分析 也稱為逐步集群或動態群集 開始按照一定方法選取一批凝聚點,其次讓樣本項最近的凝聚點凝聚,形成起始分類,然後按最近距離原則修改不合理的分類,直到合理為止。 適合於大基因資料檔案的Q型集群分析

分析步驟 選擇分析變數 指定集群數目,即要將樣本聚為幾類 選擇K個樣本作為集群的種子,K的最小值為2 ,最大值不超過樣本個數 輸出集群結果 根據研究對象的背景知識,按某個分類標準或分類原則,得出最終的分類結果。

集群分析 分析>分類>階層集群分析法

澳洲某農莊14年來葡萄生產量,是否可以加以區分為有意義的集群?(可用產量的差距來衡量年度之間的距離) Cluster2

各集群組員: 無:表示不印出集群個體,為內定選項。 單一集群:印出單一集群的成員。如果研究者想了解劃分成三個集群時,集群內的成員為那些觀察值,可以選取此項,並在其後的空格中輸入3. 集群個數範圍:印出某個範圍內集群的成員。如研究者想了解分成2個、3個集群時,各集群內的個體為何,可以選取此項,而在不同空格內輸入2、3.

樹狀圖:3群

由階層集群分析結果可知,葡萄生產量可以區分為三個集群: I: 2、5、11、13 ( 11、13、2、5 ) II:1、3、4、6、7、8(1、6、3、8、7、4) III:9、10、12、14(10、14、9、12)

樹狀圖:4群

那麼,該分3群?還是4群呢? Interpretation!

台北捷運公司依兩個站間的距離,將淡水捷運線七大捷運站新店、景美、公館、古亭、火車站、北投、淡水,作分類。 cluster3

老師為評比學生之學科與術科,決定以學科與術科成績為基準,欲將學生分為高、中、低三個等級。 Cluster4

因學科與術科之成績計算方法不同,應先將資料標準化 分析>摘要>描述性統計量

再進行集群分析 變數:標準化後之指標變數 統計量選擇:單一集群:3

根據集群分析結果,可將12名學生分為三組: I:2、3、4、8、11 II:1、5、6、7、10 III:9、12

身高 vs. 體重(標準化)

JCR Information Science & Library Science之54種期刊是否可以依其index加以分類 Impact factor vs. immediacy index 排名好又熱門(叫好又叫座的期刊) Impact factor vs. articles 排名好又好登(便宜又大碗) Immediacy index vs. articles 熱門又好登

Impact factor vs. immediacy index 3: MIS QUART 4: J AM MED INFORM ASSN 1: ANNU REV INFORM SCI 2: INFORM SYST RES II: 5~54

Impact factor vs. articles Immediacy index vs. articles 42: LIBR J 43: SCIENTIST II: 1~41 44~45

Impact factor, Immediacy index, articles, cites 2群 I:3 5 4 3 MIS QUART 5 J AM SOC INF SCI TEC 4 J AM MED INFORM ASSN II: 4群

3 MIS QUART 5 J AM SOC INF SCI TEC 4 J AM MED INFORM ASSN

Q & A