第17章 集群分析 本章的學習主題  1. 集群分析的概念 2. 相似性及最近距離的衡量 3. 階層分析法 4. 非階層分析法.

Slides:



Advertisements
Similar presentations
南 通. 南通概述 南通,位于江苏省东部, 东抵黄海,南望长江。 “ 据江 海之会、扼南北之喉 ” ,隔江 与中国经济最发达的上海及 苏南地区相依,被誉为 “ 北上 海 ” 。 南通也是中国首批对 外开放的 14 个沿海城市之一 ,被称为 “ 中国近代第一城 ” 。 南通面临海外和内陆两大经 济辐射扇面,素有.
Advertisements

高等学校英语应用能力考试 考务培训 兰州文理学院教务处 2014 年 12 月. 考务培训 21 日请监考人员上午 8:00 (下午 2:30 )到综合楼 205 教室集合,查看 监考安排,由考务负责人进行考务 培训。
語言與文化通識報告 - 台日年菜差異 - 指導老師 : 葉蓁蓁 小組 : 日本微旅行 組員 :4a21b032 吳采玲 4a21b037 沈立揚 4a 洪雅芳 4a 陳楚貽 4a 王巧稜.
均衡推进,确保质量 08学年第一学期教学工作会议 广州市培正中学
黑木耳.
投資權證13問 交易所宣導資料(104) 1.以大盤指數為標的之權證,和大盤指數的連動性,為什麼比和期交所期指的連動性差?
如何把作文写具体.
第一章 人口与环境 第一节 人口增长模式.
第一节 人口与人种 第一课时.
解读我党发展史 思索安惠美好明天 主讲人:王辰武.
第5课 长江和黄河.
小学科学中的化学 武威十九中 刘玉香.
銓敘部研究規劃自願退休公務人員月退休金起支年齡延後方案座談會
瓦罐湯 “瓦缸煨汤”是流行于南方民间的一种风味菜肴。它采用一种制特的大瓦缸,其缸底可以烧火,缸内置有铁架,厨师将装有汤的小瓦罐一层层地码入缸内的铁架上,然后点燃木炭,借用木炭火产生的高温将瓦罐内的汤煨熟。
1.數學的難題 如下圖所示,你知道表格中的問號應填入什麼數字嗎?
神州五号、六号的发射和回收都取得了成功 ,圆了几代中国人的航天梦,让全中国人为之骄傲和自豪 神州五号、六号的发射和回收都取得了成功 ,圆了几代中国人的航天梦,让全中国人为之骄傲和自豪!但是你们知道我们的科学家是怎样迅速地找到返回舱着陆的位置的吗? 这全依赖于GPS——卫星全球定位系统”。大家一定觉得很神奇吧!学习了今天的内容,你就会明白其中的奥妙。
第九章 欧氏空间 §1 定义与基本性质 §2 标准正交基 §3 同构 §4 正交变换 §5 子空间 §6 对称矩阵的标准形
第九章 欧氏空间 §1 定义与基本性质 §6 对称矩阵的标准形 §2 标准正交基 §7 向量到子空间的 距离─最小二乘法 §3 同构
合肥学院外国语言系2012年度 学生工作表彰大会.
105年基北區高中職適性入學宣導 教育會考後相關作業說明
真题模拟 主讲:凌宇 时间:6月9日.
树立信心,沉着应战,吹响中考冲锋号 ——谈语文学科的复习备考及考试技巧.
上海普通居民对当地房价的态度及住房需求调查
请大家欣赏龙岩, 新罗区 上杭,武平, 连城,长汀, 永定,漳平 小吃和特产.
游 泳 理 论 课 位育中学 高蓉.
行政公文 纪 要 讲授人: 安学珍 铜仁职业技术学院.
上海交通大学附属中学 李由 晏敏宽 刘华典 指导老师:朱乔荣 徐忠惠 制作:李由
二代健保補充保費 代扣項目說明 簡報.
1.某公司需购一台设备,有两个方案,假定公司要求的必要报酬率为10%,有关数据如下:
第4课 “千古一帝”秦始皇.
第一节 人口与人种 光山一中 屈应霞.
第16章 典型相關分析 本章的學習主題  1. 典型相關的概念 2. 典型相關分析之基本假設及模型適合度 3. 典型權重和典型變量 4. 典型相關係數 5. 典型負荷量 6. 重疊指數 7. 典型相關分析整體模式之解釋.
第五章 二次型.
抚宁县第五中学 教学暨新课改推进工作会.
《社会体育指导员讲座》课程整体设计介绍 席永 副教授 2015 年 6 月
专项建设检查工作总结 本科试卷 毕业论文(设计) 合格课程 专项检查工作基本情况 专项建设的工作内容 专项建设检查工作情况
企业所得税几项热点难点 业务问题讲析 湛江市地税局税政科 钟胜强.
房地产开发企业 土地增值税清算 (基础篇).
班級老師:潘盈仁 班級:休閒三甲 學號:4A0B0124 學生:柯又瑄
告状 一位叫杨鲁的孩子,告他父亲杨庆的状。他极其认真地向父亲所在的工厂党委书记指控,说父亲不让儿子“游戏人间”,每天“画地为牢”,要儿子“咬文嚼字”,稍不满意,还要“入室操戈”。他声称父亲打他总是“重于泰山”,不象母亲打他“轻如鸿毛”。并且表示“庆父不死,鲁难不已”。
學校社工師服務與家訪技巧 三峽區駐區學校社工師 陳若喬.
2014年玉溪市统测质量分析 及高考语文应注意的几个问题
第三部分 区域可持续发展 第二单元 区域可持续发展 第7课 资源跨区域调配. 第三部分 区域可持续发展 第二单元 区域可持续发展 第7课 资源跨区域调配.
钢铁工业产能置换与相关政策 工业和信息化部产业政策司 辛 仁 周 二〇一五年三月二十八日.
中餐烹調丙級技術士考照 介紹 劉曉宜老師.
3、个人与社会的辩证关系(对立统一) (1)相互区别,不能等同。社会是根本,起决 定 作用。 (2)相互依存,密不可分。
忆一忆 1.什么叫财政? 2.财政收入的形式有哪些? 国家的收入和支出。 税、利、债、费 3.其中,财政收入的最主要的形式是什么? 税收.
腐败的食物表面有白色小圆斑点,绿色斑点等
模块 中国古代史 主题 古代大一统(隋前).
遭遇险情有对策.
生物七下复习.
15 簡單迴歸分析與相關分析  學習目的.
第十九章 聯合分析、多元尺度方法 和集群分析
第23章 類神經網路 本章的學習主題  1.類神經網路的基本概念 2.類神經網路之應用 3.倒傳遞類神經網路
荆门市农业水价综合改革 工作情况汇报 湖北省荆门市水务局 二0一六年九月.
物價膨脹之意義(1) 一、意義:指在一段期間內,一國平均物價水準發生持續上漲的現象。 圖示(物價膨脹):
国际关系的决定因素:国家利益 江苏省震泽中学 丛海啸.
紧抓PPP项目为招标代理机构 带来的转型发展机遇
为什么要理财? 财富在增加 幸福却…… 据最新发布的《中产家庭幸福白皮书》显示,中国大多中产阶级生活得并不幸福。面对越来越大的压力,这些有车有房,收入可观的人群却显得更为脆弱。中产阶级家庭中,子女教育、医疗、养老成为家庭财务规划中压力最大的三个内容。尤其是养老,随着通胀、退休延迟、失独老人的增加,人们对于未来20年、30年的生活状况感到不确定因素在不断增加,烦恼挥之不去。
第十二章 變異數分析 陳順宇 教授 成功大學統計系.
第13章變異數分析與多變數分析  本章的學習主題 
第14章 迴歸分析與複迴歸分析  本章的學習主題 
第十六章 集群分析.
統計方法的概念與應用 一、認識統計(statistics)、測驗(test)、 測量(measurement)與評價(evaluation)
聚类分析 电子工业出版社.
第17章 集群分析 本章的學習主題  1. 集群分析的概念 2. 相似性及最近距離的衡量 3. 階層分析法 4. 非階層分析法
聚类分析法预测(Cluster Analysis)
小学5.
玉米丰产已定 结构性供需决定后期行情 招金期货有限公司 农产品团队.
集群分析(Cluster) 根據觀察值在一群變項上的測量值進行分類的多變量分析方法。 在不同專業領域也稱為
Presentation transcript:

第17章 集群分析 本章的學習主題  1. 集群分析的概念 2. 相似性及最近距離的衡量 3. 階層分析法 4. 非階層分析法

17.1 集群分析概念 集群分析 (cluster analysis) 是一種將樣本觀察 值進行分析,將具有某些共同特性者予以整合在一起, 然後分配到特定的群體,最後形成許多不同集合集群 的一種分析方法。 集群分析與因素分析的概念大致相同,但前者 係將不同的觀察值依相對距離的遠近加以分類成不同 集群,然後對不同集群所具有的特性程度加以歸納並 命名;而後者乃係將不同的變數依照相關程度加以萃 取成少數的因素,然後依照各因素中所含變數來加以 命名。

17.1 集群分析概念 集群分析是將某些具有共同特性的objects或樣本 予以整合,集群分析的結果顯示出內部同質性與外部異 質性,即達到群內差異最小、群間差異最大。集群分析 係將不同觀察值,依相對距離遠近加以分類為不同集群, 其主要目的在界定資料結構,將最相似的觀察值納入同 一集群中。 例如表17─1中係收集15家商店的銷售數量及顧客 人次的資料,若我們希望以商店的業績(銷售數量及顧 客人次)作分群,將15家商店作不同業績的歸納,使同 群內的商店其業績很接近,而不同群的商店其業績相差 很大。

17.1 集群分析概念 表 17-1 商店業績統計表 圖 17-1 商店業績分群示意圖 商店編號 1 2 3 4 5 6 7 8 9 10 17.1 集群分析概念 表 17-1 商店業績統計表 商店編號 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 銷售數量 1153 1135 1155 1151 1146 1147 1141 1139 1148 1145 1150 1134 1140 顧客人次 216 199 222 218 213 214 211 202 205 215 223 207 210 圖 17-1 商店業績分群示意圖

17.2 界定研究問題 圖 17-2 集群分析步驟 界定研究問題 變數及資料篩選 相似性衡量 選擇集群方法 及 決定集群數目 解釋及驗證集群 17.2 界定研究問題 界定研究問題 變數及資料篩選 相似性衡量 選擇集群方法 及 決定集群數目 解釋及驗證集群 探索性 驗證性 變數的共線性 極端值的剔除 資料的標準化 距離衡量 歐式距離 馬式距離 街道距離 混合式距離 集群方法 層次集群方法 非層次集群方法 集群數目之決定 觀察值集合順序表 垂直冰柱圖 樹狀圖 層次集群與非層次集群之比較 區別分析 圖 17-2 集群分析步驟

17.3 變數與資料的篩選 集群分析在變數與資料的篩選上須考量: 1.變數的共線性 2.極端值的剔除 3.資料的標準化

17.4 相似性衡量   相似性乃係指任何二個樣本,相對於其他樣 本而言,如果在各種變數上有相近之處,即代表 它們在很多方面具有共同的特性,則這對樣本可 視為是具有相似性。   進行相似性衡量必須決定要採用何種設定基 礎,不同的衡量方法,可能產生不同的分群結果。 而所謂距離衡量係指以點與點之間的距離為代表, 即計算點與點間的距離,透過找到點與點間距離 最小的,來辨識其相似性。

在集群的概念中,距離最小的樣本會先集結,然後再找距離比較大者集結,至最後全部集結為止,其中較重要且較常使用到的,仍屬歐氏距離衡量法 17.4 相似性衡量 在集群的概念中,距離最小的樣本會先集結,然後再找距離比較大者集結,至最後全部集結為止,其中較重要且較常使用到的,仍屬歐氏距離衡量法 圖 17—3 集群分析歐氏距離計算方法 歐氏距離之公式為:

17.4 相似性衡量 表 17 – 2 歐氏距離計算表 觀察值 1 2 3 4 5 6 7 8 9 10 2.778 2.028 0.361 7.444 2.444 4.250 6.444 1.444 2.250 1.000 1.694 2.111 6.028 5.250 14.000 13.000 3.028 13.444 18.444 15.250 34.000 29.000 13.028 8.000 0.000 17.278 14.500 13.361 26.944 22.944 10.694 5.944 本章範例是以行為意圖之構念作為分群變數,根據社群推薦、社群參與和品牌忠誠等三個因素來作為分群的標準,而在本範例中,其前10個觀察值的歐氏距離平方如表17-2所示

17.5 選擇集群方法及決定集群數目 集群分析的方法,可分為兩大類,五種方法: 1.層次集群方法(hierarchical methods) 17.5 選擇集群方法及決定集群數目 集群分析的方法,可分為兩大類,五種方法: 1.層次集群方法(hierarchical methods) (1)單一連鎖法(single linkage) (2)完全連鎖法(complete linkage) (3)中心法(centroid method) (4)華德法(Ward’s methods) 2.非層次集群方法(non-hierarchical methods) (1)K平均數法(k-means methods)

17.5 選擇集群方法及決定集群數目 一、層次集群法 1.單一連結法 17.5 選擇集群方法及決定集群數目 一、層次集群法 1.單一連結法   又稱為最近法(nearest neighbor)。最近法對A、B兩群距離的定義是以A群內每一點到B群內每一點的距離之最小值,作為A、B兩群的距離。而群集時是依據此值最小者做為選取下一步結合之對象,最近法的概念表示如下: 圖 17-4 單一連結法

17.5 選擇集群方法及決定集群數目 2.完全連結法 又稱為最遠法(farthest neighbor)。最遠距離法的計算是以A群內每一點到B群內每一點的距離中之最大值,作為A、B兩群的距離。而群集時依然是以此值最小者做為選取下一步結合之對象,而最遠法的概念可表示如下: 圖 17-5 完全連結法

17.5 選擇集群方法及決定集群數目 3.中心法   中心法也稱平均連結法,是以計算A群的中心點到B群中心點的距離,作為A、B兩群的距離。集群時也是以此中心距離最小者為選取下一步結合的對象,中心法的概念可表示如下: 圖 17-6 中心法

17.5 選擇集群方法及決定集群數目 4.華德法 又稱最小變異數法(minimum variance method)。華德法的分群方式是先將每一個個體視為一個集群,然後將各集群依序合併,合併之順序完全視合併後集群之組內總變異數之大小而定。凡使群內總變異數產生最小增量的個體即予以優先合併,愈早合併之個體表示其間的相似性愈高。

17.5 選擇集群方法及決定集群數目 在華德法的集群分析中,是透過所產生的逐次聚合係數來加以分析,如由表中我們可以得知,當從第三群要分到第二群時,其係數的變化量增加183.579,顯示到該結點時,係數必須耗費很大的力氣,才能再次凝聚群集,故可考慮放棄聚合而選擇分三群即可 群集數 階段 組合集群 係數 係數變化 (%) 先出現的階段集群 下一 階段 集群1 集群2 10 240 2 4 212.739 - 233 235 248 9 241 310 12 230.885 8.53 238 227 234 8 242 31 55 252.100 9.19 230 229 244 7 243 38 43 273.323 8.42 225 222 246 6 328.658 20.25 5 245 1 13 389.146 18.40 239 237 247 452.645 16.32 249 3 52 552.782 22.12 231 736.361 32.12 1173.478 59.36

17.5 選擇集群方法及決定集群數目 華德法下樹狀圖分佈

17.5 選擇集群方法及決定集群數目 二、非層次集群方法: 17.5 選擇集群方法及決定集群數目 二、非層次集群方法:   非層次集群方法是在各階段分群過程中,將原有的 集群予以打散,並重新形成新的集群。其主要的運用方法 是:K平均數法(k-means methods)。   所謂K平均數法係先由觀察值中指定K群的中心值 (cluster seed),然後以K個中心值為中心,開始將觀察 樣本值中與中心值較接近者納入各群中,並依各觀察值到 各群中心值之距離遠近重新計算出各集群之集結係數,再 試著移動中心值之位置,並重新計算集結係數。如此重複 進行,直到中心點及各群之樣本不能再移動為止。

表 17-4 非階層 ( k-means ) 集群之各組成員分析表 17.5 選擇集群方法及決定集群數目 表 17-4 非階層 ( k-means ) 集群之各組成員分析表 觀察值 集群 8 1 2 7 3 11 10 21 13 24 4 16 26 5 18 27 6 23 31 9 35 36 12 38 37 14 39 … ... 208 247 217 209 248 218 210 249 219 211 250 220

17.5 選擇集群方法及決定集群數目 三、集群數目的決定 17.5 選擇集群方法及決定集群數目 三、集群數目的決定 在進行集群時,一個很重要的問題是要決定分為 多少群才有意義,以下幾項準則可以用來作為參考: 1.集群之群數以在2~6群為宜,超過 6 群則其後續分析 將變得相當瑣碎,因此除非另有特殊的考量,集群之 群數以不超過 6 群為宜。 2.集群完成後,各群之觀察值應盡量接近,即各群之觀 察值不要相差太遠。 (例如,若第一群有100個觀察值,第二群只有5個觀 察值即非常不適當。)

17.5 選擇集群方法及決定集群數目 3. 當集群數減少,集群內各觀察值的同質性便會降低。 研究者應權衡集群數與同質性兩者,儘可能找到較少 的集群,但仍滿足同質性的必要水準。 4. 集群係數之增量太大則放棄集結,如表17─3所示,如 利用華德法進行分群,集結力太大,則代表分群之事 實相當明顯,應即停止集結。 5. 集群時,各集群變數在各群之分數應具有顯著性,即 集群變數應具有區分之效度,否則,該集群變數是否 存在對於分群即沒有顯著的作用。 6. 集群之後,實際分群與理論分群之比較結果,其命中 率應達顯著之水準。 7.集群時,要盡量依照過去文獻之建議來決定集群數目。

17.6 集群之解釋與命名   由表17─5可知,分群結果第二群在行為意圖之三個集群變數中所得 之分數最高,故命名為高行為意圖群;第三群在三個集群變數中,所得 之分數次高,故命名為中行為意圖群,第一群在三群變數中分數最低, 因此命名為低行為意圖群。 表 17-5 分群平均值差異檢定(ANOVA) 構面與因素名稱 集群1 n=59 集群2 n=106 集群3 n=85 F值 P值 Duncan 品牌忠誠(bli) 4.3448 6.3143 5.3844 96.932 0.000*** (1,3,2) 社群參與(cpi) 3.5508 5.9626 4.5529 204.268 社群推薦(cri) 4.1441 6.5991 5.9412 244.119 ***:P<0.001;**:P<0.01;*:P<0.05

17.6 集群之解釋與命名 表 17-6 分群在其他構面之平均值差異檢定 1.低行為意圖群 n=59 2.高行為 意圖群 n=106 17.6 集群之解釋與命名 表 17-6 分群在其他構面之平均值差異檢定 1.低行為意圖群 n=59 2.高行為 意圖群 n=106 3.中行為 意圖群 n=85 F 檢定 顯著性 Duncan 成就動機(afm) 2.8008 2.8939 2.6500 0.951 0.388 (312) 權力動機(pwm) 3.5466 4.9245 4.1588 25.335 0.000*** (1,3,2) 從屬動機(acm) 4.7712 6.3774 5.3471 54.049 網站效能(opf) 3.7373 4.8255 4.3118 16.537 支持(ops) 4.5763 4.8962 4.3412 4.309 0.014* (31,2) 能力(ab) 4.4407 5.8489 5.1648 53.461 資訊基礎(ift) 4.3008 5.9458 4.8118 58.114 認同基礎(idt) 3.9407 5.4953 4.5765 39.850 與會員分享(ks_co) 3.3670 4.3269 3.3371 18.729 與公司分享(ks_ks) 3.8138 5.2137 4.0548 43.686 (13,2) *** :p<0.001; **:p<0.01;*:p<0.05

17.7 集群分析方法實際流程 為使集群之作業更為周延,通常我們以二階段法來 進行集群分析法。所謂二階段法係結合階層分群法與非 階層分群法二種方式,第一階段先以華德法做出凝聚係 數及樹狀圖,由研究人員根據本書所建議的分群法則來 判斷分幾群。決定群組個數之後,第二階段再以K組平 均數法進行集群分類以決定特定觀察值要分到哪一特定 群組之中。 使用二階段法的目的在於利用第一階段華德法以層 次集群分析法進行分群,我們利用分群之準則決定群數 以後,再利用第二階段以K組平均法,屬於非層次分群 法予以分群。

17.7 集群分析方法實際流程 排除樣本資料因為衡量尺度的不同, 資料標準化 所可能造成的影響,同時排除異常值 第一次階層分群 17.7 集群分析方法實際流程 資料標準化 第一次階層分群 ( 華德法 ) 非階層分析法 ( K 組平均數法 ) 排除樣本資料因為衡量尺度的不同, 所可能造成的影響,同時排除異常值 進行第一次階層分群的目的在於 判斷並決定分群數 進行非階層分析法,探討分群變數 之分群效度 圖 17-8 集群分析法實際流程