多元统计分析及R语言建模 第7章 聚类分析及R使用 王斌会 教授.

Slides:



Advertisements
Similar presentations
爱护牙齿爱护牙齿 AI HU YA CHI AI HU YA CHI 进入 爱牙日的由来 你对牙齿知道多少 保护牙齿的健康 预防蛀牙 刷牙要三好 2004 级护理 2 大组 郭赛金 朱光影 李蓓 赵文娟.
Advertisements

第 3 章 统计整理 统计学. 【学习目标】 1. 理解统计整理的作用、原则及分类; 2. 掌握分配数列的分类及其编制方法; 3. 掌握统计图表的绘制方法。 第3章第3章.
1 消費貸款及建築貸款統計表 填報說明 中央銀行經濟研究處 99 年 12 月 9 日. 2 壹、大綱 一、項目定義 二、填報常見錯誤 三、與其他單位報表之關係 四、填報注意事項 五、資料追溯修正注意事項 貳、問題與回答.
县级实施妇女儿童发展纲要 的途径和方法 —— 制定和实 施县级跨部门行动计划 国务院妇儿工委办公室 儿童处 2014 年 6 月.
組員: 4A2I0030 賴孟 佳 4A2I0031 丁楚 倩 4A2I0036 何雅 婷 4A2I0087 蘇靜 雯.
Hu Junfeng 向量空间模型及 k-means 聚类算法 胡俊峰 2016/04/19. Hu Junfeng 在 Trie 树上合并同词干的词集 — 问题分析 词干 + 后缀 词干 - 词尾变形 + 后缀 后缀表生成 结果评价? 2.
第十五章 控制方法.
報告書名:父母會傷人 班級:二技幼四甲 姓名:吳婉如 學號:1A2I0034 指導老師:高家斌
第七章 幼兒健康安全的維護方案 指導老師:黃光明老師 班級:幼保三乙 組員:4a0i0004 周妤柔 4a0i0007 蘇欣妍
組別:第五組 姓名: 蔡佳容 4a0i0040 林潔妮 4a0i0022 李立珊 4a0i0038
幼 兒 遊 戲 訪 談 組別:第七組 班級:幼保二甲 姓名:4A0I0008劉俐音 4A0I0043吳碧娟 4A0I0059劉又甄 4A0I0060江佳霓 4A0I0061蕭靖霓 4A0I0079王毓君.
第三项APP 接球游戏.
歡 迎 光 臨.
井字遊戲 圈圈叉叉 資工四乙 498G0090 黃瑞揚.
媽,我們真的不一樣 青少年期與中年期 老師: 趙品淳老師 組員: 胡珮玟4A1I0006 馬菀謙4A1I0040
課室經營-老師實務分享 課程名稱:幼兒園課室經營 指導老師:李芳靜 組員:1A3I0004蔡雨潔1A3I0009鄭益秀
引導者的角色 組別:第5組 4A1I0003 劉芷媛 4A1I0004 陳安琪 4A1I0014 陳佳瑩 4A1I0046 葉倢茹
氣喘 組別:第一組 組員: 4A 蔡易儒 4A1I0026 鄭筠蒨 4A1I0034 韓宜瑄 4A1I0035 劉毓眉
VS 兒童及少年身心發展 幼保三甲 幼兒期 青少年期 4A1I0014 陳佳瑩 4A1I0023 尤秀惠
增值税发票培训辅导 青岛市国税局货物和劳务税处 二○一三年十二月.
門診特定藥品重複用藥費用核扣方案 座談會 常務理事史宗良藥師.
情緒與壓力管理─背部舒緩 指導老師:彭易璟 第六組組員:會資三乙 499A0047 謝宛霖 會資三乙 499A0019 吳汶諭
班級:幼保三乙 姓名:吳婉綺4a1i0062 林彤4a1i0066 林妤婕4a1i0095 指導老師:趙品淳老師
嬰幼兒健康照護與優生保健 班級:幼保三乙 姓名:徐嘉薇 學號:4A0I0908.
第三組 偏差與正常 4A3I0006 周秀鎂 4A3I0009 閔佑婷 4A3I0035 蔡佩倫 4A3I0041 林宜臻
班級:二幼三甲 姓名:郭小瑄 、 詹淑評 學號:1A2I0029 、1A2I0025
指導老師:楊淑娥 組別:第一組 成員:劉怡萱4a0i0066 吳珮瑜4a0i0070 林秋如4a0i0075 陳婉婷4a0i0076
組員:4A140013張瓊云 4A1I0039石宜芬 4A1I0909許峻綱 指導老師:王立杰老師
指導老師:陳韻如 姓名:吳宜珊 學號:4A0I0911 班級:幼保二乙
第八章 科技文书.
主題:百日咳 班級:幼保二乙 姓名:翁子文 學號:4A0I0071 指導老師:陳韻如
欢 迎 您 ! 荣县电大 毕忠权.
第十九章 聯合分析、多元尺度方法 和集群分析
二技幼保三甲 1A3I0023黃馨儀 指導老師:李淑娟老師
班級:二技幼保三甲 學號:1A4I0039 姓名:江庭瑋 指導老師:張治遙
2.5.1夫兰克-赫兹实验 试讲人:杨春宝.
傳統童玩遊戲創新 組別:第八組 班級:幼保二甲 組員: 4A0I0005柯舒涵 4A0I0011謝孟真
愛情的三種情愫 第八組 指導老師:馬美娟 組員:4A10H082 羅怡欣 4A1I0007 湯沁璇 4A1I0011 謝旻真
現代文學導讀 ─ 盧新華 傷痕 組 員:林于翔 4A1L0084
行為改變技術 班級:幼保二甲 組員: 4A10H081 蘇靖婷 4A1I0014 陳佳瑩 4A1I0023 尤秀惠 4A1I0074 邱乃晏 指導老師: 楊淑娥 老師.
毒品介紹 4年6班 9號 指導老師:陳淑惠 姓名:呂家潁.
心 臟 病 指導老師:陳韻如 班級:幼保二乙 姓名:陳怡伶 學號:4a0i0910.
指導老師:陳韻如 班級:幼保二甲 姓名:林靜宜 學號:4A0I0033
8月份 學 中 興 教 活 動 2014 時間 題目講師 講師簡介 歡迎 市醫團隊、社區醫師、民眾等踴躍參加… 8.06(三)
第六章 猪场管理 目的:在了解现代养猪生产及其模式的基础上,掌握养猪生产工艺流程设计方法,同时熟悉猪场的现场组织和管理方法。
清華大學 成績等級制初步規劃說明
餐旅群教學檔案研習實施方式 研習講座 研習課程內容 研習課程教材.
气相、液相、离子、超临界、薄层、毛细管电泳
Analysis of microarray data
第十六章 集群分析.
4.資料集群 Clustering 集群範例一:鳶尾花各種集群模型 集群範例二:動物園的動物分群 集群範例三:電信公司的客戶分群
党员干部要争做社会主义 社会公德的表率 党员干部要争做 社会公德的表率 中共河南省委党校 周海涛.
論文計畫書 國軍人員對廢軍品管理現況之研究─以空軍 後勤單位為例 指導教授:胡子陵博士 研究生:劉俊德.
第一次上統計Tutorial 就上手 不是只有上一次嗎.
第17章 集群分析 本章的學習主題  1. 集群分析的概念 2. 相似性及最近距離的衡量 3. 階層分析法 4. 非階層分析法.
聚类分析 电子工业出版社.
多元统计分析及R语言建模 第11章 典型相关分析及R使用 王斌会 教授.
第17章 集群分析 本章的學習主題  1. 集群分析的概念 2. 相似性及最近距離的衡量 3. 階層分析法 4. 非階層分析法
聚类分析法预测(Cluster Analysis)
多元统计分析及R语言建模 第12章 多维标度法MDS及R使用 多元统计分析及R语言建模 第12章 多维标度法MDS及R使用 - 2-
第六章 化学动力学 6.15 链式反应 Cl· H· Cl2 H2 HCl.
总体特征数的估计.
6-1 燃油系統工作原理 6-2 汽油濾清器更換 6-3 汽油泵檢查與更換
7.5 介质中的磁场 磁介质—— 放入磁场中能够显示磁性的物质 电介质放入外场 磁介质放入外场 反映磁介质对原场的影响程度
集群分析(Cluster) 根據觀察值在一群變項上的測量值進行分類的多變量分析方法。 在不同專業領域也稱為
參考書籍:林惠玲與陳正倉(2002),應用統計學(第二版)。台北:雙葉書廊有限公司。
約基別~耶和華的榮耀 (出埃及記2:1-10).
構想審查簡報說明(1/8) 經濟部技術處 AI on chip 研發補助計畫 構想審查簡報 XXXX計畫 申請公司名稱
SAS 統計程序實作 PROC GLM 變異數分析 (PROC ANOVA)
Presentation transcript:

多元统计分析及R语言建模 第7章 聚类分析及R使用 王斌会 教授

多元统计分析及R语言建模 7 聚类分析及R使用 plot(1:100)

plot(1:100) 内容与要求 多元统计分析及R语言建模 聚类分析的目的和意义 聚类分析中所使用的几种尺度的定义 初步掌握选用聚类方法与对应距离的原则 六种系统聚类方法的定义及其基本性质 R语言程序中有关聚类分析的算法基础 掌握R语言中kmeans聚类的方法和用法 内容与要求 plot(1:100)

plot(1:100) 多元统计分析及R语言建模 基本要求 7 聚类分析及R使用 理解聚类分析的目的意义及统计思想 了解变量类型的几种尺度定义 熟悉Q型和R型聚类分析的统计量的定义 了解六种系统聚类方法及它们的统一公式 掌握R语言中六种方法的具体使用步骤 了解R语言中kmeans聚类的基本思想和用法 基本要求 plot(1:100)

plot(1:100) 概念和方法 7 聚类分析及R使用 7.1 聚类分析的概念和类型 基本概念 聚类分析法(Cluster Analysis)是研究“物以类聚”的一种现代统计分析方法,在众多的领域中,都需要采用聚类分析作分类研究。 概念和方法 plot(1:100) 差异方法

7 聚类分析及R使用 7.1 聚类分析的概念和类型 plot(1:100)

7 聚类分析及R使用 7.1 聚类分析的概念和类型 【例7.1】两个变量、九个样品数据及其散点图 plot(1:100)

7 聚类分析及R使用 7.2 聚类统计量

7 聚类分析及R使用 7.2 聚类统计量 相关系数矩阵:cor(X)

7 聚类分析及R使用 7.2 聚类统计量 D=dist(X); D R=cor(X); R

plot(1:100) 7 聚类分析及R使用 系统聚类法的基本思想 7.3 系统聚类法 首先将个样品分成类,每个样品自成一类,然后每次将具有最小距离的两类合并,合并后重新计算类与类之间的距离,这个过程一直继续到所有的样品归为一类为止,并把这个过程做成一张系统聚类图。 plot(1:100)

plot(1:100) 7 聚类分析及R使用 类间距离计算方法 7.3 系统聚类法 (1)最短距离法(single) (2)最长距离法(complete) (3)中间距离法(median) (4)类平均法(average) (5)重心法(centroid) (6)离差平方和法(Ward) 类间距离计算方法 plot(1:100)

类间距离计算公式 plot(1:100)

7 聚类分析及R使用 7.3 系统聚类法 plot(1:100)

计算新类与当前各类的距离,若类个数为1,转到第5步,否则回到第3步 7 聚类分析及R使用 7.3 系统聚类法 基本步骤: 计算n个样品 两两间的距离 构造n个类, 每类包含1个样品 合并距离最近的两类为1个新类 计算新类与当前各类的距离,若类个数为1,转到第5步,否则回到第3步 绘制 系统聚类图 确定类的个数 和样品名称 plot(1:100)

例7-1数据的系统聚类 最短距离法(采用欧氏距离) plot(1:100)

例7-1数据的系统聚类 最长距离法(采用欧氏距离) plot(1:100)

例7-1数据的系统聚类 plot(1:100)

plot(1:100) 7 聚类分析及R使用 7.3 系统聚类法 2.Ward法(采用欧氏距离) hc<-hclust(dist(X),"ward") #ward距离法 cbind(hc$merge,hc$height) #分类过程 plot(hc) #聚类图 plot(1:100)

plot(1:100) 7 聚类分析及R使用 7.3 系统聚类法 【例7.2】续例3.1,为了研究全国31个省、市、自治区2007年城镇居民生活消费的分布规律,根据调查资料做区域消费类型划分。指标名及原始数据见表3.1 结果输出: 自编系统聚类函数H.clust()的用法 H.clust<-function(X,d="euc",m="comp",proc=F,plot=T) X数值矩阵或数据框,d 距离计算方法(见上),m系统聚类方法(见上) proc是否输出聚类过程,plot 是否输出聚类图 plot(1:100) #在mvstats.xls:d7.2中选取A1:I32区域,然后拷贝 plot(d7.2)

plot(1:100) 7 聚类分析及R使用 7.3 系统聚类法 library(mvstats) H.clust(d7.2,"euclidean","single",plot=T) #最短距离法 H.clust(d7.2,"euclidean","complete",plot=T) #最长距离法 plot(1:100)

plot(1:100) 7 聚类分析及R使用 7.3 系统聚类法 H.clust(d7.2,"euclidean","median",plot=T) #中间距离法 H.clust(d7.2,"euclidean","average",plot=T) #类平均法 plot(1:100)

plot(1:100) 7 聚类分析及R使用 7.3 系统聚类法 H.clust(d7.2,"euclidean","centroid",plot=T) #重心法 H.clust(d7.2,"euclidean","ward",plot=T) #ward法 plot(1:100) 综合考虑以上的分析结果,笔者认为从全国各省、市、自治区的消费情况来看,分为四类较为合适。

plot(1:100) 7 聚类分析及R使用 7.4 kmeans聚类法 概念和原理 概念 kmeans法是一种快速聚类法,采用该方法得到的结果比较简单易懂,对计算机的性能要求不高,因此应用也比较广泛。kmeans法(K均值法)是麦奎因(MacQueen 1967)提出的,这种算法的基本思想是将每一个样品分配给最近中心(均值)的类中。 原理 kmeans算法以k为参数,把n个对象分为k个聚类,以使聚类内具有较高的相似度,而且聚类间的相似度较低。相似度的计算是根据一个聚类中对象的均值来进行。 概念和原理 plot(1:100)

plot(1:100) 7 聚类分析及R使用 7.4 kmeans 聚类法 输出结果: 快速聚类函数kmeans()的用法 kmeans(x, centers, …) x 数据矩阵或数据框,centers 聚类数或聚类中心 输出结果: plot(1:100) 【例7.3】kmeans算法的R语言实现及模拟分析 本例模拟正态随机变量。 x1=matrix(rnorm(1000,mean=0,sd=0.3),ncol=10) #均值1,标准差为0.3的100x10的正态随机数矩阵 x2=matrix(rnorm(1000,mean=1,sd=0.3),ncol=10) x=rbind(x1,x2) H.clust(x,"euclidean","complete")

plot(1:100) 7 聚类分析及R使用 7.4 kmeans 聚类法 cl=kmeans(x,2) #kmeans聚类 pch1=rep("1",100) pch2=rep("2",100) plot(x,col=cl$cluster,pch=c(pch1,pch2),cex=0.7) points(cl$centers,col=3,pch="*",cex=3) plot(1:100)

plot(1:100) 7 聚类分析及R使用 7.4 kmeans聚类法 输出结果: x1=matrix(rnorm(10000,mean=0,sd=0.3),ncol=10) #均值1,标准差为0.3的1000x10的正态随机数矩阵 x2=matrix(rnorm(10000,mean=1,sd=0.3),ncol=10) x=rbind(x1,x2) cl=kmeans(x,2) #kmeans聚类 pch1=rep("1",1000) pch2=rep("2",1000) plot(x,col=cl$cluster,pch=c(pch1,pch2),cex=0.7) points(cl$centers,col=3,pch ="*",cex=3) 输出结果: plot(1:100)

plot(1:100) 7 聚类分析及R使用 7.5 聚类分析的一些问题 系统聚类分析的特点 关于kmeans算法 综合性:聚类分析可以利用多个变量的信息对样本进行分类,克服单一指标分类的弊端。 形象性:聚类分析可以利用聚类图直观地表现其分类形态及类与类之间的内在关系。 客观性 :聚类分析结果克服主观因素,比传统分类方法更客观、细致、全面和合理。 关于kmeans算法 kmeans算法只有在类的平均值被定义的情况下才能使用。可以算是该方法的一个缺点。另外,kmeans算法不适合于发现非凸面形状的类,或者大小差别很大的类。而且,它对于“噪声”和孤立点数据是敏感的,少量的该类数据能够对均值产生极大的影响。 关于变量变换 平移变换 极差变换 标准差变换 主成分变换 对数变换 plot(1:100)