相似性,概念与聚类分析 于剑 北京交通大学计算机学院.

Slides:



Advertisements
Similar presentations
1. 神奇的大脑. 大脑示意图 左右脑的功能差异 爱说话的 左脑 爱画画的 右脑 视频:大脑的奥秘总结.
Advertisements

儿子的名分 荣耀 诸约 律法 礼仪 应许 耶和华这样说:以色列是我的儿子,我的长子。 ( 出 4:22) 神的同在 以色列人的特权.
小游戏 在英语词汇教学中的应用 甘肃金川公司第六中学 杨柳.
人工智能 Artificial Intelligence 第十一章
华东师范大学软件学院 王科强 (第一作者), 王晓玲
手持裝置應用系統之設計 與未來發展 黃有評 大同大學 資訊工程系.
第十九章 聯合分析、多元尺度方法 和集群分析
饮食治疗篇.
完形心理學之格式塔學派Gestalt theorie
How can we be a member of the Society? You should finish the following tasks if you want to be a member of the Birdwatching Society.
统计学习基础 卿来云 中国科学院研究生院信息学院 / 统计对研究的意义:
云实践引导产业升级 沈寓实 博士 教授 MBA 中国云体系产业创新战略联盟秘书长 微软云计算中国区总监 WinHEC 2015
Leftmost Longest Regular Expression Matching in Reconfigurable Logic
libD3C: 一种免参数的、支持不平衡分类的二类分类器
Operating System CPU Scheduing - 3 Monday, August 11, 2008.
Theme words: Fruits strawberry (n.)(C.)草莓 strawberries
Rate and Distortion Optimization for Reversible Data Hiding Using Multiple Histogram Shifting Source: IEEE Transactions On Cybernetics, Vol. 47, No. 2,February.
模式识别 Pattern Recognition
親愛的老師您好 感謝您選用本書作為授課教材,博碩文化準備本書精選簡報檔,特別摘錄重點提供給您授課專用。 說明: 博碩文化:
計算方法設計與分析 Design and Analysis of Algorithms 唐傳義
词汇语义资源在中文关系抽取中的应用 报告人:钱龙华 刘丹丹 胡亚楠 钱龙华 周国栋
K-modes(补充) K-模,对k-平均方法的改进,k-原型的简化 处理分类属性
Knowledge Engineering & Artificial Intelligence Lab (知識工程與人工智慧)
研究、論文、計畫與生活之平衡 演講人:謝君偉 元智大學電機系 2018年11月22日.
Unit 9 Dress for Children’s Day..
Image Segmentation with A Bounding Box Prior
射影幾何於攝影測量上之應用 Projective Geometry in Photogrammetry
Pattern Recognition Chapter1 Introduction.
Step 1. Semi-supervised Given a region, where a primitive event happens Given the beginning and end time of each instance of the primitive event.
Mechanisms and Machine Theory.
LOM-領隊導向多人連線遊戲自動匹配演算法
Data Mining 資料探勘 Introduction to Data Mining Min-Yuh Day 戴敏育
第十二章 資料探勘、商業智慧、知識管理 第三篇 企業對消費者B2C篇.
The Concept of Fuzzy Theory
药物和疾病啥关系 ? 李智恒.
ZEEV ZEITIN Delft University of Technology, Netherlands
Source: IEEE Transactions on Image Processing, Vol. 25, pp ,
A Study on the Next Generation Automatic Speech Recognition -- Phase 2
第五章 聚类方法 内容提要 聚类方法概述 划分聚类方法 层次聚类方法 密度聚类方法 其它聚类方法 2019年2月17日星期日
Unit 5 Do you like pears? 免费课件下载绿色圃中小学教育网
Semantic Navigation Liang Zheng.
第17章 集群分析 本章的學習主題  1. 集群分析的概念 2. 相似性及最近距離的衡量 3. 階層分析法 4. 非階層分析法.
A high payload data hiding scheme based on modified AMBTC technique
Artificial Intelligence - 人工智慧導論
谈模式识别方法在林业管理问题中的应用 报告人:管理工程系 马宁 报告地点:学研B107
研究技巧與論文撰寫方法 中央大學資管系 陳彥良.
模式识别与智能系统研究中心介绍 2017年8月.
水果ABC Design by 李佳偉.
Total Review of Data Structures
資訊概論 授課教師 : 吳寂絹
表情识别研究 Sources of facial expressions
Yummy Fruits.
Unit 5 Do you like pears? A Let's learn fruits 合肥行知学校:张红桃.
虚 拟 仪 器 virtual instrument
第17章 集群分析 本章的學習主題  1. 集群分析的概念 2. 相似性及最近距離的衡量 3. 階層分析法 4. 非階層分析法
主講人:陳鴻文 副教授 銘傳大學資訊傳播工程系所 日期:3/13/2010
聚类分析法预测(Cluster Analysis)
A Data Mining Algorithm for Generalized Web Prefetching
系统科学与复杂网络初探 刘建国 上海理工大学管理学院
第九章 明暗分析 Shape from Shading SFS SFM SFC SFT …… SFX.
为您服务教育网 Recycle 2 第一课时 河源市连平县溪山镇中心小学 俞秀平 为您服务教育网 
Efficient Query Relaxation for Complex Relationship Search on Graph Data 李舒馨
MODELING GENERALIZATION & REFINING THE DOMAIN MODEL
Introduction of this course
An Quick Introduction to R and its Application for Bioinformatics
More About Auto-encoder
Reversible Data Hiding in Color Image with Grayscale Invariance
Fast Image Dehazing Algorithm using Morphological Reconstruction
Principle and application of optical information technology
Gaussian Process Ruohua Shi Meeting
Presentation transcript:

相似性,概念与聚类分析 于剑 北京交通大学计算机学院. Email: jianyu@bjtu.edu.cn

机器学习的目的之一:概念 人们学习的目的是学习知识, 因此, 机器学习的一个自然期望是: 从数据中学习到知识 什么是知识的最基本单位: 概念 Concepts are the glue that holds our mental world together。 Cited from page 1 in the book entiled “The big book of concepts”, written by M.L. Murphy, 2002, MIT

什么是概念? 经典概念的定义:(Plato and Aristotle) 概念的内涵: 必要而且充分条件(命题描述, 命题可以是复合命题) 概念的外延: 给出论域中符合该概念的所有样例 符合排中率(law of the excluded middle) 要么符合这个概念,要么不符合这个概念 这种经典的概念形式称为定义法

数据分析的一个重要的应用就是从数据中学习到概念(语义). 概念与数据分析 数据分析的一个重要的应用就是从数据中学习到概念(语义). Cited from C. Rother, V. Kolmogorov, and A. Blake, GrabCut: Interactive foreground extraction using iterated graph cuts, ACM Trans. Graph., vol. 23, pp. 309–314, 2004

相应的机器学习问题(I) 已知:既定概念和该既定概念外延的一个有限子集(即: 标定样本) 期望: 学习既定概念的内涵定义 机器学习:分类, 回归等技术可以归为此类问题, 即所谓的有监督学习

相应的机器学习问题(II) 已知: 样本集, 但其中的样本属于哪一个概念未知 (未标定样本) 期望:学习出与人类认知相符的概念.最好得到概念的内涵表示, 否则,也希望得到概念的外延子集. 机器学习: 聚类分析可以归为此类问题, 无监督学习

如何从未标定的数据集中提取概念, 即聚类分析 本次演讲的重点 如何从未标定的数据集中提取概念, 即聚类分析

Outline 概念的形成(Gestalt Theory) 概念的非经典定义 聚类分析 类的复杂性讨论 未来展望

可分为实体类别(natural kinds)与抽象类别( abstract kinds) Max Wertheimer (1923)说: 概念的形成 可分为实体类别(natural kinds)与抽象类别( abstract kinds) Max Wertheimer (1923)说: “我站在窗前, 看到的是房屋,树, 天空.”… 不可能认到一个一个的像素点这种程度. 提出了实体类别的组织原则

概念的形成 格式塔理论与样本的概念归属 格式塔学派——整体上认识视觉,提供了根据二维数据形成概念的基本依据 邻近律 相似律 连续律 封闭律 对称律

概念的形成 相似律 Law of Similarity

概念的形成 Law of proximity邻近律

概念的形成 Gestalt 准则的推广性 封闭律, 连续律, 对称律在高维空间的推广挑战性高, 比如对称性:二维与三维不同. 相似律和近邻律的推广性受数据空间维数的影响相对较小,因此对于概念的研究来说, 似更为重要. 另外,封闭律, 连续律在概念不重叠和相切的情形下可以由相似律和近邻律来反映

概念的非经典定义 经典概念的颠覆 概念“游戏”内包含的对象 不包含共有的特性 马术, 游泳, 下棋,网球等 都属于游戏 Ludwig Wittgenstein Wittgenstein, L. (1958). Philosophical Investigations (G. E. M. Anscombe, Trans.). USA: Blackwell Publishing.

概念的非经典定义 Eleanor Rosch’s 的发现 上个世纪70年代,Eleanor Rosch 的工作在认知科学领域彻底终结了经典概念的定义-“The big book of concepts”, written by M.L. Murphy, 2002, MIT 典型样本与非典型样本

概念的非经典定义 Examples of items 概念的非经典定义 Examples of items studied by Rosch & Mervis (1975), ordered by typicality Fruit: orange, apple, banana, peach, pear, apricot, plum, grapes, strawberry, grapefruit, pineapple, blueberry, lemon, watermelon, honeydew, pomegranate, date, coconut, tomato, olive Furniture: chair, sofa, table, dresser, desk, bed, bookcase, footstool, lamp, piano, cushion, mirror, rug, radio, stove, clock, picture, closet, vase, telephone

概念的非经典定义 Prototype view of concepts A single prototype as a category representation It avoids the contradictable features A feature list as a category representation It is not popular as computational complexity

概念的非经典定义 Exemplar view of concepts (Medin and Schaffer, 1978) Concepts by represented by exemplars

概念的非经典定义 Knowledge approach of concepts Concepts can be considered a part of general knowledge goal-derived categories (Barsalou,1985) things to eat on a diet, things to take from one’s house during a fire Its limitation: Much of a concept cannot be based on previous knowledge

概念的非经典定义 样本如何归属于某个特定概念 样本归入与之最相似的特定概念

概念,相似性与聚类分析 聚类形成的划分子集内样本具有相当的同质性, 即类内的样本是相似的,不同类之间的样本是不相似 如果借用经典概念,聚类分析得到的是概念的一个外延子集 由于聚类分析可以发现数据的内蕴结构,即数据自身蕴含的概念, 近年来,聚类分析的应用日益增广

聚类分析 聚类算法与使用的概念定义 类原型聚类算法: 紧致型的类 样例型聚类算法: 连通型的类 经典概念对应的聚类算法

聚类分析 Prototype based clustering: C(K)-MEANS Remark: The essence of K-means is the same as that of C-means. LBG or GLA also has almost the same meaning as K-means

聚类分析 K-means and its extensions Fuzzy C-means EM type clustering Deterministic annealing clustering Fuzzy c-shells K-mode PCM Conditional fuzzy c-means GCM (Yu Jian, 2005)

聚类分析 Prototype based clustering Usually use dissimilarity to represent similarity, therefore ignore the step of computing similarity Their advantages are as follows: fast speed, and good interpretation, can easily deal with touching clusters or overlapping clusters when prototypes are proper

聚类分析 Exemplar based clustering Additive clustering Affinity Propagation Minimum cut and Spectral clustering Hierarchical clustering Minimum Spanning tree DBSCAN QT(Quality Threshold)

聚类分析 Affinity Propagation (Frey & Dueck, 2007)

聚类分析 Minimum cut

聚类分析 Normalized Cut(Shi and Malik, 2000) Subject to the constraints: y(i) ∈{1,-b} ytD1=0

聚类分析 Minimum Cut 最小切聚类算法(minimum cut), Jianbo Shi and Jitendra Malik “Normalized Cuts and Image Segmetnation” IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol 22 No. 0, August 2000 Ahmed Elgammal, Graph Cuts and Image Segmentation, Rutgers University

聚类分析 Single Linkage

聚类分析 Single linkage的优缺点 优点: Single Linkage: J. Haritgan(1981, JASA, 76(374)) 证明了只有Single linkage 可以统计一致的发现发现高密度类, average linkage和complete linkage 不具有此性质 缺点: 不能发现不同密度的类 受噪音影响特别厉害 难点:有一个很难确定的参数, 聚类数或者阈值

聚类分析 DBSCAN 算法 算法的思想是寻找具有足够高密度的连通区域划分作为类,而低密度区域的点则作为孤立点。 一个点的密度可以看作所有样本点与此点的相似度之和 优点:可以发现任意形状类 缺点: 两个参数(密度水平参数,近邻参数), 难以选择

聚类分析 DBSCAN等算法 (DBSCAN) M. Ester, H.-P. Kriegel, J. Sander, and X. Xu. 1996. A density-based algorithm for discovering clusters in large spatial databases. KDD'96

聚类分析 QT clustering QT(Quality Threshold)聚类算法是通过限定类的直径来聚类的。主要思想是:如果定义了相异矩阵对应的图,类的直径应该不大于给定的阈值。因此,其流程如下:选定一个样本,逐渐合并与其最相似的样本,直到再增加样本将导致类的直径超过给定的阈值为止,然后选定下一个样本,重新聚类。 Heyer, L.J., et al. “Exploring Expression Data: Identification and Analysis of Coexpressed Genes”. Genome Research, 9:1106-1115 (1999)

聚类分析 现存样例型聚类算法的不足 The predefined parameters such as the number of clusters for additive clustering, the preference value and the damping factor for the affinity propagation, the number of clusters for spectral clustering, Threshold for cluster diameter High complexity of additive clustering, quality threshold No convergence proof of Affinity propagation No calculation results for Spectral clustering if similarity matrix is not proper

聚类分析 对应经典概念的聚类算法 如果经典概念的外延来表示划分,即可以用划分矩阵来表示.这样发展出来的算法可以称为划分矩阵型聚类算法。 主要有三种技术

聚类分析 基于矩阵分解技术 算法的输入是相似矩阵,计算的主要依据是可将相似矩阵分解成划分矩阵的乘积这样的形式,这样的聚类算法有基于非负矩阵分解的聚类算法 ,以及异质聚类算法中的矩阵分解聚类算法,可加性聚类算法(additive clustering)也可以勉强归为这样的算法

聚类分析 基于信息论 算法的输入是概率分布矩阵,文献中的算法有信息瓶颈(information bottleneck)聚类算法,以及异质聚类算法的互信息联合聚类算法等等

聚类分析 基于margin 理论 现有的方法有支持向量机聚类算法(support vector clustering)和最大margin聚类算法(maximum margin clustering)

类是什么也一直是聚类分析研究者面对的核心难题. 类的复杂性讨论 概念的定义是一个非常难的问题. 类是什么也一直是聚类分析研究者面对的核心难题.

任意形状类(I)

任意形状类(II)

非同质类

相切类

重叠类

重叠类在图像中的表现

混合类

Cited from Jain, A. : Data clustering: 50 years beyond k-means Cited from Jain, A.: Data clustering: 50 years beyond k-means. Pattern Recognition Letters (Available on line 9 Sept. 2009)

现存聚类算法的优缺点 类原型聚类算法可以处理相切类, 重叠类, 条件是类原型合适。 但是对于任意形状类处理不好 连通类聚类算法能够处理弱相切类(但是比较复杂),一般的相切类和重叠类处理不了.

Essentially, all models are wrong, but some are useful Essentially, all models are wrong, but some are useful. Cited from Box, George E. P.; Norman R. Draper (1987). Empirical Model-Building and Response Surfaces. Wiley. pp. p. 424. ISBN 0471810339 “there is no single clustering algorithm that has been shown to dominate other algorithms across all application domains” A.K. Jain, 2009, PRL, 2009

相似性的二值表示 一个是在得到相似性得到以后,如何判断对象与类别之间的关系。 一般假设相似性与一个理想相似性是一一对应的. 所谓的理想相似性是指其值与0或者1很接近 s(i,k)=e(i,k)+ε(i,k), 其中, e(i,k)取值为0或者1

相似性的二值表示定理

Texas clustering(Yu, Hao and Zhou) 由此而来, 我们得到新的基于 相似度的聚类算法

未来展望 类的表示(概念的表示) 数据的表示(特征空间) 如何结合领域知识聚类算法: semi-supervised clustering 现有算法的性能客观评估

谢谢.