C0-clustering  Liang Zheng.

Slides:



Advertisements
Similar presentations
1 2 3 中壢郵局 96 年『郵政有愛、社區 high 起來』 -「關懷弱勢團體」公益園遊會企劃書 一、企劃目的:為落實關懷社會、回饋社區,促進郵 政與社區互動關係,本年度『郵政有愛、社區 high 起來』活動特與陸軍第六軍團 共同辦理『關 懷弱勢團體』公益園遊會,提昇郵政「全方位的 服務、無止盡的關懷」之優良社會形象。
Advertisements

北京师范大学生命科学学院 北京师范大学生命科学学院 余跃强 章腾勋 王航 余跃强 章腾勋 王航 2 目 录目 录目 录目 录  前言 前言  概述 概述  形态和生活史 形态和生活史  寄生适应特征 寄生适应特征  致病机制与症状 致病机制与症状  诊断 诊断  流行情况 流行情况.
第五章 招聘测试 心理测试 知识考试 情景模拟和系统仿真 面试.
药 物 化 学 Medicinal Chemistry 主编 仉文升 李文良 高等教育出版社.
第六章 資料倉儲與採礦技術 6.1 資料倉儲與採礦定義 6.2 資料採礦之步驟與技術分類 6.3 資料採礦在顧客關係管理之應用
師資培育中心外埠教育參觀.
华东师范大学软件学院 王科强 (第一作者), 王晓玲
瞄准国际前沿 做高水平研究 黄健斌(Jianbin Huang) School of Software Xidian University  
单元三 特种货物运输组织 任务一 危险货物运输组织 任务二 超限货物运输组织 任务三 冷藏货物运输组织 任务三 冷藏货物运输组织.
Homework 2 : VSM and Summary
重性精神病患者 管理服务规范.
指導教授:Chen, Ming-puu 報 告 者:Chen, Wan-Yi 報告日期:
深層學習 暑期訓練 (2017).
Minimum Spanning Trees
Visualizing and Understanding Neural Machine Translation
-Artificial Neural Network- Adaline & Madaline
Introduction To Mean Shift
Some Effective Techniques for Naive Bayes Text Classification
数据仓库与数据挖掘 复习.
NLP Group, Dept. of CS&T, Tsinghua University
Chapter 6 Graph Chang Chi-Chung
The Greedy Method.
Digital Terrain Modeling
Course 9 NP Theory序論 An Introduction to the Theory of NP
Mechanisms and Machine Theory.
LOM-領隊導向多人連線遊戲自動匹配演算法
机器人学基础 第四章 机器人动力学 Fundamentals of Robotics Ch.4 Manipulator Dynamics
Randomized Algorithms
Interval Estimation區間估計
作者: DALE GOODHUE 來源: JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION
塑膠材料的種類 塑膠在模具內的流動模式 流動性質的影響 溫度性質的影響
神经信息学 自组织网络 ——自组织映射 史忠植 中科院计算所 2019/2/2.
PubMed整合显示图书馆电子资源 医科院图书馆电子资源培训讲座.
THE USE OF DIAGRAM IN SOLVING NON ROUTINE PROBLEMS (解非例行性問題時圖表的使用)
職業 Random Slide Show Menu
Semantic Navigation Liang Zheng.
成群結隊的董事們.
谈模式识别方法在林业管理问题中的应用 报告人:管理工程系 马宁 报告地点:学研B107
API文档分析 张静宣 大连理工大学 2017年11月3日.
数据摘要现状调研报告 上下文摘要初步思考 徐丹云.
Version Control System Based DSNs
高性能计算与天文技术联合实验室 智能与计算学部 天津大学
2019/4/8 A Load Balancing Mechanism for multiple SDN Controllers based on Load Informing Strategy Miultiple controller 的 load balancing 機制,使用一個叫 Load informing.
计算机问题求解—论题4.9 随机算法的概念 陶先平 2017年5月15日.
Facilitating Entity Navigation over Semantic Web
Date: 2012/05/14 Source: Bo Zhao et. al (CIKM’11)
Review and Analysis of the Usage of Degree Adverbs
Representation Learning of Knowledge Graphs with Hierarchical Types
從 ER 到 Logical Schema ──兼談Schema Integration
主講人:陳鴻文 副教授 銘傳大學資訊傳播工程系所 日期:3/13/2010
爬蟲類動物2 Random Slide Show Menu
西南大学计算机系 郭云龙 徐潇 向宇 曾维刚 李莉
A Data Mining Algorithm for Generalized Web Prefetching
高考应试作文写作训练 5. 正反观点对比.
系统科学与复杂网络初探 刘建国 上海理工大学管理学院
Efficient Query Relaxation for Complex Relationship Search on Graph Data 李舒馨
计算机问题求解 – 论题 图的连通度 2018年11月13日.
More About Auto-encoder
钱炘祺 一种面向实体浏览中属性融合的人机交互的设计与实现 Designing Human-Computer Interaction of Property Consolidation for Entity Browsing 钱炘祺
智慧與恩典 2015年12月5/6日 香港聖經教會.
Class imbalance in Classification
Maximum Flow.
Principle and application of optical information technology
Homework 2 : VSM and Summary
Gaussian Process Ruohua Shi Meeting
JAVA 程式設計與資料結構 第二十一章 Graph.
《神经网络与深度学习》 第10章 模型独立的学习方式
Presentation transcript:

C0-clustering  Liang Zheng

Clustering Clustering along “One-Dimension” Grouping together of “similar” objects Hard Clustering -- Each object belongs to a single cluster Soft Clustering -- Each object is probabilistically assigned to clusters

Doc-Term Co-occurrence Matrix C0-clustering Given a multi-dimensional data matrix, co-clustering refers to simultaneous clustering along multiple dimensions. Co-occurrence Matrices Characteristics Data sparseness High dimension Noise Doc-Term Co-occurrence Matrix

Related Methods Information-Theoretic Co-Clustering (ITCC) Graph-partitioning based Co-Clustering (GPCC) Dhillon I S, Mallela S, Modha D S. Information-theoretic co-clustering[C]//Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2003: 89-98. Dhillon I S. Co-clustering documents and words using bipartite spectral graph partitioning[C]//Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2001: 269-274. Inderjit S. Dhillon Center for Big Data Analytics Department of Computer Science University of Texas at Austin

Information-Theoretic Co-Clustering (ITCC) View (scaled) co-occurrence matrix as a joint probability distribution between row & column random variables We seek a hard-clustering of both dimensions such that loss in “Mutual Information” is minimized given a fixed no. of row & col. clusters Dhillon I S, Mallela S, Modha D S. Information-theoretic co-clustering[C]//Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2003: 89-98.

ITCC算法的核心 第一,选择矩阵重构后仍必须保证的原始数据矩阵中的统计量,即定义不变统计量 第二,选择恰当的距离度量方法,用来度量原始矩阵与协同聚类后压缩矩阵之间信息损失,即定义目标函数。 ITCC选择矩阵行列的边缘分布作为不变统计量, 相关熵(KL-Divergence)作为聚类前后矩阵差异性的度量准则

ITCC算法相关分析 NP难问题, ITCC算法得到的最终解是局部最优解 时间复杂度是O ( t* n*(k+l)),其中n 表示矩阵非零值的个数,k 表示行簇个数,l 表示列簇的个数,t 表示迭代的次数。

Graph-partitioning based Co-Clustering

Given disjoint document clusters D1, Given disjoint document clusters D1, . . . ,Dk, the corresponding word clusters W1, . . . ,Wk may be determined as follows. A given word wi belongs to the word cluster Wm if its association with the document cluster Dm is greater than its association with any other document cluster. A natural measure of the association of a word with a document cluster is the sum of the edge-weights to all documents in the cluster. Clearly the “best” word and document clustering would correspond to a partitioning of the graph such that the crossing edges between partitions have minimum weight.

GPCC算法 Adjacency Matrix  Laplacian matrix (L=D-A) D: degree matrix This problem can be tackled with an SVD-related algorithm. O(|E| + h logh) h=m+n

Our Task Link set Entity set Entity set Type set . . . . LE TE types lm eq eq tn LE TE types LET = LE TE links LT =

问题就可以描述为Link—Entity—Type协同聚类的问题: 给定Link set L、Entity set E、Type set T、整数k 和关联强度函数 Relevance, 由协同聚类得到一个集合C 且Cx = (Lx, Tx) (1≤x≤k) ,使得 li Lx ,tjTy Relevance (li , tj)最小. (x, y= 1,...,k且x y) Definition li:  tx ; li关联到types tj:  ly; tj关联到links Relevance(li , tj)=  x=1,…,|li| Relevance(tx , tj) + ( 1- ) y=1,…,|tj| Relevance(li , ly) Relevance(tx , tj) =2 depth(LCS)/(depth(tx)+depth(tj)) Relevance(li , ly) =2 depth(LCS)/(depth(li)+depth(ly))

Q & A