关联发现 工作内容阶段性总结 刘达欣 2015-8-31.

Slides:



Advertisements
Similar presentations
index 目次 ( 請按一下滑鼠,解答就會出現喔 !) 接續下頁解答 3-1 極限的概念.
Advertisements

2007 年 6 月 楚雄师范学院计科系 离 散 数 学 第三章 逻辑代数 ( 上 ) 命题演算.
報告者:曹仁傑 2016/8/291.  簡介  研究方法  遊戲設計  實驗結果與分析  結論 2016/8/292.
動動腦時間 — 腦筋急轉彎 —. 1. 有三個小朋友在猜 拳,一個出石頭,一 個出布,一個出剪刀, 請問三個人共有幾根 指頭? 答案: 60 根.
月子保姆理论知识试卷.
第四章 社会心理因素与健康.
序号 股票名称 本期净利润 (亿元) 单季净利润同比增长率(%) 单季净利润环比 增长率(%) 1 刚泰控股
人生 大富翁.
投稿指南ITA 基于数据分析为用户推荐投稿期刊 乐致安
高级企业人力资源管理师 第六章 劳动关系管理 Labor Relations Management
聖保祿 St. Paul.
如何写论文.
考卷设置原则 内容 困难度 考卷形式,长度和布局 问题结构+使用语言 比较性 9th
國立臺北科技大學 推動提升服務品質說明會 人事室 賴巧舒 製作.
第 4 章 网络层.
计算机网络教程(第 2 版) 第 7 章 网络互连 课件制作人:谢希仁.
  中国技术交易信息服务平台 中国技术市场管理促进中心.
這是全班幼兒一起進行團體討論、分享、常規教學、新聞報導及全體共同經驗的活動,因此場地以能容納所有幼兒為主。
前面的话 寻 找 xun zhao 钉子有两个好处:一个是挤劲 一个是钻劲。我们在学习上要 提倡这种“钉子”精神,善于挤 和钻。 雷锋
天文学信息化建设初步设想 赵永恒 国家天文台 2006年11月.
使用灰階像素臨界值的自動化肺部切割 出處:朝陽科技大學資訊管理系 學 生:吳昱慧 報告日期:2009/12/01.
「社福機構薪酬及福利機制」 研究報告 香港社會工作者總工會研究委員會 2013年12月15日.
執行單位:朝陽科技大學 傳播藝術系 課程名稱:簡報專業形象與肢體語言 專案講師:湛明暉 課程日期:中華民國101年11月14日
项目二    会议管理(p44) Conference Management.
TBSMGS数据存储管理软件 北京金信桥信息技术有限公司 2010年05月27日.
路由器的性能特点和工作原理 两种常用的内部网关协议(RIP和OSPF) 路由器的产品结构 局域网中使用路由器的方案
揭秘 庄家 股市中的 为什么你的股票一买就跌,一卖就涨? 为什么出了利好,股价反而下跌? 为什么有的股票一直涨停?
Q1:何謂網路成癮(沉迷)? 網 路成癮為網路使用普及後新興的名詞,所謂的網路成癮是指重度網路使用的當事人在網路使用上出現一般上癮問題的核心症狀與負面影響,包括:(一)強迫性:理 智上知道要控制網路的使用時間,但仍不能克制上網的衝動, (二)戒斷性:不能上網時出現了身體或心理層面不適的現象。 (三)耐受性:上網的慾望越來越不能.
DV摄像 第一章 摄像机拍摄技巧入门.
职业教育课程改革创新教材 财经法规与会计职业道德.
第1章 資訊管理研究概論.
崇拜即將開始,請大家安靜片刻, 預備心靈敬拜上帝。
文學與生活-期末報告 赤壁之戰 組員名單 : 4A2L0031 王柔之 4A2L0033 劉兆偉 4A0L0063 謝商裕
第20讲 农业生产和区位选择 [考纲要求] 掌握农业的主要区位因素极其影响; 学习农业区位选择的方法
第十一讲 唐代政治大势 一、李渊起兵与唐朝的建立 二、从贞观之治到开元盛世 三、从安史之乱到宦官、党争.
長週期光纖光柵生物感測器電漿表面改質之研究
乳猪断奶后拉稀,掉膘与教槽料.
桂冠開發建設 股份有限公司 台北市大安區新生南路二段60號4樓.
Jiahui Jing +*, Samamon Khemmarat *, Lixin Gao *, Junzhou Luo +
Department of Computer Science & Information Engineering
词汇语义资源在中文关系抽取中的应用 报告人:钱龙华 刘丹丹 胡亚楠 钱龙华 周国栋
Extend materials: physical layer and more
第4章 网络互联与广域网 4.1 网络互联概述 4.2 网络互联设备 4.3 广域网 4.4 ISDN 4.5 DDN
災害性天氣之探究─ 颱風 文賢國小 李同立老師.
DATASET 查询概念树 相关调研 2018/12/6 刘庆霞 Websoft NJU.
中国科技大学软件学院 School of Software Engineering
知识检索与推理在求解选择型问题中的应用 学生:丁文韬 指导教师:瞿裕忠.
第六届全国复杂网络学术会议 微观视角下的社会网络站点 中的交友模式 胡 海 波 华东理工大学
中科院自动化所评测技术报告(SYSTEM II)
Inter-Design Workshop 2008
基于语义网的军事问答系统的设计与实现 报告人:汤顺雷 指导老师:程龚.
中国科技大学计算机科学与技术学院 School of Computer Science & Technology
科技與創新管理 第二章 技術資源 陳澤義 教授 國立台北大學 國際企業研究所
以UML探討某單位車輛派遣自動化系統-個案分析
TANET 2011 無線感測網路中整合 ZigBee與6LoWPAN 之透通性平台設計
复杂网络简介 LiuChang.
江苏信息职业技术学院 江苏省省属高校国有资产管理系统使用说明.
Distance Vector vs Link State
Efficient Query Relaxation for Complex Relationship Search on Graph Data 李舒馨
中国农业科学院博士后学术论坛 博士后基金申请的经验及体会 中国农业科学院生物技术研究所 秦 华 博士
中一級第二學期 資訊科技科 互聯網.
98年度兒童課後照顧學程 修課名單確認暨課程說明會 2009/09/15(二) 08:40~09:20.
ACM数据库 及其使用 iGroup亚太资讯公司 2007年10月.
校園霸凌行為定義 與特質.
Distance Vector vs Link State Routing Protocols
班級經營分享 主講人:吳姈娟 時間:104年3月4日.
單選題 1. 2. 3. 4. Q1:下列何者能作為商標樣式?
社會學習領域 課綱修正宣導簡報 臺北市社會領域輔導小姐.
JAVA 程式設計與資料結構 第二十一章 Graph.
第 4 章 网络层.
Presentation transcript:

关联发现 工作内容阶段性总结 刘达欣 2015-8-31

目录 背景 宏观方法 具体方法的调研 具体方法的选择

背景 问题:发掘两个实体间的所有关系。实体关系基于Dbpedia的关联ttl文件给出,将实体信息映射到字典,并将实体关联的多重关系忽略,关联发现问题便建模成了普通图里的路径发现问题(边长函数为l=1)。 Baseline做法:双向广度优先搜索(BiBFS)。以hop=4为例,BFS的搜索空间为n4,其中n为图的平均度。而双向BiBFS的搜索空间为2n2。 1

1 背景 Baseline做法的问题:双向BFS,但面临着性能不佳的问题。 实验表明在Dbpiedia中有边数14M条,顶点数(实体)12M个, 4M个为非孤立点。取10K个节点对做实验,平均每对实体关联搜索hop=4时,用时3s左右,hop=5的用时在40s左右,hop=6时则达到了3分半,这是不能接受的。 1

2 宏观方法 基本思路:在BiBFS执行时,实际上搜索了许多不会产生路径的节点,尝试使用距离oracle进行剪枝。 分析:以hop=4为例以下是距离oracle的剪枝示意图 2

宏观方法 模拟oracle实验: 实验方法:从Dbpedia中挑选100(由于时间关系)对实体进行了距离orcale模拟实验。实验思想为使用两次BiBFS模拟oracle剪枝工作:第一次BiBFS的结果朴素进行,第二次BiBFS的过程中使用第一次BiBFS求得的所有路径引导剪枝(如果oracle能够精确回答任意两点间最短距离,那么这两种剪枝最后的效果应该一致)。 2

宏观方法 模拟oracle实验: 实验结果:以下为100对实体关联对的模拟实验结果。根据100对的结果计算出的平均加速时间为61.93%。可见oracle确实可以大幅提速。特别的,在hop=4的路径中如果经过了hub节点,baseline方法可能会在5分钟之后抛出oom异常。 2

具体方法的调研 调研: 在一篇总结性文章中给出了图的(近似)距离 oracle构建研究现状总结。文章最后也给出了复杂 网络的距离orcale。方法总结有 1. 三角法(triangulation) 2. 两跳覆盖(two-hop covers) 3.核心边缘法(core-fringe) 4.嵌入法(Embedding) 3

具体方法的调研 各方法基本思路: 1.三角法基于d(s,t)<d(s,v)+d(v,t)的三角不等式计算(近似)距离。三角法要求选取一个顶点集V的子集作为里程碑,并计算保存里程碑间的距离信息、每个顶点v的邻域距离信息。 2.两跳覆盖法基于捷径(shortcut)、距离标号法。基本思想是任意s,t至少存在一个位于s-t最短路径上的节点v属于l(s)∩l(t),l(s)和l(t)分别为s,t的标注。 3.核心边缘法,利用了许多无标度网络(scale-free network)核心之外拥有相当小的树宽(tree-width) 的属性。 4.嵌入法,调研工作还在继续。 3

具体方法的调研 性能比较: 1.三角法中要求存储里程碑间,节点与里程碑间的距离信息。存在着α=2,3的近似距离oracle,和精确距离oracle。空间复杂度浮动于O(n4/3)-O(n7/4)之间。并且如果图中的任意两点距离比较近的话,会使得产生绕路现象。 2.两跳覆盖法的一个实现Akiba[2013]的空间复杂度为 O(wmlogn),其中m为边数,n为顶点数,w为树宽。可见如果图的树宽比较小,那么空间上是较优的。查询时间为O(wlogn)。 3

4 具体方法的选择 针对三角法和两跳覆盖法,最新的两种实现分别为Agarwal et al.[2012],以及Akiba[2013]两种精确距离oracle。下面介绍 两种方法的实现。 Agarwal et al.[2012]精确三角法: 1.对于每个点u,以概率 抽取为里程碑,其中α为参数,deg(u)为u的度。这保证了中心点(hub)能尽可能选为里程碑。计算所有里程碑间的距离,存于oracle 2.对于每个顶点v,设其与里程碑集的最短距离为d,计算v的邻域(到v距离小于等于d的点,等于d的点为v的边缘)并保存。 3.对于查询的任意点s,t。若s在t的领域或者t在s的领域,最短距离直接返回最短路径,若s或t任一为里程碑,直接返回最短路径。否则,求s与t边缘的交集R,若R非空,则最短路径为 ,其中v属于R。否则调大参数α。 𝑃 𝑠 = 𝑚 𝛼𝑛 𝑛 • 2𝑛 𝑚 •deg(𝑢 4 𝑑(𝑠,𝑡)=𝑑(𝑠,𝑣)+𝑑(𝑣,𝑡

4 具体方法的选择 Akiba[2013]两跳覆盖法: Akiba[2013]基于剪枝的BFS算法。对于每个顶点v,计算一个v的标号集合l(v)={u,duv}。U为顶点集V的子集,duv为u-v的距离。所有l(v)的集合构成了一个索引(index)记为L。定义任意(s,t)的L查询返回L中计算得到的s-t最短距离。QUERY(s,t,L)=min{dvs+dvt | (v,dvs)∈L(s),(v,dvt)∈L(t)}。索引(实际上的oracle)的构造通过n次的剪枝BFS构造。第k次(处理节点vk)的索引Lk(u)有Lk(u)=Lk-1(u)∪{(vk,d)}。其中d为vk与u距离,QUERY(vk,u,Lk-1)>d。如果QUERY(vk,u,Lk-1)<=d则剪掉u,并不再BFS中遍历其后继。 Akiba[2013]的方法确保了对任意s,t至少存在一个位于s-t最短路径上的节点属于l(s)∩l(t)。并证明了通过剪枝BFS得到的标号集为最小标号集(标号中没有冗余信息)。其性能取决于vk的顺序,顺序取得好,多次BFS的后几次边收敛得快(遍历节点少)。在复杂网络中可以根据节点的度进行排序处理(利用了复杂网络的特性之一)。 4

具体方法的选择 Agarwal et al.[2012]三角法:存在一定的缺陷(可能漏解),如果图的节点对平均距离比较小,会产生绕路。而在Akiba[2013]的实现中,如果图的平均距离比较小,则需要较大的参数α来覆盖查询,换句话说空间需求变大。后续的实验表明Dbpedia的平均距离比较小。一下为实验的结果分布。 4

具体方法的选择 Akiba[2013]两跳覆盖法:其面临的主要问题是内存占用可能太大,需要实验尝试一下内存会不会溢出。 4

下一步计划 后续的工作将围绕oracle的构建展开,包括模拟oracle进一步实验,对不同oracle实现的可行性实验,调研其他两种尚未涉足的oracle构建方法 参考文献: R. Agarwal, M. Caesar, P. B. Godfrey, and B. Y. Zhao. 2012. Shortest paths in less than a millisecond. In 5th Workshop on Online Social Networks (WOSN). //三角法精确距离 T. Akiba, Y. Iwata, and Y. Yoshida. 2013. Fast exact shortest-path distance queries on large networks by pruned landmark labeling. In ACM SIGMOD International Conference on Management of Data (SIGMOD). 349–360. //两跳覆盖精确距离 4