基于MapReduce的大规模本体匹配方法研究

Slides:



Advertisements
Similar presentations
DOC 推廣活動 月餅星光大道. 中秋  農曆八月十五日,是中國傳統的中秋節。 古人將一年分成春夏秋冬四季,而一季又 分為孟、仲、季三月,八月是仲秋之月, 而十五又是這個月中間的一天,正處在秋 季的正中,所以把八月十五稱為「中秋」 或「仲秋」。  中秋夜,月亮最圓,月色最美,因此人們 把月圓看成是團圓的象徵,同時也稱八月.
Advertisements

洞庭月,衡岳云,巫山雨, 波撼气蒸,揽天下风光,堪 称独步; 崔灏诗,范相记,王勃序, 两楼一阁,数江南文物,各 有千秋。
厅直属单位卫生科技工作 座谈会 卫生高级专业技术资格申报评审 政策解读和工作要求
“ 育人 ” 即 “ 育己 ” 的五年 答 辩 人:晏向华 研究方向:动物分子营养学 单 位:动物科技学院 动物营养与饲料科学系 2012 年研究生指导教师 “ 教书育人奖 ” 答辩.
中 五 級中 五 級 戰後國共關係 與 中華人民共和國成立 中國歷史科 1 )認識國共政治協商的概況 2 )認識國共內戰的概略經過及結果 3 )中華人民共和國成立.
不吃早餐的影響: 體內的葡萄糖無法 足夠供應給大腦與 肌肉,會感覺疲勞, 注意力無法集中。。 營養的早餐:乳品 + 全榖類食品 + 蛋白質 + 水果 早餐你吃了嗎?
泄 泻. 一、概述 定义: 大便稀薄,甚如水样,或完谷不化,并多 有排便次数增多。 泄与泻含义有别:泄者,漏泄之意,是指 大便溏薄,时作时止,病势较缓;泻者,倾 泻之意,是指大便直下,如水倾注,病势较 急。临床一般统称为泄泻。 病名: 《内经》称为 “ 泄 ” ,汉唐多与痢疾同归于 “ 下利 ” 之中,宋代以后渐以.
河北衡水中学 康新江 高效课堂与激情教育 河北衡水中学 康新江
2015年工作总结及2016年工作计划 建筑环境与能源应用工程系 2015年1月6日.
人文地理專題研究 王志明.
辨析近义词的方法 (一) 词的色彩不同 词语色彩----感情色彩 ----语体色彩.
农学院 学年 工作总结及下学年重点工作.
李國偉 中央研究院數學研究所研究員 數學教育學門召集人
2014年爱婴医院复核方案解读 省卫生计生委妇幼处 邱灵.
对应用型本科建设中若干问题的认识 张家钰
导言 第四 单元 凡尔赛—华盛顿体系与第二次世界大战
教育的理想和教育家成长 成都.
劳动关系法务-实操篇 规章制度修审与员工手册撰写.
社團經費申請 及核銷相關規定 製作:世新大學會計室.
会计实验.
小学语文常用说明方法 广州市越秀区云山小学 高年级 李晓泓.
信息技术与旅游的交叉研究进展 北京联合大学旅游学院 黎巎 张凌云 2012年4月21日.
“卓越工程师”培养的质量保障体系构建探索
土地出让转让的政策与实务 岳晓武 国土资源部利用司.
——国际经贸学院2013年工作汇报 汇报人 袁红林 二0一四年一月六日.
2013年临床科室述职报告.
老師:鍾郁芬 老師 指導 組長:陳欣怡 組員:曾郁雯 倪敏富 王宣化 簡宏倫 黃郁涵
题目回顾 泉水在地下蓄积,一旦有机会,它便骄傲地涌出地面,成为众人瞩目的喷泉,继而汇成溪流,奔向远方。但人们对地下的泉水鲜有关注,其实,正是因为有地下那些默默不语的泉水的不断聚集,才有地上那一股股清泉的不停喷涌。 请根据你对材料的理解和感悟,自选一个角度,写一篇不少于800字的文章,文体自定,标题自拟。要求:立意明确,不要套作,不得抄袭。
中国博士后科学基金 交流体会.
广 东 技 术 师 范 学 院 美术学院 装潢专业 2012级(3)班 郑可珊
课程改革:培养学 生的独立人格 ——中学校长《课程改革 与校长担当》论坛的讲话 郭振有
第十九章 散文 教学要求: 了解散文的含义、分类、特点,学习写作抒情散文。 重点: 散文的特点,散文的写作。 难点: 散文的写作训练。
形神兼备,写活人物 ——外貌描写写作指导 丰县华山初级中学 王艳丽.
SCI他引检索方法(年终奖励版) 图书馆咨询部
农机化项目管理培训会 柳州市农机局 郑崇宁
一二·九运动                                                                    0712班.
中小学教育科研课题的选择 王典伟.
基本要求:了解隋朝各项制度的历史渊源及其各方面的发展成就的社会基础,力求领会中国封建社会历史发展的基本规律并真正把握隋朝的历史地位。
出口农产品风险管理 企业分类及监督管理表格
“这是一道选择题,请看题板:由于他( )成一个商人,日本鬼子没有认出他来。
● 四 (2)班 家 长 网络交 流 会 ● 快乐成长 与您 共享 家庭 学校 社会.
学科科研工作与科研 奖励政策解读讲座 朱文斌 博士 教授 2015年9月8日.
一、古代中国的农业经济 必修二 /专题一 古代中国经济的基本结构与特点 ▲1.农业的主要耕作方式和土地制度
第9章 金融监管.
信息采集技术 信息产品的加工4/5.
首都师范大学.
2009届高考专项复习 ——辨析病句.
關心今天的老人, 就是關心明天的自己 作者:周儀.
Homework 1(上交时间:10月14号) 倒排索引.
基于语义网的军事问答系统的设计与实现 报告人:汤顺雷 指导老师:程龚.
义务教育课程标准实验教科书七年级上册第24课
Wuhan University of Science & Technology
Meaningful Compound Concept Learning?
数据摘要现状调研报告 上下文摘要初步思考 徐丹云.
清華大學 青少年科技文化夏令營 迎生聚會 2006年7月7日 香港教育工作者聯會會所.
《郑伯克段于鄢》 黎兰老师制作.
现代教育技术应用 第一章 现代教育技术基础 第6讲 何克抗教授关于多媒体课件的理论研究 单 位: 北京师范大学 作 者: 毛荷&王翠霞.
基于云计算及数据挖掘技术的海量数据处理研究
兒少保護通報處理流程介紹 臺中市家庭暴力及性侵害防治中心 陳秀婷/張美慧 社工督導員 2012/10/19.
第三章 世界文明的蛻變與互動 第一節 歐洲社會的蛻變 第二節 世界文明的交匯 第三節 亞洲大帝國的發展 1.
教育部特殊教育通報網 學生異動、接收操作說明.
2.古诗两首 自忠小学 赵镒涓.
钱炘祺 一种面向实体浏览中属性融合的人机交互的设计与实现 Designing Human-Computer Interaction of Property Consolidation for Entity Browsing 钱炘祺
專題討論
面向高考地理智能问答的知识库体系设计进展及问题讨论
仲裁处理细则及常见问题解析.
送杜少府之任蜀州 王 勃.
嘉義縣立溪口國民中學 辦理96年度推動自由軟體學校資訊融入教學
银川社保网上申报 宁夏人力资源和社会保障 网上服务大厅操作
关于一些本体评价方法测评指标的综述 姜成樾.
Presentation transcript:

基于MapReduce的大规模本体匹配方法研究 张航 指导老师:瞿裕忠教授、胡伟老师

语义Web本体 <owl:Class rdf:ID=“Person”> <rdfs:subClassOf> <owl:Restriction> <owl:maxCardinality>1</owl:maxCardinality> <owl:onProperty rdf:resource=“#hasSSN” /> </owl:Restriction> </rdfs:subClassOf> </owl:Class> <owl:Class rdf:ID=“SSN” /> <owl:ObjectProperty rdf:ID=“hasSSN” />

大规模本体匹配 大型本体匹配 大量本体匹配 Hang_Zhang hang.z

摘 要 一种基于MapReduce的大型本体匹配方法 基于MapReduce的大量本体匹配框架

摘 要 一种基于MapReduce的大型本体匹配方法 基于MapReduce的大量本体匹配框架

主要思路 利用本体匹配中虚拟文档相似度技术 (V-Doc) 利用MapReduce将实体与其相关的RDF语句做连接 利用一种高相关度单词的实体集合划分算法缩小计算空间

一种基于MapReduce的大型本体匹配方法 本体预处理 构建描述信息 获取邻接结点 信息 匹配虚拟文档 V-Doc+ 算法流程图

构建描述信息(实体) … “Teacher” Local Name rdfs:label 𝐶 1 “People” rdfs:comment “Teach students” “Teacher” rdfs:label Desc 𝐶 1 = 𝛼 1 Teacher+ 𝛼 2 People+ 𝛼 3 (Teach+student)+ 𝛼 4 (…)

构建描述信息(实体) Example: Map: C1 Map: (C1, P2, L4,) Reduce: (C1: L4+ L5) 实体与RDF语句等值连接 Example: Map: C1 Map: (C1, P2, L4,) Reduce: (C1: L4+ L5) Map: (C1, P1, L5,)

构建描述信息(空白结点) 𝐷𝑒𝑠𝑐 𝑘+1 𝑏 =𝛽∗( 𝐷𝑒𝑠𝑐 1 𝑏 + 𝑠𝑢𝑏𝑗 𝑠 =𝑏 𝑜𝑏𝑗(𝑠)∈𝐵 𝐷𝑒𝑠𝑐 𝑘 (𝑜𝑏𝑗(𝑠)) ) 𝐷𝑒𝑠𝑐 1 𝑏 = 𝑠𝑢𝑏𝑗 𝑠 =𝑏 𝐷𝑒𝑠𝑐 (𝑝𝑟𝑒𝑑(𝑠)) + 𝑠𝑢𝑏𝑗 𝑠 =𝑏 𝑜𝑏𝑗(𝑠)∉𝐵 𝐷𝑒𝑠𝑐(𝑜𝑏𝑗(𝑠))

构建描述信息(空白结点) b29 c26 b10 “literal” “literal”

构建描述信息(空白结点) Step1: 重写空白结点结构,在MapReduce的传输中可携带已到达的结点信息。 实体、空白结点与RDF语句等值连接 Step1: 重写空白结点结构,在MapReduce的传输中可携带已到达的结点信息。 Step2: Map阶段:(Desc(b1), (b1,c5)) --> (b1, Desc(b1)) (c5, Desc(b1)) Step3: Reduce阶段:(b1, Desc(b1))与所有以b1为主语的三元组聚合,添加下一步结点 (c5, Desc(b1))与c5的描述信息Desc(c5)聚合,更新b1描述信息Desc(b1) Step4: 合并所有与b1相关的结果

考虑邻接结点 Virtual Document 𝑉𝐷 𝑒 =𝐷𝑒𝑠𝑐 𝑒 +𝛾∗𝑁𝑒𝑖𝑔ℎ(𝑒) 𝑁𝑒𝑖𝑔ℎ 𝑒 = 𝑒′∈𝑆𝑁(𝑒) 𝐷𝑒𝑠𝑐(𝑒′) + 𝑒′∈𝑃𝑁(𝑒) 𝐷𝑒𝑠𝑐(𝑒′) + 𝑒′∈𝑂𝑁(𝑒) 𝐷𝑒𝑠𝑐(𝑒′) 𝑆𝑁(𝑒): 主语为e的三元组的谓词和宾语 P𝑁(𝑒):谓词为e的三元组的主语和宾语 O𝑁(𝑒):宾语为e的三元组的主语和谓词

考虑邻接结点 MapReduce对图的宽度搜索 Step1: 将每个结点的邻居结点ID通知给该结点

考虑邻接结点 Step2: 每个结点把自己的描述信息发送给邻居结点

考虑邻接结点:Step 1 对于每个三元组(s, p, o), 生成三组键值对(s, {p, o}), (p, {s, o}) and (o, {s, p}) 将每个结点的邻居结点ID通知给该结点. For example: (c1, Desc(c1)) + (c1, {b2, p4}) = (c1, (Desc(c1), {b2, p4}))

考虑邻接结点:Step 2 用邻居结点ID作为key,将每个结点自身描述信息发送给邻居结点 每个结点用收到的描述信息更新自身的描述信息

实体相似度计算 利用TF/IDF模型 余弦相似度 利用基于单词权重的划分方法 通过对本体内单词词频统计平均划分单词,以此平 衡负载 𝑠𝑖𝑚 𝑒 1 , 𝑒 2 = 𝑉𝐷( 𝑒 1 )×𝑉𝐷( 𝑒 1 ) 𝑉𝐷 𝑒 1 ∗|𝑉𝐷( 𝑒 2 )| >θ 利用基于单词权重的划分方法 对单词 𝑤𝑜𝑟𝑑 i , 𝑠𝑐𝑜𝑟𝑒 i 排序,使得 𝑠𝑐𝑜𝑟𝑒 1 ≥ 𝑠𝑐𝑜𝑟𝑒 2 ≥…≥ 𝑠𝑐𝑜𝑟𝑒 n 取得高相关度单词集合 {𝑤𝑜𝑟𝑑 1 , 𝑤𝑜𝑟𝑑 2 ,…, 𝑤𝑜𝑟𝑑 i }, 其中i是满 足以下式子的最小正整数: 𝑠𝑐𝑜𝑟𝑒 1 + 𝑠𝑐𝑜𝑟𝑒 2 +…+ 𝑠𝑐𝑜𝑟𝑒 i ≥ 𝛿𝜖(0,1] 通过对本体内单词词频统计平均划分单词,以此平 衡负载

实体相似度计算 实体集合的分割过程。

大型本体匹配实验 数据集 OAEI 2007 食物本体 FMA vs. GALEN

大型本体匹配实验 精确度、召回率和F1-measure

大型本体匹配实验 食物本体匹配耗时比较 在不同节点数目下的运行时间 V-Doc+ Falcon-AO DSSim RiMOM Prior+ 10分钟 6小时 1周 4小时 1.5小时 在不同节点数目下的运行时间

大型本体匹配实验 V-Doc+的各模块运行时间

大型本体匹配实验 V-Doc+在不同𝛿取值下情况(基于单词划分方法的参数)

基准数据集测试 数据集:OAEI Benchmark testbed #101-104:匹配实体的名称具有相似字符串特征。 #201-210:匹配实体有相似结构特征,但没有相似字符串特征。 #221-247:匹配实体没有相似结构特征,但有相似语言特征。 #248-266:匹配实体既没有相似结构特征,也没有相似语言特征。 #301-304:采用真实世界数据,具有混合特征。

基准数据集测试 #101–104 #201–210 #221–247 #248–266 #301–304 Average   #101–104 #201–210 #221–247 #248–266 #301–304 Average V-Doc+ (δ=0.80) 1.00 0.80 0.99 0.27 0.69 0.71 V-Doc+ (δ=0.99) 0.83 0.42 0.68 0.76 V-Doc 0.84 0.41 0.74 0.77 Falcon-AO 0.92 0.56 0.81 AUTOMS 0.97 0.32 COMA 0.95 0.96 0.60 0.73 DSSim 0.44 0.00 0.82 0.57 HMatch 0.01 0.54 0.53 JHU/APL 0.64 0.09 0.21 0.59 Prior+ 0.67 0.05 0.63 RiMOM 0.65 0.87 排到前5,名列前茅

相关论文 Zhang, H., Hu, W. Qu, Y.Z.: VDoc+: A Virtual Document Based Approach for Matching Large Ontologies Using MapReduce. Journal of Zhejiang University - SCIENCE C (SCI-Indexed), 2012. 257-267. Zhang, H., Hu, W., Qu, Y.Z.: Constructing Virtual Documents for Ontology Matching Using MapReduce. Proc. Joint International Conference of Semantic Web Technology (JIST), 2011. 48-63. Won Best Paper Award.

大量本体匹配 V-Doc+是一种大型本体的一对一匹配方法 假设有n个本体需要做匹配计算,那么一对一匹 配算法需要重复 n∗(n−1) 2 次。

摘 要 一种基于MapReduce的大型本体匹配方法 基于MapReduce的大量本体匹配框架 基于匹配任务划分的方案 基于本体内容划分的方案

基于匹配任务划分的方案

基于本体内容划分的方案 1. 匹配器内并行化方案并行度更大 2. 利用Feature划分数据集可减小计算空间

基于匹配任务划分 v.s.基于本体内容划分 直观对比 基于匹配任务划分 基于本体内容划分 便于实施 是 否 并行粒度 小(取决于本体数量) 大(取决于实体特征数量) 利用实体特征划分实体集

实验对比 数据集: OAEI Benchmark (66个本体) 匹配算法:余弦相似度 F1-measure对比 𝑆𝑖𝑚 𝐼 𝑎 , 𝐼 𝑏 = 𝑘 𝑓 𝑎𝑘 𝑓 𝑏𝑘 ( 𝑘 𝑓 𝑎𝑘 2 ) ( 𝑘 𝑓 𝑏𝑘 2 ) F1-measure对比   非并行匹配方案 基于匹配任务划分的并行化方案 基于本体内容划分的并行化方案 F1-measure 0.72 0.70

实验对比 实体数目对运行时间影响

实验对比 MapReduce节点数目对运行时间影响

实验对比 66个本体 4个本体

基于匹配任务划分 v.s.基于本体内容划分 实验结论 在运行耗时上,两种并行方案都比非并行方法有较大的提升 对于余弦相似度算法,尽管基于本体内容划分的并行度更大,但优 势并不明显,耗时不会始终随MapReduce节点数目增加而大幅度减 小。事实上,很多研究表明,匹配等算法的速度提升会在特定节点 环境下会收敛 对于余弦相似度算法,当本体数较多时,基于本体内容划分方案并 不一定会比基于匹配任务划分方案耗时更少。只有当本体数较少、 单个本体较大时才有优势。

总结 基于MapReduce设计了一种针对大型本体的匹配方法 基于MapReduce设计两种针对大量本体匹配的并行方案 引入虚拟文档相似度技术 利用MapReduce将实体与其相关的RDF语句做连接 利用MapReduce的图模型处理技术获取实体邻接结点信息 利用一种高相关度单词的实体集合划分算法缩小计算空间 基于MapReduce设计两种针对大量本体匹配的并行方案 在计算耗时上,两种并行方案都比非并行方法有较大的提升 在余弦相似度算法上对比两种方案

硕士期间发表论文 Zhang, H., Hu, W. Qu, Y.Z.: VDoc+: A Virtual Document Based Approach for Matching Large Ontologies Using MapReduce. Journal of Zhejiang University - SCIENCE C (SCI-Indexed), 2012. 257-267. Zhang, H., Hu, W., Qu, Y.Z.: Constructing Virtual Documents for Ontology Matching Using MapReduce. Proc. Joint International Conference of Semantic Web Technology (JIST), 2011. 48-63. Won Best Paper Award. Hu, W., Chen, J.F., Zhang, H., Qu, Y.Z.: How Matchable Are Four Thousand Ontologies on The Semantic Web. Proc. Extended Semantic Web Conference (ESWC), 2011. 290-304. Hu, W., Chen, J.F., Zhang H., Qu, Y.Z.: Learning Complex Mappings between Ontologies. Proc. Joint International Conference of Semantic Web Technology (JIST), 2011. 350-357.

谢 谢!