基于知识图谱的关系概念化 Conceptualization of Relationship on Knowledge graph 本科学位论文 答辩报告 院系:软件学院 专业:软件工程 姓名:范思奇 导师:肖仰华 副教授
答辩提纲 研究背景 现有问题和启发 研究内容和方法 实验与分析 结论与讨论 致谢
研究背景 涉及问题:计算机如何理解关系? r(ei, ej) 表格标注(Table Annotation) 关系分类体系(Relation Taxonomy) A B Harry Potter J.K. Rowling Heal the World Michael Jackson The Wedding Banquet Ang Lee The Angelic Conversation William Shakespe … 涉及问题:计算机如何理解关系? r(ei, ej)
located-in (Fudan University, Shanghai) 研究背景 背景(1.1) 知识图谱(Knowledge graph)是一种结构化的信息,本质上是一种语义网。 构建:实体为结点,关系为边 维护:三元组为储存形式 located-in (Fudan University, Shanghai) 实体关系(1.1.2, 1.1.3) 实体关系有多种描述方式: 关系模式(Relation Pattern): 形式为<type> context <type> 如<Institution> locates at <Location> 关系实例(Relation Instance): 形式即为三元组r(ei, ej) 如 located-in (Fudan University, Shanghai) SOL模板 如<Person>’s [adj] voice * <Song>
现有问题和启发 现有的关系理解的局限性(2.2.2): 概念分类体系(3.1.1) 如何从细粒度、语义角度描述关系的特征? 基于本体(Ontology),类型有限 实体类型粒度粗,只能针对一对特定类型下的关系 基于句法特征 如何从细粒度、语义角度描述关系的特征? 概念分类体系(3.1.1) 微软亚研提出的Probase 概念-实体:概念是实体的抽象表示,实体是概念的具象实例 自动构建的isA(entity, concept)关系: isA(Harvard, Institution), isA(Massachusetts, Location) isA(Harvard, Ivy University), isA(Massachusetts, American State) <type> context <type> 类型有限 粒度粗 句法特征 located-in(Harvard, Massachusetts) Institution Ivy University Location American State isA 自动构建 语义特征 粒度细
研究内容和方法 关系分类体系为实体关系的理解提供了新思路(3.1.2): 使用概念(concept)优势(3.1.2): writer 实体关系:实体关系实际上是对许多实体对(entity pair)的抽象表示 因此,一组由许多实体对抽象化得到的概念对(concept pair)可以用于表示某种关系 使用概念(concept)优势(3.1.2): 实体对集合压缩为较小的概念对集合 相比本体类别(owl:type):概念体系是自动构建的,数量大,粒度细 相比分类(Category):isA关系具有传递性 (Harry Potter, J.K. Rowling), (The Angelic Conversation, William Shakespeare) (Crouching Tiger Hidden Dragon, Ang Lee), (Heal the World, Michael Jackson), … {(Song, Artist), (Film, Director), (Book, Writer)} writer
研究内容和方法 研究目标(3.2.1): 难点(3.2.2): 关系概念化:给定关系r,输入n个实体对E(r),输出m个概念对CP(r) 概念对是未知的 概念对的典型性 数据偏移 噪音 (Harry Potter, J.K. Rowling), (The Angelic Conversation, William Shakespeare) (Crouching Tiger Hidden Dragon, Ang Lee), (Heal the World, Michael Jackson), … {(Song, Artist), (Film, Director), (Book, Writer)} writer r CP(r) E(r)
研究内容和方法 算法设计(3.3): 概念对是未知的 概念对的典型性 数据偏移 噪音
研究内容和方法 1. 概念对生成(3.3.1) 输入:知识图谱中关系r的所有实体对E(r) 输出:Top-K候选概念对 1.1 由概念分类体系生成概念对空间C×C 1.2 由E(r)为概念对进行排序 边权值累计过程图例
研究内容和方法 1. 概念对生成(3.3.1) 输入:知识图谱中关系r的所有实体对E(r) 输出:Top-K候选概念对 1.1 由概念分类体系生成概念对空间C×C 1.2 由E(r)为概念对进行排序 关系writer的候选概念对集合ICW值分布
研究内容和方法 2. 聚类压缩(3.3.2) 输入:候选概念对 输出:一组概念对CP(r) 2.1 生成以概念对为点,相似度为边权的无向有权图 2.2 马尔科夫聚类算法聚类 2.3选择簇和代表概念对 一个概念对(ci,cj)对应的一个实体对集合EPr(ci,cj): 相似度定义:
研究内容和方法 2. 聚类压缩(3.3.2) 输入:候选概念对 输出:一组概念对CP(r) 2.1 生成以概念对为点,相似度为边权的无向有权图 2.2 马尔科夫聚类算法聚类 2.3选择簇和代表概念对 根据ICW累积权值和Wilson Score制定概念对代表性分数: 聚类后关系writer的候选概念对集合ICW值分布
实验与分析 数据集(4.1):DBpedia提供关系r和实体对E(r), Probase提供概念分类体系即isA关系 准确率(4.2):比较DBpedia的Romain-Range 与PATTY比较 WKP Top-100 Pattern YAGO 0.95±0.04 Freebase 0.93±0.05 WKP+Probase Top-3 Top2 Cover Top-100 of PATTY 1.23 0.72 Precision 0.93±0.04 0.96±0.04
实验与分析 聚类评估(4.3):人工构造实体对集合,每个集合有2或3个关系组成,评估方法是否能够将这些关系分为不同的簇。 质量评估(4.4):人工打分,计算MAP
结论与讨论 本文应用概念分类体系,提出两步抽象自下而上的关系概念化方法,根据概念的典型性、多样性、覆盖率等特征为一个实体关系给出一组Top-K的概念对。 特点: 使用实体类型更丰富的概念分类体系 将一对实体或一对概念当做一个对象来考虑,从而保留了一对实体或概念之间潜在的实体关系,通过大量实体对的叠加优化而选择更典型的概念对 优势:生成实体类型粒度更细的实体关系,有助于基于语义的关系分类体系的构建,也有助于发现更细的实体类型之间的新关系 应用: 基于语义的关系分类体系 基于语义关系的模板匹配
致谢 感谢我的导师,计算机科学与技术学院的肖仰华老师,在这几个月期间的认真指导。感谢韩国浦项科技大学(POSTECH)计算机系的Seungwon Hwang老师,在我的研究过程遇到瓶颈时提供建议。感谢计算机科学与技术学院的张义同学,在论文撰写期间全程为我提供帮助。感谢GDM实验室的各位同学,包括孙祥彦、谢晨昊同学等,在讨论中为我提供了有价值的资源。感谢我的母亲及其同学与同事、美国明尼苏达双城大学陈柯栋同学、复旦大学瞿佳庆同学、雷添羽同学、舒静同学、美国南加州大学马帅同学、云南师范大学计算机学院肖斓楠老师即其计算机学院的学生等,为我的实验进行了人工打分标注。 这篇论文将为我在复旦大学四年的学习与生活画上句号,因此我倾注了许多时间与精力。在接下来的几个月时间,我还将继续在肖仰华老师、Seungwon Hwang老师和张义同学的帮助下继续修改论文并投稿。 最后向审阅论文的各位专家和老师表示感谢,初次接触科研,论文中如有不足之处,敬请各位提出指正和建议。