一种准确高效的领域知识图谱构建方法
前 言 作为语义网的数据支撑,知识图谱在知识问答、 语义搜索等领域起着至关重要的作用,一直以来也是研究领域和工程领域的一个热点问题,但是构建一个质量较高、 规模较大的知识图谱往往需要花费巨大的人力和时间成本。如何平衡准确率和效率,快速地构建出一个高质量的领域知识图谱,是知识工程领域的一个重要挑战。
目 录 1.相关研究综述 2.实例 3.实验 4.结论
1.相关研究综述 1.1 本体构建 本体构建用的是半自动构建本体的方法,使用统计方法和无监督方法得到的本体知识,结合其他知识图谱的本体知识,在专家的指导下构建出了本体,并在众包半自动语义标注过程中进行了完善。半自动构建本体介于人工构建本体和自动构建本体之间,对于大多数领域而言,完全自动化地构建本体是难以实现的,所以在自动构建本体的过程中通常还需要在用户的指导下进行的。 1.2 语义标注 语义标注指的是对原始数据做标记,使其包含一定的语义信息,这样不仅人可以理解,而且机器也能够理解。语义标注的研究主要包括利用本体技术和自然语言处理等技术来进行语义标注的算法研究和应用研究。 语义标注是基于Pundit开发的众包半自动语义标注工具,可以满足众包标注过程中的标注审核、标注溯源、共指消解、数据存储等需要,极大地提升了众包标注的效率。
1.相关研究综述 1.3 信息抽取 介绍是关系抽取:关系抽取指的是从文本中抽取出实体和实体之间的关系,这样才能将零散的实体联系起来。关系抽取的算法可以分为基于规则的方法和基于机器学习的方法。 基于规则的方法需要人工制定较多规则且难以全面;基于机器学习的方法又可以分为有监督、半监督和无监督三类:有监督的方法需要大量质量较好的标注数据,半监督的方法需要少量标注数据,无监督的方法不需要标注数据。使用有监督的方法进行关系抽取,可以看作是多分类问题,先预先将每个关系定义为一个类别,然后将句子中实体之间的关系划分到预先定义的类别中;较多采用的半监督算法bootstrapping 算法、协同训练算法和标注传播算法. 其中bootstrapping 方法中的远程监督方法目前最受学界关注,该方法首先将每种关系的少量三元组作为种子集,然后回标出同时包含种子集中三元组的两个实体的句子作为表征这一关系的训练数据,再从文本中找出符合这一关系的其他句子,这些句子中的实体和实体之间则很有可能也满足这一关系。该方法最大的问题是训练数据噪声,即包含两个实体的句子的语义关系可能会有很多种但是回标的时候所有句子被当成了一种语义关系.本文对有监督、半监督和无监督的方法都进行了相关实验.
2.实例 以面向基础教育的地理学科知识图谱的构建为例,构建框架如下图
2.实例 1.本体构建 对于基础教育领域的学科本体,覆盖率和准确率是非常重要的评价指标。在当前中文本体自动构建技术还不成熟的情况下,我们结合基础教育领域的特点,利用本体学习和统计学习等方法得到的本体知识,结合其他知识图谱的本体知识,在专家的指导下构建出了地理学科领域本体。 1.1 归纳领域概念 领域的核心概念对应的是本体中的类,每个核心概念都对应着许多实例,例如“国家”这个概念下就对应着“中国” “美国”、“俄罗斯”等实例。采用三种方法来得到地理学科领域的核心概念: (1) 利用统计方法得到领域术语,再从领域术语中得到领域核心概念,领域的核心概念是领域术语的子集合,因此可以用获取领域中术语的方法来获得领域概念。 TF-IDF 算法是一种统计方法,它的作用是评估一个词语对于一个语料库中的其中一份文档的重要程度.该算法的核心思想是一个词语的重要性随着它在文档中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
2.实例 TF-IDF 算法综合考虑了词语出现的频率、位置和密度等因素,但是它没有对整篇文档中相互有联系的词语进行综合考虑,而TextRank 算法恰恰考虑到了词语之间的关系,并对词语的重要程度进行分配。 TextRank 算法基于Google 的PageRank算法,其核心思想与PageRank 算法相同,如果将网络中的节点看作是词语,那么在词语网络中词语的重要程度取决于与它相连的词语(指定窗口内的词语)给它的投票数目,而票的权重取决于该词语自己的票数。 (2) 参考质量较高的知识图谱或数据源。我们主要参考了Schema.org , DBpedia和Geonames.Schema.org (3) 在众包半自动语义标注步骤中进行完善补充。 以上方法得到的核心概念的归纳整理需要参照本体构建的两个基本原则,即本体中的类的设计应当秉承独立性和共享性原则。前者指的是这个类可以独立存在,不依赖于特定的领域;后者指的是类是可以共享的,即有被复用的可能和必要。此外,本体中包含的类的数目应该尽可能的最小化,尽可能去除冗余的类。根据上面的原则,我们最终确定了地理学科的核心概念。(如下图所示)
2.实例 每个节点是一个概念,节点之间的连线表示父概念(靠近中心的节点)和子概念(远离中心的节点)的关系。
2.实例 1.2 定义领域关系及其约束 关系是本体的核心基本要素,它是对领域中的概念、实例之间的相互作用的描述。关系直接决定了本体知识图谱的知识丰富程度,以及基于知识图谱构建的其他应用系统的功能范围。关系学习是本体学习中的一个重要部分。主要通过四种方法来定义关系: (1)利用OpenIE 方法对地理学科领域文本进行无监督的开放关系抽取,再从中找到有意义的关系。 (2)参考质量较高的知识图谱或数据源Wikidata和Schema.org。 (3)根据核心概念和百科信息框来确定关系。 (4)众包半自动语义标注过程中补充新的关系。 综上方法得到地理科学的“特征”详细描述(如下图)
2.实例 2.众包半自动语义标注 基于领域本体的语义标注是指在领域本体的指导下从文档中抽取出结构化知识的过程,即将文档中的纯文本知识用RDF语言描述出来。语义标注的过程通常可以包含两种标注: (1)类型标注:将文档中与本体中概念相对应的词语标记出来,并将该词语作为概念所对应的实例; (2)关系标注:找出实例之间存在的与本体中关系相对应的关系,关系标注可以丰富实例的内在信息。标注时通常将实例及实例间的关系表示为三元组的形式(E1, R, E2),其中R是实例E1和E2之间的关系.
2.实例 众包半自动语义标注系统界面如下:
2.实例 3.外源数据补全 外源数据指的是外部数据源按照地理学科领域本体结构处理后得到的和标注数据结构一致的RDF 数据。外部数据源一般是互联网上公开的知识图谱或其他结构化程度较好的网站,特点是数据量大,结构较好。以下介绍地理学科知识图谱中的三个外部数据源: (1) Geonames (2)百度百科信息框 (3)中国行政区划信息
2.实例 4.信息抽取 4.1 实体集扩充 想要根据知识图谱中每个概念的实体集进行扩充。使用的方法是词向量。词向量最早是1986年由Hinton提出,又称为概念的分布式表达。词向量的主要作用是通过大量词语语料的训练,将每个词语映射到一个固定维度的向量。从而可以根据两个词语的向量之间的余弦距离来刻画两个词语的语义相关性,使用最为广泛的方法是Google 团队的Word2Vec方法。 事实上,实体集扩充之后应该还有一步实体消歧的操作,但是通用知识图谱存在着较多的歧义,领域知识图谱的歧义较少。例如“苹果”既是水果,又是科技公司。但是几乎不存在某个领域知识图谱会同时包括科技公司和水果这两个概念。
2.实例 4.2 关系抽取 采用了无监督、有监督和半监督三种方法来进行关系抽取。 无监督的方法中,使用了基于规则的方法和LDA 模型.基于规则的方法中,为想要抽取的关系定义正则模板,然后从文本中抽取相应关系的文本描述;LDA 模型是一种无监督的机器学习技术,用来识别文本中隐藏的关系类别信息,并且用词袋的方式来表示每类关系的特征。 有监督的方法中,将知识图谱中已有的关系数据作为训练数据,从文本中抽取出相应的三元组.由于已有的数据还是不够多,因此为防止过拟合,使用了较为简单的多层感知机。 半监督的方法中,我们采用了基于多语言注意力机制的远程监督方法,通过利用多种语言之间具有一致性的信息,实现了比单语言更好的抽取效果。
3.实验 实验一:半自动语义标注 从地理学科标注文档中随机抽取7 个标注文档,并对文档中的标注记录进行统计得到的结果: 可以看出,文档的标注F1 值大多数在90%以上.通过对标注错误和漏标的三元组进行分析,这些标注错误主要有以下三点原因: (1)标注人员标注时出现手误; (2)标注人员对知识的理解有误; (3)标注人员漏标注。
3.实验 实验二:实体集扩充 使用百度维基文本作为Word2Vec方法的训练语料,训练结束后,输入一个词语,会得到这个词语的相似词语集.通过把知识图谱中某个概念下的M个实体作为输入,每个实体的相似词语取前K个,一共得到M*K个含有重复词语的集合。取重复次数 >=N 的词语作为扩充的新实体。一个词语的重复次数越高,那么该词语映射到该概念下的新实体的可能性就越大。下表就是M=3时的几个例子。
3.实验 实验三:关系抽取 3.1无监督方法 使用LDA 模型对中国大百科文本进行聚类分析,得到每种关系对应的特征词。下表展示了其中一些关系的特征词抽取效果。其中,“位于”和“毗邻”是严格的“关系”,其他的是“属性”。
3.实验 接着,利用每种关系的特征词以及总结的正则式,使用bootstrapping 的方法从中国大百科文本中迭代抽取表达关系的文本。下表就是不同策略下基于中国地理大百科文本3000 个句子,20 个关系上测试的结果。
3.实验 3.2 有监督方法 基于知识图谱中每种关系的训练数据,我们尝试用多层感知机对中国大百科文本来进行关系抽取,在将句子向量化时,采用了两种方式: (1)选取句子中所有词语向量的均值作为句子的向量值; (2)简单将所有词语向量拼接在一起作为句子的向量值. 选取了关系含义重叠度较小的七种关系,使用多层感知机的方法进行了实验。左下表展示了训练文本的样式。右下表展示了多层感知机对文本按照关系进行分类的效果.
3.实验 3.3半监督方法 使用了清华大学自然语言处理实验室公开的中英双语关系抽取数据集来做远程监督的关系抽取实验,选取了地理学科领域中的49种关系进行实验,其中有1种特殊的关系NA表示实体之间没有任何关系.为中英文分别设置了训练集、验证集和测试集如表所示
3.实验 关系抽取方法使用的是基于多语言注意力机制的远程监督方法MNRE,评估方法采用的是held-out。实验结果的准确率/召回率如图所示:
4.总结 结论: 领域知识图谱应用很广,构建难度却很大,自动化的方法尚不成熟,人工方法效率低下。本文提出的准确高效构建领域知识图谱的方法——“四步法”,可以很好地平衡自动化方法和人工参与,在效率可以接受的情况下,实现很高的准确率。 本方法的适用领域是对知识覆盖率和召回率要求较高的领域。例如本文中的地理学科知识图谱,作为基础教育学科的知识图谱,保证知识点完全覆盖是必需的.如果对知识覆盖率和召回率要求不严格的领域,可以考虑将众包语义标注替换为信息抽取和人工审核结合的方法来得到核心标注数据,同时降低时间和人力成本。 用“四步法”构建出的地理学科知识图谱可以包含 67 万个实例,1421万条 RDF 三元组
THANKS!