基于知识库对自然语言中属性取值对的探索 潘笑吟
理想目标 从三元组 (s,p,o)中提取一系列带有“值”含义的literal,以及它们 对应的property,得到一个字典。更理想地,得到literal之间、 property之间相互关联的含义。 理解句子含义时,可通过查询字典,对理解提供帮助。 其中,数值、时间、人名、地名等已被大量研究,不在考虑范围。
模型和例子 有值含义的literal例如,o =true, white, female, { Love_the_Way_You_Lie, recent, true } {RapidRide_A_Line, titlecolor, white} {Ayman_Sikseck, gender, male}
可行方案 进行初步的筛选,去除部分明显不会需要的literal。 从两个维度考虑:property和object。 Property:主要根据property进行分析。 Label, name, description, location等相关的property对应的literal不会是需要 的value; 根据valuespace(p)集合的大小、multivspace(p)中每个literal出现的频率、 不同p之间valuespace相似度进行分析; Object: 列举所有不同的o,分析每个o出现的频率以及对应的prospace(o)集合; 根据wordnet识别出部分有意义的literal,更进一步地,分析literal之间的 相互关系。 具体细节之后介绍
初步筛选 从dbpedia数据库中选出o是literal的三元组(s,p,o),共99,198,608组。
Property 剩余三元组中,一共有27,443个不同的p。 满足 的p占约61%, 最大的五个p分别是:name, label, gender, givenName, surname. 显然,除了gender都应该被去除。 下面考虑valuespace(p): Range r |{p||valuespace(p)|\in r}| [1,10] 20658 [11,100] 4628 [101,1000] 1641 [1001,10000] 413 [10001,100000] 92 [100001,1000000] 11
Property 准备做的工作: 根据valuespace(p)进行抽样调查 考虑 ,出现频率num/Sp大于特定阈值的o.
Object 筛选出有12,369,482 个不同的literal(大小写敏感)。 其中,在wordnet中的名词、动词、形容词、副词共206,995个。 准备做的工作: 根据multipspace(o)进行分析; 根据wordnet得到literal之间的关联
Thank you Q&A