DATASET 查询概念树 相关调研 2018/12/6 刘庆霞 Websoft Group @ NJU
树? 查询表示 自然语言 关键词 查询语言 SPARQL、SQL、…… 图 e.g. select person who is a scientist and works in an university located in his/her birthplace 关键词 e.g. scientist university locate birthplace 查询语言 SPARQL、SQL、…… e.g. select ?person where ? person rdf:type Scientist . ? person hasAffiliation ?university . ? person birthplace ?place . ?university rdf:type University . ?university location ?place . 图 树?
查询表示 用户的查询意图 ——查询图 构造查询的过程 ——逐步还原出脑海中查询图的过程 树 ——查询图的变量节点导出子图的生成树
查询的树状表示 查询概念树 每个连通图都有生成树 表示查询的主干部分 生成树以外的边隐藏于相关节点内 优点:易于实现、布局稳定 问题: 缺乏对查询的全局视图 不能表达property作为变量的pattern
相关调研 Morsey, Mohamed, et al. "DBpedia SPARQL benchmark–performance assessment with real queries on real data." The Semantic Web–ISWC 2011. Springer Berlin Heidelberg, 2011. 454-469. Bizer, Christian, and Andreas Schultz. "The berlin sparql benchmark." International Journal on Semantic Web and Information Systems (IJSWIS) 5.2 (2009): 1-24. Schmidt, Michael, et al. "SP^ 2Bench: a SPARQL performance benchmark." Data Engineering, 2009. ICDE'09. IEEE 25th International Conference on. IEEE, 2009. Guo, Yuanbo, Zhengxiang Pan, and Jeff Heflin. "LUBM: A benchmark for OWL knowledge base systems." Web Semantics: Science, Services and Agents on the World Wide Web 3.2 (2005): 158-182.
分析 SPARQL Query Templates DBPSB(2012) 20 个 BSBM(2009) 12个 SP2Bench(2009) 12个 LUBM(2005) 14个
分析 BGP主要结构 (不考虑Union、Optional、Filter)
分析 统计结果 特点: 有少数核心节点(度数较高的节点) 一般情况下(不带环)自身就是一棵树 带环情况也可以方便地用树表示
分析 两种特殊情况
节点(变量)命名原则 基于Class的方法(李祥乾) 以问号(”?”)为前缀 利用property 的 domain、range ?s prop o , domain(prop)=C1 => ?s命名为?C1 s prop ?o, range(prop)=C2 => ?o命名为?C2 若domain、range信息未知: 统计查询结果,利用大部分结果所属class的公共父类 e.g. City,PopulatedPlace∈subClassOf(Place) => ???命名为?Place
Thank You ~ Any suggestions?