RDF数据集的结构化查询构建 刘庆霞
目录 研究背景 问题及意义 研究现状 研究目标
研究背景 RDF数据集 分散发布 内容丰富 结构复杂 RDF三元组 <subject,predicate,object> LOD 云 295个数据集 超过316亿个三元组 RDF三元组 <subject,predicate,object> <Eric Miller,livesIn, Dublin Ohio> (Resource Description Framework) 因而可以表达非常复杂的关联数据
研究背景 RDF 数据 软件工具 SPARQL查询 传统文本搜索 底层存储 用户 融合、存储、查询处理、…… 分析、建模、…… 导航、呈现 查询、搜索 SPARQL查询 复杂、不易掌握、 需要对词汇有大致了解 表达能力较强 传统文本搜索 简单、易用、成熟 表达能力弱 结构化查询构建工具
研究现状 交互方式 基于自然语言 基于可视化工具 基于浏览路径 借助语法解析工具将自然语言与三元组模式进行对应 NLP-Reduce, QACID, Ginseng, Querix 基于可视化工具 用形状、颜色等可视化方式替代严格的文本语法,提供适当的引 导和限制操作以进行辅助 visKWQL, Explorator, NITELIGH, OntoVQL 基于浏览路径 构造查询的过程隐藏到用户的浏览行为中,用户在进行数据浏览 的过程中可逐步构建结构化查询 GRQL, VisiNav
研究现状 构建机理 基于本体+自然语言处理 基于查询语言映射+本体浏览 基于抽象摘要 利用本体知识生成查询模板,引导用户完成查询的构建过程 QUICK, IQP 基于查询语言映射+本体浏览 将特定操作对应到结构化查询语言的特定算子 NITELIGH, OntoVQL 基于抽象摘要 从数据提取抽象摘要,让用户在对数据集抽象层浏览的过程中逐 步构建查询 [JWS2014] QUICK: QUICK internally works on pre-defined domain specific ontologies. IQP: 问答的方式逐步确定所对应的查询模板 NITELIGH:面向SPARQL做的图形化查询编辑器,自带本体浏览功能来辅助用户构建查询; OntoVQL:the user must load some OWL ontology. GRQL:将浏览路径解释为结构化查询
不同数据集对相同实体所描述的方面不同 对类似信息的描述方式也不同
研究目标 以从RDF数据本身提取抽象摘要的方式辅助用户构建 结构化查询 难点 RDF数据集抽象摘要的提取 适当的交互方式 数据集所包含的话题(topics) 话题之间的关联关系 不同抽象层次 适当的交互方式 Topic:property的集合,可以用概念来进行标记
谢谢!