Presentation is loading. Please wait.

Presentation is loading. Please wait.

基于列存储的RDF数据管理 朱敏 2012-10-15.

Similar presentations


Presentation on theme: "基于列存储的RDF数据管理 朱敏 2012-10-15."— Presentation transcript:

1 基于列存储的RDF数据管理 朱敏

2 Contents 数据模型 存储组织 系统实现 查询处理 总结

3 数据模型 遵循RDF三元组(S, P, O)的数据模型 遵循RDF Schema定义的词汇 增加了反向Property的定义: Property(S)=O -> ReverseProperty(O)=S 目的:提高(?S P O)和(?S ?P O)查询的速度

4 存储组织(1) 按类划分,按列存储 通过Resource的type属性对所有资源进行归类。
每一个CLASS对应一张存储表,表的列由那些声明了domain 为该类的Property组成。 每一个Property对应着一个列存储文件,以Subject为ROWKEY,以Object为VALUE。 如果该Property的range是一个CLASS,那么系统将同时建立另一个列存储文件,即反向Property对应的存储文件,以Object为ROWKEY,以Subject为VALUE。

5 存储组织(2) 四种集合类型(BAG,SEQ,ALT,LIST)采用相同的存储结构,通过不同的访问API来实现不同的访问方式。

6 系统实现 基于HBASE实现列存储 三张系统表

7 查询处理(1) 八种形式的Triple Pattern ( S P O ) ( S P ?O ) ( S ?P O )

8 查询处理(2) ( S P O )  ( S P ?O )

9 查询处理(3) ( S ?P O ) ( S ?P ?O )

10 查询处理(4) ( ?S P O ) ( ?S P ?O )

11 查询处理(5) ( ?S ?P O ) ( ?S ?P ?O ) 遍历所有类表 与集合类型的表

12 总结 对比关系型存储的优点: 可以改进的方面: 支持属性列的动态扩展 利用HBASE的Rowkey索引可以快速查询结果
可以通过RDFClass & RDFProperty表中的superClass, subClass, superProperty, subProperty属性进行一些简单的推理 可以改进的方面: 当Object为literal时,如果值很大并且重复较多时可以建立相应的hash索引。 推理方面的改进。

13 Thank You !


Download ppt "基于列存储的RDF数据管理 朱敏 2012-10-15."

Similar presentations


Ads by Google