Sparql Query Log 分析初步 Jiwei Ding 2019.4.20 - present.

Slides:



Advertisements
Similar presentations
Data type P64 ‘’ 转义字符 P67 P68 EXE,选出某个教师的学生中最新的一 个,要姓名, ID (,LIMIT ) EXISTS,NOT EXISTS P409 Q,EXISTS 和 in 的区别( 1000 ,查询结果)
Advertisements

Java 技术与应用 数据库应用 ( 第 14 章 ) 西安交大 卫颜俊 2008 年 12 月 电子信箱: QQ: 网站 : /java.
三生,健康生活力. 健康 Healthy 三生,健康生活力 我们一起来看一段视频 三生,健康生活力 那我们今天还能吃什么.
一、老师申请题目,以下指导老 师操作。 1. 登录教务系统 web 端. 2. 点击 “ 毕业设计 ” 工具栏下拉菜单中的 “ 论文 _ 教师申请题目 ”
旅 糾 紛 遊 與緊急事件處理 11 Chapter 旅遊費用.
漫畫風雲.
面向知识图谱的搜索技术 张坤 搜狗搜索.
第6章 数据库管理软件Access 年秋.
考点作文十大夺魁技法 第28课时 写作(二) 考点作文十大夺魁技法 6-10 ·新课标.
顧客交易紀錄分析實務 概述 26.2 資料分析的過程 26.3 顧客交易紀錄分析說明 26.4 實作一、顧客活動剖析實務演練
目 录 第 1 章 数据库技术基础 第 2 章 SQL Server基础 第 3 章 数据库管理 第 4 章 查询和视图
我征服了黃山 林達的黃山之旅 2006春.
34 府学胡同的文天祥祠,相传是南宋民族英雄文天祥当年遭囚禁和就义的地方,1376年明洪武九年建祠 。
SQL的简单查询.
第5章 关系数据库标准语言SQL 主讲:张丽芳.
十一 ASP对数据库的访问.
政府採購法規概要 報告人:杜國正 行政院公共工程委員會企劃處.
成功的招聘 一、明确用人需求 二、做好面试前的准备 三、行为事例STAR法 四、在面试中恰当的提问 五、做出正确的选聘决定.
第2讲 Transact-SQL语言.
旅 糾 紛 遊 與緊急事件處理 16 Chapter 飯店問題.
之 魔 析 妖 鬼 解 怪 大 沈家仪小组出品.
数据库技术 实践.
高等院校计算机教材系列 数据库原理与应用(第2版) 任课教师:刘雅莉
健康 Healthy. 健康 Healthy 我们一起来看一段视频 那我们今天还能吃什么.
Chap 11 SQL基本查詢指令.
高考文言文的整体阅读.
第8章 SELECT敘述的基本查詢 8-1 SELECT查詢指令 8-2 SELECT子句 8-3 FROM子句 8-4 WHERE子句
第4章 关系数据库标准语言SQL 4.1 SQL语言概述 4.2 SQL数据查询功能 4.3 SQL数据操作功能 4.4 SQL数据定义功能.
第八章 网络课程的设计与开发.
第一章信託法 第一節 信託契約 第二節 信託財產 第三節 受益人 第四節 受託人 第五節 信託關係之消滅.
文科计算机小公共课规划教材 Access 程序设计.
第九章 长期资产及摊销 2017/3/21.
第3章 数据查询与SQL命令.
互联网时代班主任的挑战 万玮 2014年9月20日.
嬰幼兒教保實習 參觀報告-童話森林故事屋 班級:幼保三B 組別:第四組 組員: 林婉婷 林詩怡
普通高等教育“十一五”国家级规划教材 信息系统分析与设计 刘腾红 孙细明 主编 科 学 出 版 社.
QQ群:三人行(语义有你) SPARQL 陈 涛 2016/4/1.
關聯式資料庫.
第六章 學習SQL語言.
9 SELECT敘述的進階查詢 9-1 SQL的多資料表查詢 9-2 合併查詢 9-3 集合運算查詢 9-4 子查詢
線上分析處理、 資料採礦與 Analysis Services
鄉村尋根-農具篇.
实验 2:MS Access QBE Query使用
第九章 進階的查詢技巧.
DATASET 查询概念树 相关调研 2018/12/6 刘庆霞 Websoft NJU.
国家“十一五”规划教材 数据库原理与应用教程(第3版).
第十七章 資料庫SQL 17-1 SELECT 17-2 INSERT 17-3 UPDATE 17-4 DELETE.
CascaDB/TokuDB性能与适用场景分享
SQL Injection (資料隱碼) 學生:a 吳倩瑜 指導教授:梁明章.
Questions with Superlative Adjectives in QALD 1-8
数据摘要现状调研报告 上下文摘要初步思考 徐丹云.
找人随时随地 完善的控制权限 通讯录信息字段自定义 支持各种组织架构 支持既有人事系统.
第18章 SQL結構化查詢語言 18-1 SQL語言的基礎 18-2 SQL的查詢指令 18-3 SQL子查詢與合併查詢.
資料庫系統 李翊豪 2017/12/21 Reference
3. SQL语言的应用 3.1 SQL历史和优点 3.2 数据查询 3.3 数据操纵.
数据透视表与SQL典型应用 ——数据分析人士必杀技
查询与视图 蔡海洋.
SQL查询语句 蔡海洋.
Disjoint Sets Michael Tsai 2013/05/14.
8 SELECT敘述的基本查詢 8-1 SELECT查詢指令 8-2 SELECT子句 8-3 FROM子句 8-4 WHERE子句
Efficient Query Relaxation for Complex Relationship Search on Graph Data 李舒馨
中国农业科学院博士后学术论坛 博士后基金申请的经验及体会 中国农业科学院生物技术研究所 秦 华 博士
資料庫系統  Database System 施莉萍 2017/12/28.
“修身成材” 班级干部培训班 黑龙江大学党委学工部.
11 檢視表的建立 11-1 檢視表的基礎 11-2 建立檢視表 11-3 修改與刪除檢視表 11-4 編輯檢視表的內容.
数据分析工具 第10节.
有理数的乘方(二).
DATASET 0.2 设计方案 (第一阶段) 2019/7/20 刘庆霞 Websoft NJU.
第4章 数据查询.
第 9 章 查詢資料- 善用 SELECT 敘述.
Presentation transcript:

Sparql Query Log 分析初步 Jiwei Ding 2019.4.20 - present

研究背景 我们希望从大规模的Sparql查询日志中,分析出常用的原子查 询模式; 常见的原子查询模式有哪些;(哪些查询是可分割的?) Filter 内常用的条件有哪些;(=, !=, <, >, Not Exist, …) 其他关键词使用情况;(Values, Bind, Union, SubQuery, …) 以及这些原子查询模式的组合方式; 例如 {<?x r1 e1>, <?x a c1>} 是一种常见的组合形式; 而 {<?x Max ?.0>, <?.0 Count ?.1>} 是几乎不会出现的组合; 整个Sparql查询图的形状;(链/树状、半径、围长、周长…) 以便于后续挖掘Sparql中的每个部件和自然语言表述的对应

参考文献 [1] (Wikidata query log 官方推荐文章) Adrian Bielefeldt, Julius Gonsior, Markus Krötzsch: Practical Linked Data Access via SPARQL: The Case of Wikidata. LDOW@WWW 2018 [2] (一个Sparql查询的图形化分析工具) Angela Bonifati, Wim Martens, Thomas Timm: DARQL: Deep Analysis of SPARQL Queries. WWW (Companion Volume) 2018: 187-190 [3] (面向DBpedia等多个知识库的query log) Angela Bonifati, Wim Martens, Thomas Timm: An Analytical Study of Large SPARQL Query Logs. PVLDB 11(2): 149-161 (2017)

数据源(Sparql query log) USEWOD - Usage Analysis and the Web of Data (Dbpedia、 Wikidata等) http://usewod.org/data-sets.html (16年版43G) LSQ - The Linked SPARQL Queries Dataset (Dbpedia、Linked Geo Data、Semantic Web Dog Food等) http://aksw.github.io/LSQ/ (DBpedia部分压缩后106M) Wikidata:SPARQL query service/queries/examples https://www.wikidata.org/wiki/Wikidata:SPARQL_query_servic e/queries/examples (几百条,有对应描述,非常难!) Wikidata SPARQL Logs (https://iccl.inf.tu-dresden.de/web/ Wikidata_SPARQL_Logs/en) (10G+,几十万个organic query) DBPedia query logs for 2013, 2014, 2015 and 2016 directly from Openlink (未公开)

Robotic / Organic query [3]

Robotic / Organic query,and query pattern [3]

Most frequent Wikidata properties [3]

各关键词的使用情况 [1] 各个数据集上关键词的分布差异极大,例如:Wikidata17数据集30%有Group by,42%有Order by;DBpedia12到16,分别有18%, 8%, 11%, 38%, 8%的问句有Distinct。

各关键词的使用情况 [3] 机器查询有更多的Offset,Values; 人的查询有更多Filter,聚合

查询中Triple的数量 [1] 统计Triple数量时仅考虑Select / Ask型问句,对于Union、Minus、Filter、Optional限定的triple只统计数量,不考虑上层关系。

关键词之间共现的频次 [1, 3] Filter (F), And (A), Opt (O), Graph (G), Union (U), conjunctive pattern with filters (CPF) Join (J), Filter (F), Optional (O), Union (U), Path (P), Values (V), Subquery (S)

常见的查询形状(无向) [1] CQ: conjunctive query;F: filter(?x=?y);O: Optional Tree: 任意两个顶点间只有一条边;Star: 是树,且只有一个顶 点有多于两个邻居;Forest: Tree的集合;Petal(花瓣): s 到 t 的 路径的集合,任意两条路径至少有一个不同的点;Flower: 一 个中心点x,以及一些附加的部分:从x出发的链、树、花瓣。

属性链的形态 [1] 文章在整个corpus中只找到了247,404个属性链; 在分析时,(!a)和(^a)均表示为a;

一个Sparql展示/日志分析工具 [2] https://github.com/PoDMR/darql 据说可以重现[1]中各数据集上的结果,或用于单个Sparql query的展示。

未来工作 Sparql查询日志的质量相对较差,需要筛选出有意义的部分。 从图的角度进行Sparql分析的工作相对欠缺,对各Graph pattern之间的关系(Minus, Union, Subquery等)没有探讨。 对于Filter内使用的常见公式没有讨论。 [1]提及用户存在不断尝试写Sparql, 不断精化最终得到想要的 查询的过程,能否过滤出相关数据? 如何将QueryLog中挖掘出的结构和自然语言对应仍有待思考。