博士资格考核述职报告大家好，以下是我的述职报告。各位老师、同学，大家好，我今天要报告的内容是“面向RDF数据集的浏览与查询生成技术”.

Slides:

Advertisements

Similar presentations

3 的倍数的特征的倍数有 : 。 5 的倍数有 : 。既是 2 的倍数又是 5 的倍数有 : 。 12 ， 18 ， 20 ， 48 ， 60 ， 72 ，， 25 ， 60 ，

Advertisements

THE TYPES OF THE READING COMPREHENSION IN HSET 中考英语阅读理解题型

第四次大作业登陆学校图书馆网站的电子数据库

程序的形式验证 - 简介中国科学院软件研究所张文辉 1.

QQ群：三人行（语义有你） SPARQL 陈涛 2016/4/1.

Wentao Ding Linfeng Shi Jiajie Yu

面向对象建模技术软件工程系林琳.

关于“理解名词短语”的重新思考丁文韬.

SOA – Experiment 3: Web Services Composition Challenge

DATASET 查询概念树相关调研 2018/12/6 刘庆霞 Websoft NJU.

元素替换法 ——行列式按行(列)展开（推论）

Wentao Ding Linfeng Shi Jiajie Yu

SPARQL若干问题的解释刘颖颖

知识检索与推理在求解选择型问题中的应用学生：丁文韬指导教师：瞿裕忠.

以ISI平台为例，为您演示一下如何在Endnote文献中查看该文献的References

Online job scheduling in Distributed Machine Learning Clusters

What have we learned?.

基于语义网的军事问答系统的设计与实现报告人：汤顺雷指导老师：程龚.

数据挖掘工具性能比较.

整合思维导图的初中英语教学设计主讲人：卢璐.

用event class 从input的root文件中，由DmpDataBuffer::ReadObject读取数据的问题

WSDM见闻程龚.

使用矩阵表示最小生成树算法.

宁波市高校慕课联盟课程与进行交互 Linux 系统管理.

宁波市高校慕课联盟课程与进行交互 Linux 系统管理.

数据摘要现状调研报告上下文摘要初步思考徐丹云.

程序设计工具实习 Software Program Tool

SOA – Experiment 2: Query Classification Web Service

一个RDF数据自然语言生成器的设计与实现

第4章非线性规划 4.5 约束最优化方法 2019/4/6 山东大学软件学院.

Answering aggregation question over knowledge base

解决变化问题的自底向上流程建模方法严志民徐玮.

Experiment 2: 讲评数据库系统概论实验课二.

EBNF与操作语义请用扩展的 BNF 描述 javascript语言里语句的结构；并用操作语义的方法描述对应的语义规则

3.8.1 代数法计算终点误差终点误差公式和终点误差图及其应用 3.8 酸碱滴定的终点误差

论文答辩PPT模板答辩学生：橘子皮指导老师：PPT工作室.

2019/4/16 关注NE官方微信，获取更多服务.

VisComposer 2019/4/17.

WPT MRC. WPT MRC 由题目引出的几个问题 1.做MRC-WPT的多了，与其他文章的区别是什么？ 2.Charging Control的手段是什么？ 3.Power Reigon是什么东西？

商业分析平台-语义元数据用友集团技术中心边传猛 2013年 11月 06日.

VB与Access数据库的连接.

Cassandra应用及高性能客户端董亚军来自Newegg-NESC.

计算机网络与网页制作 Chapter 07：Dreamweaver CS5入门

项目二：HTML语言基础.

实体描述呈现方法的研究实验评估 2019/5/1.

Web安全基础教程

成绩是怎么算出来的？ 16级第一学期半期考试成绩班级姓名语文数学英语政治历史地理物理化学生物总分 1 张三1 115

定理21.9(可满足性定理)设A是P(Y)的协调子集，则存在P(Y)的解释域U和项解释，使得赋值函数v(A){1}。

基于知识库对自然语言中属性取值对的探索潘笑吟.

数据集的抽取式摘要程龚, 徐丹云.

双语例句搜索句库+巨酷 Web: Beijing 2008.

树和图 tree and graph 蔡亚星.

多层循环 Private Sub Command1_Click() Dim i As Integer, j As Integer

第七、八次实验要求.

海报题目简介: 介绍此项仿真工作的目标和需要解决的问题。可以添加合适的图片。

基于最大margin的决策树归纳李宁.

第15讲特征值与特征向量的性质主要内容：特征值与特征向量的性质.

GIS基本功能数据存储与管理数据采集数据处理与编辑空间查询空间查询 GIS能做什么？与分析叠加分析缓冲区分析网络分析

Turtle规范报告

基于列存储的RDF数据管理朱敏

Chinese Virtual Observatory

Adj + Noun映射到知识库中的classes

第四章 UNIX文件系统.

第十七讲密码执行(1).

最小生成树最优二叉树.

§2 自由代数定义19.7:设X是集合，G是一个T-代数，为X到G的函数,若对每个T-代数A和X到A的函数，都存在唯一的G到A的同态映射,使得=，则称G(更严格的说是(G,))是生成集X上的自由T-代数。X中的元素称为生成元。 A变， 变 变， 也变对给定的 和A，是唯一的.

海报题目简介: 介绍此项仿真工作的目标和需要解决的问题。可以添加合适的图片。

Presentation transcript:

博士资格考核述职报告大家好，以下是我的述职报告。各位老师、同学，大家好，我今天要报告的内容是“面向RDF数据集的浏览与查询生成技术”.

简述课程情况已有成果 On Coherent Indented Tree Visualization of RDF Graphs. accepted by APWeb 2015 (CCF-C), first author. Generating Characteristic Summaries of Entity Descriptions. submitted to TKDE (CCF-A), major revision, first student author. NaviTree: a Query Construction Tool for SPARQL Endpoint (online system). 其他两次担任助教：数据库概论 (博一上）、离散数学（博一下）首先，简要介绍下基本情况：三门博士课程均已修完，成绩良好；三项已有成果：第一个工作已被C类会议APWeb录用；//一个是关于将RDF图可视化为缩进树的一致性问题的研究，已被C类会议APWeb录用；另一个是与老师合作的期刊，投了A类期刊TKDE；//另一个是关于生成实体描述的特征性摘要，投了A类期刊TKDE,正在等待第二轮评审结果；第三个是一个用于对SPARQL Endpoint构建查询的在线系统；这些都会在后面详细介绍；另外，两学期助教任务均已完成。关于将RDF图可视化为缩进树的一致性问题的研究；The 17th Asia-Pacific Web Conference 第17届亚太网络会议，已录用；特征性实体摘要的生成；IEEE Transactions on Knowledge and Data Engineering IEEE知识和数据工程学报，正等待第二轮评审结果； SPARQL Endpoint查询构建系统；

研究工作-目录 RDF数据的呈现技术面向RDF数据浏览的查询构建技术问答系统中基于RDF数据的问句理解技术 RDF图的根树表示实体摘要 NaviTree在线系统问答系统中基于RDF数据的问句理解技术未来工作接下来，我将从三个方面对我的研究工作进行介绍，它们都与RDF数据处理紧密相关。首先是关于RDF数据呈现技术的两个工作。 //其中，前两项提供的技术积累，将在后续工作中起到支持作用；

RDF图的根树表示背景结构转化问题一些应用场景需要将图转化为树同一图可转化为不同形式的根树图到根树的最优结构转化问题边的一一映射，点的可重复呈现传统方法：基于BFS、DFS的简单方法我们的方法：用确定性算法求解优化问题优化目标：一致性 James_Cameron Stanley_Kubrick Steven_Spielberg influenced Gale_Anne_Hurd spouse producer made Titanic_(1997_film) director “English” language Aliens_(film) Michael_Bay 第一个工作关于RDF图的根树表示： RDF数据模型本质上是一种点和边均带标签的有向图；一些应用场景需要将图以树的形式表示,例如本工作中，图的缩进树呈现，这一应用场景；而同一图的转化结果可能不同。传统的呈现方式简单基于BFS或DFS进行转换；而我们认为边的方向在呈现中是有重要意义的，边的反向呈现将影响用户的阅读体验。因此，我们提出了“一致性”的概念，要求在转化结果中反向边数尽可能少。

例子 James_Cameron Stanley_Kubrick Steven_Spielberg is influenced of influenced Gale_Anne_Hurd spouse director Titanic_(1997_film) made “English” language Aliens_(film) Michael_Bay producer COH James_Cameron Stanley_Kubrick Steven_Spielberg influenced Gale_Anne_Hurd spouse producer made Titanic_(1997_film) director “English” language Aliens_(film) Michael_Bay Edmonds’ algorithm James_Cameron Stanley_Kubrick Steven_Spielberg Gale_Anne_Hurd Titanic_(1997_film) “English” Aliens_(film) Michael_Bay 1 cost graph 例如对图中这个RDF图进行转化，可以得到这样两个不同的树，上面的是用我们的方法得到的，虚线边表示反向边，显然我们的方法得到的反向边数更少。我们的方法主要基于Edmonds’s算法，得到代价图的最小生成树，再根据它得到最终结果，该树的边权就等于最终树状表示中反向边数。理论证明，给定条件下，我们的方法得到的树的反向边数是最少的，也就是具有最优的一致性。 James_Cameron Stanley_Kubrick Steven_Spielberg is influenced of Aliens_(film) is spouse of is producer of Titanic_(1997_film) is director of made “English” language influenced Michael_Bay Gale_Anne_Hurd BFS

RDF图的根树表示结论 COH方法得到的树状表达的一致性最高树状表达的一致性对用户体验有正面影响实验也表明，我们的方法总能得到一致性最高的树状表达；并且用户实验也说明一致性更高的树表示，得到的用户体验更好； tripleNum: 2k<90ms;4k<295ms; 1w<1.5s

实体摘要组合优化问题对比方法给定长度约束下的最具特征性的摘要描述集的特征性：被观察到的可能性尽可能小建模：0-1背包问题扩展条件最大化自信息（self-Information）建模：0-1背包问题扩展条件高实用性（INFO+Utility）低冗余（INFO+Redundancy）逻辑冗余文本冗余对比方法 NAIVE：集合覆盖 RELIN [ISWC’11]：基于描述内容之间的关联性和信息量 DIVERSUM [JIIS’13] ：基于属性的多样性关于RDF数据呈现的另一个工作是实体摘要。一个实体通常由一系列“属性-值”对（三元组）所描述，这些“属性-值”对数量可能很多，但在浏览、搜索应用中，需要在给定的篇幅下提供部分数据，帮助用户了解所呈现的实体，这就需要生成摘要。除了要满足长度约束，生成的摘要要有尽可能高的区分度，我们通过最大化（所包含“属性-值”对的）自信息来体现这一要求。这样，各条“属性-值”对是否被选入摘要的问题，可以建模为0-1背包问题。另外我们还考虑了摘要的实用性（也就是可读性），和低冗余上的要求，逐步进行改进。实验表明，相比于几个经典方法，我们得到摘要最接近于标准答案，并且当所有条件同时考虑时，效果最好。 self-information: si(f)=log_2(eNum/totalENum),即logp,其中p为该feature出现在一个实体描述中的概率；实用性=可读性； INFO-U(famility weighted); INFO-R(多背包）：不允许存在冗余的描述被同时选中。集合覆盖：选取cost最小的，不包含于任一其他实体描述中的，描述子集；每个feature对应的不含该feature的实体构成一个集合，对于多个feature，用这些集合来覆盖，除了当前实体外的所有实体构成的集合（NP-hard）。求解方法：贪心，每次选取（单位cost下，加入后能够过滤掉的实体个数）最多的feature； //一个摘要越能够将当前实体与其他所有实体区分开来，我们就认为它特征性越强，所以优化的目标就是选择，指定长度限制下，被观察到的可能性最小的描述集合。这也等价于对各条描述自信息之和的最大化。 //这样就将实体摘要问题建模为0-1背包问题进行求解。 //另外我们还考虑了摘要的实用性（也就是可读性），和低冗余上的要求，对算法进行了改进。 //最终在与其他几个经典算法的比较中，可以得出，我们的方法选出的摘要最接近于人工构建的标准答案，并且当所有条件同时考虑时，效果最好。 G. Cheng, T. Tran, and Y. Qu, ”RELIN: Relatedness and Informativeness-based Centrality for Entity Summarization,” Proc. 10th Int’l Semantic Web Conf. (ISWC ’11), pp. 114-129, Oct. 2011, doi:10.1007/978-3-642-25073-6 8. M. Sydow, M. Pikuła, and R. Schenkel, ”The Notion of Diversity in Graphical Entity Summarisation on Semantic Knowledge Graphs,” J. Intelligent Information Systems, preprint, Mar. 2013, doi:10.1007/s10844-013-0239-6.

面向RDF数据浏览的查询构建技术 NaviTree系统有指导的SPARQL endpoint图形化查询构建系统查询图、结果图均以树型呈现结果集可扩展，并可向已有查询添加约束第三个工作，研究在RDF数据浏览的场景下，如何辅助用户构建SPARQL查询。为此，我们实现了一个原型系统。逐步提供当前可用的候选模式，帮助用户扩展性地构造SPARQL查询。其中，查询和结果均采用缩进树的形式表示，帮助用户了解查询的结构；另外，在结果的呈现中，用户可以进行扩展性浏览，并用扩展出的模式来更新原有查询。 //这一技术主要面临两个问题： //一是用户可能对结构化查询的使用并不熟练； //二是用户很可能对数据的模式完全不了解，从而无法适当表达自己的查询需求；

问答系统中基于RDF数据的问句理解技术问句理解语义解析实体链接（Entity Linking）：确定文本短语到实体的映射关系（实体消岐）语义解析（Semantic Parsing）：查询意图的理解（谓词消岐）语义解析背景基于bag of words的理解方式不足以反映复杂的查询需求核心任务：将自然语言转化为逻辑形式（logical form）使查询需求可支持自动推理or可执行传统做法基于特定Semantic Grammar以及标注语料主要困难依赖于已标记的逻辑形式语料（用于监督学习）[EMNLP’13] 根据句子本身提供的信息 How many Golden Globe awards did the husband of Katie Holmes win? (QALD-4.track3.training4) λ-calculus: count(λx. [x=GoldenGlobeAward]∧∃y.win(y,x)∧husband(KatieHolmes, y)) 在浏览的场景中，用户一般没有太明确的查询需求，而如果用户需要迅速表达明确的查询需求（并得到结果），NL是最为直接的表达方式。这就来到了问答系统的场景。它的任务之一是对问句的理解。这种理解包括两个方面：实体链接，和语义解析；这里，我们主要介绍语义解析。语义解析的核心任务，是将NL转化为逻辑形式，从而能够支持推理甚至可以直接执行；传统的做法主要利用特定文法和标注语料，只根据句子本身的文本和逻辑形式的对应来进行解释；凯蒂·赫尔姆斯（美国著名电影演员）中文：相比于英文，【zoulei 2014】 ①承担语法功能的一些结构与其词性之间没有直接关系，导致处理英文的启发式方法无法在中文中直接使用，例如，英语中谓词一般都由动词构成，而汉语里，作为谓词的可以是形容词、动词、名词。 ②中文类似WordNet的资源较少，且覆盖面小； FREE917 requires logical forms; WebQuestions: question-answer pairs， from non-experts; 传统逻辑形式基于谓词逻辑：一阶、高阶[AFIPS’71] 基于模糊逻辑：PRUF[JMMS’78] 基于组合语义：CCG[CLJ’00, EMNLP’10’11], DCS[ACL’11, CLJ’13] 基于λ演算：λ-DCS[arXiv’13] 标注语料：如某个logical form与某些短语相对应的映射表；

问答系统中基于RDF数据的问句理解技术基于RDF数据的语义解析构造查询图提供模式层（schema）数据提供事实（fact）数据提供类型信息：可用于实体类型的识别提供属性的domain、range信息：可用于动词的选择倾向判断，谓词消岐提供事实（fact）数据扩展性理解：利用核心实体在事实数据中的相关信息，对查询逐步扩展同义替换：替换具有相同or相似含义的模式以图模型表示数据用于构造查询图构造查询图查询图可作为对问句理解的图状表示：描述查询中的实体关系易于得到可执行的SPARQL查询语句构造方法线性结构（自然语言）到图结构（查询图）的转化借助句法分析（短语结构树、依存关系图） ?x Katie Holmes husbandOf win Golden Globe awards Tom Cruise 当考虑RDF数据的参与时，我们希望能够提升语义解析的效果。首先，RDF知识库能够提供模式层数据，可以辅助对类型、和谓词的识别。其次，RDF数据能提供大量事实数据，使得问句的理解不再局限于问句提供的文本本身，还可以借助知识库中实体的相关信息，进行扩展性理解，或者对查询进行替换性优化，（使得查询与知识库的耦合更为紧密）；另外，RDF的图状特性，使得问句理解可看做是生成对应图模式的过程，我们之为查询图。（用于查询RDF数据的）SPARQL查询语言也是基于图模式，因此通过构造查询图，我们可以很方便地得到可执行的SPARQL查询，（进而得到查询结果）；查询图的构造过程，可以理解为将知识表示，从自然语言的线性结构，转化为RDF的图结构，这样一个结构转化过程，//该过程中可以借助已有的句法分析工具。选择倾向(可用于句子结构消岐、词义推断）:例如eat的宾语倾向于食物类（有点像property的domain、range）《统》P179; 同义替换：处理句子中模式与KB中模式不同的情况；可通过图匹配算法直接获得问题的答案

问答系统中基于RDF数据的问句理解技术相关工作机遇与挑战 Natural Language Question Answering over RDF—A Graph Data Driven Approach, SIGMOD 2014. 将问句理解延迟到结合KB的问题求解过程中进行 Semantic Parsing via Staged Query Graph Generation- Question Answering with Knowledge Base, ACL 2015. 将查询图分解为核心路径+约束条件两部分仅考虑单核心路径的树型查询机遇与挑战数据不完整性、异构性传统基于文本的NLP技术局限性多元关系的合理表达近年的一些工作开始体现类似的思路，其中SIGMOD 2014年的这篇文章（邹磊，北大）将通常分为“问句理解+求解”的两步工作，借助知识库，结合为一步进行； ACL 2015年的这篇，同样将问句理解为查询图，并且将查询图分解为由“核心路径+约束条件”这两部分构成。但是其查询的复杂度有限，（只考虑了只含一条核心路径的树型查询，（对于复杂带圈的查询则尚未考虑））；基于RDF数据的问句理解将是我未来研究的重心，相关工作中常见的问题主要来自三个方面：一是由数据的不完整性、异构性导致的错误，对于异构性，我们可以考虑借助本体匹配来解决；其次是由浅层NL处理带来的错误，可以考虑结合RDF数据进行改进；另外是对于多元关系（、自然语言中介词短语）的解释，需要结合RDF数据模型，考虑更为合理的表示方式； EMNLP 2013_Semantic Parsing on Freebase from Qestion-Answer Pairs_QA_freebase_stanford_berant SIGMOD 2014_Natural Language Question Answering over RDF—A Graph Data Driven Approach_p313-zouLei.pdf (和RDF graph类似） ACL 2015_Semantic Parsing via Staged Query Graph Generation- Question Answering with Knowledge Base_microsoft_Yih Semantic Parsing on Freebase from Qestion-Answer Pairs, EMNLP 2013. 借助知识库，通过对question-answer pairs的学习 QALD

参考文献 Gong Cheng, Thanh Tran, Yuzhong Qu: RELIN: Relatedness and Informativeness-Based Centrality for Entity Summarization. International Semantic Web Conference 2011:114-129 Marcin Sydow, Mariusz Pikula, Ralf Schenkel: The notion of diversity in graphical entity summarisation on semantic knowledge graphs. J. Intell. Inf. Syst. (JIIS) 41(2):109-149 (2013) Jonathan Berant, Andrew Chou, Roy Frostig, Percy Liang: Semantic Parsing on Freebase from Question-Answer Pairs. EMNLP 2013:1533-1544 Lei Zou, Ruizhe Huang, Haixun Wang, Jeffrey Xu Yu, Wenqiang He, Dongyan Zhao: Natural language question answering over RDF: a graph data driven approach. SIGMOD 2014:313-324 Jonathan Berant, Percy Liang: Semantic Parsing via Paraphrasing. ACL 2014. Wen-tau Yih, Ming-Wei, Xiaodong He, Jianfeng Gao:Semantic Parsing via Staged Query Graph Generation- Question Answering with Knowledge Base. ACL 2015. 以上就是我的报告，这里列出了部分参考文献 EMNLP’13: microsoft; SIGMOD’14: data driven; ACL’15: core inferential chain; ACL’14: 生成logical form（λ-DCS）的权威NL；

谢谢！