Download presentation
Presentation is loading. Please wait.
1
Word-Entity Duet Representations for Document Ranking
刘铁岩 SIGIR 17’
2
Motivation Ad-hoc Retrieval query expanding similarity calculating
目前主流的Information Retrieval有adhoc和routing
3
Expand Text query : related entities + texts
Document : annotated eneities Ranking model : entities’ attributes
4
Model Query Words Query Entities Document Words Document Entities
组合成了四种匹配的方式,单词表示分标题和正文区域,实体表示需要标记surface-form和消歧 AttR-Duet : attention-based ranking model
5
Model 文本和文本的相似度计算有现成模型 文本和实体的相似度计算利用实体的注释,将实体转变成文本
Qw-De时,因为不是所有的文档实体都和查询相关,所以取每个文档实体的得分前k名作为参数标准 实体和实体匹配分为exact-match & soft-match,结合了ESR和TransE两个模型,根据得分分为了6个区间
6
Attention-based Ranking Model
Annotation Ambiguity the entropy of the surface entities popularity commenness score between entities Closeness Attention Feature distance between query entities and the query words 注释模糊性 需要密切注意的参数
7
Model 左侧是匹配,右侧是注意力模型
8
Model 文本和文本的相似度计算有现成模型 文本和实体的相似度计算利用实体的注释,将实体转变成文本
Qw-De时,因为不是所有的文档实体都和查询相关,所以取每个文档实体的得分前k名作为参数标准 实体和实体匹配分为exact-match & soft-match,结合了ESR和TransE两个模型,根据得分分为了6个区间
9
Experiment 数据集是TREC,介绍一下TREC
10
Experiment 总体实验,特别标记是超过baseline特别多的
11
Experiment 表格上半部分Qw-De,表格下半部分Qe-De Qw-De :
the query words are matched with the textual fields of document entities using retrieval models the top 5 scores together further improve the ranking accuracy Qe-De : extracted using the Explicit Semantic Ranking (ESR) method
12
Experiment 右侧,对于query实体,蓝色实体注意力得分>0.6,灰色实体注意力得分<0.4
左侧表格,Tagme为query annotation的精准度,attention gain为本文模型,加了注意力之后的提升 统计图:横轴是查询的实体数目,纵轴直方图表示查询的个数,折线表示注意力模型带来的增益 attention part motivation for using attention : handle the uncertainties in the query entities
13
Thanks
Similar presentations