Word-Entity Duet Representations for Document Ranking 刘铁岩 SIGIR 17’
Motivation Ad-hoc Retrieval query expanding similarity calculating 目前主流的Information Retrieval有adhoc和routing
Expand Text query : related entities + texts Document : annotated eneities Ranking model : entities’ attributes
Model Query Words Query Entities Document Words Document Entities 组合成了四种匹配的方式,单词表示分标题和正文区域,实体表示需要标记surface-form和消歧 AttR-Duet : attention-based ranking model
Model 文本和文本的相似度计算有现成模型 文本和实体的相似度计算利用实体的注释,将实体转变成文本 Qw-De时,因为不是所有的文档实体都和查询相关,所以取每个文档实体的得分前k名作为参数标准 实体和实体匹配分为exact-match & soft-match,结合了ESR和TransE两个模型,根据得分分为了6个区间
Attention-based Ranking Model Annotation Ambiguity the entropy of the surface entities popularity commenness score between entities Closeness Attention Feature distance between query entities and the query words 注释模糊性 需要密切注意的参数
Model 左侧是匹配,右侧是注意力模型
Model 文本和文本的相似度计算有现成模型 文本和实体的相似度计算利用实体的注释,将实体转变成文本 Qw-De时,因为不是所有的文档实体都和查询相关,所以取每个文档实体的得分前k名作为参数标准 实体和实体匹配分为exact-match & soft-match,结合了ESR和TransE两个模型,根据得分分为了6个区间
Experiment 数据集是TREC,介绍一下TREC
Experiment 总体实验,特别标记是超过baseline特别多的
Experiment 表格上半部分Qw-De,表格下半部分Qe-De Qw-De : the query words are matched with the textual fields of document entities using retrieval models the top 5 scores together further improve the ranking accuracy Qe-De : extracted using the Explicit Semantic Ranking (ESR) method
Experiment 右侧,对于query实体,蓝色实体注意力得分>0.6,灰色实体注意力得分<0.4 左侧表格,Tagme为query annotation的精准度,attention gain为本文模型,加了注意力之后的提升 统计图:横轴是查询的实体数目,纵轴直方图表示查询的个数,折线表示注意力模型带来的增益 attention part motivation for using attention : handle the uncertainties in the query entities
Thanks