2大挑战 长尾分布 物体类别是有语义关联的,这些连接会变得更加微妙 “person ride horse”和“person ride elephant”相似均属于人骑动物. “person carry bike”和“person ride bike”则虽有一样主宾但含义差别大 模型能够利用这种语义连接至关重要
重点突破 task:大规模关系检测 核心思想:让频率低的三元组能 “用到” 高频率三元组中学到知识 方法:develop a scalable approach that is semantically-guided and a loss that enables discriminative learning 把物体和关系编码进连续的空间 而不是 离散的标签 目的:使得知识能够从高频的类别迁移到低频的类别 为此提出了 triplet-softmax loss: 性质: 让知识能在连续空间中迁移 且 保留可判别的性质 multi-class logistic loss 前者不行 triplet loss 后者不行
Method 双路pipeline:分别把图像和标签映射到同一个空间 采用新的loss:在大规模词汇长场景下,此loss比softmax和triplet都 好
Mathod:Visual Module 谓词依赖于主宾,主宾独立于谓词
Mathod:Semantic Module
Mathod:Training Loss 传统triplet loss定义在两个模态的embeddings xl,yl期望: d(匹配的embeddings)<d(不匹配的embedding)-M 其中M是margin 作者希望把triplet loss变成softmax的形式 视觉-语义而元组<xl,yl>: where l ∈ {s, p, o}, and the two sets tri x , tri y correspond to triplets with negatives from the visual and semantic space, respectively.
Mathod:Training Loss Triplet loss: 评价:一旦差别大于m,则不训练, 因此最后得到的空间是不足够”可判别”
Mathod:Training Loss Triplet-Softmax loss:
Mathod:Training Loss Visual Consistency loss: 目的:为了进一步提高”可判别”性质 思想:同一个类别的视觉特征”拉”近, 不同类别的视觉特征”推”远 做法:以x_i为中心,C(i)是和x_i同一个类别的positive ROIs: 要求和x_i与其所有同类别的ROIS的最小的相似度,要比和所有其他不同类 别的ROIS的相似度都要大至少m.
Mathod:Training Loss
数据库介绍:VG80k 原始: 进行适当的清洗: 108, 077 images 21 relationships on average per image 103, 077 training images and 5, 000 testing images 进行适当的清洗: 99, 961 training images and 4, 871 testing images with 53, 304 object categories and 29, 086 relation categories training set into 97, 961 training and 2, 000 validation images