Presentation is loading. Please wait.

Presentation is loading. Please wait.

2大挑战 长尾分布 物体类别是有语义关联的,这些连接会变得更加微妙

Similar presentations


Presentation on theme: "2大挑战 长尾分布 物体类别是有语义关联的,这些连接会变得更加微妙"— Presentation transcript:

1

2 2大挑战 长尾分布 物体类别是有语义关联的,这些连接会变得更加微妙
“person ride horse”和“person ride elephant”相似均属于人骑动物. “person carry bike”和“person ride bike”则虽有一样主宾但含义差别大 模型能够利用这种语义连接至关重要

3 重点突破 task:大规模关系检测 核心思想:让频率低的三元组能 “用到” 高频率三元组中学到知识
方法:develop a scalable approach that is semantically-guided and a loss that enables discriminative learning 把物体和关系编码进连续的空间 而不是 离散的标签 目的:使得知识能够从高频的类别迁移到低频的类别 为此提出了 triplet-softmax loss: 性质: 让知识能在连续空间中迁移 且 保留可判别的性质 multi-class logistic loss 前者不行 triplet loss 后者不行

4 Method:framework-preview

5 Method 双路pipeline:分别把图像和标签映射到同一个空间
采用新的loss:在大规模词汇长场景下,此loss比softmax和triplet都 好

6 Mathod:Visual Module 谓词依赖于主宾,主宾独立于谓词

7 Mathod:Semantic Module

8 Mathod:Training Loss 传统triplet loss定义在两个模态的embeddings xl,yl期望:
d(匹配的embeddings)<d(不匹配的embedding)-M 其中M是margin 作者希望把triplet loss变成softmax的形式 视觉-语义而元组<xl,yl>: where l ∈ {s, p, o}, and the two sets tri x , tri y correspond to triplets with negatives from the visual and semantic space, respectively.

9 Mathod:Training Loss Triplet loss: 评价:一旦差别大于m,则不训练, 因此最后得到的空间是不足够”可判别”

10 Mathod:Training Loss Triplet-Softmax loss:

11 Mathod:Training Loss Visual Consistency loss: 目的:为了进一步提高”可判别”性质
思想:同一个类别的视觉特征”拉”近, 不同类别的视觉特征”推”远 做法:以x_i为中心,C(i)是和x_i同一个类别的positive ROIs: 要求和x_i与其所有同类别的ROIS的最小的相似度,要比和所有其他不同类 别的ROIS的相似度都要大至少m.

12 Mathod:Training Loss

13 数据库介绍:VG80k 原始: 进行适当的清洗: 108, 077 images
21 relationships on average per image 103, 077 training images and 5, 000 testing images 进行适当的清洗: 99, 961 training images and 4, 871 testing images with 53, 304 object categories and 29, 086 relation categories training set into 97, 961 training and 2, 000 validation images

14

15


Download ppt "2大挑战 长尾分布 物体类别是有语义关联的,这些连接会变得更加微妙"

Similar presentations


Ads by Google