Presentation is loading. Please wait.

Presentation is loading. Please wait.

拿来主义 NLP+Knowledge zdf.

Similar presentations


Presentation on theme: "拿来主义 NLP+Knowledge zdf."— Presentation transcript:

1 拿来主义 NLP+Knowledge zdf

2 NLP

3 Attention is all you need
K, V

4 Model Architecture Encoder and Decoder Stacks Attention:
其中d_k是特征长度,假设q,k为Q,K某行,每个位置为独立的随机数, 均值=0,方差=1,那么q*k的均值=0,方差为d_k Multi-Head Attention:

5 Model Architecture Positional Encoding:self-attention与位置无关,引入位置编码
其中,i对应特征的维数,pos对应第几个词。波长从2pi到10000 · 2pi

6 Transformer http://jalammar.github.io/illustrated-transformer/

7 拿来:captioning 把image captioning看作是一个翻译问 题:从像素块序列到英语的翻译
encoder输入视觉信息,得到视觉的k 和v,输入到语言的decoder: visual encoder + language decoder 目前已经有类似做法: Captioning Transformer with Stacked Attention Modules End-to-End Dense Video Captioning with Masked Transformer 同样的text-to-image合成也可以做同 样的“拿来” RCNN

8 批判 positional encoding 其实至关重要做法略显拍脑袋,没有很好的解释

9 BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding
贡献:提出预训练方式 1.完型填空Masked LM (MLM) 2.句子匹配Next Sentence Prediction(NSP)

10 BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding
Masked LM (MLM): 把词序列输入到BERT之前,mask掉15%的词,即用[mask]替代。 1.把分类层加到encoder的顶部。 2.用词embedding矩阵和输出向量点乘得到词表大小的向量 3.用softmax计算每个词的概率。 注意:计算loss时只考虑mask掉的位置。 实际操作中,由于下游任务不会遇到[mask],因此训练过程中,被选中的词,80%被[mask]替代,10%随机替换,10%不变。 classifier

11 BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding
Next Sentence Prediction(NSP):预测两句话是否连续的两句话。 1.输入序列贯穿整个transformer 模型。 2.其中[CLS]的输出被变换为2维向量(连续or不连续) 3.计算概率 注意:正负样本比1:1

12 拿来:图像中无标注数据的利用 MLM-> NSP->next frame prediction X 都没有太深刻的见解
image inpainting 正则化操作,图像随机mask像素or像素块,让mask前和mask后一致。 NSP->next frame prediction X 都没有太深刻的见解

13 批判 MLM比较手工 NSP输入阶段融合比较多的特征,与下游任务的输入可能会有较多偏差。

14 Knowledge

15 一个关于ImageNet的故事(没有考证)
1980年代,普林斯顿大学心理学家乔治·米勒(George Miller)启动了一个名叫WordNet 的项目,目的是为英语建立一套体系结构。这有点像一本词典,但所有的单词都会按照与 其他单词的关系来显示,而不是按照字母顺序排列。 在WordNet里面,dog放在canine下面,canine放在mammal下面,以此类推。这种语言组 织方式依赖的是机器所能读懂的逻辑。 研究过WordNet后,李飞飞在2006年访问普林斯顿时,找到了一直从事WordNet研究的 Christiane Fellbaum。Fellbaum认为,WordNet可以为每个单词找到一张相关的图片, 但主要是为了参考,而不是建设计算机视觉数据集。通过那次会面,李飞飞设想了一个更 加宏大的想法——组建一个庞大的数据集,为每个单词都提供更多例子。 在李飞飞到她的母校普林斯顿大学任职几个月后,便在2007年初启动了ImageNet项目。她 开始组建团队来应对这项挑战,先是招募了另外一名教授Kai Li,他随后又说服博士生Jia Deng转到李飞飞的实验室。Jia Deng此后一直协助运营ImageNet项目,直到2017年。 ImageNet的命名参考了WordNet。此外visual genome的三元组表示以及scene graph的概 念,与知识图谱有着千丝万缕的渊源。注意到,VG中的类别同时标了wordnet中的synset。

16 结论 大佬也搞 拿来主义

17 联系到关系检测VRD,给定两物体,如何计算两者是某关系的分数
知识库 知识库将人类知识组织成结构化的知识系统。人们花费大量精力构建了各种结构化的知识 库,如语言知识库WrodNet、世界知识库Freebase等。国内外互联网公司纷纷推出知识库 产品,如谷歌知识图谱、微软Bing Satori、百度知心以及搜狗知立方。 人们通常以网络形式组织知识库中的知识,网络中每个节点代表实体(人名、地名、机构 名、概念等),而每条边则代表实体间的关系。因此大部分知识往往以三元组(实体1,关 系,实体2)表示。 知识表示学习: 通过机器学习将研究对象的语义信息表示为稠密低维实值向量。le,lr分别是学习得到的实体和关 系的向量。 联系到关系检测VRD,给定两物体,如何计算两者是某关系的分数

18 知识表示学习主要方法:容易联想到scene graph
1.距离模型:结构表示(structured embedding,SE) 2.单层神经网络模型:SLM

19 知识表示学习主要方法 3.能量模型:语义匹配能量模型(semantic matching energe)

20 知识表示学习主要方法 4.双线性模型:隐变量模型(latent factor model,LFM)

21 知识表示学习主要方法 5.张量神经网络模型:neural tensor network, NTN

22 知识表示学习主要方法 6.翻译模型(更倾向于称作:平移模型) TransE: TransH: TransR: TransD: TranSparse: transA: transG:

23 知识表示学习主要方法 全息表示模型:holographic embeddings,Hole 可用fft优化速度: 复数表示模型:Complex Embeddings

24 知识表示学习主要方法 类比推断模型:Analogical Inference(故事会巅峰故事) Relations as Linear Maps 作者希望找到的这个矩阵满足如下性质: 1.正规矩阵: 对称阵(建模对称关系is identical), 反对称阵, 旋转矩阵(建模1-1关系), 循环矩阵(在傅立叶域的关系) 平行四边形法则

25 知识表示学习主要方法 Commutative Constraint for Linear Maps
(8)(9)计算复杂度太大,简化之:一大堆推导之下得到 其中B是分块对角阵,块要么2x2要么1x1.最后证明 hole和ComplexE是analogy的特例,实 际上只看代码:analogy就是ComplexE和DISMULT的求和。 平行四边形法则

26 拿来 构造“视觉知识表达” 构造self-attention 邻接矩阵
scene graph -> visual knowledge graph 把知识表达所有重要模型,在SGG刷一遍,作为对领域“重启” 构造self-attention 邻接矩阵 self-attention的邻接矩阵实际上就是一种关系的分数(multi-head就是多种关系的分数)

27 总结 当然,能够只是送出去,也不算坏事情,一者见得丰富,二者见得大度。尼采就自诩过他 是太阳,光热无穷,只是给与,不想取得。然而尼采究竟不是太阳,他发了疯。中国也不 是,虽然有人说,掘起地下的煤来,就足够全世界几百年之用,但是,几百年之后呢? 总之,我们要拿来。我们要或使用,或存放,或毁灭。那么,主人是新主人,宅子也就会 成为新宅子。然而首先要这人沉着,勇猛,有辨别,不自私。没有拿来的,人不能自成为 新人,没有拿来的,文艺不能自成为新文艺。----鲁迅

28 zdf

29 motivation & contribution
任务:实例分割 贡献: 提出STS++,之于STS在 PASCAL VOC上 mAP精度提高同时保证实时。 Changes to Prediction Model Changes to Data Preparation Step Changes to Post-processing Step Mask

30 review:STS 属于每个类别的概率 形状表达 是物体的概率 形状表达输入到一个独立的decoder,输出一个二值mask。 B=2组框

31 Proposed Revisions Changes to Prediction Model Batch Normalisation
Sharing Prediction Weights 全连接变卷积 Distributing Computations Evenly 换darknet

32 Proposed Revisions Changes to Data Preparation Step
Pre-processing Raw Images: Representing Targets:原来一个位置预测B组框,但是约定只能有一个框命中目标,很反智。引 入anchor,一个位置可以匹配多个GT。 Representing Shapes:利用distance transform (DT) based representation 每个位置的数值代表其距离最近背景像素的距离

33 Proposed Revisions Changes to Post-processing Step Mask Decoding
bi-linear上采样被替换为transpose convolution MSE被替换为BCE Decoding the Distance Transform (DT) 生成l个二值mask 每个mask代表其到背景的距离, 对于mask r in {1,...,l}, 数值为1的位置表示,表示其距离至少为r,其中l=8

34 experiments

35 评价 整体评价: 偏工程 创新不足 结果较好 问题: 从一根向量重构空间信息比较困难 多边形框是否可以革了实例分割的命

36 zdf

37 motivation & contribution
monetization 目前face parsing,常将脸扣出来再parsing。此方式,扣出来的的图片,头发不全,贴回去头发 就没有分割出来。 此外,周围的context 可能有用。 contribution 提出ROI tanh-warping。 提出一个框架,Mask R-CNN-fashion branch+ FCN-fashion brach 分别处理 人脸内部和外部部 件。 重标数据库。

38 Pipline 3.mask r-cnn 模块检测出各个部件再分别分割 1 估计landmark,5个点,映射出一个框。
2.采用 ROI Tanh-Warping 进行align 5.贴回去 3.FCN模块,分脸盘、头发和背景 4.融合两个模块的结果

39 method 1) RoI Tanh-warping operator W 2) the backbone feature extraction module F 3) the component prediction module R 4) the multiple component segmentation modules {Mi}

40 method ROI Tanh-Warping

41 method Component Prediction 用于检测脸内部部件
由于,部件个数固定,且有左右之分,比较开放通用的mask R-CNN并不合适 此处直接用俩卷积再global pooling,得到全局的特征,然后直接回归各个部件框的坐标

42 method Component Segmentation Inner Facial components:
直接回归框不太准,外面阔一圈 Outer Facial Components

43 Experiments

44 zdf

45 motivation & contribution
monetization 目前face parsing,常将脸扣出来再parsing。此方式,扣出来的的图片,头发不全,贴回去头发 就没有分割出来。 此外,周围的context 可能有用。 contribution 提出ROI tanh-warping。 提出一个框架,Mask R-CNN-fashion branch+ FCN-fashion brach 分别处理 人脸内部和外部部 件。 重标数据库。

46 Pipline 3.mask r-cnn 模块检测出各个部件再分别分割 1 估计landmark,5个点,映射出一个框。
2.采用 ROI Tanh-Warping 进行align 5.贴回去 3.FCN模块,分脸盘、头发和背景 4.融合两个模块的结果

47 method 1) RoI Tanh-warping operator W 2) the backbone feature extraction module F 3) the component prediction module R 4) the multiple component segmentation modules {Mi}

48 method ROI Tanh-Warping

49 method Component Prediction 用于检测脸内部部件
由于,部件个数固定,且有左右之分,比较开放通用的mask R-CNN并不合适 此处直接用俩卷积再global pooling,得到全局的特征,然后直接回归各个部件框的坐标

50 method Component Segmentation Inner Facial components:
直接回归框不太准,外面阔一圈 Outer Facial Components

51 Experiments


Download ppt "拿来主义 NLP+Knowledge zdf."

Similar presentations


Ads by Google