拿来主义 NLP+Knowledge zdf
NLP
Attention is all you need K, V
Model Architecture Encoder and Decoder Stacks Attention: 其中d_k是特征长度,假设q,k为Q,K某行,每个位置为独立的随机数, 均值=0,方差=1,那么q*k的均值=0,方差为d_k Multi-Head Attention:
Model Architecture Positional Encoding:self-attention与位置无关,引入位置编码 其中,i对应特征的维数,pos对应第几个词。波长从2pi到10000 · 2pi
Transformer http://jalammar.github.io/illustrated-transformer/ http://nlp.seas.harvard.edu/2018/04/03/attention.html
拿来:captioning 把image captioning看作是一个翻译问 题:从像素块序列到英语的翻译 encoder输入视觉信息,得到视觉的k 和v,输入到语言的decoder: visual encoder + language decoder 目前已经有类似做法: Captioning Transformer with Stacked Attention Modules End-to-End Dense Video Captioning with Masked Transformer 同样的text-to-image合成也可以做同 样的“拿来” RCNN
批判 positional encoding 其实至关重要做法略显拍脑袋,没有很好的解释
BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding 贡献:提出预训练方式 1.完型填空Masked LM (MLM) 2.句子匹配Next Sentence Prediction(NSP)
BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding Masked LM (MLM): 把词序列输入到BERT之前,mask掉15%的词,即用[mask]替代。 1.把分类层加到encoder的顶部。 2.用词embedding矩阵和输出向量点乘得到词表大小的向量 3.用softmax计算每个词的概率。 注意:计算loss时只考虑mask掉的位置。 实际操作中,由于下游任务不会遇到[mask],因此训练过程中,被选中的词,80%被[mask]替代,10%随机替换,10%不变。 classifier
BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding Next Sentence Prediction(NSP):预测两句话是否连续的两句话。 1.输入序列贯穿整个transformer 模型。 2.其中[CLS]的输出被变换为2维向量(连续or不连续) 3.计算概率 注意:正负样本比1:1
拿来:图像中无标注数据的利用 MLM-> NSP->next frame prediction X 都没有太深刻的见解 image inpainting 正则化操作,图像随机mask像素or像素块,让mask前和mask后一致。 NSP->next frame prediction X 都没有太深刻的见解
批判 MLM比较手工 NSP输入阶段融合比较多的特征,与下游任务的输入可能会有较多偏差。
Knowledge
一个关于ImageNet的故事(没有考证) 1980年代,普林斯顿大学心理学家乔治·米勒(George Miller)启动了一个名叫WordNet 的项目,目的是为英语建立一套体系结构。这有点像一本词典,但所有的单词都会按照与 其他单词的关系来显示,而不是按照字母顺序排列。 在WordNet里面,dog放在canine下面,canine放在mammal下面,以此类推。这种语言组 织方式依赖的是机器所能读懂的逻辑。 研究过WordNet后,李飞飞在2006年访问普林斯顿时,找到了一直从事WordNet研究的 Christiane Fellbaum。Fellbaum认为,WordNet可以为每个单词找到一张相关的图片, 但主要是为了参考,而不是建设计算机视觉数据集。通过那次会面,李飞飞设想了一个更 加宏大的想法——组建一个庞大的数据集,为每个单词都提供更多例子。 在李飞飞到她的母校普林斯顿大学任职几个月后,便在2007年初启动了ImageNet项目。她 开始组建团队来应对这项挑战,先是招募了另外一名教授Kai Li,他随后又说服博士生Jia Deng转到李飞飞的实验室。Jia Deng此后一直协助运营ImageNet项目,直到2017年。 ImageNet的命名参考了WordNet。此外visual genome的三元组表示以及scene graph的概 念,与知识图谱有着千丝万缕的渊源。注意到,VG中的类别同时标了wordnet中的synset。
结论 大佬也搞 拿来主义
联系到关系检测VRD,给定两物体,如何计算两者是某关系的分数 知识库 知识库将人类知识组织成结构化的知识系统。人们花费大量精力构建了各种结构化的知识 库,如语言知识库WrodNet、世界知识库Freebase等。国内外互联网公司纷纷推出知识库 产品,如谷歌知识图谱、微软Bing Satori、百度知心以及搜狗知立方。 人们通常以网络形式组织知识库中的知识,网络中每个节点代表实体(人名、地名、机构 名、概念等),而每条边则代表实体间的关系。因此大部分知识往往以三元组(实体1,关 系,实体2)表示。 知识表示学习: 通过机器学习将研究对象的语义信息表示为稠密低维实值向量。le,lr分别是学习得到的实体和关 系的向量。 联系到关系检测VRD,给定两物体,如何计算两者是某关系的分数
知识表示学习主要方法:容易联想到scene graph 1.距离模型:结构表示(structured embedding,SE) 2.单层神经网络模型:SLM
知识表示学习主要方法 3.能量模型:语义匹配能量模型(semantic matching energe)
知识表示学习主要方法 4.双线性模型:隐变量模型(latent factor model,LFM)
知识表示学习主要方法 5.张量神经网络模型:neural tensor network, NTN
知识表示学习主要方法 6.翻译模型(更倾向于称作:平移模型) TransE: TransH: TransR: TransD: TranSparse: transA: transG:
知识表示学习主要方法 全息表示模型:holographic embeddings,Hole 可用fft优化速度: 复数表示模型:Complex Embeddings
知识表示学习主要方法 类比推断模型:Analogical Inference(故事会巅峰故事) Relations as Linear Maps 作者希望找到的这个矩阵满足如下性质: 1.正规矩阵: 对称阵(建模对称关系is identical), 反对称阵, 旋转矩阵(建模1-1关系), 循环矩阵(在傅立叶域的关系) 平行四边形法则
知识表示学习主要方法 Commutative Constraint for Linear Maps (8)(9)计算复杂度太大,简化之:一大堆推导之下得到 其中B是分块对角阵,块要么2x2要么1x1.最后证明 hole和ComplexE是analogy的特例,实 际上只看代码:analogy就是ComplexE和DISMULT的求和。 平行四边形法则
拿来 构造“视觉知识表达” 构造self-attention 邻接矩阵 scene graph -> visual knowledge graph 把知识表达所有重要模型,在SGG刷一遍,作为对领域“重启” 构造self-attention 邻接矩阵 self-attention的邻接矩阵实际上就是一种关系的分数(multi-head就是多种关系的分数)
总结 当然,能够只是送出去,也不算坏事情,一者见得丰富,二者见得大度。尼采就自诩过他 是太阳,光热无穷,只是给与,不想取得。然而尼采究竟不是太阳,他发了疯。中国也不 是,虽然有人说,掘起地下的煤来,就足够全世界几百年之用,但是,几百年之后呢? 总之,我们要拿来。我们要或使用,或存放,或毁灭。那么,主人是新主人,宅子也就会 成为新宅子。然而首先要这人沉着,勇猛,有辨别,不自私。没有拿来的,人不能自成为 新人,没有拿来的,文艺不能自成为新文艺。----鲁迅
zdf
motivation & contribution 任务:实例分割 贡献: 提出STS++,之于STS在 PASCAL VOC上 mAP精度提高同时保证实时。 Changes to Prediction Model Changes to Data Preparation Step Changes to Post-processing Step Mask
review:STS 属于每个类别的概率 形状表达 是物体的概率 形状表达输入到一个独立的decoder,输出一个二值mask。 B=2组框
Proposed Revisions Changes to Prediction Model Batch Normalisation Sharing Prediction Weights 全连接变卷积 Distributing Computations Evenly 换darknet
Proposed Revisions Changes to Data Preparation Step Pre-processing Raw Images: Representing Targets:原来一个位置预测B组框,但是约定只能有一个框命中目标,很反智。引 入anchor,一个位置可以匹配多个GT。 Representing Shapes:利用distance transform (DT) based representation 每个位置的数值代表其距离最近背景像素的距离
Proposed Revisions Changes to Post-processing Step Mask Decoding bi-linear上采样被替换为transpose convolution MSE被替换为BCE Decoding the Distance Transform (DT) 生成l个二值mask 每个mask代表其到背景的距离, 对于mask r in {1,...,l}, 数值为1的位置表示,表示其距离至少为r,其中l=8
experiments
评价 整体评价: 偏工程 创新不足 结果较好 问题: 从一根向量重构空间信息比较困难 多边形框是否可以革了实例分割的命
zdf
motivation & contribution monetization 目前face parsing,常将脸扣出来再parsing。此方式,扣出来的的图片,头发不全,贴回去头发 就没有分割出来。 此外,周围的context 可能有用。 contribution 提出ROI tanh-warping。 提出一个框架,Mask R-CNN-fashion branch+ FCN-fashion brach 分别处理 人脸内部和外部部 件。 重标数据库。
Pipline 3.mask r-cnn 模块检测出各个部件再分别分割 1 估计landmark,5个点,映射出一个框。 2.采用 ROI Tanh-Warping 进行align 5.贴回去 3.FCN模块,分脸盘、头发和背景 4.融合两个模块的结果
method 1) RoI Tanh-warping operator W 2) the backbone feature extraction module F 3) the component prediction module R 4) the multiple component segmentation modules {Mi}
method ROI Tanh-Warping
method Component Prediction 用于检测脸内部部件 由于,部件个数固定,且有左右之分,比较开放通用的mask R-CNN并不合适 此处直接用俩卷积再global pooling,得到全局的特征,然后直接回归各个部件框的坐标
method Component Segmentation Inner Facial components: 直接回归框不太准,外面阔一圈 Outer Facial Components
Experiments
zdf
motivation & contribution monetization 目前face parsing,常将脸扣出来再parsing。此方式,扣出来的的图片,头发不全,贴回去头发 就没有分割出来。 此外,周围的context 可能有用。 contribution 提出ROI tanh-warping。 提出一个框架,Mask R-CNN-fashion branch+ FCN-fashion brach 分别处理 人脸内部和外部部 件。 重标数据库。
Pipline 3.mask r-cnn 模块检测出各个部件再分别分割 1 估计landmark,5个点,映射出一个框。 2.采用 ROI Tanh-Warping 进行align 5.贴回去 3.FCN模块,分脸盘、头发和背景 4.融合两个模块的结果
method 1) RoI Tanh-warping operator W 2) the backbone feature extraction module F 3) the component prediction module R 4) the multiple component segmentation modules {Mi}
method ROI Tanh-Warping
method Component Prediction 用于检测脸内部部件 由于,部件个数固定,且有左右之分,比较开放通用的mask R-CNN并不合适 此处直接用俩卷积再global pooling,得到全局的特征,然后直接回归各个部件框的坐标
method Component Segmentation Inner Facial components: 直接回归框不太准,外面阔一圈 Outer Facial Components
Experiments