拿来主义 NLP+Knowledge zdf.

Slides:



Advertisements
Similar presentations
练一练: 在数轴上画出表示下列各数的点, 并指出这些点相互间的关系: -6 , 6 , -3 , 3 , -1.5, 1.5.
Advertisements

Unsupervised feature learning: autoencoders
教您如何选购血糖仪 之血糖仪选购篇 检测小窍门【如何检测血糖仪误差?】 糖友在医院使用生化检测血糖值时,同时使用血糖仪检测血糖值,并记录
第三章 数据类型和数据操作 对海量数据进行有效的处理、存储和管理 3.1 数据类型 数据源 数据量 数据结构
院長:鄭錦聰 教授 各系負責老師 光電系:姬梁文老師 電機系:張凱雄老師 資工系:謝仕杰老師 電子系:陳柏宏 老師
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
Adversarial Multi-Criteria Learning for Chinese Word Segmentation
深層學習 暑期訓練 (2017).
NLP Group, Dept. of CS&T, Tsinghua University
物体识别 3D建图 semantic mapping
InterSpeech 2013 Investigation of Recurrent-Neural-Network Architectures and Learning Methods for Spoken Language Understanding University of Rouen(France)
走进编程 程序的顺序结构(二).
基于全方位视觉的多人体运动检测跟踪 利用全方位摄像机获取360˚ 的环境信息,在室内对多个人体目标进行实时运动检测。
以ISI平台为例,为您演示一下如何在Endnote文献中查看该文献的References
Online job scheduling in Distributed Machine Learning Clusters
数据挖掘工具性能比较.
中国科学技术大学计算机系 陈香兰(0551- ) Spring 2009
工业机器人技术基础及应用 主讲人:顾老师
DevDays ’99 The aim of this mission is knowledge..
使用矩阵表示 最小生成树算法.
2.1.2 空间中直线与直线 之间的位置关系.
工业机器人技术基础及应用 主讲人:顾老师
C语言程序设计 主讲教师:陆幼利.
第三节 深度学习导引.
表情识别研究 Sources of facial expressions
顺序表的删除.
模型分类问题 Presented by 刘婷婷 苏琬琳.
A closer look at the local module in
Representation Learning of Knowledge Graphs with Hierarchical Types
Section A Grammar Focus– 3c
项目二:HTML语言基础.
Lightweight Data-flow Analysis for Execution-driven Constraint Solving
实体描述呈现方法的研究 实验评估 2019/5/1.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
第16讲 相似矩阵与方阵的对角化 主要内容: 1.相似矩阵 2. 方阵的对角化.
iSIGHT 基本培训 使用 Excel的栅栏问题
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
AD相关LncRNA调控及分析方法研究 项目成员:魏晓冉 李铁志 指导教师:张莹 2018年理学院大学生创新创业训练计划项目作品成果展示
3.16 枚举算法及其程序实现 ——数组的作用.
李宏毅專題 Track A, B, C 的時間、地點開學前通知
数据报分片.
多层循环 Private Sub Command1_Click() Dim i As Integer, j As Integer
Introduction of this course
第七、八次实验要求.
《工程制图基础》 第五讲 投影变换.
分数再认识三 真假带分数的练习课.
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
2019/5/21 实验一 离散傅立叶变换的性质及应用 实验报告上传到“作业提交”。 11:21:44.
More About Auto-encoder
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
Speaker : YI-CHENG HUNG
§2 方阵的特征值与特征向量.
Module 9 Unit 2 Happy Birthday
Adj + Noun映射到知识库中的classes
NLP+Knowledge zdf.
第四节 向量的乘积 一、两向量的数量积 二、两向量的向量积.
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
高级大数据人才培养丛书之一,大数据挖掘技术与应用
3.2 平面向量基本定理.
第8章 创建与使用图块 将一个或多个单一的实体对象整合为一个对象,这个对象就是图块。图块中的各实体可以具有各自的图层、线性、颜色等特征。在应用时,图块作为一个独立的、完整的对象进行操作,可以根据需要按一定比例和角度将图块插入到需要的位置。 2019/6/30.
Anchor-free Detection专题
2大挑战 长尾分布 物体类别是有语义关联的,这些连接会变得更加微妙
位似.
HRNet 保持高分辨率 不同分辨率之间进行信息交换(exchange) Exchange Unit HRNet Exchange Block.
之前都是分类的蒸馏很简单。然后从分类到分割也是一样,下一篇是检测的蒸馏
Rlj
§2 自由代数 定义19.7:设X是集合,G是一个T-代数,为X到G的函数,若对每个T-代数A和X到A的函数,都存在唯一的G到A的同态映射,使得=,则称G(更严格的说是(G,))是生成集X上的自由T-代数。X中的元素称为生成元。 A变, 变 变, 也变 对给定的 和A,是唯一的.
Self-Attention huitr
3.3.2 两点间的距离 山东省临沂第一中学.
Presentation transcript:

拿来主义 NLP+Knowledge zdf

NLP

Attention is all you need K, V

Model Architecture Encoder and Decoder Stacks Attention: 其中d_k是特征长度,假设q,k为Q,K某行,每个位置为独立的随机数, 均值=0,方差=1,那么q*k的均值=0,方差为d_k Multi-Head Attention:

Model Architecture Positional Encoding:self-attention与位置无关,引入位置编码 其中,i对应特征的维数,pos对应第几个词。波长从2pi到10000 · 2pi

Transformer http://jalammar.github.io/illustrated-transformer/ http://nlp.seas.harvard.edu/2018/04/03/attention.html

拿来:captioning 把image captioning看作是一个翻译问 题:从像素块序列到英语的翻译 encoder输入视觉信息,得到视觉的k 和v,输入到语言的decoder: visual encoder + language decoder 目前已经有类似做法: Captioning Transformer with Stacked Attention Modules End-to-End Dense Video Captioning with Masked Transformer 同样的text-to-image合成也可以做同 样的“拿来” RCNN

批判 positional encoding 其实至关重要做法略显拍脑袋,没有很好的解释

BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding 贡献:提出预训练方式 1.完型填空Masked LM (MLM) 2.句子匹配Next Sentence Prediction(NSP)

BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding Masked LM (MLM): 把词序列输入到BERT之前,mask掉15%的词,即用[mask]替代。 1.把分类层加到encoder的顶部。 2.用词embedding矩阵和输出向量点乘得到词表大小的向量 3.用softmax计算每个词的概率。 注意:计算loss时只考虑mask掉的位置。 实际操作中,由于下游任务不会遇到[mask],因此训练过程中,被选中的词,80%被[mask]替代,10%随机替换,10%不变。 classifier

BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding Next Sentence Prediction(NSP):预测两句话是否连续的两句话。 1.输入序列贯穿整个transformer 模型。 2.其中[CLS]的输出被变换为2维向量(连续or不连续) 3.计算概率 注意:正负样本比1:1

拿来:图像中无标注数据的利用 MLM-> NSP->next frame prediction X 都没有太深刻的见解 image inpainting 正则化操作,图像随机mask像素or像素块,让mask前和mask后一致。 NSP->next frame prediction X 都没有太深刻的见解

批判 MLM比较手工 NSP输入阶段融合比较多的特征,与下游任务的输入可能会有较多偏差。

Knowledge

一个关于ImageNet的故事(没有考证) 1980年代,普林斯顿大学心理学家乔治·米勒(George Miller)启动了一个名叫WordNet 的项目,目的是为英语建立一套体系结构。这有点像一本词典,但所有的单词都会按照与 其他单词的关系来显示,而不是按照字母顺序排列。 在WordNet里面,dog放在canine下面,canine放在mammal下面,以此类推。这种语言组 织方式依赖的是机器所能读懂的逻辑。 研究过WordNet后,李飞飞在2006年访问普林斯顿时,找到了一直从事WordNet研究的 Christiane Fellbaum。Fellbaum认为,WordNet可以为每个单词找到一张相关的图片, 但主要是为了参考,而不是建设计算机视觉数据集。通过那次会面,李飞飞设想了一个更 加宏大的想法——组建一个庞大的数据集,为每个单词都提供更多例子。 在李飞飞到她的母校普林斯顿大学任职几个月后,便在2007年初启动了ImageNet项目。她 开始组建团队来应对这项挑战,先是招募了另外一名教授Kai Li,他随后又说服博士生Jia Deng转到李飞飞的实验室。Jia Deng此后一直协助运营ImageNet项目,直到2017年。 ImageNet的命名参考了WordNet。此外visual genome的三元组表示以及scene graph的概 念,与知识图谱有着千丝万缕的渊源。注意到,VG中的类别同时标了wordnet中的synset。

结论 大佬也搞 拿来主义

联系到关系检测VRD,给定两物体,如何计算两者是某关系的分数 知识库 知识库将人类知识组织成结构化的知识系统。人们花费大量精力构建了各种结构化的知识 库,如语言知识库WrodNet、世界知识库Freebase等。国内外互联网公司纷纷推出知识库 产品,如谷歌知识图谱、微软Bing Satori、百度知心以及搜狗知立方。 人们通常以网络形式组织知识库中的知识,网络中每个节点代表实体(人名、地名、机构 名、概念等),而每条边则代表实体间的关系。因此大部分知识往往以三元组(实体1,关 系,实体2)表示。 知识表示学习: 通过机器学习将研究对象的语义信息表示为稠密低维实值向量。le,lr分别是学习得到的实体和关 系的向量。 联系到关系检测VRD,给定两物体,如何计算两者是某关系的分数

知识表示学习主要方法:容易联想到scene graph 1.距离模型:结构表示(structured embedding,SE) 2.单层神经网络模型:SLM

知识表示学习主要方法 3.能量模型:语义匹配能量模型(semantic matching energe)

知识表示学习主要方法 4.双线性模型:隐变量模型(latent factor model,LFM)

知识表示学习主要方法 5.张量神经网络模型:neural tensor network, NTN

知识表示学习主要方法 6.翻译模型(更倾向于称作:平移模型) TransE: TransH: TransR: TransD: TranSparse: transA: transG:

知识表示学习主要方法 全息表示模型:holographic embeddings,Hole 可用fft优化速度: 复数表示模型:Complex Embeddings

知识表示学习主要方法 类比推断模型:Analogical Inference(故事会巅峰故事) Relations as Linear Maps 作者希望找到的这个矩阵满足如下性质: 1.正规矩阵: 对称阵(建模对称关系is identical), 反对称阵, 旋转矩阵(建模1-1关系), 循环矩阵(在傅立叶域的关系) 平行四边形法则

知识表示学习主要方法 Commutative Constraint for Linear Maps (8)(9)计算复杂度太大,简化之:一大堆推导之下得到 其中B是分块对角阵,块要么2x2要么1x1.最后证明 hole和ComplexE是analogy的特例,实 际上只看代码:analogy就是ComplexE和DISMULT的求和。 平行四边形法则

拿来 构造“视觉知识表达” 构造self-attention 邻接矩阵 scene graph -> visual knowledge graph 把知识表达所有重要模型,在SGG刷一遍,作为对领域“重启” 构造self-attention 邻接矩阵 self-attention的邻接矩阵实际上就是一种关系的分数(multi-head就是多种关系的分数)

总结 当然,能够只是送出去,也不算坏事情,一者见得丰富,二者见得大度。尼采就自诩过他 是太阳,光热无穷,只是给与,不想取得。然而尼采究竟不是太阳,他发了疯。中国也不 是,虽然有人说,掘起地下的煤来,就足够全世界几百年之用,但是,几百年之后呢? 总之,我们要拿来。我们要或使用,或存放,或毁灭。那么,主人是新主人,宅子也就会 成为新宅子。然而首先要这人沉着,勇猛,有辨别,不自私。没有拿来的,人不能自成为 新人,没有拿来的,文艺不能自成为新文艺。----鲁迅

zdf

motivation & contribution 任务:实例分割 贡献: 提出STS++,之于STS在 PASCAL VOC上 mAP精度提高同时保证实时。 Changes to Prediction Model Changes to Data Preparation Step Changes to Post-processing Step Mask

review:STS 属于每个类别的概率 形状表达 是物体的概率 形状表达输入到一个独立的decoder,输出一个二值mask。 B=2组框

Proposed Revisions Changes to Prediction Model Batch Normalisation Sharing Prediction Weights 全连接变卷积 Distributing Computations Evenly 换darknet

Proposed Revisions Changes to Data Preparation Step Pre-processing Raw Images: Representing Targets:原来一个位置预测B组框,但是约定只能有一个框命中目标,很反智。引 入anchor,一个位置可以匹配多个GT。 Representing Shapes:利用distance transform (DT) based representation 每个位置的数值代表其距离最近背景像素的距离

Proposed Revisions Changes to Post-processing Step Mask Decoding bi-linear上采样被替换为transpose convolution MSE被替换为BCE Decoding the Distance Transform (DT) 生成l个二值mask 每个mask代表其到背景的距离, 对于mask r in {1,...,l}, 数值为1的位置表示,表示其距离至少为r,其中l=8

experiments

评价 整体评价: 偏工程 创新不足 结果较好 问题: 从一根向量重构空间信息比较困难 多边形框是否可以革了实例分割的命

zdf

motivation & contribution monetization 目前face parsing,常将脸扣出来再parsing。此方式,扣出来的的图片,头发不全,贴回去头发 就没有分割出来。 此外,周围的context 可能有用。 contribution 提出ROI tanh-warping。 提出一个框架,Mask R-CNN-fashion branch+ FCN-fashion brach 分别处理 人脸内部和外部部 件。 重标数据库。

Pipline 3.mask r-cnn 模块检测出各个部件再分别分割 1 估计landmark,5个点,映射出一个框。 2.采用 ROI Tanh-Warping 进行align 5.贴回去 3.FCN模块,分脸盘、头发和背景 4.融合两个模块的结果

method 1) RoI Tanh-warping operator W 2) the backbone feature extraction module F 3) the component prediction module R 4) the multiple component segmentation modules {Mi}

method ROI Tanh-Warping

method Component Prediction 用于检测脸内部部件 由于,部件个数固定,且有左右之分,比较开放通用的mask R-CNN并不合适 此处直接用俩卷积再global pooling,得到全局的特征,然后直接回归各个部件框的坐标

method Component Segmentation Inner Facial components: 直接回归框不太准,外面阔一圈 Outer Facial Components

Experiments

zdf

motivation & contribution monetization 目前face parsing,常将脸扣出来再parsing。此方式,扣出来的的图片,头发不全,贴回去头发 就没有分割出来。 此外,周围的context 可能有用。 contribution 提出ROI tanh-warping。 提出一个框架,Mask R-CNN-fashion branch+ FCN-fashion brach 分别处理 人脸内部和外部部 件。 重标数据库。

Pipline 3.mask r-cnn 模块检测出各个部件再分别分割 1 估计landmark,5个点,映射出一个框。 2.采用 ROI Tanh-Warping 进行align 5.贴回去 3.FCN模块,分脸盘、头发和背景 4.融合两个模块的结果

method 1) RoI Tanh-warping operator W 2) the backbone feature extraction module F 3) the component prediction module R 4) the multiple component segmentation modules {Mi}

method ROI Tanh-Warping

method Component Prediction 用于检测脸内部部件 由于,部件个数固定,且有左右之分,比较开放通用的mask R-CNN并不合适 此处直接用俩卷积再global pooling,得到全局的特征,然后直接回归各个部件框的坐标

method Component Segmentation Inner Facial components: 直接回归框不太准,外面阔一圈 Outer Facial Components

Experiments