NLP+Knowledge zdf
NLP
Attention is all you need K, V
Model Architecture Encoder and Decoder Stacks Attention: 其中d_k是特征长度,假设q,k为Q,K某行,每个位置为独立的随机数, 均值=0,方差=1,那么q*k的均值=0,方差为d_k Multi-Head Attention:
Model Architecture Positional Encoding:self-attention与位置无关,引入位置编码 其中,i对应特征的维数,pos对应第几个词。波长从2pi到10000 · 2pi
Transformer http://jalammar.github.io/illustrated-transformer/ http://nlp.seas.harvard.edu/2018/04/03/attention.html
拿来:captioning 把image captioning看作是一个翻译问 题:从像素块序列到英语的翻译 encoder输入视觉信息,得到视觉的k 和v,输入到语言的decoder: visual encoder + language decoder 目前已经有类似做法: Captioning Transformer with Stacked Attention Modules End-to-End Dense Video Captioning with Masked Transformer 同样的text-to-image合成也可以做同 样的“拿来” RCNN
批判 positional encoding 其实至关重要做法略显拍脑袋,没有很好的解释
BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding 贡献:提出预训练方式 1.完型填空Masked LM (MLM) 2.句子匹配Next Sentence Prediction(NSP)
BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding Masked LM (MLM): 把词序列输入到BERT之前,mask掉15%的词,即用[mask]替代。 1.把分类层加到encoder的顶部。 2.用词embedding矩阵和输出向量点乘得到词表大小的向量 3.用softmax计算每个词的概率。 注意:计算loss时只考虑mask掉的位置。 实际操作中,由于下游任务不会遇到[mask],因此训练过程中,被选中的词,80%被[mask]替代,10%随机替换,10%不变。 classifier
BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding Next Sentence Prediction(NSP):预测两句话是否连续的两句话。 1.输入序列贯穿整个transformer 模型。 2.其中[CLS]的输出被变换为2维向量(连续or不连续) 3.计算概率 注意:正负样本比1:1
拿来:图像中无标注数据的利用 MLM-> NSP->next frame prediction X 都没有太深刻的见解 image inpainting 正则化操作,图像随机mask像素or像素块,让mask前和mask后一致。 NSP->next frame prediction X 都没有太深刻的见解
批判 MLM比较手工 NSP输入阶段融合比较多的特征,与下游任务的输入可能会有较多偏差。
Knowledge
联系到关系检测VRD,给定两物体,如何计算两者是某关系的分数 知识库 知识库将人类知识组织成结构化的知识系统。人们花费大量精力构建了各种结构化的知识 库,如语言知识库WrodNet、世界知识库Freebase等。国内外互联网公司纷纷推出知识库 产品,如谷歌知识图谱、微软Bing Satori、百度知心以及搜狗知立方。 人们通常以网络形式组织知识库中的知识,网络中每个节点代表实体(人名、地名、机构 名、概念等),而每条边则代表实体间的关系。因此大部分知识往往以三元组(实体1,关 系,实体2)表示。 知识表示学习: 通过机器学习将研究对象的语义信息表示为稠密低维实值向量。le,lr分别是学习得到的实体和关 系的向量。 联系到关系检测VRD,给定两物体,如何计算两者是某关系的分数
知识表示学习主要方法:容易联想到scene graph 1.距离模型:结构表示(structured embedding,SE) 2.单层神经网络模型:SLM
知识表示学习主要方法 3.能量模型:语义匹配能量模型(semantic matching energe)
知识表示学习主要方法 4.双线性模型:隐变量模型(latent factor model,LFM)
知识表示学习主要方法 5.张量神经网络模型:neural tensor network, NTN
知识表示学习主要方法 6.翻译模型(更倾向于称作:平移模型) TransE: TransH: TransR: TransD: TranSparse: transA: transG:
知识表示学习主要方法 全息表示模型:holographic embeddings,Hole 可用fft优化速度: 复数表示模型:Complex Embeddings
知识表示学习主要方法 类比推断模型:Analogical Inference(故事会巅峰故事) Relations as Linear Maps 作者希望找到的这个矩阵满足如下性质: 1.正规矩阵: 对称阵(建模对称关系is identical), 反对称阵, 旋转矩阵(建模1-1关系), 循环矩阵(在傅立叶域的关系) 平行四边形法则
知识表示学习主要方法 Commutative Constraint for Linear Maps (8)(9)计算复杂度太大,简化之:一大堆推导之下得到 其中B是分块对角阵,块要么2x2要么1x1.最后证明 hole和ComplexE是analogy的特例,实 际上只看代码:analogy就是ComplexE和DISMULT的求和。 平行四边形法则
拿来 构造“视觉知识表达” 构造self-attention 邻接矩阵 scene graph -> visual knowledge graph 把知识表达所有重要模型,在SGG刷一遍,作为对领域“重启” 构造self-attention 邻接矩阵 self-attention的邻接矩阵实际上就是一种关系的分数(multi-head就是多种关系的分数)
总结 当然,能够只是送出去,也不算坏事情,一者见得丰富,二者见得大度。尼采就自诩过他 是太阳,光热无穷,只是给与,不想取得。然而尼采究竟不是太阳,他发了疯。中国也不 是,虽然有人说,掘起地下的煤来,就足够全世界几百年之用,但是,几百年之后呢? 总之,我们要拿来。我们要或使用,或存放,或毁灭。那么,主人是新主人,宅子也就会 成为新宅子。然而首先要这人沉着,勇猛,有辨别,不自私。没有拿来的,人不能自成为 新人,没有拿来的,文艺不能自成为新文艺。----鲁迅