Self-Attention huitr 2019.03.16.

Slides:



Advertisements
Similar presentations
泄 泻. 一、概述 定义: 大便稀薄,甚如水样,或完谷不化,并多 有排便次数增多。 泄与泻含义有别:泄者,漏泄之意,是指 大便溏薄,时作时止,病势较缓;泻者,倾 泻之意,是指大便直下,如水倾注,病势较 急。临床一般统称为泄泻。 病名: 《内经》称为 “ 泄 ” ,汉唐多与痢疾同归于 “ 下利 ” 之中,宋代以后渐以.
Advertisements

博奥文明之旅团支部 ——师范学院小学教育专业063团支部.
中三選科— 文科.
月子保姆理论知识试卷.
思想道德修养与法律基础 ( 2013修订版) 第一章 追求远大理想 坚定崇高信念.
第九课 第二框 建设社会主义精神文明.
让我们撑起一把青春伞.
让 我 们 撑 起 一 把 青 春伞.
考点作文十大夺魁技法 第28课时 写作(二) 考点作文十大夺魁技法 6-10 ·新课标.
舊石器時代 位置: 亞洲大陸東緣,西太平洋弧狀列島一部份 背景 形成: 兩千多萬年前逐漸隆起,形成島嶼 生物: 大角鹿、猛瑪象、亞洲大陸原始人 臺東 長濱文化 苗栗 網形文化 臺南 左鎮人目前臺灣發現最早人類化石 代表 文化 1.住在海邊洞穴-短期定居小型隊群 2.以採集、狩獵為生 3.使用礫石砍伐器、片器、尖器.
如何写论文.
兒童及少年保護宣導 和興國小校長 吳柚 中華民國 100 年 8 月 31日 2008張淑慧.
建筑工程项目管理.
水产课商品知识.
物流账册系统介绍 2012年5月16日 北京.
消 息 制作教师:程焕新 湖北省黄冈高级技工学校.
学生培养的过程性评价.
一小时系列讲座 工具书使用方法之一: 《康熙字典》检字方法
生产与运作管理 Production &Operation Management
纪念鞍钢宪法诞生50周年! 如何探索符合国情的质量管理之路 鞍钢宪法的现实意义 北京科立特管理咨询公司 张晓东 博士.
走向自立人生 自己的事情自己干 一、自立人生少年始. 走向自立人生 自己的事情自己干 一、自立人生少年始.
認識同志伴侶 劉安真 弘光科技大學通識教育中心助理教授.
前不久看到了这样一则报道:某个大学校园里,一个大学生出寝室要给室友留一张字条,告诉他钥匙放在哪里。可是“钥匙”两个字他不会写,就问了其他寝室的同学,问了好几个,谁也不会写,没办法,只好用“KEY”来代替了。 请大家就此事发表一下自己看法。
祖 父 母 節.
閱讀金庸小說結合寫作教學 教學者:蔡佩紋.
Multiple resources and performance prediction
Adversarial Multi-Criteria Learning for Chinese Word Segmentation
题目 第一作者1,2,第二作者1,3, 及第三作者等 1,4* 1,大学,部门,城市
Paper Reading 2017/04/18 Yuan Xin.
利用共同供應契約 辦理大量訂購流程說明.
Image Retrieval Based on Fractal Signature
9 SELECT敘述的進階查詢 9-1 SQL的多資料表查詢 9-2 合併查詢 9-3 集合運算查詢 9-4 子查詢
Course 4 搜尋 Search.
1.1 線性方程式系統簡介 1.2 高斯消去法與高斯-喬登消去法 1.3 線性方程式系統的應用
CCF ADL66大数据管理系统和技术 刘达欣 2018/11/28.
C 語言簡介 - 2.
變數命名 保留字(Reserved Word)
The Concept of Fuzzy Theory
数据分析绘图工具 ——Origin6.0.
類神經網路簡介 B 朱峰森 B 梁家愷.
联合创新中的技术许可与知识产权分配问题 Technology licensing and IP allocation in joint R&D collaboration 1.
数据摘要现状调研报告 上下文摘要初步思考 徐丹云.
Sorting in Linear Time Michael Tsai 2013/5/21.
高性能计算与天文技术联合实验室 智能与计算学部 天津大学
相關統計觀念復習 Review II.
表情识别研究 Sources of facial expressions
用牛顿环测量透镜的曲率半径 华中农业大学应用物理系 物理实验教学中心
A closer look at the local module in
Representation Learning of Knowledge Graphs with Hierarchical Types
An Introduction to Communication Complexity
Efficient Query Relaxation for Complex Relationship Search on Graph Data 李舒馨
兒童及少年保護、 家庭暴力及性侵害事件、 高風險家庭 宣導與通報
Introduction of this course
空間關係分類以及相似性量測之 範用結構 A General Framework For Classification and Similarity Measure of Spatial Relationship 研究生:洪宗賢 指導教授:蔣依吾 博士 國立中山大學資訊工程學系.
第四章 分步成本制度. 第四章 分步成本制度 學習目標 介紹分步成本制度 敘述存貨之衡量與會計處理程序 編製生產成本報告 分析多部門分步成本法.
楊俊鴻 助理研究員 國家教育研究院課程及教學研究中心
Chapter 14 系統保護 (System Protection)
面向对象系统分析与设计 交互图.
张亮生 可变剪切对基因进化模式和功能的影响 张亮生
Anchor-free Detection专题
03/03/2019 豐盛生命的呼召 楊知予長老.
空間關係分類以及相似性量測之 範用結構 A General Framework For Classification and Similarity Measure of Spatial Relationship 研究生:洪宗賢 指導教授:蔣依吾 博士 國立中山大學資訊工程學系.
TPK杯多点触摸系统设计大赛 1 1.
HRNet 保持高分辨率 不同分辨率之间进行信息交换(exchange) Exchange Unit HRNet Exchange Block.
第二章 經濟模型.
Principle and application of optical information technology
社會學習領域 課綱修正宣導簡報 臺北市社會領域輔導小姐.
跨國公司財務與營運避險策略對其外匯曝險及公司價值影響
教師檔案系統資料如何填寫? 如何對應教師評鑑共同基準?.
Hybrid fractal zerotree wavelet image coding
Presentation transcript:

Self-Attention huitr 2019.03.16

Motivation 普通CNN堆叠卷积层不能够很好地捕捉long range dependency 提出non-local operation,对于特征图中每个像素点,都用其他所有像素点的变换结果做加权求和,归一化后作为该像素点的新特征 Self-attention,用同一张图片中的其他像素点来增强当前像素点

Formulation 𝑖:𝑖𝑛𝑑𝑒𝑥 𝑜𝑓 𝑜𝑢𝑡𝑝𝑢𝑡 𝑝𝑜𝑠𝑖𝑡𝑖𝑜𝑛 X:𝑖𝑛𝑝𝑢𝑡 𝑓𝑒𝑎𝑡𝑢𝑟𝑒 𝑗:𝑖𝑛𝑑𝑒𝑥 𝑡ℎ𝑎𝑡 𝑒𝑛𝑢𝑚𝑒𝑟𝑎𝑡𝑒 𝑎𝑙𝑙 𝑝𝑜𝑠𝑠𝑖𝑏𝑙𝑒 𝑝𝑜𝑠𝑖𝑡𝑖𝑜𝑛𝑠 𝑓:𝑐𝑜𝑚𝑝𝑢𝑡𝑒 𝑝𝑎𝑖𝑟𝑤𝑖𝑠𝑒 𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛𝑠ℎ𝑖𝑝 𝑏𝑒𝑡𝑤𝑒𝑒𝑛 𝑖 𝑎𝑛𝑑 𝑗 𝑔:𝑐𝑜𝑚𝑝𝑢𝑡𝑒𝑠 𝑎 𝑟𝑒𝑝𝑟𝑒𝑠𝑒𝑛𝑡𝑎𝑡𝑖𝑜𝑛 𝑜𝑓 X 𝐶 X :𝑁𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑎𝑡𝑖𝑜𝑛

Instantiation 𝑐ℎ𝑜𝑖𝑐𝑒 𝑜𝑓 𝑓: Embedded dot product version

Core idea first gather key features from the entire space into a compact set then distribute them to each location adaptively

Method

Computational graph

Comparison Chen Y , Rohrbach M , Yan Z , et al. Graph-Based Global Reasoning Networks[J]. 2018.

Experiments 5 extra A2-blocks at Res3 and Res4 6.5 GFLOPs and 33.0 M parameters

Experiments Chen Y , Rohrbach M , Yan Z , et al. Graph-Based Global Reasoning Networks[J]. 2018.

Method

A Generic Formulation of Self-Attention X: feature maps as a matrix of size s × c 𝐾 𝑋 : key function 𝑄 𝑋 : query function 𝑉 𝑋 : value function Implemented as linear layers S=𝑋𝐾 𝑋𝑄 𝑇𝑋𝑉 X: feature maps as a matrix of size s × c K, Q:c × 𝑏 matrice 𝑉:𝑐 × 𝑐 matrix

X: feature maps as a matrix of size s × c K, Q:c × 𝑏 matrice 𝑉:𝑐 × 𝑐 matrix Left Associativity S= 𝑋𝐾 𝑋𝑄 𝑇 𝑋𝑉 𝑋𝐾 𝑋𝑄 𝑇 : 𝑠 × 𝑏 ∗𝑏 × 𝑠=𝑠 × 𝑠, 可以看成所有spatial location之间的相似度,即Non-local的思想 𝑋𝐾 𝑋𝑄 𝑇 𝑋𝑉: 𝑠 × 𝑠 ∗𝑠 × 𝑐=𝑠 × 𝑐 Right Associativity S=𝑋𝐾[ 𝑋𝑄 𝑇𝑋𝑉] [ 𝑋𝑄 𝑇𝑋𝑉]: b × 𝑠 ∗𝑠 × 𝑐=𝑏 × 𝑐, 可以看成b个c维的Global Descriptor,即Double Attention的思想 𝑋𝐾[ 𝑋𝑄 𝑇𝑋𝑉]: 𝑠 × 𝑏 ∗𝑏 × 𝑐=𝑠 × 𝑐

X: feature maps as a matrix of size s × c K, Q:c × 𝑏 matrice Left Associativity S= 𝑋𝐾 𝑋𝑄 𝑇 𝑋𝑉 𝑋𝐾 𝑋𝑄 𝑇 : 𝑠 × 𝑏 ∗𝑏 × 𝑠=𝑠 × 𝑠, 可以看成所有spatial location之间的相似度,即Non-local的思想 𝑋𝐾 𝑋𝑄 𝑇 𝑋𝑉: 𝑠 × 𝑠 ∗𝑠 × 𝑐=𝑠 × 𝑐 Complexity: 𝑠 × 𝑏 × 𝑠+𝑠 × 𝑠 × 𝑐= 𝑠 2 (𝑏+𝑐) Right Associativity S=𝑋𝐾[ 𝑋𝑄 𝑇𝑋𝑉] [ 𝑋𝑄 𝑇𝑋𝑉]: b × 𝑠 ∗𝑠 × 𝑐=𝑏 × 𝑐, 可以看成b个c维的Global Descriptor,即Double Attention的思想 𝑋𝐾[ 𝑋𝑄 𝑇𝑋𝑉]: 𝑠 × 𝑏 ∗𝑏 × 𝑐=𝑠 × 𝑐 Complexity: 𝑏 × 𝑠 × 𝑐+𝑠 × 𝑏 × 𝑐=𝑠2𝑏𝑐

Framework

Experiments

Comparison with Non-local

Criss-cross attention module H x W x C2 (H+W-1) x H x W H x W x C1 H x W x C2 H x W x C1

Criss-cross attention module 𝑸 𝒖 : C2 x 1 H x W x C2 (H+W-1) x H x W H x W x C1 H x W x C2 H x W x C1

Criss-cross attention module 𝑸 𝒖 : C2 x 1 H x W x C2 (H+W-1) x H x W H x W x C1 H x W x C2 𝛀 𝒖 : (H+W-1) x C2 H x W x C1

Criss-cross attention module 𝑸 𝒖 : C2 x 1 H x W x C2 (H+W-1) x H x W H x W x C1 H x W x C1 H x W x C2 𝛀 𝒖 : (H+W-1) x C2 H x W x C1 H x W x C1 𝚽 𝒖 : (H+W-1) x C1

Why 2 loops

Experiments

评价 直接使用Non-local(或者包装一下再使用),相对创新度不是很高,但是精度刷上去或许也可以 分析并降低Non-local的复杂度,从另一个方向理解计算图,比较有insight