之前都是分类的蒸馏很简单。然后从分类到分割也是一样,下一篇是检测的蒸馏

Slides:



Advertisements
Similar presentations
Unit 4 Finding your way Integrated skills New words and phrases: past prep. 在另一边,到另一侧 treasure n. 宝藏 turning n. 转弯处 traffic n. 交通,来往车辆 traffic lights.
Advertisements

高考短文改错专题 张柱平. 高考短文改错专题 一. 对短文改错的要求 高考短文改错的目的在于测试考生判断发现, 纠正语篇中 语言使用错误的能力, 以及考察考生在语篇中综合运用英 语知识的能力. 二. 高考短文改错的命题特点 高考短文改错题的形式有说明文. 短文故事. 书信等, 具有很 强的实用性.
期末考试作文讲解 % 的同学赞成住校 30% 的学生反对住校 1. 有利于培养我们良好的学 习和生活习惯; 1. 学生住校不利于了解外 界信息; 2 可与老师及同学充分交流有 利于共同进步。 2. 和家人交流少。 在寄宿制高中,大部分学生住校,但仍有一部分学生选 择走读。你校就就此开展了一次问卷调查,主题为.
2015年6月论文头脑风暴 大连理工大学 郭君
Have you ever been to a zoo? zoo water park Have you ever been to a water park?
Ensite系统指导下复杂心律失常的射频消融治疗
刘立明 江南大学生物工程学院环境生物技术室
国学传统与企业文化建设 刘大洋 博士.
社區可持續發展工作室﹕ 婦女與青少年推動社區可持續發展計劃 可持續發展基金資助 香港婦女中心協會.
十五條佛規 後學:張慈幸
完形填空技巧 CET4.
英语语法之 复合句 讲课者:苏建玉.
2014学年第一学期 徐汇区高中物理工作安排 3/19/2017 7:13 AM
贵阳医学院神奇民族医药学院 社会科学部 谭宗扬
98學年第一學期分類通識課程 賴美惠老師 易經與生活.
1. 理想的路由算法 有关路由选择协议的几个基本概念 算法必须是正确的和完整的。 算法在计算上应简单。
决胜四六级 北京新东方学校 赵建昆.
Chaoping Li, Zhejiang University
發展學校評估政策 的理念與原則 教育局課程發展處 幼稚園及小學組 2009年11月11日
Semantic-Synaptic Web Mining: A Novel Model for Improving the Web Mining 報告者:陳宜樺 報告日期:2015/9/25.
Module 5.
Some Effective Techniques for Naive Bayes Text Classification
Improving classification models with taxonomy information
Population proportion and sample proportion
毕业论文报告 孙悦明
Manifold Learning Kai Yang
Source: IEEE Access, vol. 5, pp , October 2017
Mechanisms and Machine Theory.
Word-Entity Duet Representations for Document Ranking
Lesson 10.
增强型MR可解决 临床放射成像的 多供应商互操作性问题
2012清大電資院學士班 「頂尖企業暑期實習」 經驗分享心得報告 實習企業:工業技術研究院 電光所 實習學生:電資院學士班  呂軒豪.
A Study on the Next Generation Automatic Speech Recognition -- Phase 2
仁爱版9年级上 Unit 4 Topic 1 Section B. 仁爱版9年级上 Unit 4 Topic 1 Section B.
Network Design in the Supply Chain (Part1)
第十五课:在医院看病.
句子成分的省略(1).
GRANT UNION HIGH SCHOOL
(III-Se) and IIISe/Graphene heterostructure Photodetectors
Version Control System Based DSNs
Sensor Networks: Applications and Services
高性能计算与天文技术联合实验室 智能与计算学部 天津大学
第三节 深度学习导引.
中央社新聞— <LTTC:台灣學生英語聽說提升 讀寫相對下降>
Cisco Troubleshooting and Maintaining Cisco IP Networks (TSHOOT)
電子發票政策說明及效益分析 財政部財政資訊中心 科長 劉醇錕 103年11月10日.
Review and Analysis of the Usage of Degree Adverbs
在日益由消费者驱动的中国汽车市场上展开竞争
第五章 多媒体教学软件开发技术 多媒体教学软件的开发流程 第二单 元.
中美图书馆之间合作的过去、现在和未来 Sino-U. S
Unit 5 First aid Warming up 《和你一样》 中国红十字会宣传曲 高二年级 缪娜.
第十二單元: Problems for acquaintance theories 親知理論的困難 梁益堉 教授
An Efficient MSB Prediction-based Method for High-capacity Reversible Data Hiding in Encrypted Images 基于有效MSB预测的加密图像大容量可逆数据隐藏方法。 本文目的: 做到既有较高的藏量(1bpp),
Outline Overview of this paper Motivation and Initialization
核心能力 Core competence 什麼是核心能力? 2 如何訂定核心能力? 3 實例:亞利桑那大學 4 應考慮的關鍵問題 5
陕西丹凤中学 靳庆军 Shaanxi Danfeng Middle School Jin Qingjun
Efficient Query Relaxation for Complex Relationship Search on Graph Data 李舒馨
名词从句(2).
Introduction of this course
創造思考的開發與培養.
More About Auto-encoder
Speaker : YI-CHENG HUNG
Chapter 9 Validation Prof. Dehan Luo
Hospitality English 酒店商务英语 讲师:罗云利 工商与公共管理学院.
句子成分的省略(3).
HRNet 保持高分辨率 不同分辨率之间进行信息交换(exchange) Exchange Unit HRNet Exchange Block.
Principle and application of optical information technology
以分为镜知对错 以卷为鉴晓得失 —邯郸市一模得与失
Rlj
國際理事的角色 講師: 年指派理事 G L T 地 區 領 導 人 江達隆 博士.
Presentation transcript:

之前都是分类的蒸馏很简单。然后从分类到分割也是一样,下一篇是检测的蒸馏

Motivation Semantic segmentation is a structured prediction problem Pixel-level distillation is straightforward. But structured distillation schemes should be introduced.

Contributions We study the knowledge distillation strategy for training accurate compact semantic segmentation networks. First? We present two structured knowledge distillation schemes, pair-wise distillation and holistic distillation, enforcing pair-wise and high- order consistency between the outputs of the compact and cumbersome segmentation networks. We demonstrate the effectiveness of our approach by improving recently-developed state-of-the-art compact segmentation networks, ESPNet, MobileNetV2-Plus and ResNet18 on three benchmark datasets:Cityscape, CamVid and ADE20K

Approach

Pixel-wise distillation 每个位置点都是一个C维的向量

Pair-wise distillation Motivation: spatial labeling contiguity.

Holistic distillation Conditional WGAN Real:score map produced by teacher network Fake: score map produced by student network Condition: Image

Experiment Cityscapes dataset.

Experiment

Experiment

Motivation Detectors care more about local near object regions. The discrepancy of feature response on the near object anchor locations reveals important information of how teacher model tends to generalize. 与分类不同,蒸馏方法在检测中如果进行全特征模拟的话对子网络的提升很有限(这里存疑,文章没有明确指出全特征包含哪些特征层)。这可能是由于过多的无用背景anchor引入的噪音覆盖了来自teacher net的监督信息。文章认为检测器会关注目标区域以及其周边的位置,目标区域上的不同positive anchor之间的差异表现的就是teacher net对于检测目标的泛化特点。

Motivation

Framework

Imitation region estimation 计算每一个GT box和该特征层上WxHxK个anchor的IOU得到IOU map m 找出最大值M=max(m),乘以rψ作为过滤anchor的阈值:​​ F = ψ ∗ M. 将大于F的anchor合并用OR操作得到WxH的feature map mask 遍历所有的gt box并合并获得最后总的mask 将需要模拟的student net feature map之后添加feature adaption层使其 和teacher net的feature map大小保持一致。 加入mask信息得到这些anchor在student net中和在teacher net 中时的偏 差作为imitation loss,加入到蒸馏的训练的loss中,形式如下: When ψ = 0, the generated mask includes all locations on the feature map while no locations are kept when ψ = 1. We can get varied imitation mask by varying ψ. In all experiments, a constant ψ = 0.5 is used

Fine-grained feature imitation 1) The student feature’s channel number may not be compatible with teacher model. The added layer can align the former to the later for calculating distance metric. 2) We find even when student and teacher have compatible features, forcing student to approximate teacher feature directly leads to minor gains compared to the adapted counterpart. self.stu_feature_adap = nn.Sequential(nn.Conv2d(512, 512, kernel_size=3, padding=1), nn.ReLU()) Here I is the imitation mask

Experiment 使用全特征模拟(hint learning:teacher net和student net的feature map大小不一致)(F)的精度甚至不如直接拿student net训练的结果,说明全特征包含的太多背景anchor用于监督训练引入噪声太大 使用gt box作为监督信号 (G)说明可以显著降低全特征学习的噪声问题,但是效果不如加入positive anchor的方法(I)也说明了gt box周围包含的信息也是teachnet用于定位的重要依据。 单纯蒸馏loss(首先使用adaption层将student net 和teacher net的大小整成一致) (D)提升的精度很少(mAP 0.9%),说明直接移植分类的蒸馏方式在检测中是不合适的。 同时使用蒸馏loss和imitation loss的效果(ID)比单纯使用imitation loss还要差,说明高层级的特征模拟和蒸馏关注的东西是不一致的。

Visualization of imitation mask

Experiment

Supplementary materials 如上图,之所以有Wr是因为teacher network的层输出与小网络的往往是不一样的,因此需要这样一个mapping来匹配,并且这个mapping也是需要学习的。paper中提到说用多加一个conv层的方法比较节省参数(其实也比较符合逻辑),然后这个conv层不加padding,不stride。下面是一个公式表述: