Bi-weekly Report on Neural Networks Compression

Slides:



Advertisements
Similar presentations
新目标初中英语 七年级下册. Unit 8 I’d like some noodles. Section B Period Two.
Advertisements

Which TV program is the video? 中国达人秀 China’s Got Talent 选秀节目 talent show talent n. 天资;天赋.
高考短文改错专题 张柱平. 高考短文改错专题 一. 对短文改错的要求 高考短文改错的目的在于测试考生判断发现, 纠正语篇中 语言使用错误的能力, 以及考察考生在语篇中综合运用英 语知识的能力. 二. 高考短文改错的命题特点 高考短文改错题的形式有说明文. 短文故事. 书信等, 具有很 强的实用性.
高考英语阅读分析 —— 七选五. 题型解读: 试题模式: 给出一篇缺少 5 个句子的文章, 对应有七个选项,要求同学们根据文章结构、 内容,选出正确的句子,填入相应的空白处。 考查重点: 主要考查考生对文章的整体内容 和结构以及上下文逻辑意义的理解和掌握。 (考试说明) 选项特点: 主旨概括句(文章整体内容)
期末考试作文讲解 % 的同学赞成住校 30% 的学生反对住校 1. 有利于培养我们良好的学 习和生活习惯; 1. 学生住校不利于了解外 界信息; 2 可与老师及同学充分交流有 利于共同进步。 2. 和家人交流少。 在寄宿制高中,大部分学生住校,但仍有一部分学生选 择走读。你校就就此开展了一次问卷调查,主题为.
2014 年上学期 湖南长郡卫星远程学校 制作 13 Getting news from the Internet.
Dr. Baokun Li 经济实验教学中心 商务数据挖掘中心
Unsupervised feature learning: autoencoders
校企融合—专业英语教学实践之探索 长春汽车工业高等专科学校 于丽 2016年5月6日.
基督教的生命觀 國立東華大學資訊管理學系 許芳銘.
专题八 书面表达.
資料採礦與商業智慧 第四章 類神經網路-Neural Net.
How can we become good leamers
自衛消防編組任務職責 講 義 This template can be used as a starter file for presenting training materials in a group setting. Sections Right-click on a slide to add.
English Writing Lecture 9
2012高考英语书面表达精品课件:话题作文6 计划与愿望.
-Artificial Neural Network- Hopfield Neural Network(HNN) 朝陽科技大學 資訊管理系 李麗華 教授.
摘要的开头: The passage mainly tells us sth.
Unit 7 Protect the Earth (Story time) 觅渡教育集团 王 珏 标题 课时 教师姓名 日期 1.
深層學習 暑期訓練 (2017).
Unit 4 I used to be afraid of the dark.
Paper Reading 2017/04/18 Yuan Xin.
Ⅱ、从方框里选择合适的单词填空,使句子完整通顺。 [ size beef special large yet ]
指導教授:許子衡 教授 報告學生:翁偉傑 Qiangyuan Yu , Geert Heijenk
教師的成長 與 教師專業能力理念架構 教育局 專業發展及培訓分部 TCF, how much you know about it?
Source: IEEE Access, vol. 5, pp , October 2017
Unit 8 Have you read Treasure Island yet?
Dì 十四kè 我家的 hòu biān 有一個很piàoliàng 的公園/ 我家的 hòu biān 有一个很piàoliàng 的公园
Course 9 NP Theory序論 An Introduction to the Theory of NP
Advanced Artificial Intelligence
Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V. Le, Mohammad Norouzi
Oxford English Module 3 Out and about 8 Visiting museums.
Lesson 44:Popular Sayings
Unit 1.
Hobbies II Objectives A. Greet a long time no see friend: Respond to the greeting: B. Ask the friend if he/she likes to on this weekend? She/he doesn’t.
A SMALL TRUTH TO MAKE LIFE 100%
IBM SWG Overall Introduction
VIDEO COMPRESSION & MPEG
高性能计算与天文技术联合实验室 智能与计算学部 天津大学
Maintaining Frequent Itemsets over High-Speed Data Streams
Research 裴澍炜 Shuwei Pei Tel:
Guide to a successful PowerPoint design – simple is best
Good Karma 善因緣 This is a nice reading, but short. Enjoy! This is what The Dalai Lama has to say for All it takes is a few seconds to read and think.
Good Karma 善業 原稿:牛Sir 配楽:懺悔經 捕頭恭製 按鍵換頁.
前向人工神经网络敏感性研究 曾晓勤 河海大学计算机及信息工程学院 2003年10月.
中国科学技术大学计算机系 陈香兰 2013Fall 第七讲 存储器管理 中国科学技术大学计算机系 陈香兰 2013Fall.
中央社新聞— <LTTC:台灣學生英語聽說提升 讀寫相對下降>
Cisco Troubleshooting and Maintaining Cisco IP Networks (TSHOOT)
高考应试作文写作训练 5. 正反观点对比.
Neural Networks: Learning
Good Karma 善因緣 This is a nice reading, but short. Enjoy! This is what The Dalai Lama has to say for All it takes is a few seconds to read and think.
Distance Vector vs Link State
李宏毅專題 Track A, B, C 的時間、地點開學前通知
Introduction of this course
Good Karma 善因緣 This is a nice reading, but short. Enjoy! This is what The Dalai Lama has to say for All it takes is a few seconds to read and think.
More About Auto-encoder
Speaker : YI-CHENG HUNG
Prepare for Cozy & Lazy HOME Life
Distance Vector vs Link State Routing Protocols
怎樣把同一評估 給與在不同班級的學生 How to administer the Same assessment to students from Different classes and groups.
Chapter 9 Validation Prof. Dehan Luo
Class imbalance in Classification
人工智慧&Scratch 林俞均 侯藹玲 陳芸儀 鄭涵庭
Sun-Star第六届全国青少年英语口语大赛 全国总决赛 2015年2月 北京
以分为镜知对错 以卷为鉴晓得失 —邯郸市一模得与失
之前都是分类的蒸馏很简单。然后从分类到分割也是一样,下一篇是检测的蒸馏
WiFi is a powerful sensing medium
Gaussian Process Ruohua Shi Meeting
Hybrid fractal zerotree wavelet image coding
Presentation transcript:

Bi-weekly Report on Neural Networks Compression 07.04-07.17 主要看的是压缩神经网络相关的论文 -Hang, Luo -CSLT, THU -2016.07.18

Content Introduction SVD Decomposition Tensor Decomposition Related work Experiments on kaldi Future work 非常简短的介绍一下神经网络压缩

Introduction What is compression ? Why need compression ? Reduce neural network memory with any kinds of approaches. Why need compression ? Memory and computationally intensive Parameters redundancy Large percent parameters in full-connected layer and many of them are redundancy. 在speech recognition中输出target很多时,最末层参数占50% 在CNN中全连接层占总参数90%

Introduction What can compression do? Memory saving. Speed up in test time, and in training time sometimes. Make deployment in mobile acceptable. Real-time work like self-driving car.

SVD Decomposition For full-connected layer, considering the hidden layer units is m and the output target is n. Then the weight matrix is m*n If we only consider k biggest singular value

SVD Decomposition According to SVD, the weight matrix can be represented by two matrix. Advantages: Original m*n parameters reduces to m*k + n*k Accelerates the matrix-vector multiplication time from O(m*n) to O(m*k+ n*k) Very suitable for low-rank matrix

Implementation of SVD Decomposition Approach 1 Using SVD after normal train and get the original weight matrix. Fine-tune then. Experiments 576 input features, 2048 hidden units,5 layers, 5976 output target. Using SVD on last layer. e.g Keep the biggest ¼ singular, then the parameter reduces from 2048*5976=12M to 2048*512+512*5976 =4M 如果每个参数是32bit 的float类型,节省32MB的空间

Implementation of SVD Decomposition Approach 2 Using SVD when training the network. Fine-tune Experiments 使用cross-entropy training and Hessian-Free Sequence training

Results Results Reduce the parameters by 30%-80% when using SVD to some layers. The compress rate depends on the rank r The accuracy nearly decrease after fine-tune Accelerate test time, while only approach 2 can accelerate train time 压缩比率比较大时,SVD出来的效果很差,但基本能fine-tune回来

Tensor Decomposition SVD Decomposition searches for a low-rank approximation of the weight matrix. Tensor Decomposition treat the matrix as a tensor, and apply the tensor decomposition algorithm. (e.g Tensor Train Decomposition) 现在用的比较多的是Tensor Train Decomposition

Traditional Tensor Decomposition Tucker decomposition For n-d tensor, Tucker-decomposition memory Not suitable when d is large CP-decomposition For n-d tensor, CP-decomposition memory O(ndr) NP hard Tucker分解类似于高维SVD CP分解为若干秩为1的张量

Tensor-Train Decomposition Tensor-Train format(TT-format) to represent the dense weight matrix of the fully-connected layers. For every matrix Gk[jk] , size is Gk[jk] is a three-dimensions array By restrict TT-rank, the parameter can be reduced, the memory is 约定r0=rd=1,所以相乘能保证是实数 以索引方式来写的话,那个其实是三维张量

Tensor-Train Decomposition Vector and matrix can transform to tensor. Y= W x + b Reduce memory and speed up. (TT-SVD)

Related work Dark knowledge Structured matrix Hashing tricks 2016 Best ICLR Paper 了解了compression的相关技术

Dark Knowledge Learn a small model from a cumbersome model , also called “distilling” Use the class probabilities produced by the cumbersome model as “soft target” for training the small model Ensemble / bad at test time

Dark Knowledge In softmax regression, the cost function is: While in Dark knowledge, we learn a soft target, replace the original hard target by this. Ensemble / bad at test time

Structured matrix Use circulant matrix to represent weight matrix, which can save memory and speed up with FFTs If C is a circulant matrix, then y=Cx can be computed in ‘FFT speed’ because Fn is a Fourer matrix, FnC is eigenvalue,Fn* is egienvector 一站式&icrm推词策略 推荐关键词,提升用户消费 优惠券相关工作 优惠促销,提升客户消费 流量折扣拍卖器 提供定向优质折扣流量,促进百度与客户双赢 客户企业群分布策略研究及其应用 利用工商大数据精准定位客户,指导销售

Circulant matrix 一站式&icrm推词策略 推荐关键词,提升用户消费 优惠券相关工作 优惠促销,提升客户消费 流量折扣拍卖器 提供定向优质折扣流量,促进百度与客户双赢 客户企业群分布策略研究及其应用 利用工商大数据精准定位客户,指导销售

Hashing tricks Use a hash function to share weights randomly. Weight sharing vs feature hashing

Hashing tricks Forward pass Gradient over parameters 一站式&icrm推词策略 推荐关键词,提升用户消费 优惠券相关工作 优惠促销,提升客户消费 流量折扣拍卖器 提供定向优质折扣流量,促进百度与客户双赢 客户企业群分布策略研究及其应用 利用工商大数据精准定位客户,指导销售

2016 ICLR Best Paper Hashing tricks determine weight sharing before the networks see any training data There is another way to determine after the network is fully trained. How to do it? K-means ! 一站式&icrm推词策略 推荐关键词,提升用户消费 优惠券相关工作 优惠促销,提升客户消费 流量折扣拍卖器 提供定向优质折扣流量,促进百度与客户双赢 客户企业群分布策略研究及其应用 利用工商大数据精准定位客户,指导销售

Weight sharing using K-means Partition n original weights into k clusters, the forward pass and gradient computations likes what hashing tricks do. 一站式&icrm推词策略 推荐关键词,提升用户消费 优惠券相关工作 优惠促销,提升客户消费 流量折扣拍卖器 提供定向优质折扣流量,促进百度与客户双赢 客户企业群分布策略研究及其应用 利用工商大数据精准定位客户,指导销售

Other tricks used in the paper Pruning Removing the weights below a threshold (Also can compress NN by remove weight randomly, there are papers about this approach) 一站式&icrm推词策略 推荐关键词,提升用户消费 优惠券相关工作 优惠促销,提升客户消费 流量折扣拍卖器 提供定向优质折扣流量,促进百度与客户双赢 客户企业群分布策略研究及其应用 利用工商大数据精准定位客户,指导销售

Huffman coding Huffman coding In AlexNet, the weights and the sparse matrix index are both biased, which is suitable for huffman coding. 一站式&icrm推词策略 推荐关键词,提升用户消费 优惠券相关工作 优惠促销,提升客户消费 流量折扣拍卖器 提供定向优质折扣流量,促进百度与客户双赢 客户企业群分布策略研究及其应用 利用工商大数据精准定位客户,指导销售

Results 一站式&icrm推词策略 推荐关键词,提升用户消费 优惠券相关工作 优惠促销,提升客户消费 流量折扣拍卖器 提供定向优质折扣流量,促进百度与客户双赢 客户企业群分布策略研究及其应用 利用工商大数据精准定位客户,指导销售

Experiments on kaldi Run the wsj example With the limit of memory, change the original 6 -layer network to 4-layer, use 1000 hidden units and ReLU function, the results are very close to the given results. 一站式&icrm推词策略 推荐关键词,提升用户消费 优惠券相关工作 优惠促销,提升客户消费 流量折扣拍卖器 提供定向优质折扣流量,促进百度与客户双赢 客户企业群分布策略研究及其应用 利用工商大数据精准定位客户,指导销售

Experiments on kaldi RUN TDNN3 TEST Original network WER 4-layer network WER Decode_bd_tgpr_dev93 7.19 7.24 Decode_bd_tgpr_eva192 3.93 4.38 Decode_tgpr_dev93 9.57 9.98 Decode_tgpr_eva192 6.86 6.73 一站式&icrm推词策略 推荐关键词,提升用户消费 优惠券相关工作 优惠促销,提升客户消费 流量折扣拍卖器 提供定向优质折扣流量,促进百度与客户双赢 客户企业群分布策略研究及其应用 利用工商大数据精准定位客户,指导销售

Keeping read papers about neural network compression Future Work Papers Experiments Background Keeping read papers about neural network compression 。 Exploring proper compression approach on ASR, by experiments on wsj, starting from SVD Study automatic speech recognition & deep learning systematically 一站式&icrm推词策略 推荐关键词,提升用户消费 优惠券相关工作 优惠促销,提升客户消费 流量折扣拍卖器 提供定向优质折扣流量,促进百度与客户双赢 客户企业群分布策略研究及其应用 利用工商大数据精准定位客户,指导销售

Thanks~

Structured matrix Structured matrix can save memory and speed up, suppose the weight matrix is a Toeplitz matrix, only need O(nlogn) time to do matrix-vector multiplication. 一站式&icrm推词策略 推荐关键词,提升用户消费 优惠券相关工作 优惠促销,提升客户消费 流量折扣拍卖器 提供定向优质折扣流量,促进百度与客户双赢 客户企业群分布策略研究及其应用 利用工商大数据精准定位客户,指导销售

Structured matrix Stein displacement M,A,B,L(M) are all n*n matrix Krylov Decomposition 一站式&icrm推词策略 推荐关键词,提升用户消费 优惠券相关工作 优惠促销,提升客户消费 流量折扣拍卖器 提供定向优质折扣流量,促进百度与客户双赢 客户企业群分布策略研究及其应用 利用工商大数据精准定位客户,指导销售