第三节深度学习导引.

第三节深度学习导引

神经网络的基本结构

神经网络的大量参数

神经网络的表现能力

卷积神经网络

卷积神经网络卷积层的作用

卷积神经网络

卷积神经网络池化层的作用

卷积神经网络

卷积神经网络激活函数

卷积神经网络

卷积神经网络 Softmax层的作用

卷积神经网络

卷积神经网络网络的预处理

卷积神经网络的实例 Alexnet

卷积神经网络的实例 VGG16 使用多个较小的卷积核代替较大的卷积减少参数增加非线性拟合能力

卷积神经网络的实例 Inception-GoogleNet
采用不同大小的卷积核意味着不同大小的感受野，最后拼接意味着不同尺度特征的融合减少参数。网络越到后面，特征越抽象，而且每个特征所涉及的感受野也更大了，因此随着层数的增加，3x3和5x5卷积的比例也要增加。

卷积神经网络的实例 Skip-connection - ResNet 网络越深，梯度消失的现象就越来越明显，网络的训练效果也不会很好。

卷积神经网络的实例 Skip-connection - ResNet 网络越深，梯度消失的现象就越来越明显，网络的训练效果也不会很好。
残差网络可以理解成由多种路径组合的一个网络，是很多并行子网络的组合。整个残差网络其实相当于一个多人投票系统（Ensemble System）。

卷积神经网络的实例 FCN网络

卷积神经网络的实例 R-CNN网络对于输入图片，运用Selective Search 提取大约2000 个候选区域；
对这些候选区域分别用预训练的AlexNet 或VGG16 模型提取特征；将提取到的特征输入SVM 分类器进行分类和边框回归。但是为什么CNN需要固定的输入呢？CNN网络可以分解为卷积网络部分以及全连接网络部分。我们知道卷积网络的参数主要是卷积核，完全能够适用任意大小的输入，并且能够产生任意大小的输出。但是全连接层部分不同，全连接层部分的参数是神经元对于所有输入的连接权重，也就是说输入尺寸不固定的话，全连接层参数的个数都不能固定。

卷积神经网络的实例 SPP-Net 对于输入图片，运用Selective Search 提取大约2000 个候选区域；
对这些候选区域分别用预训练的AlexNet 或VGG16 模型提取特征；何凯明团队的SPPNet给出的解决方案是，既然只有全连接层需要固定的输入，那么我们在全连接层前加入一个网络层，让他对任意的输入产生固定的输出不就好了吗？一种常见的想法是对于最后一层卷积层的输出pooling一下，但是这个pooling窗口的尺寸及步伐设置为相对值，也就是输出尺寸的一个比例值，这样对于任意输入经过这层后都能得到一个固定的输出。同时结合了多尺度的思想。通过上述方法虽然解决了CNN输入任意大小图片的问题，但是还是需要重复为每个region proposal提取特征啊，能不能我们直接根据region proposal定位到他在卷积层特征的位置，然后直接对于这部分特征处理呢？答案是肯定的，我们将在下一章节介绍。

卷积神经网络的实例 Fast R-CNN网络 End to End，用softmax层取代了SVM分类器
多任务学习框架，同时完成bounding box边界回归任务和分类任务我们可以看出Fast RCNN的区别所在，首先是将SPP换成了ROI Poling。ROI Poling可以看作是空间金字塔池化的简化版本，它通过将区域候选对应的卷积层特征还分为H*W个块，然后在每个块上进行最大池化就好了。每个块的划分也简单粗暴，直接使用卷积特征尺寸除块的数目就可以了。空间金字塔池化的特征是多尺寸的，而ROI Pooling是单一尺度的。

卷积神经网络的实例 Faster R-CNN网络 RPN + Fast R-CNN 两个任务共享网络前端的部分卷积层来进行特征提取
“锚点”机制（anchor 机制） RPN 在最后一层共享卷积层上用3 3 的卷积核来卷积特征图，在每个位置，以卷积核的中心为中心，在原图上预测9 种不同的参照框，这种映射机制被称为“锚点”机制（anchor 机制）。预测的9 种参照框由3 种不同的高度（128，256，512）和3 种不同的宽高比（1:1，1:2，2:1）产生。在此之后，再对每个anchor 进行分类和边框位置回归，对于的特征图，大约可产生20000 多个候选区域，然后对这些候选区域进行非极大值抑制（Non Maximum Suppression，NMS）来减少冗余窗口，即可得到质量比较高的候选区域。 Faster R-CNN 将候选区域的选择、特征提取、分类器分类和边框回归都整合到了一个框架中，是一个真正意义上的端到端的深度学习目标检测框架。

卷积神经网络的实例 FPN网络特征金字塔结构高层feature叠加到多个featureMap上进行预测
低层的思想，Top-Down and Bottom-Up 图（a）是对图像做金字塔处理，在每个金字塔图像上提取特征、进行predict；图（b）是对图像进行CNN处理，featureMap尺度不断变小，在最后一个featureMap上进行predict；图（c）是对图像进行CNN处理，featureMap尺度不断变小，在多个featureMap进行predict；图（d）就是本文提出的结构，除了在多个featureMap上进行predict之位，每一个进行预测的featureMap还加入了高层的信息

卷积神经网络的实例 Mask R-CNN网络 FPN + Res-Net，检测+分割
RoIAlign 层的加入，对 feature map 的插值 softmax的多项式交叉熵替换成sigmod二值交叉熵

卷积神经网络的训练方法

卷积神经网络的训练方法 SGD方法的一个缺点是，其更新方向完全依赖于当前的batch，因而其更新十分不稳定。解决这一问题的一个简单的做法便是引入momentum。 momentum即动量，它模拟的是物体运动时的惯性，即更新的时候在一定程度上保留之前更新的方向，同时利用当前batch的梯度微调最终的更新方向。这样一来，可以在一定程度上增加稳定性，从而学习地更快，并且还有一定摆脱局部最优的能力：

卷积神经网络的训练方法上面提到的方法对于所有参数都使用了同一个更新速率。但是同一个更新速率不一定适合所有参数。比如有的参数可能已经到了仅需要微调的阶段，但又有些参数由于对应样本少等原因，还需要较大幅度的调动。 Adagrad就是针对这一问题提出的，自适应地为各个参数分配不同学习率的算法。其含义是，对于每个参数，随着其更新的总距离增多，其学习速率也随之变慢。 Adagrad算法存在三个问题：1其学习率是单调递减的，训练后期学习率非常小；2其需要手工设置一个全局的初始学习率；3更新xt时，左右两边的单位不统一 Adadelta针对上述三个问题提出了比较漂亮的解决方案。首先，针对第一个问题，只使用adagrad的分母中的累计项离当前时间点比较近的项。

第三节深度学习导引.

Similar presentations

Presentation on theme: "第三节深度学习导引."— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

第三节 深度学习导引.

Similar presentations

Presentation on theme: "第三节 深度学习导引."— Presentation transcript:

Similar presentations

About project

反馈

第三节深度学习导引.

Presentation on theme: "第三节深度学习导引."— Presentation transcript: