关于CNN图像分类的一份综合设计指南

2018 年 5 月 15 日 云栖社区 云栖社区

云栖君导读： 本文是一篇关于使用CNN完成图像分类的综合设计指南，涵盖了一些模型设计、模型优化以及数据处理经验，是一份适合图像分类方向研究者参考的综合设计指南。

对于计算机视觉任务而言，图像分类是其中的主要任务之一，比如图像识别、目标检测等，这些任务都涉及到图像分类。而卷积神经网络（CNN）是计算机视觉任务中应用最为广泛且最为成功的网络之一。大多数深度学习研究者首先从CNN入门，上手的第一个项目应该是手写体MNIST数字图像识别，通过该项目能够大致掌握图像分类的基本操作流程，但由于该项目太成熟，按步骤操作一遍可能只知其然而不知其所以然。所以，当遇到其它图像分类任务时，研究者可能不知道如何开始，或者不知道选取怎样的预训练网络模型、或者不知道对已有的成熟模型进行怎样的调整、模型的层数怎样设计、如何提升精度等，这些问题都是会在选择使用卷积神经模型完成图像分类任务时应该考虑的问题。

当选择使用CNN进行图像分类任务时，需要优化3个主要指标：精度、仿真速度以及内存消耗。这些性能指标与设计的模型息息相关。不同的网络会对这些性能指标进行权衡，比如VGG、Inception以及ResNets等。常见的做法是对这些成熟的模型框架进行微调、比如通过增删一些层、使用扩展的其它层以及一些不同的网络训练技巧等完成相应的图像分类任务。

本文是关于使用CNN进行图像分类任务的优化设计指南，方便读者快速掌握图像分类模型设计中所遇到的问题及经验。全文集中在精度、速度和内存消耗这三个性能指标进行扩展，介绍不同的CNN分类方法，并探讨这些方法在这三个性能指标上的表现。此外，还可以看到对这些成熟的CNN方法进行各种修改以及修改后的性能表现。最后，将学习如何针对特定的图像分类任务优化设计一个CNN网络模型。

网络类型

网络类型和性能指标之间有一个非常明显的权衡现象。首先肯定会选择Inception或ResNet网络类型的模型，因为这两个网络比VGG和AlexNet模型更新，只是在精度和仿真速度两个指标之间进行了权衡，如果想要精度，选择ResNet网络是个不错的开端，如果想要仿真速度快，那就选择Inception网络。

用智能卷积设计减少运行时间和内存消耗

CNN总体设计的最新进展已经有一些令人惊叹的替代方案，在不损失太多精度的前提下，可以加快CNN仿真运行的时间并减少内存消耗。以下所有的这些都可以很容易地集成到上述CNN成熟模型之中：

MobileNets：使用深度可分离卷积技术，在仅牺牲1%~5%的精度的条件下，极大地减少了计算量和内存消耗量，精度的降低程度与计算量和内存消耗量的下降成正比。
XNOR-Net：使用二进制卷积，即卷积核只有两种取值：-1或1。通过这种设计使得网络具有很高的稀疏性，因此可以很容易地压缩网络参数而不会占用太多内存。
ShuffleNet：使用逐点群卷积（pointwise group convolution）和信道重排（channel shuffle）大大降低计算成本，同时网络模型的精度要优于MobileNets。
Network Pruning（网络剪枝）：去除CNN模型的部分结构以减少仿真运行时间和内存消耗，但也会降低精度。为了保持精度，去除的部分结构最好是对最终结果没有多大的影响。

网络深度

对于CNN而言，有一些常用的方法是增加通道数以及深度来增加精度，但是会牺牲仿真运行速度和内存。然而，需要注意的是，层数增加对精度的提升的效果是递减的，即添加的层越多，后续添加的层对精度的提升效果越小，甚至会出现过拟合现象。

激活函数

对于神经网络模型而言，激活函数是必不可少的。传统的激活函数，比如Softmax、Tanh等函数已不适用于CNN模型，有相关的研究者提出了一些新的激活函数，比如Hinton提出的ReLU激活函数，使用ReLU激活函数通常会得到一些好的结果，而不需要像使用ELU、PReLU或LeakyReLU函数那样进行繁琐的参数调整。一旦确定使用ReLU能够获得比较好的结果，那么可以优化网络的其它部分并调整参数以期待更好的精度。

卷积核大小

人们可能普遍认为使用较大的卷积核（比如5x5、7x7）总是会产生最高的精度，然而，并不总是这样。研究人员发现，使用较大的卷积核使得网络难以分离，最好的使用像3x3这样更小的内核，ResNet和VGGNet已经很好地证明了这一点。此外，也可以使用1x1这样的卷积核来减少特征图（Feature map）的数量。

空洞卷积

空洞卷积（Dilated Convolutions）使用权重之间的间距以便能够使用远离中心的像素，这种操作允许网络在不增加网络参数的前提下增大感受野，即不增加内存消耗。相关论文表明，使用空洞卷积可以增加网络精度，但也增加仿真运行消耗的时间。

数据扩充

深度学习依赖于大数据，使用更多的数据已被证明可以进一步提升模型的性能。随着扩充的处理，将会免费获得更多的数据，使用的扩充方法取决于具体任务，比如，你在做自动驾驶汽车任务，可能不会有倒置的树、汽车和建筑物，因此对图像进行竖直翻转是没有意义的，然而，当天气变化和整个场景变化时，对图像进行光线变化和水平翻转是有意义的。这有一个很棒的数据扩充库。

训练优化

当对网络训练过程优化时，有几种优化算法可供选择。常用的算法是随机梯度下降算法（SGD），但该算法需要调整学习率等参数，这一过程略显乏味；另外使用自适应学习率梯度下降算法，比如Adam、Adagrad或Adadelta算法，是比较容易实现的，但是可能无法获得最佳的梯度下降算法精度。

最好的办法是遵循和激活函数类似的处理方式，先用简单的训练方法来看看设计的模型是否工作得很好，然后用更复杂的方式进行调整和优化。个人推荐从Adam开始，该方法使用起来非常容易：只需要设定一个不太高的学习率，通常默认设置为0.0001，这样一般会得到非常好的效果，之后可以使用SGD算法进行微调。

类别平衡

在很多情况下，可能会遇到数据不平衡问题。数据不平衡是什么意思呢？举一个简单的例子：假设你正在训练一个网络模型，该模型用来预测视频中是否有人持有致命武器。但是训练数据中只有50个持有武器的视频，而有1000个没有持有武器的视频。如果使用这个数据集完成训练的话，模型肯定倾向于预测视频中没有持有武器。

针对这个问题，可以做一些事情来解决：

在损失函数中使用权重：对数据量小的类别在损失函数中添加更高的权重，使得对于该特定类别的任何未正确分类将导致损失函数输出非常高的错误。

过采样：重复包含代表性不足类别的一些训练实例有助于提升模型精度。

欠采样：对数据量大的类别进行采样，降低二者的不平衡程度。

数据扩充：对数据量小的类别进行扩充。

优化迁移学习

对于大多数数据而言，一般的做法是使用迁移学习，而不是从头开始训练网络模型。迁移学习就是基于一些成熟的模型，使用其部分网络结构参数，只训练一些新的网络部件。在这个过程中遇到的问题是，选择什么样的模型进行迁移学习，保留哪些网络层、哪些网络部件需要重新训练，这都取决于你的数据集是什么样子。如果你的数据与预训练的网络（网络一般是通过ImageNet数据集训练）更相似，那么需要重新训练的网络部件也越少，反之亦然。例如，假设正在尝试区一个图像是否包含葡萄，那么数据集是由包含葡萄的图像与不包含图像组成，这些图像与ImageNet中的图像非常相似，所以只需要重新训练选取的模型最后几层，也许只是训练最后的全连接层，因为ImageNet是区分1000类，而本次任务只区分两类——图像中包不包含葡萄，所以只需更改最后的全连接层参数。又假设正在尝试分类外太空图像中是否包含行星，这类的数据与ImageNet的数据集有很大的不同，因此需要重新训练模型后面的卷积层。