数据增强方法 | 基于随机图像裁剪和修补的方式（文末源码共享）

2020 年 1 月 3 日 计算机视觉战队

深度卷积神经网络(CNNs)在图像处理中取得了显著的效果。然而，他们的高表达能力有过度适应的风险。因此，提出了在丰富数据集的同时防止过度拟合的数据增强技术。最新的CNN体系结构具有更多的参数，使得传统的数据增强技术显得不足。

导读

由于最近流行的CNN结构都具有更多的参数，使得老早之前传统的数据增强技术显得微不足道。

今天分享的文献中，提出了一种新的数据增强技术，称为随机图像裁剪和修补( RICAP )，它随机地对四幅图像进行裁剪，并对它们进行修补，以生成新的训练图像。此外，RICAP混合了四幅图像的类标签，从而产生了类似于标签平滑的优势。

最后作者用当前最先进的CNN(例如， shake-shake regularization model )对RICA P进行了评估，并与竞争的数据增强技术(如切分和混淆)进行了比较。 RICAP在CIFAR-10上实现了2.19%的最新测试误差，最后还证实，使用CIFAR-100和ImageNet以及使用Microsoft CoCO的图像标题检索任务，使用RICAP的深层CNN在分类任务上取得了更好的效果。

点击查看源网页

引言

深层卷积神经网络(CNNs)以其众多的参数和丰富的表达能力在图像分类和图像处理领域取得了显著的成果。最近的一项研究表明，CNNs的性能与训练样本的数量成对数关系。相反，如果没有足够的训练样本，具有许多参数的CNN就会有过拟合的风险，因为它们会记住训练图像的细节特征，而这些特征不能被概括。由于收集大量样本成本高得令人望而却步，因此数据增强方法已被普遍采用。

数据增强通过多种方式增加图像的多样性，例如翻转、调整大小和随机裁剪。颜色抖动改变了亮度、对比度和饱和度，使用主成分分析(PCA)对RGB通道进行颜色转换交替。Dropout是一种常用的数据增强技术，它通过降低像素向图像中注入噪声。与传统的数据增强技术不同，数据丢失会干扰和掩盖原始图像的特征。最近的许多研究提出了新的CNN结构，它具有更多的参数，而上述传统的数据增强技术已经变得不足。

因此，新的数据增强技术已引起越来越多的关注。在每个训练步骤中，裁剪在图像中随机隐藏一个方形区域，从而改变明显的特征。CutOut 是Dropout的延伸，可以实现更好的性能。随机擦除也掩盖了一个分区域的图像，如cutout。与裁剪不同，它随机决定是否掩蔽一个区域，以及掩蔽区域的大小和高宽比。混合

alpha-blends 两幅图像形成一个新的图像，正则化CNN以利于在训练图像之间的简单线性行为。除了图像种类的增加之外，Mixup的行为类似于类标签平滑，因为它将两个图像的类标签与λ： 1−λ混合。这些新的数据增强技术已经应用于现代的深层CNN，并打破了记录，证明了数据增强的重要性。

相关技术及工作

Data Augmentation

数据增强增加了训练样本的多样性，防止了过拟合。深层CNN，AlexNet，使用随机剪切和水平翻转对CIFAR数据集进行评估。通过改变图像中的表面特征，随机剪切可以防止CNN过拟合到特定的特征。水平翻转使具有特定方向的图像中的变化加倍，例如飞机的侧视。AlexNet还对一组RGB值执行主成分分析(PCA)，以改变RGB通道的容量，以便在ImageNet数据集上进行评估。他们在每幅图像中添加了发现的主成分的倍数。这种颜色翻译对于五颜六色的物体很有用，比如花。FacebookAI研究使用了另一种名为颜色抖动的颜色转换方法，用于重新实现。（https://github.com/facebook/fb.resnet.torch）上提供的ResNet颜色抖动会改变图像的亮度、对比度和饱和度，而不是RGB通道。

这些传统的数据增强技术在深层神经网络的训练中起着重要的作用。然而，随着许多研究提出新的网络结构，参数的数量在不断增加，而且过拟合的风险也在不断增加。因此，数据增强技术引起了人们的进一步关注。

Label Smoothing

在分类任务中，类标签通常表示为0和1的概率，深层CNN通常使用Softmax函数，它从不预测0和1的精确概率，因此，深层CNN继续学习越来越大的权重参数，并产生不公正的高置信度。标签平滑将类概率设置为中间值，如0.9和0.8。它防止了对估计类的hard 0和1概率的无止境追求，并使权重参数能够收敛到某些值，而不影响正确的分类。将混合图像的类标签与λ：1−λ混合，对标签平滑有相似的贡献。

新框架方法

今天分享的文献中，提出了一种新的数据增强技术，称为随机图像剪切与修补(RICAP)，用于深层卷积神经网络(CNN)。对RICAP的概念解释如下图所示。它包括三个数据操作步骤。首先，从训练集中随机选取四幅图像。第二，图像分别裁剪。第三，对裁剪后的图像进行修补以创建新的图像。尽管这一简单的程序，RICAP大幅度增加了图像的多样性，并防止了深度CNN具有许多参数的过拟合。四幅图像的类标签与图像面积成正比。这种标签混合工作在标签平滑，并防止无止境地追求hard 0和1的概率在深CNN使用Softmax函数。