深度卷积神经网络(CNNs)在图像处理中取得了显著的效果。然而,他们的高表达能力有过度适应的风险。因此,提出了在丰富数据集的同时防止过度拟合的数据增强技术。最新的CNN体系结构具有更多的参数,使得传统的数据增强技术显得不足。
导读
引言
深层卷积神经网络(CNNs)以其众多的参数和丰富的表达能力在图像分类和图像处理领域取得了显著的成果。最近的一项研究表明,CNNs的性能与训练样本的数量成对数关系。相反,如果没有足够的训练样本,具有许多参数的CNN就会有过拟合的风险,因为它们会记住训练图像的细节特征,而这些特征不能被概括。由于收集大量样本成本高得令人望而却步,因此数据增强方法已被普遍采用。
数据增强通过多种方式增加图像的多样性,例如翻转、调整大小和随机裁剪。颜色抖动改变了亮度、对比度和饱和度,使用主成分分析(PCA)对RGB通道进行颜色转换交替。Dropout是一种常用的数据增强技术,它通过降低像素向图像中注入噪声。与传统的数据增强技术不同,数据丢失会干扰和掩盖原始图像的特征。最近的许多研究提出了新的CNN结构,它具有更多的参数,而上述传统的数据增强技术已经变得不足。
相关技术及工作
Data Augmentation
数据增强增加了训练样本的多样性,防止了过拟合。深层CNN,AlexNet,使用随机剪切和水平翻转对CIFAR数据集进行评估。通过改变图像中的表面特征,随机剪切可以防止CNN过拟合到特定的特征。水平翻转使具有特定方向的图像中的变化加倍,例如飞机的侧视。AlexNet还对一组RGB值执行主成分分析(PCA),以改变RGB通道的容量,以便在ImageNet数据集上进行评估。他们在每幅图像中添加了发现的主成分的倍数。这种颜色翻译对于五颜六色的物体很有用,比如花。FacebookAI研究使用了另一种名为颜色抖动的颜色转换方法,用于重新实现。(https://github.com/facebook/fb.resnet.torch)上提供的ResNet颜色抖动会改变图像的亮度、对比度和饱和度,而不是RGB通道。
这些传统的数据增强技术在深层神经网络的训练中起着重要的作用。然而,随着许多研究提出新的网络结构,参数的数量在不断增加,而且过拟合的风险也在不断增加。因此,数据增强技术引起了人们的进一步关注。
Label Smoothing
在分类任务中,类标签通常表示为0和1的概率,深层CNN通常使用Softmax函数,它从不预测0和1的精确概率,因此,深层CNN继续学习越来越大的权重参数,并产生不公正的高置信度。标签平滑将类概率设置为中间值,如0.9和0.8。它防止了对估计类的hard 0和1概率的无止境追求,并使权重参数能够收敛到某些值,而不影响正确的分类。将混合图像的类标签与λ:1−λ混合,对标签平滑有相似的贡献。
新框架方法
今天分享的文献中,提出了一种新的数据增强技术,称为随机图像剪切与修补(RICAP),用于深层卷积神经网络(CNN)。对RICAP的概念解释如下图所示。它包括三个数据操作步骤。首先,从训练集中随机选取四幅图像。第二,图像分别裁剪。第三,对裁剪后的图像进行修补以创建新的图像。尽管这一简单的程序,RICAP大幅度增加了图像的多样性,并防止了深度CNN具有许多参数的过拟合。四幅图像的类标签与图像面积成正比。这种标签混合工作在标签平滑,并防止无止境地追求hard 0和1的概率在深CNN使用Softmax函数。
更具体的实现说明如下图所示:
从训练集中随机选择了四个图像k∈{1,2,3,4},并在左上角、右上角、左下角和右下角区域对它们进行了修补。Ix和Iy分别表示原始训练图像的宽度和高度。(w,h)是给出每幅裁剪图像的大小和位置的边界位置。从Beta分布中选择每个训练步骤中的边界位置(w,h),如下所示。
Concept of RICAP
RICAP与裁剪、混淆和标签平滑共享概念,并有可能克服它们的缺点。剪裁掩盖了图像的一个子区域,而RICAP产生了一个图像的子区域。在每个训练步骤中,两者都会改变图像的明显特征。然而,遮掩只会减少每个样本中可用特征的数量。相反,提出的RICAP补丁图像,因此修补图像的整个区域产生了有助于培训的特性。
实验
TEST ERROR RATES ON CIFAR-10
源码
测试结果:
如果想加入我们“计算机视觉战队”,请扫二维码加入学习群。计算机视觉战队主要涉及机器学习、深度学习等领域,由来自于各校的硕博研究生组成的团队,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。
我们开创一段时间的“计算机视觉协会”知识星球,也得到很多同学的认可,我们定时会推送实践型内容与大家分享,在星球里的同学可以随时提问,随时提需求,我们都会及时给予回复及给出对应的答复。