【学界】李沐等将目标检测绝对精度提升 4%,不牺牲推理速度

2019 年 2 月 15 日 GAN生成式对抗网络

来源:机器之心


天下没有免费的午餐?李沐等研究者在一份名为《Bag of Freebies for Training Object Detection Neural Networks》的论文中推翻了这一定理。他们在不牺牲推理速度的前提下将目标检测绝对精度提升了 4%。


目标检测无疑是计算机视觉领域最前沿的应用之一,吸引了各个领域诸多研究者的目光。最前沿的检测器,包括类似 RCNN 的单(SSD 或 YOLO)或多阶神经网络都是基于图像分类骨干网络,如 VGG、ResNet、Inception 或 MobileNet 系列。


然而,由于模型容量和训练复杂度相对较高,目标检测受到的关注相对较少,从最近的训练微调研究中获益也较少。更糟糕的是,不同的检测网络在没有明确的初始化、数据预处理及优化分析的情况下就开始挑选自己的训练流程,导致在采用最新的技术改进图像分类任务时出现了大量的混乱。


本文的研究者致力于探索能够在不造成额外计算成本的情况下有效提升流行的目标检测网络性能的方法。他们首先在目标检测上探索了一种混合技术。与《mixup: Beyond Empirical Risk Minimization》不同,本文的研究者认识到了多目标检测任务的特殊性质有利于实现空间不变的变换,因此提出了一种用于目标检测任务的视觉相干(visually coherent)图像混合方法。接下来,他们探讨了详细的训练流程,包括学习率调度、权重衰减和同步 BatchNorm。最后,他们探索了其训练微调的有效性,方法是逐渐将这些微调叠加,以训练单或多阶段目标检测网络。


本文的主要贡献如下:


  • 首次系统地评估了不同目标检测流程中应用的多种训练启发式方法,为未来的研究提供了有价值的实践指导。

  • 提出了一种为训练目标检测网络而设计的视觉相干图像混合方法,而且证明该方法可以有效提升模型的泛化能力。

  • 在不修改网络架构和损失函数的情况下,在现有模型的基础上实现了 5% 的绝对精度性能提升。而且这些提升都是「免费的午餐」,无需额外的推理成本。

  • 扩展了目标检测数据增强领域的研究深度,显著增强了模型的泛化能力,减少了过拟合问题。这些实验还揭示了可以在不同网络架构中一致提高目标检测性能的良好技术。


所有相关代码都是开源的,模型的预训练权重可以在 GluonCV Toolkit 中获取。


Gluon CV Toolkit 链接:https://github.com/dmlc/gluon-cv


图 1:Bag of Freebies 在不牺牲推理速度的前提下,显著提高了目标检测器的性能。


论文:Bag of Freebies for Training Object Detection Neural Networks



论文链接:https://arxiv.org/pdf/1902.04103.pdf


摘要:与针对更好的图像分类模型所取得的巨大研究成就相比,训练目标检测器的努力在普及性和普遍性方面都存在不足。由于网络结构和优化目标要复杂得多,针对特定检测算法专门设计了不同的训练策略和流程。在本文中,我们探索了通用的微调,这些微调有助于在不牺牲推理速度的前提下将当前最佳的目标检测模型提高到一个新水平。我们的实验表明,这些「freebies」可以提高 5% 的绝对精度。


3. 技术细节


我们提出了一个用于目标检测的视觉相干图像混合方法,还介绍了为系统提升目标检测模型性能而设计的数据处理和训练调度器。


3.1 用于目标检测的视觉相干图像混合


Zhang 等人在《mixup: Beyond Empirical Risk Minimization》中引入的混合概念被证明在分类网络中减少对抗干扰方面非常成功。他们提出的混合算法中混合比例的分布来自β分布(a = 0.2, b = 0.2)。大多数的混合几乎都是这种β分布的噪声。受到 Rosenfeld 等人启发式实验的激励,我们关注自然共现的目标呈现,这种呈现在目标检测中扮演重要角色。半对抗目标补丁移植方法不是传统的攻击方法。通过应用更复杂的空间变换,我们引入了遮挡,即在自然图像呈现中常见的空间信号干扰。


我们的实验中继续增加了 mixup 中使用的混合比例,由此产生的帧中的目标更有活力,也更符合自然表现,类似于低 FPS 电影中常见的过渡帧。图像分类和此类高比例 mixup 的视觉对比如图 2 和图 3 中所示。我们还使用了保留几何形状的对齐方式来进行图像混合,以避免在初始步骤中扭曲图像。我们还选择了视觉相干性更强的β分布,a >= 1 和 b >= 1,而不是按照图 4 所示的图像分类中相同的做法。


我们还通过实验利用 YOLOv3 网络在 Pascal VOC 数据集上测试了经验混合比分布。表 1 显示了采用检测混合方法的实际改进情况。α和β都等于 1.5 的β分布略优于 1.0(相当于均匀分布),也优于固定均匀混合。


表 1:在 Pascal VOC 2007 测试集上用 YOLOv3 验证多种混合方法的有效性。加权损失表示总体损失是多个比例为 0 比 1 的目标的损失之和,该比例是基于它们在原始训练图像中所属的图像混合比例算出的。


4. 实验


为了对比所有微调方法对目标检测结果的改进,我们分别使用 YOLOv3 和 Faster-RCNN 作为单或多阶段 pipeline 的代表。为了适应大规模训练任务,我们使用 Pascal VOC 对精调技巧做评估,使用 COCO 数据集对总体性能提升和泛化能力做验证。


图 7:在 COCO 2017 验证集上利用 BoF 得到的检测结果示例。


图 8:YOLOv3 在 COCO 数据集 80 个类别上的 AP 分析。红线表示使用 BoF 的性能提升,蓝线表示性能下降。


图 9:Faster-RCNN resnet 50 在 C0C0 数据集 80 个类别上的 AP 分析。红线表示使用 BoF 的性能提升,蓝线表示性能下降。


表 2:对 YOLOv3 的训练精调,在 Pascal VOC 2007 测试集 416×416 图像上评估。


表 3:对 Faster-RCNN 的训练精调,在 Pascal VOC 2007 测试集 600 × 1000 图像上评估。


表 4:利用 bag of freebies(BoF) 方法取得的进步,在 MS COCO 2017 验证集上评估。


表 5:预训练图像分类和检测网络混合方法影响的组合分析。


表 6:预训练图像分类和检测网络混合方法影响的组合分析。 


高质量延伸阅读

☞ OpenPV平台发布在线的ParallelEye视觉任务挑战赛

【学界】第1届“智能车辆中的平行视觉”研讨会成功举行

【学界】生成式对抗网络:从生成数据到创造智能

【学界】OpenPV:中科院研究人员建立开源的平行视觉研究平台

【学界】基于平行视觉的特定场景下行人检测

【学界】ParallelEye:面向交通视觉研究构建的大规模虚拟图像集

【CFP】Virtual Images for Visual Artificial Intelligence

【最详尽的GAN介绍】王飞跃等:生成式对抗网络 GAN 的研究进展与展望

【智能自动化学科前沿讲习班第1期】王飞跃教授:生成式对抗网络GAN的研究进展与展望

【智能自动化学科前沿讲习班第1期】王坤峰副研究员:GAN与平行视觉

【重磅】平行将成为一种常态:从SimGAN获得CVPR 2017最佳论文奖说起

【平行讲坛】平行图像:图像生成的一个新型理论框架

【学界】基于生成对抗网络的低秩图像生成方法

【学界】Ian Goodfellow等人提出对抗重编程,让神经网络执行其他任务

【学界】六种GAN评估指标的综合评估实验,迈向定量评估GAN的重要一步

【资源】T2T:利用StackGAN和ProGAN从文本生成人脸

【学界】 CVPR 2018最佳论文作者亲笔解读:研究视觉任务关联性的Taskonomy

【业界】英特尔OpenVINO™工具包为创新智能视觉提供更多可能

【学界】ECCV 2018: 对抗深度学习: 鱼 (模型准确性) 与熊掌 (模型鲁棒性) 能否兼得 

【学界】何恺明组又出神作!最新论文提出全景分割新方法

登录查看更多
7

相关内容

目标检测,也叫目标提取,是一种与计算机视觉和图像处理有关的计算机技术,用于检测数字图像和视频中特定类别的语义对象(例如人,建筑物或汽车)的实例。深入研究的对象检测领域包括面部检测和行人检测。 对象检测在计算机视觉的许多领域都有应用,包括图像检索和视频监视。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【CMU】深度学习模型中集成优化、约束和控制,33页ppt
专知会员服务
44+阅读 · 2020年5月23日
【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型
专知会员服务
25+阅读 · 2020年5月7日
专知会员服务
155+阅读 · 2020年4月21日
专知会员服务
44+阅读 · 2020年3月6日
已删除
将门创投
4+阅读 · 2019年8月22日
已删除
将门创投
4+阅读 · 2019年5月8日
CVPR 2019 | 用异构卷积训练深度CNN:提升效率而不损准确度
【干货】李沐等人:CNN图像分类Trick合集(附详细代码)
GAN生成式对抗网络
58+阅读 · 2018年12月11日
哇~这么Deep且又轻量的Network,实时目标检测
计算机视觉战队
7+阅读 · 2018年8月15日
Arxiv
12+阅读 · 2018年9月15日
Text classification using capsules
Arxiv
5+阅读 · 2018年8月12日
Arxiv
3+阅读 · 2017年10月1日
VIP会员
相关资讯
已删除
将门创投
4+阅读 · 2019年8月22日
已删除
将门创投
4+阅读 · 2019年5月8日
CVPR 2019 | 用异构卷积训练深度CNN:提升效率而不损准确度
【干货】李沐等人:CNN图像分类Trick合集(附详细代码)
GAN生成式对抗网络
58+阅读 · 2018年12月11日
哇~这么Deep且又轻量的Network,实时目标检测
计算机视觉战队
7+阅读 · 2018年8月15日
Top
微信扫码咨询专知VIP会员