学界 | 用对抗网络生成训练数据：CMU论文A-Fast-RCNN的Caffe实现

2017 年 4 月 14 日 机器之心

选自Github

作者：王小龙等

机器之心编译

参与：李泽南

最近，卡耐基梅隆大学（CMU）的王小龙等人发表的论文《A-Fast-RCNN: Hard Positive Generation via Adversary for Object Detection》引起了很多人的关注。该研究将对抗学习的思路应用在图像识别问题中，通过对抗网络生成遮挡和变形图片样本来训练检测网络，取得了不错的效果。该论文已被 CVPR2017 大会接收。

论文链接：http://www.cs.cmu.edu/~xiaolonw/papers/CVPR2017_Adversarial_Det.pdf

Github：https://github.com/xiaolonw/adversarial-frcnn

论文：A-Fast-RCNN: Hard Positive Generation via Adversary for Object Detection

摘要

如何确定物体探测器能够应对被遮蔽、不同角度或变形的图像？我们目前的解决方法是使用数据驱动的策略，收集一个巨大的数据集——覆盖所有条件下物体的样子，并希望通过模型训练能够让分类器学会把它们识别为同一个物体。但是数据集真的能够覆盖所有的情况吗？我们认为像分类、遮蔽与变形这样的特性也符合长尾理论。一些遮蔽与变形非常罕见，几乎永远不会发生，而我们希望训练出的模型是能够应付所有情况的。在本论文中，我们提出了一种新的解决方案。我们提出了一种对抗网络，可以自我生成遮蔽与变形例子。对抗的目标是生成物体探测器难以识别的例子。在我们的架构中，原识别器与它的对手共同进行学习。实验证明，我们的方法与 Fast-RCNN 相比，在 VOC07 上的 mAP 上的升幅为 2.3%，在 VOC2012 物体识别挑战中的 mAP 升幅为 2.6%。我们同时发布了本研究的代码。

图 1：在论文中，我们提出了使用对抗网络来生成带有遮挡和变形的例子，从而让物体探测器难以进行分类。随着探测器的性能逐渐提升，对抗网络产生的图片质量也在提升。通过这种对抗策略，神经网络识别物体的准确性得到了进一步提升。

图 2：该方法的 ASDN 网络架构以及如何与 Fast RCNN 结合的示意图。我们的 ASDN 网络使用输入图片加入 RoI 池化层中得到的补丁。ASDN 网络预测遮挡/极高光蒙版，然后将其用于丢弃特征值，并传递到 Fast-RCNN 分类塔。

图 3：（a）模型预训练——寻找难度最高的遮挡用于训练 ASDN 网络。（b）ASDN 网络生成的遮挡蒙版事例，黑色区域在通过 FRCN 管道时被遮挡。

图 4：ASDN 与 ASTN 网络组合架构示意。首先创建遮挡蒙版，随后旋转路径以产生用于训练的例子。

表格 1：VOC 识别测试的平均精度，FRCN 指使用我们训练方式的 FRCN 成绩。

该研究的 Caffe 实现：A-Fast-RCNN: Hard Positive Generation via Adversary for Object Detection

介绍

本实现是 Caffe 版本的 A-Fast-RCNN。尽管我们在论文中的初始实现是在 Torch 上进行的。但 Caffe 的版本更加简单、快速和易于使用。我们发布了用 Adversarial Spatial Dropout Network 训练 A-Fast-RCNN 的训练数据的代码。

许可

本代码是在 MIT License 之下发布的（请参阅 LICENSE 文件获取详细信息）。

引用

如果你认为本内容对你的研究有帮助，可以进行引用：

@inproceedings{WangCVPR17afrcnn,
    Author = {Xiaolong Wang and Abhinav Shrivastava and Abhinav Gupta},
    Title = {A-Fast-RCNN: Hard Positive Generation via Adversary for Object Detection},
    Booktitle = {Conference on Computer Vision and Pattern Recognition ({CVPR})},
    Year = {2017}
}

免责声明

本实现是建立在 OHEM 代码的一个 fork 上的，后者又建立在 Faster R-CNN Python 代码和 Fast R-CNN 之上。请在使用时选择相应的研究论文加以引用。

OHEM：https://github.com/abhi2610/ohem

Faster R-CNN Python：https://github.com/rbgirshick/py-faster-rcnn

Fast R-CNN：https://github.com/rbgirshick/fast-rcnn

结果

注意：研究中记录的结果基于 VGG16 网络。

安装

请遵循 VOC 数据下载和安装规范，这方面与 Faster R-CNN Python 一样。

使用

想要运行代码，请输入：

./train.sh

它包括三个阶段的训练：

./experiments/scripts/fast_rcnn_std.sh  [GPU_ID]  VGG16 pascal_voc

这曾被用来进行标准 Fast-RCNN 一万次迭代的训练，你或许需要下载模型和 log。

模型：http://suo.im/2cgwYG

Log：http://suo.im/39gkhf

./experiments/scripts/fast_rcnn_adv_pretrain.sh  [GPU_ID]  VGG16 pascal_voc

在对抗网络的预训练阶段，可能会需要下载模型和 log：

模型：http://suo.im/2cgwYG

Log：http://suo.im/1TSiRh

./copy_model.h

用于复制上述两个模型的权重，用于初始化联合模型。

./experiments/scripts/fast_rcnn_adv.sh  [GPU_ID]  VGG16 pascal_voc

用于 detector 联合训练对抗网络，在这一步中你可能会需要下载模型和 log：

模型：http://suo.im/25uFFX

Log：http://suo.im/2UTbnC

本文为机器之心编译，转载请联系本公众号获得授权。

✄------------------------------------------------

加入机器之心（全职记者/实习生）：hr@jiqizhixin.com

投稿或寻求报道：editor@jiqizhixin.com

广告&商务合作：bd@jiqizhixin.com

登录查看更多

相关内容

fast-rcnn

关注 11

继2014年的RCNN之后，Ross Girshick在15年推出Fast RCNN，构思精巧，流程更为紧凑，大幅提升了目标检测的速度。同样使用最大规模的网络，Fast RCNN和RCNN相比，训练时间从84小时减少为9.5小时，测试时间从47秒减少为0.32秒。

【CVPR2020】跨模态哈希的无监督知识蒸馏

专知会员服务

61+阅读 · 2020年6月25日

【CVPR 2020-商汤】8比特数值也能训练卷积神经网络模型

专知会员服务

26+阅读 · 2020年5月7日

YOLOv4 重磅来袭！俄罗斯小哥带来新一代快速高效检测器

专知会员服务

32+阅读 · 2020年4月24日

【西安交大】深度学习目标检测方法综述

专知会员服务

164+阅读 · 2020年4月21日

【CVPR2020-Facebook AI】单样本自适应域脸生成，One-Shot Domain Adaptation

专知会员服务

29+阅读 · 2020年4月6日

【论文推荐】一种用于逆合成预测的图到图框架，A Graph to Graphs Framework for Retrosynthesis Prediction

专知会员服务

12+阅读 · 2020年4月1日

【ICLR2020】用实对二进制卷积训练二进制神经网络，Training Binary Neural Networks with Real-to-Binary Convolutions

专知会员服务

26+阅读 · 2020年3月26日

【基于元学习的推荐系统】5篇相关论文

专知会员服务

88+阅读 · 2020年1月20日

【ICCV2019教程】物体检测的R-CNN通用框架，The Generalized R-CNN Framework for Object Detection，180页ppt，Facebook 人工智能研究院Ross Girshick大神

专知会员服务

25+阅读 · 2019年11月16日

Keras作者François Chollet推荐的开源图像搜索引擎项目Sis

专知会员服务

30+阅读 · 2019年10月17日

【学界】谷歌NeurIPS 2018论文：GAN生成3D模型，图像自带逼真效果

GAN生成式对抗网络

7+阅读 · 2018年12月7日

【学界】李飞飞学生最新论文：利用场景图生成图像

GAN生成式对抗网络

15+阅读 · 2018年4月9日

【学界】华盛顿大学推出YOLOv3：检测速度快SSD和RetinaNet三倍（附实现）

GAN生成式对抗网络

5+阅读 · 2018年3月28日

YOLO升级到v3版，检测速度比R-CNN快1000倍

人工智能头条

10+阅读 · 2018年3月28日

学界 | 华盛顿大学推出YOLOv3：检测速度快SSD和RetinaNet三倍（附实现）

机器之心

7+阅读 · 2018年3月27日

Mask R-CNN 论文笔记

统计学习与视觉计算组

11+阅读 · 2018年3月22日

论文 | YOLO（You Only Look Once）目标检测

七月在线实验室

14+阅读 · 2017年12月12日

论文 | 基于CNN的目标检测算法

七月在线实验室

9+阅读 · 2017年12月7日

【前沿】何恺明大神ICCV2017最佳论文Mask R-CNN的Keras/TensorFlow/Pytorch 代码实现

专知

16+阅读 · 2017年11月8日

【原理】十个生成模型(GANs)的最佳案例和原理 | 代码+论文

GAN生成式对抗网络

8+阅读 · 2017年8月14日

Reasoning on Knowledge Graphs with Debate Dynamics

Arxiv

14+阅读 · 2020年1月2日

Co-Generation with GANs using AIS based HMC

Arxiv

3+阅读 · 2019年10月31日

BigDL: A Distributed Deep Learning Framework for Big Data

Arxiv

4+阅读 · 2018年4月16日

Learning to Adapt: Meta-Learning for Model-Based Control

Arxiv

9+阅读 · 2018年3月30日

ClickBAIT-v2: Training an Object Detector in Real-Time

Arxiv

7+阅读 · 2018年3月27日

Show, Tell and Discriminate: Image Captioning by Self-retrieval with Partially Labeled Data

Arxiv

8+阅读 · 2018年3月22日

Wasserstein Auto-Encoders

Arxiv

7+阅读 · 2018年3月12日

A Robust Real-Time Automatic License Plate Recognition based on the YOLO Detector

Arxiv

13+阅读 · 2018年3月1日

Fast Interactive Image Retrieval using large-scale unlabeled data

Arxiv

4+阅读 · 2018年2月12日

Mask R-CNN

Arxiv

7+阅读 · 2018年1月24日

VIP会员