【VALSE 前沿技术选介17-04期】利用对抗学习改进目标检测的结果

2017 年 5 月 8 日 VALSE Xiaolong Wang

今天跟大家介绍的是近期的一个利用adversarial learning来训练object detector的工作:A-Fast-RCNN: Hard Positive Generation via Adversary forObject Detection. 和目前主流的GAN paper不同,这篇文章的目标是为了用GAN来提升recognitionperformance,而不是生成好看的图片。在具体介绍这个工作之前,先给大家讲讲背景故事。

 

GAN 作为一个生成图像的工具,在近两年已经异常火爆,许多paper一遍遍的刷新了各种酷炫的visualization。最近和某同学讨论,他的评价我觉得很贴切要评价现在的生成的结果有多差,要等下一篇paper出来后才知道。当然我不否认GANgraphicslow-level vision里面起到了很大的帮助,实际上用它来做出来的APP也产生不少的商业价值。但是从machinelearning的角度来看,现在的GAN主要问题有:(i) 作为一种self-supervisised/unsupervised learning的方法并没有体现出学习到low-level feature之上的semantic representation; (ii) 生成的图片结果大部分还是靠肉眼评价,现有的用inception score或者各种给图片打分的机制其实并没有很强的说服力。

 

为什么我说这些打分的方法并不十分靠谱呢?实际上在A-Fast-RCNN这个工作之前,我尝试将inception score比较高的生成的图片当成额外的负样本来训练imagenet-pretrainedFast-RCNN经过非常少数的finetunining, 分类器就能学会把生成的图片分成负样本。也就是说我只需要将打分器稍微finetune一下,所有方法生成的图片都会变得很低分。

 

为什么我说GAN并没有学习出low-level feature以上的representation呢?我尝试对训练图片用GANsuper-resolution /inpainting / adding adversarial noise 各种操作来生成额外的正样本,发现对训练imagenet-pretrainedFast-RCNN并没有任何的帮助。这说明了用condtional GAN生成的新样本并没有对原图增加新的semantic information(具体的做法读者可以想象在训练GAN的时候把discriminator 替换成FRCNN,这里就不做具体描述)。

 

针对这些问题,A-Fast-RCNN提出的是与其依赖生成图片本身,不如尝试去改变图片的feature来产生新的training data。具体的做法是,我们在Fast-RCNNpool5 / roi-pooling feature上增加了两个小网络:Adversarial SpatialDropout NetworkAdversarial Spatial Transformer Network。根据不同输入样本的feature,这两个network会学习分别对feature进行dropoutrotation。目标是feature在进行dropoutrotation的变化后使得detectorloss 变大。



如上图所示,根据pool5 / roi-pooling feature生成的mask,最后也会被applypool5上对原来的feature进行修改。以下是用我们的adversarial network生成的occlusion mask的样例,黑色的部分表示的是对应的pool5 feature整个channel要被赋值0spatial dropout)。



看到这个结果,我们其实可以把最近很火的Mask-RCNN也联系起来。Mask-RCNN是在mask branch network上额外提供了segmentation signal,直接去训练网络。而我们的mask branch是根据classification的结果来获取signal来训练。

 

我们在PASCALCOCO上测试了A-Fast-RCNN证实其有效性,具体的数字可以参考原文。代码也release在:https://github.com/xiaolonw/adversarial-frcnn

 

Reference:

Xiaolong Wang, Abhinav Shrivastava, and Abhinav Gupta.A-Fast-RCNN: Hard Positive Generation via Adversary for Object Detection. CVPR2017.


登录查看更多
2

相关内容

继2014年的RCNN之后,Ross Girshick在15年推出Fast RCNN,构思精巧,流程更为紧凑,大幅提升了目标检测的速度。同样使用最大规模的网络,Fast RCNN和RCNN相比,训练时间从84小时减少为9.5小时,测试时间从47秒减少为0.32秒。
【中科院自动化所】视觉对抗样本生成技术概述
专知会员服务
35+阅读 · 2020年4月15日
零样本图像识别综述论文
专知会员服务
57+阅读 · 2020年4月4日
【浙江大学】对抗样本生成技术综述
专知会员服务
91+阅读 · 2020年1月6日
生成式对抗网络GAN异常检测
专知会员服务
115+阅读 · 2019年10月13日
目标检测新技能!引入知识图谱:Reasoning-RCNN
极市平台
12+阅读 · 2020年1月4日
深度学习中最常见GAN模型应用与解读
计算机视觉life
22+阅读 · 2019年10月23日
Bert时代的创新:Bert应用模式比较及其它
CVPR 2018|Cascade R-CNN:向高精度目标检测器迈进
极市平台
10+阅读 · 2018年7月20日
【领域报告】主动学习年度进展|VALSE2018
深度学习大讲堂
15+阅读 · 2018年6月12日
【应用】深度对抗学习在图像分割和超分辨率中的应用
GAN生成式对抗网络
4+阅读 · 2017年9月12日
Arxiv
101+阅读 · 2020年3月4日
Arxiv
4+阅读 · 2019年9月26日
Deep Learning for Deepfakes Creation and Detection
Arxiv
6+阅读 · 2019年9月25日
Deep Learning for Generic Object Detection: A Survey
Arxiv
13+阅读 · 2018年9月6日
VIP会员
相关资讯
Top
微信扫码咨询专知VIP会员