【独家】颜水成和冯佳时团队一作详解CVPR录用论文：基于对抗擦除的物体区域挖掘

2017 年 9 月 7 日 GAN生成式对抗网络

基于对抗擦除的物体区域挖掘
来源：AI科技评论魏云超

新加坡国立大学博士后魏云超博士、新加坡国立大学助理教授冯佳时博士、卡内基梅隆大学梁小丹博士、南开大学程明明教授、北京交通大学赵耀教授及360人工智能研究院院长颜水成博士所作论文「Object Region Mining with Adversarial Erasing: A Simple Classification to Semantic Segmentation Approach」被CVPR 2017录用为口头报告（oral，录用率2.65%）。论文一作魏云超博士撰写了关于这篇论文的独家解读文章，以飨读者。

背景介绍

图像语义分割是计算机视觉领域的核心研究问题之一。一般来讲，训练高性能的语义分割模型需要依赖于大量的像素级的人工标注（即标注每个像素点的语义信息）。然而，标注这类的训练样本非常困难，往往需要大量的金钱和时间。为了降低获取训练样本的难度，研究人员提出采用一些相对容易获取的标注作为监督信息（我们称之为弱监督），并用于训练图像语义分割模型。目前这些弱监督信息主要包括了bounding boxes，scribbles，points和labels，如图1。

图1

在这些弱监督信息中，图像的labels标注最容易获取，我们着重研究如何利用图像的labels作为监督信息，训练出用于语义分割的模型。而这一问题的成功的关键在于如何构建图像标签同像素点之间的关联，从而自动生成图像像素级的标注，进而利用FCN训练语义分割模型。

图2

目前我们注意到研究人员们提出了一些自上而下的attention方法（CAM[1]， EP[2]等）。这类方法可以利用训练好的分类CNN模型自动获得同图像标签最相关的区域。如图2所示，我们给出了通过CAM方法获取的attention map。可以看出对于一个图像分类模型，往往物体的某个区域或某个instance对分类结果的贡献较大。因此这类attention方法只能找到同标签对应的某个物体最具判别力的区域而不是物体的整个局域。如何利用分类网络定位物体的整个区域，对语义分割任务具有重要意义。

Motivation

图3

图3给出了我们的motivation。我们将第一张图片以及它对应的标签“person”输入到网络中进行训练。继而，网络会尝试从图中发现一些证据来证明图中包含了“person”。一般来讲，人的head是最具判别力的部位，可以使此图被正确地判别为“person”。若将head从图片中移除（如第二张图中的橙色区域），网络会继续寻找其它证据来使得图像可以被正确分类，进而找到人的body区域。重复此操作，人的foot区域也可以被发现。由于训练本身是为了从图片中发现对应标签的证据而擦除操作则是为了掩盖证据，因此我们称这种训练-擦除-再训练-再擦除的方式为对抗擦除（adversarial erasing）。

对抗擦除方法

基于上述的motivation，我们采用了对抗擦除的机制挖掘物体的相关区域。如图4所示，我们首先利用原始图像训练一个分类网络，并利用自上而下的attention方法（CAM）来定位图像中最具判别力的物体区域。进而，我们将挖掘出的区域从原始图片中擦除，并将擦除后的图像训练另一个分类网络来定位其它的物体区域。我们重复此过程，直到网络在被擦除的训练图像上不能很好地收敛。最后将被擦除的区域合并起来作为挖掘出的物体区域。

图4

对抗擦除的框架

图5为对抗擦除方法的细节。我们基于VGG16训练图像的分类网络，将最后两个全连接层替换为卷积层，CAM被用来定位标签相关区域。在生成的location map（H）中，属于前20%最大值的像素点被擦除。我们具体的擦除方式是将对应的像素点的值设置为所有训练集图片的像素的平均值。

图5

我们发现在实施第四次擦除后，网络训练收敛后的loss值会有较大提升（图6右）。主要原因在于大部分图片中的物体的区域已经被擦除，这种情况下大量的背景区域也有可能被引入。因此我们只合并了前三次擦除的区域作为图片中的物体区域。图6左给出部分训练图像在不同训练阶段挖掘出的物体区域，以及最后将擦除区域合并后的输出。

图6

对抗擦除在弱监督语义分割中的应用

我们利用显著性检测技术生成的显著图生获取图像的背景信息，并同通过对抗擦除获得物体区域结合生成用于训练语义分割网络的segmentation mask（其中蓝色区域表示未指派语义标签的像素，这些像素点不参与训练）。由于在生成的segmentation mask中包含了一些噪声区域和未被标注的区域，为了更加有效地训练，我们提出了一种PSL（Prohibitive Segmentation Learning）方法训练语义分割网络，如图7。该方法引入了一个多标签分类的分支用于在线预测图像包含各个类别的概率值，这些概率被用来调整语义分割分支中每个像素属于各个类别的概率，并在线生成额外的segmentation mask作为监督信息。由于图像级的多标签分类往往具有较高的准确性，PSL方法可以利用分类信息来抑制分割图中的true negative区域。随着训练的进行，网络的语义分割能力也会越来越强，继而在线生成的segmentation mask的质量也会提升，从而提供更加准确的监督信息。

图7

实验结果

本文提出的对抗擦除和PSL方法，在Pascal VOC 2012数据集上获得了目前最好的分割结果。部分测试图片上也达到了令人满意的分割结果。

文章链接：https://arxiv.org/pdf/1703.08448.pdf

Reference

[1] B. Zhou, etc. Learning Deep Features for Discriminative localization. CVPR, 2016.

[2] J. Zhang, etc. Top-down Neural Attention by Excitation Backprop. ECCV, 2016.

高质量延伸阅读

☞ 【发现】研究发现人工智能可被“障眼法”欺骗

☞ 【历程】GAN发展历程综述：送你最易入手的几个架构 | 附资料包

☞ 【实战】GAN网络图像翻译机：图像复原、模糊变清晰、素描变彩图

☞ 【干货】可能是近期最好玩的深度学习模型了：CycleGAN的原理与实验详解

☞ 【学界】牛津大学ICCV 2017 Workshop论文：利用GAN的单视角图片3D建模技术

☞ 【分享】三角兽首席科学家分享实录：基于对抗学习的生成式对话模型

☞ 【原理】GAN的数学原理

☞ 【学界】清华朱军团队探索DNN内部架构，采用对抗性例子监督网络生成及错误

☞ 【原理】深入浅出：GAN原理与应用入门介绍

☞ 【学界】宅男的福音：用GAN自动生成二次元萌妹子

☞ 【几何图景】GAN的几何图景：样本空间的Morse流，与鉴别网络D为何不可能真正鉴别真假

☞ 【理解】GAN 的理解与 TensorFlow 的实现

☞ 【意义】GAN 的发展对于研究通用人工智能有什么意义？

☞ 【应用】生成式对抗网络GAN有哪些最新的发展，可以实际应用到哪些场景中？

☞ 【从头开始GAN】Goodfellow开山之作到DCGAN等变体

☞ 【智能自动化学科前沿讲习班第1期】上海交大倪冰冰副教授：面向图像序列的生成技术及应用初探

☞ 【智能自动化学科前沿讲习班第1期】University of Central Florida 的Guojun Qi:LS-GAN

☞ 【智能自动化学科前沿讲习班第1期】微软秦涛主管研究员：从单智能体学习到多智能体学习

☞ 【智能自动化学科前沿讲习班第1期】王坤峰副研究员：GAN与平行视觉

☞ 【原理】十个生成模型(GANs)的最佳案例和原理 | 代码+论文

☞ 【插画】AI可能真的要代替插画师了……

☞ 【教程】经得住考验的「假图片」：用TensorFlow为神经网络生成对抗样本

☞ 【模型】基于深度学习的三大生成模型：VAE、GAN、GAN的变种模型

☞ 【大会】还记得Wasserstein GAN吗？不仅有Facebook参与，也果然被 ICML 接收

☞ 【开发】用GAN来做图像生成，这是最好的方法

☞ 【学界】邢波团队提出contrast-GAN：实现生成式语义处理

☞ 【专栏】阿里SIGIR 2017论文：GAN在信息检索领域的应用

☞ 【学界】康奈尔大学说对抗样本出门会失效，被OpenAI怼回来了！

☞ 警惕人工智能系统中的木马、病毒 ——深度学习对抗样本简介

☞ 【生成图像】Facebook发布的LR-GAN如何生成图像？这里有一篇Pytorch教程

☞ 【智能自动化学科前沿讲习班第1期】国立台湾大学（位于中国台北）李宏毅教授：Anime Face Generation

☞ 【变狗为猫】伯克利图像迁移cycleGAN，猫狗互换效果感人

☞ 【论文】对抗样本到底会不会对无人驾驶目标检测产生干扰？又有人发文质疑了

☞【智能自动化学科前沿讲习班第1期】王飞跃教授：生成式对抗网络GAN的研究进展与展望

☞【开发】看完立刻理解GAN！初学者也没关系

☞【专栏】基于对抗学习的生成式对话模型的坚实第一步：始于直观思维的曲折探索

☞ 【重磅】平行将成为一种常态：从SimGAN获得CVPR 2017最佳论文奖说起

☞ 【最新】OpenAI:3段视频演示无人驾驶目标检测强大的对抗性样本！

☞ 【干货】生成对抗网络（GAN）之MNIST数据生成

☞ 【论文】CVPR 2017最佳论文出炉，DenseNet和苹果首篇论文获奖

☞ AI侦探敲碎深度学习黑箱

☞ 【深度学习】解析深度学习的局限性与未来，谷歌Keras之父「连发两文」发人深省

☞ 苹果重磅推出AI技术博客，CVPR合成逼真照片论文打响第一枪

☞ 【Ian Goodfellow 五问】GAN、深度学习，如何与谷歌竞争

☞ 【巨头升级寡头】AI产业数据称王，GAN和迁移学习能否突围BAT垄断？

☞ 【高大上的DL】BEGAN: Boundary Equilibrium GAN

☞ 【最详尽的GAN介绍】王飞跃等：生成式对抗网络 GAN 的研究进展与展望

☞ 【最全GAN变体列表】Ian Goodfellow推荐：GAN动物园

☞ 二十世纪的十大科学骗局

☞ 【DCGAN】深度卷积生成对抗网络的无监督学习，补全人脸合成图像匹敌真实照片

☞【学界】让莫奈画作变成照片：伯克利图像到图像翻译新研究

☞ 【DualGAN】对偶学习的生成对抗网络

☞ 【开源】收敛速度更快更稳定的Wasserstein GAN(WGAN)

☞ 【Valse 2017】生成对抗网络（GAN）研究年度进展评述

☞ 【开源】谷歌新推BEGAN模型用于人脸数据集：效果惊人！

☞ 【深度】Ian Goodfellow AIWTB开发者大会演讲：对抗样本与差分隐私

☞ 论文引介 | StackGAN: Stacked Generative Adversarial Networks

☞ 【专题GAN】GAN应用情况调研

☞ 【纵览】从自编码器到生成对抗网络：一文纵览无监督学习研究现状

☞ 【论文解析】Ian Goodfellow 生成对抗网络GAN论文解析

☞ 【VALSE 前沿】利用对抗学习改进目标检测的结果

☞ 【干货】全面分析GAN，以及如何用TF实现GAN?

☞ 苹果首份AI论文横空出世，提出SimGAN训练方法

☞ 【推荐】条条大路通罗马LS-GAN：把GAN建立在Lipschitz密度上

☞ 到底什么是生成式对抗网络GAN？

☞ 看穿机器学习（W-GAN模型）的黑箱

☞ 看穿机器学习的黑箱（II）

☞【Geometric GAN】引入线性分类器SVM的Geometric GAN

☞ 【征稿】“生成式对抗网络GAN技术与应用”专刊

☞ 【GAN for NLP】PaperWeekly 第二十四期 --- GAN for NLP

☞ 【学界】从感知机到GAN，机器学习简史梳理

☞ 【Demo】GAN学习指南：从原理入门到制作生成Demo

☞ 【学界】伯克利与OpenAI整合强化学习与GAN：让智能体学习自动发现目标

☞ 【解读】通过拳击学习生成对抗网络（GAN）的基本原理

☞ 【人物】Ian Goodfellow亲述GAN简史：人工智能不能理解它无法创造的东西

☞ 【DCGAN】DCGAN: 一类稳定的GANs

☞ 【DCGAN】DCGAN：深度卷积生成对抗网络的无监督学习，补全人脸合成图像匹敌真实照片

☞ 【原理】直观理解GAN背后的原理：以人脸图像生成为例

☞ 【干货】深入浅出 GAN·原理篇文字版（完整）

☞ 带你理解CycleGAN，并用TensorFlow轻松实现

☞ PaperWeekly 第39期 | 从PM到GAN - LSTM之父Schmidhuber横跨22年的怨念

☞ 【CycleGAN】加州大学开源图像处理工具CycleGAN

☞ 【SIGIR2017满分论文】IRGAN：大一统信息检索模型的博弈竞争

☞ 【贝叶斯GAN】贝叶斯生成对抗网络（GAN）：当下性能最好的端到端半监督/无监督学习

☞ 【GAN X NLP】自然语言对抗生成：加拿大研究员使用GAN生成中国古诗词

☞ ICLR 2017 | GAN Missing Modes 和 GAN

☞ 【论文汇总】生成对抗网络及其变体

☞ 【AI】未来AI这样帮你一键修片，那还有PS什么事？

☞ 【学界】CMU新研究试图统一深度生成模型：搭建GAN和VAE之间的桥梁

☞ 【专栏】大漠孤烟，长河落日：面向景深结构的风景照生成技术

☞ 【开发】最简单易懂的 GAN 教程：从理论到实践（附代码）

☞ 【论文访谈】求同存异，共创双赢 - 基于对抗网络的利用不同分词标准语料的中文分词方法

☞ 【LeCun论战Yoav】自然语言GAN惹争议：深度学习远离NLP？

☞ 【争论】从Yoav Goldberg与Yann LeCun争论，看当今的深度学习、NLP与arXiv风气

☞ 【观点】Yoav Goldberg撰文再回应Yann LeCun：「深度学习这群人」不了解NLP(附各方评论)

☞ PaperWeekly 第41期 | 互怼的艺术：从零直达 WGAN-GP

☞ 【业界】CMU和谷歌联手研制左右互搏的对抗性机器人

☞ 【谷歌 GAN 生成人脸】对抗创造新艺术风格，128 像素扩展到 4000

☞ 【原理】模拟上帝之手的对抗博弈——GAN背后的数学原理

☞ 【原理】只知道GAN你就OUT了——VAE背后的哲学思想及数学原理

登录查看更多

相关内容

魏云超

关注 0

魏云超，北京交通大学教授、博导。曾在新加坡国立大学，美国伊利诺伊大学厄巴纳-香槟分校，悉尼科技大学从事研究工作。曾获澳大利亚学术新星（2020），中国图象图形学学会科技技术奖一等奖（2020），澳大利亚研究委员会青年研究奖（2019），计算机视觉领域世界杯ImageNet竞赛冠军（2014），Youtube VOS国际视频分割竞赛冠军（2021）中国电子学会/北京交通大学优博(2016)等，在国际顶级会议和期刊上发表论文80多篇，包括12篇IEEE TPAMI和43篇CCF A类会议论文，Google引用7400多次。主要从事计算机视觉方面的相关研究，包括面向不完美数据的视觉认知，图像/视频的分割和物体检测，多模态数据建模等。

CVPR 2020 最佳论文与最佳学生论文！

专知会员服务

36+阅读 · 2020年6月17日

近期必读的5篇顶会CVPR 2020【场景图+图神经网络（SG+GNN）】相关论文

专知会员服务

51+阅读 · 2020年5月12日

【CVPR2020 旷视研究院】探索类别正则化的领域自适应对象检测

专知会员服务

24+阅读 · 2020年4月22日

【CVPR2020-港科大-腾讯】基于注意力机制及多关系检测器的小样本物体检测

专知会员服务

39+阅读 · 2020年4月6日