NeurIPS 2021 | 类别解耦及其在对抗检测和防御中的应用

2021 年 12 月 20 日 图与推荐


预测一个图像的类别, 神经网络所需的最少必要信息是什么?在输入的图像空间提取这种信息能够帮助我们了解神经网络主要关注的区域,并且为对抗检测和防御提供新的思路。在本文中,我们提出了一个基于VAE-分类器的类别解耦方法,通过VAE和分类器的互相竞争,把输入图片解耦成类别相关和类别冗余的两部分。我们分别对自然样本和对抗样本做类别解耦,发现对抗噪声主要集中类别相关的部分,这对于分类模型和对抗攻击提供了新的解释。


基于这个发现,我们提出在类别相关部分上进行对抗样本的检测,在类别冗余的部分上进行对抗样本的防御,这两个简单的策略能够大幅提升检测和防御多种未知对抗攻击的性能。本工作是由京东探索研究院、中国科学技术大学、华盛顿大学西雅图分校、马里兰大学帕克分校联合完成,已经被NeurIPS 2021 接收。




01

研究背景


近年来,深度学习在很多领域取得了非常好的效果,但是深度神经网络仍然存在这以下两点问题:

(1)神经网络的可解释性差:虽然神经网络能够在很多下游任务取得非常高的准确率,但是人们不知道神经网络是依赖于输入中的哪些信息。那么我们能否如图1所示,在输入层面将图片解耦成类别相关和类别冗余的两部分,其中类别相关的部分就是神经网络主要依赖来完成对下游任务的预测的部分。这样我们就能够解释神经网络的推理行为,分析复杂的数据结构。


图1 在输入层面进行类别解耦


(2)神经网络的脆弱性:众所周知,训练好的神经网络对于输入层面的微小对抗性扰动十分敏感和脆弱。但是该如何解释这种现象呢?对抗扰动主要攻击的是神经网络的哪些部分呢?为了回答这些问题,也需要我们在输入层面讲输入样本解耦成类别相关和类别冗余的两部分,其中类别相关的部分很可能就是对抗攻击主要攻击的部分。那么我们就可以基于类别相关的部分来进行对抗样本的检测,同时利用没有被对抗样本攻击到的类别冗余的部分进行对抗防御。


图2 类别解耦用于对抗样本的检测和防御


02

类别解耦


1、类别解耦的变分自编码器


图3 类别解耦的变分自编码器


我们提出了一个模型,能在输入层面将样本解耦成类别相关和类别冗余的两部分。我们的模型叫做类别解耦的变分自动编码器(CD-VAE),由一个变分自编码器 (VAE)[2] 和一个分类器组成。如图3所示,我们使用VAE重构出类冗余部分   ,那么类类别相关的部分就是VAE的残差   。VAE试图通过   重构出   ,分类器尝试通过VAE的残差   来对   进行正确分类。这里我们记VAE的残差   为   。


目标函数如公式(1)-(3)所示,由   和   两项组成。   是    上VAE的重构损失函数,   是VAE的残差   上的分类损失函数。通过联合优化这两项, VAE和分类器互相竞争输入   的信息。因此,VAE的残差     将只包含分类所需的最少必要信息,而其他所有对重构有用的信息将被包含在   中。从信息瓶颈(Information bottleneck)[3]的角度来看,VAE和分类器相互构成信息瓶颈的约束条件。


   

(1)

                   

(2)

 

(3)


CD-VAE可用于分析神经网络的行为和复杂数据的内在属性。例如,  可以凸显出图像   中神经网络主要关注的区域,并帮助人们理解神经网络做出正确或不正确预测的原因。


2 、比较自然样本和对抗样本的类别解耦


表1各个解耦部分的   范数


图 4 各个解耦部分的可视化


为了进一步研究对抗样本是如何攻击分类器的,我们提供了一项实证研究来比较自然样本    和其生成的对抗样本   的类别解耦结果。我们特别感兴趣的是(1)类别信息主要集中在输入图像中的哪些部分。(2)对抗攻击主要针对输入图像中的哪些部分。具体来说,我们定义

   为对抗扰动   在输入样本   、类别冗余部分   和类别相关部分   中的分量。


我们可以看一下   、   和   的   的范数,   的   的范数比   的   的范数大得多,这表明对抗扰动主要位于类别相关部分   上。此外,我们还可以看各个部分的可视化图像,我们可以发现   中包含的内容很多,并且看起来和   很像,而   非常稀疏,这再次验证了对抗性扰动   主要存在于    ,而对于   上造成的扰动   是非常轻微的。这表明对   的攻击主要集中在   ,但并未严重扭曲   。因此,我们可以使用   进行对抗检测,使用   进行对抗防御。


然后我们可以看类别相关部分   的可视化,它突显了每个图像中非常稀疏但足以完成对分类任务预测的重要特征,例如狗的耳朵和鼻子,鹦鹉的眼睛等。因此,   可以很自然地为神经网络分类器这一黑盒模型做出的预测提供解释。


表2 在各个解耦部分训练并测试分类器:Top-1 (Top-5)。


为了进一步了解类别信息在   和   中是如何分布的,我们在   、   和   的训练图像上分别训练了分类器,并分别在这三部分进行测试。我们发现,首先在   上训练的分类器对    十分有效,并且反之亦然,这说明   和   共享对两个分类器都很重要的类信息;其次,在   上训练的分类器有一定的分类准确率,说明   仍然保留了有用的信息;最后,在   上训练的分类器在   上的准确率很差,并且反之亦然,表明它们使用不同的信息进行分类。因此,攻击在   上训练的分类器将主要扰动   和   共享的类别信息,但将几乎不会影响   中的类别信息,这再次表明我们可以通过使用   分类来防御对抗攻击。


3、类别解耦在对抗检测中的应用


我们的发现可以直接导出在对抗检测和防御中的两个应用。

首先,我们可以在   的空间中更好的检测对抗样本。在图4中,   所捕获的稀疏区域能在很大程度上缩小了被攻击区域的搜索范围,从而使得对抗样本的检测更加容易和准确。之前的检测方法[4-6]都是基于原图   来进行对抗检测的,而在这里我们仅仅是把之前方法的输入换成了   ,因此是和之前的检测方法互补的。


4、类别解耦在对抗防御中的应用

如前表所示,   上训练的分类器也具有一定的分类准确率,这说明   中仍然包含一些(冗余的)类别信息,并且   几乎没有被对抗扰动攻击到。因此在   上的分类可能对对抗攻击更加鲁棒,这提供了一种简单有效的基于预处理的防御策略:给定一个对抗样本   ,我们先用CD-VAE预处理它得到   ,然后使用   来进行分类。注意这里我们考虑的是灰盒攻击,即我们只让攻击方访问分类器,而不让其访问CD-VAE。


最后,我们扩展CD-VAE来防御最具挑战性的白盒攻击。在这里,我们允许攻击方访问我们的所有模型,包括分类器和CD-VAE。之前我们提出使用   来分类对抗样本,而在白盒攻击下,攻击方将主要攻击   。因此,我们需要稍加修改之前CD-VAE目标函数中的   项如以下公式所示:

   

(8)

   

(9)    (10) 

给定一个对抗样本   ,我们训练   来预测正确的类别,而训练  来预测被攻击的类别。具体来说,我们训练   来预测   的错误预测,即被攻击方攻击到的类别。这样,除了鼓励   预测正确的类别外,CD-VAE还将   中被攻击方扰动的类别信息移动到    ,所以    主要保留了对于对抗攻击鲁棒的类别相关信息。我们使用(8)-(10)式来训练CD-VAE。其中   项与原来的CD-VAE保持一致,而   根据上述策略进行修改。


03

实验结果



表3 对于5种对抗攻击的检测效果(CIFAR10)


表3是对抗性检测的结果。我们在三个基线[4-6]上进行实验,并将我们的方法应用于这三个基线,只需将它们的输入 由   替换为   。我们可以看到CD-VAE通常可以大幅改进这些方法。例如,FGSM是检测最具挑战性的攻击,但我们的方法仍然可以将 KD[4] 的 TNR 提高近 15%。值得一提的是,我们的方法是对现有方法的补充,只需将输入由   替换为   。


表4 针对灰盒攻击的防御效果(CIFAR10和Restricted-ImageNet)


表4是针对灰盒攻击的防御效果。CD-VAE优于基于对抗训练的方法和其他基于预处理的方法(HGD[7]、APE-GAN[8])。例如,PGD 是一种非常流行的攻击方法,我们的方法可以将对于PGD 攻击的鲁棒性提高 2% 以上。


表5 针对白盒攻击的鲁棒性 (CIFAR10)


表5是针对白盒攻击的鲁棒性。我们针对多种白盒攻击评估我们的方法和基线。我们的方法十分鲁棒,尤其对于那些未见过的攻击(即没有用于对抗训练的攻击),它实现了最高的未见攻击(平均)准确度。而其他基于对抗训练的方法对用于训练的攻击方法效果很好,但无法应对未见过的攻击。例如,使用 recolor 进行对抗训练的模型对recolor attack防御效果很好,但对 stadv的防御却很失败,得到接近 0 的准确率。相反,即使我们在训练期间没有使用 stadv,但对 stadv 依然十分鲁棒。


04

结论


在本文中,我们提出了一个基于VAE+分类器的类别解耦模型:类别解耦的变分自动编码器(CD-VAE)来将输入图像x分解为   ,其中   捕获用于分类的最少必要信息,而   涵盖所有其他的类别冗余信息。我们提出了一个联合训练VAE和分类器的目标函数来引导类别解耦。CD-VAE提供了新的视角来理解 (1) 神经网络分类器如何预测图像的类别以及 (2) 对抗样本如何攻击该分类器。受CD-VAE实验的启发,我们提出分别利用   和   进行对抗检测和对抗防御。这两种简单的策略大大提高了应对各种对抗攻击的检测和防御准确率。


文章:https://proceedings.neurips.cc/paper/2021/file/8606f35ec6c77858dfb80a385d0d1151-Paper.pdf

代码:https://github.com/kai-wen-yang/CD-VAE


参考文献

[1] Kaiwen Yang, Tianyi Zhou, Yonggang Zhang, Xinmei Tian, and Dacheng Tao. Class-Disentanglement and Applications in Adversarial Detection and Defense. NeurIPS 2021.

[2] Alexander A Alemi, Ian Fischer, Joshua V Dillon, and Kevin Murphy. Deep variational

information bottleneck. arXiv preprint arXiv:1612.00410, 2016.

[3] Naftali Tishby, Fernando C Pereira, and William Bialek. The information bottleneck method.

arXiv preprint physics/0004057, 2000.

[4] Reuben Feinman, Ryan R Curtin, Saurabh Shintre, and Andrew B Gardner. Detecting adversarial samples from artifacts. arXiv preprint arXiv:1703.00410, 2017.

[5] Kimin Lee, Kibok Lee, Honglak Lee, and Jinwoo Shin. A simple unified framework for

detecting out-of-distribution samples and adversarial attacks. NeurIPS 2018.

[6] Xingjun Ma, Bo Li, Yisen Wang, Sarah M Erfani, Sudanthi Wijewickrema, Grant Schoenebeck, Dawn Song, Michael E Houle, and James Bailey. Characterizing adversarial subspaces using

local intrinsic dimensionality. ICLR 2018.

[7] Fangzhou Liao, Ming Liang, Yinpeng Dong, Tianyu Pang, Xiaolin Hu, and Jun Zhu. Defense

against adversarial attacks using high-level representation guided denoiser. CVPR 2018.

[8] Shiwei Shen, Guoqing Jin, Ke Gao, and Yongdong Zhang. Ape-gan: Adversarial perturbation elimination with gan. arXiv preprint arXiv:1707.05474, 2017.


 THE END 


登录查看更多
1

相关内容

深度学习模型鲁棒性研究综述
专知会员服务
91+阅读 · 2022年1月23日
专知会员服务
38+阅读 · 2021年9月28日
专知会员服务
47+阅读 · 2021年9月9日
专知会员服务
23+阅读 · 2021年8月1日
专知会员服务
19+阅读 · 2021年3月28日
专知会员服务
91+阅读 · 2021年1月17日
专知会员服务
97+阅读 · 2020年12月8日
近期必读的七篇NeurIPS 2020【对比学习】相关论文和代码
专知会员服务
65+阅读 · 2020年10月20日
AAAI 2022 | 基于强化学习的视频弹幕攻击
PaperWeekly
1+阅读 · 2022年1月11日
图神经网络的对抗标签翻转攻击与防御
专知
0+阅读 · 2021年3月28日
训练技巧 | 功守道:NLP中的对抗训练 + PyTorch实现
PaperWeekly
12+阅读 · 2019年11月13日
一文读懂文本处理中的对抗训练
PaperWeekly
22+阅读 · 2019年6月5日
ISI新研究:胶囊生成对抗网络
论智
18+阅读 · 2018年3月7日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月20日
Arxiv
0+阅读 · 2022年4月17日
Arxiv
12+阅读 · 2022年4月12日
Arxiv
26+阅读 · 2018年8月19日
VIP会员
相关VIP内容
深度学习模型鲁棒性研究综述
专知会员服务
91+阅读 · 2022年1月23日
专知会员服务
38+阅读 · 2021年9月28日
专知会员服务
47+阅读 · 2021年9月9日
专知会员服务
23+阅读 · 2021年8月1日
专知会员服务
19+阅读 · 2021年3月28日
专知会员服务
91+阅读 · 2021年1月17日
专知会员服务
97+阅读 · 2020年12月8日
近期必读的七篇NeurIPS 2020【对比学习】相关论文和代码
专知会员服务
65+阅读 · 2020年10月20日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员