Interpretability is crucial to understand the inner workings of deep neural networks (DNNs) and many interpretation methods generate saliency maps that highlight parts of the input image that contribute the most to the prediction made by the DNN. In this paper we design a backdoor attack that alters the saliency map produced by the network for an input image only with injected trigger that is invisible to the naked eye while maintaining the prediction accuracy. The attack relies on injecting poisoned data with a trigger into the training data set. The saliency maps are incorporated in the penalty term of the objective function that is used to train a deep model and its influence on model training is conditioned upon the presence of a trigger. We design two types of attacks: targeted attack that enforces a specific modification of the saliency map and untargeted attack when the importance scores of the top pixels from the original saliency map are significantly reduced. We perform empirical evaluation of the proposed backdoor attacks on gradient-based and gradient-free interpretation methods for a variety of deep learning architectures. We show that our attacks constitute a serious security threat when deploying deep learning models developed by untrusty sources. Finally, in the Supplement we demonstrate that the proposed methodology can be used in an inverted setting, where the correct saliency map can be obtained only in the presence of a trigger (key), effectively making the interpretation system available only to selected users.


翻译:解释性对于理解深神经网络(DNNs)的内部运行过程至关重要,许多解释方法产生突出的地图,显示输入图像中最有助于DNN所作的预测的部分内容。在本文中,我们设计了一种幕后攻击,改变网络为输入图像而制作的突出地图,但只有注入触发器才能对肉眼看不见,同时保持预测的准确性。攻击依靠将有毒数据注入到培训数据集中触发器中。突出的地图被纳入了用于训练深模型的客观功能的惩罚性术语中,其对于模型培训的影响取决于是否有触发器。我们设计了两种类型的攻击:有针对性攻击,在原始突出地图上顶部像素的分数显著下降时,对突出的打击进行具体修改,而没有针对性的攻击。我们对提议的梯度和无梯度解释方法进行实证评估,对于各种深层学习结构,我们的攻击在部署由不可靠的用户开发的深深层次学习模型时构成了严重的安全威胁。最后,我们设计了两种类型的攻击:有针对性的攻击,对突出的地图进行具体的修改,在地图中,我们只能使用一个有效的解释方法。

0
下载
关闭预览

相关内容

专知会员服务
63+阅读 · 2021年1月10日
专知会员服务
44+阅读 · 2020年10月31日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Arxiv
1+阅读 · 2021年1月21日
Deflecting Adversarial Attacks
Arxiv
8+阅读 · 2020年2月18日
Arxiv
16+阅读 · 2018年2月7日
Arxiv
4+阅读 · 2017年11月14日
VIP会员
相关资讯
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
相关论文
Arxiv
1+阅读 · 2021年1月21日
Deflecting Adversarial Attacks
Arxiv
8+阅读 · 2020年2月18日
Arxiv
16+阅读 · 2018年2月7日
Arxiv
4+阅读 · 2017年11月14日
Top
微信扫码咨询专知VIP会员