Deep neural networks have been shown to be vulnerable to backdoor, or trojan, attacks where an adversary has embedded a trigger in the network at training time such that the model correctly classifies all standard inputs, but generates a targeted, incorrect classification on any input which contains the trigger. In this paper, we present the first ultra light-weight and highly effective trojan detection method that does not require access to the training/test data, does not involve any expensive computations, and makes no assumptions on the nature of the trojan trigger. Our approach focuses on analysis of the weights of the final, linear layer of the network. We empirically demonstrate several characteristics of these weights that occur frequently in trojaned networks, but not in benign networks. In particular, we show that the distribution of the weights associated with the trojan target class is clearly distinguishable from the weights associated with other classes. Using this, we demonstrate the effectiveness of our proposed detection method against state-of-the-art attacks across a variety of architectures, datasets, and trigger types.


翻译:深神经网络被证明很容易受到后门或特洛伊的攻击,在这种攻击中,敌人在训练时在网络中嵌入触发器,使模型正确分类所有标准输入,但在含有触发器的任何输入中产生有目标的、不正确的分类。在本文中,我们展示了第一种不需要获得训练/测试数据的超轻量和高度有效的天体探测方法,它并不涉及任何昂贵的计算,也没有对天体触发器的性质作出任何假设。我们的方法侧重于分析网络最后线性层的重量。我们从经验上显示了这些重量的几种特征,这些特征经常发生在台式网络中,而不是在良性网络中。我们特别表明,与天体目标类相关的重量的分布情况与其他等级的重量有明显的区别。我们以此展示了我们提议的探测方法对各种结构、数据集和触发型的状态攻击的有效性。

0
下载
关闭预览

相关内容

专知会员服务
24+阅读 · 2021年7月22日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
《动手学深度学习》(Dive into Deep Learning)PyTorch实现
专知会员服务
119+阅读 · 2019年12月31日
已删除
将门创投
4+阅读 · 2020年6月12日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Arxiv
0+阅读 · 2021年10月26日
Arxiv
0+阅读 · 2021年10月26日
Arxiv
14+阅读 · 2020年10月26日
Deflecting Adversarial Attacks
Arxiv
8+阅读 · 2020年2月18日
Arxiv
5+阅读 · 2018年5月1日
VIP会员
相关资讯
已删除
将门创投
4+阅读 · 2020年6月12日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
相关论文
Arxiv
0+阅读 · 2021年10月26日
Arxiv
0+阅读 · 2021年10月26日
Arxiv
14+阅读 · 2020年10月26日
Deflecting Adversarial Attacks
Arxiv
8+阅读 · 2020年2月18日
Arxiv
5+阅读 · 2018年5月1日
Top
微信扫码咨询专知VIP会员