Deep neural networks (DNNs) have progressed rapidly during the past decade and have been deployed in various real-world applications. Meanwhile, DNN models have been shown to be vulnerable to security and privacy attacks. One such attack that has attracted a great deal of attention recently is the backdoor attack. Specifically, the adversary poisons the target model's training set to mislead any input with an added secret trigger to a target class. Previous backdoor attacks predominantly focus on computer vision (CV) applications, such as image classification. In this paper, we perform a systematic investigation of backdoor attack on NLP models, and propose BadNL, a general NLP backdoor attack framework including novel attack methods. Specifically, we propose three methods to construct triggers, namely BadChar, BadWord, and BadSentence, including basic and semantic-preserving variants. Our attacks achieve an almost perfect attack success rate with a negligible effect on the original model's utility. For instance, using the BadChar, our backdoor attack achieves a 98.9% attack success rate with yielding a utility improvement of 1.5% on the SST-5 dataset when only poisoning 3% of the original set. Moreover, we conduct a user study to prove that our triggers can well preserve the semantics from humans perspective.


翻译:深心神经网络(DNN)在过去十年中进展迅速,并被部署在各种现实世界应用中。 同时,DNN模型被证明容易受到安全和隐私攻击。 最近引起极大关注的这种攻击之一是后门攻击。 具体地说, 对手对目标模型的培训施以毒药, 目的是用附加的秘密触发器来误导任何输入。 以前的后门攻击主要集中于计算机视觉(CV)应用程序, 如图像分类。 在本文中, 我们对NLP模型的后门攻击进行了系统调查, 并提出了BadNL(BadNL), 一个通用NLP后门攻击框架, 包括新的攻击方法。 具体地说, 我们提出了三种制造触发器的方法, 即BadChar、BadWord和BadSentence, 包括基本和语义性保护变体。 我们的攻击取得了几乎完美的攻击成功率, 对原始模型的用途影响很小。 例如,我们使用BadChar, 我们的后门攻击达到了98.9 % 攻击成功率, 使得我们最初的SST-5 系统能改进了1.5%的用户的状态。

0
下载
关闭预览

相关内容

ACM/IEEE第23届模型驱动工程语言和系统国际会议,是模型驱动软件和系统工程的首要会议系列,由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来,模型涵盖了建模的各个方面,从语言和方法到工具和应用程序。模特的参加者来自不同的背景,包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛,参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会,并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。 官网链接:http://www.modelsconference.org/
【AAAI2021】组合对抗攻击
专知会员服务
50+阅读 · 2021年2月17日
专知会员服务
33+阅读 · 2020年12月28日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
开源书:PyTorch深度学习起步
专知会员服务
50+阅读 · 2019年10月11日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
AI新方向:对抗攻击
网易智能菌
10+阅读 · 2018年11月14日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Deflecting Adversarial Attacks
Arxiv
8+阅读 · 2020年2月18日
VIP会员
相关VIP内容
Top
微信扫码咨询专知VIP会员