Recently, the textual adversarial attack models become increasingly popular due to their successful in estimating the robustness of NLP models. However, existing works have obvious deficiencies. (1) They usually consider only a single granularity of modification strategies (e.g. word-level or sentence-level), which is insufficient to explore the holistic textual space for generation; (2) They need to query victim models hundreds of times to make a successful attack, which is highly inefficient in practice. To address such problems, in this paper we propose MAYA, a Multi-grAnularitY Attack model to effectively generate high-quality adversarial samples with fewer queries to victim models. Furthermore, we propose a reinforcement-learning based method to train a multi-granularity attack agent through behavior cloning with the expert knowledge from our MAYA algorithm to further reduce the query times. Additionally, we also adapt the agent to attack black-box models that only output labels without confidence scores. We conduct comprehensive experiments to evaluate our attack models by attacking BiLSTM, BERT and RoBERTa in two different black-box attack settings and three benchmark datasets. Experimental results show that our models achieve overall better attacking performance and produce more fluent and grammatical adversarial samples compared to baseline models. Besides, our adversarial attack agent significantly reduces the query times in both attack settings. Our codes are released at https://github.com/Yangyi-Chen/MAYA.


翻译:最近,由于成功估算了NLP模型的稳健性,理论对抗性攻击模式由于成功估计了NLP模型的强健性而越来越受欢迎,但是,现有的工程有明显的缺陷。 (1) 它们通常只考虑一个修改战略的单一颗粒(如字级或判决级),这不足以探索整体的一代文字空间;(2) 它们需要询问受害者模型数百次,以便成功地进行攻击,而实际上这种攻击效率非常低。 为了解决这些问题,我们在本文件中提议建立一个多面形攻击模式MAY,以有效生成高质量的对抗性试样,同时减少对受害者模型的查询。此外,我们建议一种基于强化学习的方法,通过行为克隆来培训多面形攻击剂,而这种方法又不足以探索一代整体的文字空间;(2) 它们需要询问受害者模型数百次,以便成功地进行攻击,而这种攻击实际上效率很高。 为了解决这些问题,我们进行了全面实验,通过在两个不同的黑箱攻击环境中攻击BERT和RoBERTA 三个基准数据集来评估我们的攻击模式。 实验结果显示,我们模型比我们的攻击性攻击基准/CRDRBRA的模型都比我们的攻击基准/C。

0
下载
关闭预览

相关内容

专知会员服务
17+阅读 · 2020年9月6日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
已删除
将门创投
5+阅读 · 2018年7月25日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年10月29日
Arxiv
12+阅读 · 2020年12月10日
Deflecting Adversarial Attacks
Arxiv
8+阅读 · 2020年2月18日
Arxiv
7+阅读 · 2018年6月8日
Arxiv
3+阅读 · 2018年6月5日
Arxiv
4+阅读 · 2015年3月20日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
已删除
将门创投
5+阅读 · 2018年7月25日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Arxiv
0+阅读 · 2021年10月29日
Arxiv
12+阅读 · 2020年12月10日
Deflecting Adversarial Attacks
Arxiv
8+阅读 · 2020年2月18日
Arxiv
7+阅读 · 2018年6月8日
Arxiv
3+阅读 · 2018年6月5日
Arxiv
4+阅读 · 2015年3月20日
Top
微信扫码咨询专知VIP会员