The Universal Trigger (UniTrigger) is a recently-proposed powerful adversarial textual attack method. Utilizing a learning-based mechanism, UniTrigger can generate a fixed phrase that when added to any benign inputs, can drop the prediction accuracy of a textual neural network (NN) model to near zero on a target class. To defend against this new attack method that may cause significant harm, we borrow the "honeypot" concept from the cybersecurity community and propose DARCY, a honeypot-based defense framework. DARCY adaptively searches and injects multiple trapdoors into an NN model to "bait and catch" potential attacks. Through comprehensive experiments across five public datasets, we demonstrate that DARCY detects UniTrigger's adversarial attacks with up to 99% TPR and less than 1% FPR in most cases, while showing a difference of only around 2% of F1 score on average in predicting for clean inputs. We also show that DARCY with multiple trapdoors is robust under different assumptions with respect to attackers' knowledge and skills.


翻译:通用触发器( UniTrigger) 是一种最近提出的强大的对抗性文字攻击方法。 使用基于学习的机制, UniTrigger 可以生成一个固定的短语, 当添加到任何良性输入中时, 可以将文本神经网络模型的预测准确性降低到目标等级的接近零。 为了防范这种可能造成重大伤害的新攻击方法, 我们从网络安全界借用了“ 蜂窝” 概念, 并提出了一个基于蜂窝的防御框架DARCY。 DARCY 以适应性方式搜索并输入多个陷阱到NN模型中, 以“ 殴打和抓捕” 潜在攻击。 通过对五个公共数据集的全面实验, 我们证明 DARCY 检测到UniTrigger 的对抗性攻击, 高达99% TPR, 在大多数情况下不到1% FPR, 同时显示在预测清洁投入方面平均只有2% F1 的得分差异。 我们还表明, 在与攻击者的知识和技能有关的不同假设下, 具有多个陷阱的DARCY是强大的。

0
下载
关闭预览

相关内容

专知会员服务
35+阅读 · 2020年12月28日
最新《Transformers模型》教程,64页ppt
专知会员服务
312+阅读 · 2020年11月26日
专知会员服务
45+阅读 · 2020年10月31日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
49+阅读 · 2020年7月4日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
154+阅读 · 2019年10月12日
开源书:PyTorch深度学习起步
专知会员服务
51+阅读 · 2019年10月11日
已删除
将门创投
4+阅读 · 2019年4月1日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Arxiv
0+阅读 · 2021年1月9日
Arxiv
12+阅读 · 2020年12月10日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Adversarial Metric Attack for Person Re-identification
Arxiv
3+阅读 · 2018年6月5日
VIP会员
相关VIP内容
专知会员服务
35+阅读 · 2020年12月28日
最新《Transformers模型》教程,64页ppt
专知会员服务
312+阅读 · 2020年11月26日
专知会员服务
45+阅读 · 2020年10月31日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
49+阅读 · 2020年7月4日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
154+阅读 · 2019年10月12日
开源书:PyTorch深度学习起步
专知会员服务
51+阅读 · 2019年10月11日
相关资讯
已删除
将门创投
4+阅读 · 2019年4月1日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
相关论文
Arxiv
0+阅读 · 2021年1月9日
Arxiv
12+阅读 · 2020年12月10日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Adversarial Metric Attack for Person Re-identification
Arxiv
3+阅读 · 2018年6月5日
Top
微信扫码咨询专知VIP会员