最近,NLP见证了大型预训练模型使用的激增。用户下载在大型数据集上预先训练的模型的权重,然后在他们选择的任务上微调权重。这就提出了一个问题:下载未经训练的不可信的权重是否会造成安全威胁。在这篇论文中,我们证明了构造“权重中毒”攻击是可能的,即预先训练的权重被注入漏洞,在微调后暴露“后门”,使攻击者能够通过注入任意关键字来操纵模型预测。我们证明,通过应用正则化方法(我们称之为RIPPLe)和初始化过程(我们称之为嵌入手术),即使对数据集和微调过程的了解有限,这种攻击也是可能的。我们在情感分类、毒性检测、垃圾邮件检测等方面的实验表明,该攻击具有广泛的适用性和严重的威胁。最后,我们概述了针对此类攻击的实际防御。复制我们实验的代码可以在https://github.com/neulab/RIPPLe找到。

成为VIP会员查看完整内容
11

相关内容

预训练模型是深度学习架构,已经过训练以执行大量数据上的特定任务(例如,识别图片中的分类问题)。这种训练不容易执行,并且通常需要大量资源,超出许多可用于深度学习模型的人可用的资源。
[ICML-Google]先宽后窄:对深度薄网络的有效训练
专知会员服务
34+阅读 · 2020年7月5日
【ICML2020】小样本目标检测
专知会员服务
90+阅读 · 2020年6月2日
【复旦大学-SP2020】NLP语言模型隐私泄漏风险
专知会员服务
24+阅读 · 2020年4月20日
【综述】基于图的对抗式攻击和防御,附22页论文下载
专知会员服务
68+阅读 · 2020年3月5日
ICLR2019 图上的对抗攻击
图与推荐
17+阅读 · 2020年3月15日
IJCAI 2019 提前看 | 神经网络后门攻击、对抗攻击
揭秘|多伦多大学反人脸识别,身份欺骗成功率达99.5%
机器人大讲堂
6+阅读 · 2018年6月9日
Weight Poisoning Attacks on Pre-trained Models
Arxiv
5+阅读 · 2020年4月14日
Deflecting Adversarial Attacks
Arxiv
8+阅读 · 2020年2月18日
Arxiv
22+阅读 · 2018年8月30日
VIP会员
微信扫码咨询专知VIP会员