现代自然语言处理(NLP)模型对文本对抗性例子非常脆弱,探索有效的对抗性文本攻击算法有助于理解和提高模型的表现。本工作提出BESA,一种基于BERT的模拟退火算法以生成自然的对抗文本。首先,BESA利用BERT Masked Language Model (MLM)生成上下文感知的替换词,以生成流畅的对抗性文本。其次,采用模拟退火(SA)算法自适应地确定词替换顺序,实现较高的攻击成功率和较低词的单词替换率。

深度神经网络(DNNs)在自然语言处理(NLP)领域的文本分类任务中面对对抗性样本表现出了极度的脆弱性。对抗性样本是指带有一些恶意修改的原始输入。这些修改对人类来说通常是难以察觉的,但可以很容易地破坏DNNs的正确预测。因此,探索潜在的文本对抗攻击对于理解DNNs行为和确保其鲁棒性是至关重要的。

现有的文本攻击算法主要集中在基于单词的攻击,即用另一个精心选择的单词替换原来的单词。这种策略通常分为两步:(1)确定替换词,(2)确定哪些词需要被替换。在第一步中,替换词应在语义上接近原词,以便使人类无法察觉到修改。典型的策略是从Glove、WordNet 和 HowNet 中搜索候选词。然而,这些算法为每个单词单独创建候选词集,并忽略它们的上下文环境,很容易产生脱离上下文的修改。在第二步中,大多数先前的工作都是通过单词重要度(WIS)降序进行单词替换。但是,通过固定的(或静态的)WIS顺序改变单词通常会导致局部最优和单词过度替换。

为了解决上述问题,研究员们提出了BERT based Simulated Annealing (BESA) 来生成流畅的对抗性文本样本。在第一步中,BESA利用BERT Masked Language Model (BERT-MLM) 产生符合上下文环境的替换词。在第二步中,研究员们提出利用Simulated Annealing (SA) 算法确定单词替换优先级。SA打破了固定的(静态的)替换顺序,并提供了更多的单词替换选项,这对于寻找高质量的对抗性样本至关重要。

本文的创新点在于: -(1)研究员们提出通过预先训练的BERT-MLM生成自然替代词。这些替换词可以很好地适应文本上下文。生成的对抗性文本更加自然流畅。 -(2)研究员们设计了一种有效的模拟退火(SA)方法来确定单词替换优先级。SA目标函数设计为实现高攻击成功率(ASR)和低单词替换率(WSR)。 -(3)研究员们在五个公共数据集上评估了BESA的有效性。实验结果表明,BESA不仅提高了ASR和减少了WSR (如表2.1所示),而且能够很好的保持语法正确性和语义相似性(如图2.1所示)。

成为VIP会员查看完整内容
13

相关内容

自然语言处理(NLP)是语言学,计算机科学,信息工程和人工智能的一个子领域,与计算机和人类(自然)语言之间的相互作用有关,尤其是如何对计算机进行编程以处理和分析大量自然语言数据 。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
47+阅读 · 2021年9月5日
专知会员服务
11+阅读 · 2021年7月16日
专知会员服务
47+阅读 · 2021年4月15日
专知会员服务
20+阅读 · 2021年2月7日
专知会员服务
9+阅读 · 2021年1月31日
【WSDM2021】拓扑去噪的鲁棒图神经网络
专知会员服务
26+阅读 · 2020年11月14日
【ACL2020】利用模拟退火实现无监督复述
专知会员服务
13+阅读 · 2020年5月26日
CMU博士论文:可微优化机器学习建模
专知会员服务
59+阅读 · 2019年10月26日
对抗攻击之利用水印生成对抗样本
计算机视觉life
10+阅读 · 2020年9月27日
【关系抽取】详聊如何用BERT实现关系抽取
深度学习自然语言处理
32+阅读 · 2020年3月21日
【论文笔记】基于BERT的知识图谱补全
专知
116+阅读 · 2019年9月15日
CVPR 2019 | 图像压缩重建也能抵御对抗样本
计算机视觉life
3+阅读 · 2019年4月26日
3分钟看懂史上最强NLP模型BERT
新智元
23+阅读 · 2019年2月27日
时代聚焦AI安全——可解释性
云栖社区
9+阅读 · 2018年1月21日
基于机器学习方法的POI品类推荐算法
全球人工智能
3+阅读 · 2017年11月22日
Arxiv
12+阅读 · 2020年12月10日
Interpretable Adversarial Training for Text
Arxiv
5+阅读 · 2019年5月30日
VIP会员
相关VIP内容
专知会员服务
47+阅读 · 2021年9月5日
专知会员服务
11+阅读 · 2021年7月16日
专知会员服务
47+阅读 · 2021年4月15日
专知会员服务
20+阅读 · 2021年2月7日
专知会员服务
9+阅读 · 2021年1月31日
【WSDM2021】拓扑去噪的鲁棒图神经网络
专知会员服务
26+阅读 · 2020年11月14日
【ACL2020】利用模拟退火实现无监督复述
专知会员服务
13+阅读 · 2020年5月26日
CMU博士论文:可微优化机器学习建模
专知会员服务
59+阅读 · 2019年10月26日
相关资讯
对抗攻击之利用水印生成对抗样本
计算机视觉life
10+阅读 · 2020年9月27日
【关系抽取】详聊如何用BERT实现关系抽取
深度学习自然语言处理
32+阅读 · 2020年3月21日
【论文笔记】基于BERT的知识图谱补全
专知
116+阅读 · 2019年9月15日
CVPR 2019 | 图像压缩重建也能抵御对抗样本
计算机视觉life
3+阅读 · 2019年4月26日
3分钟看懂史上最强NLP模型BERT
新智元
23+阅读 · 2019年2月27日
时代聚焦AI安全——可解释性
云栖社区
9+阅读 · 2018年1月21日
基于机器学习方法的POI品类推荐算法
全球人工智能
3+阅读 · 2017年11月22日
微信扫码咨询专知VIP会员