【IJCAI2021】BESA: 基于BERT模拟退火算法的对抗性文本攻击

现代自然语言处理(NLP)模型对文本对抗性例子非常脆弱，探索有效的对抗性文本攻击算法有助于理解和提高模型的表现。本工作提出BESA，一种基于BERT的模拟退火算法以生成自然的对抗文本。首先，BESA利用BERT Masked Language Model (MLM)生成上下文感知的替换词，以生成流畅的对抗性文本。其次，采用模拟退火(SA)算法自适应地确定词替换顺序，实现较高的攻击成功率和较低词的单词替换率。

深度神经网络(DNNs)在自然语言处理(NLP)领域的文本分类任务中面对对抗性样本表现出了极度的脆弱性。对抗性样本是指带有一些恶意修改的原始输入。这些修改对人类来说通常是难以察觉的，但可以很容易地破坏DNNs的正确预测。因此，探索潜在的文本对抗攻击对于理解DNNs行为和确保其鲁棒性是至关重要的。

现有的文本攻击算法主要集中在基于单词的攻击，即用另一个精心选择的单词替换原来的单词。这种策略通常分为两步：（1）确定替换词，（2）确定哪些词需要被替换。在第一步中，替换词应在语义上接近原词，以便使人类无法察觉到修改。典型的策略是从Glove、WordNet 和 HowNet 中搜索候选词。然而，这些算法为每个单词单独创建候选词集，并忽略它们的上下文环境，很容易产生脱离上下文的修改。在第二步中，大多数先前的工作都是通过单词重要度(WIS)降序进行单词替换。但是，通过固定的(或静态的)WIS顺序改变单词通常会导致局部最优和单词过度替换。

为了解决上述问题，研究员们提出了BERT based Simulated Annealing (BESA) 来生成流畅的对抗性文本样本。在第一步中，BESA利用BERT Masked Language Model (BERT-MLM) 产生符合上下文环境的替换词。在第二步中，研究员们提出利用Simulated Annealing (SA) 算法确定单词替换优先级。SA打破了固定的(静态的)替换顺序，并提供了更多的单词替换选项，这对于寻找高质量的对抗性样本至关重要。

本文的创新点在于： -（1）研究员们提出通过预先训练的BERT-MLM生成自然替代词。这些替换词可以很好地适应文本上下文。生成的对抗性文本更加自然流畅。 -（2）研究员们设计了一种有效的模拟退火(SA)方法来确定单词替换优先级。SA目标函数设计为实现高攻击成功率(ASR)和低单词替换率(WSR)。 -（3）研究员们在五个公共数据集上评估了BESA的有效性。实验结果表明，BESA不仅提高了ASR和减少了WSR （如表2.1所示），而且能够很好的保持语法正确性和语义相似性（如图2.1所示）。

成为VIP会员查看完整内容