现代自然语言处理(NLP)模型对文本对抗性例子非常脆弱,探索有效的对抗性文本攻击算法有助于理解和提高模型的表现。本工作提出BESA,一种基于BERT的模拟退火算法以生成自然的对抗文本。首先,BESA利用BERT Masked Language Model (MLM)生成上下文感知的替换词,以生成流畅的对抗性文本。其次,采用模拟退火(SA)算法自适应地确定词替换顺序,实现较高的攻击成功率和较低词的单词替换率。
深度神经网络(DNNs)在自然语言处理(NLP)领域的文本分类任务中面对对抗性样本表现出了极度的脆弱性。对抗性样本是指带有一些恶意修改的原始输入。这些修改对人类来说通常是难以察觉的,但可以很容易地破坏DNNs的正确预测。因此,探索潜在的文本对抗攻击对于理解DNNs行为和确保其鲁棒性是至关重要的。
现有的文本攻击算法主要集中在基于单词的攻击,即用另一个精心选择的单词替换原来的单词。这种策略通常分为两步:(1)确定替换词,(2)确定哪些词需要被替换。在第一步中,替换词应在语义上接近原词,以便使人类无法察觉到修改。典型的策略是从Glove、WordNet 和 HowNet 中搜索候选词。然而,这些算法为每个单词单独创建候选词集,并忽略它们的上下文环境,很容易产生脱离上下文的修改。在第二步中,大多数先前的工作都是通过单词重要度(WIS)降序进行单词替换。但是,通过固定的(或静态的)WIS顺序改变单词通常会导致局部最优和单词过度替换。
为了解决上述问题,研究员们提出了BERT based Simulated Annealing (BESA) 来生成流畅的对抗性文本样本。在第一步中,BESA利用BERT Masked Language Model (BERT-MLM) 产生符合上下文环境的替换词。在第二步中,研究员们提出利用Simulated Annealing (SA) 算法确定单词替换优先级。SA打破了固定的(静态的)替换顺序,并提供了更多的单词替换选项,这对于寻找高质量的对抗性样本至关重要。
本文的创新点在于: -(1)研究员们提出通过预先训练的BERT-MLM生成自然替代词。这些替换词可以很好地适应文本上下文。生成的对抗性文本更加自然流畅。 -(2)研究员们设计了一种有效的模拟退火(SA)方法来确定单词替换优先级。SA目标函数设计为实现高攻击成功率(ASR)和低单词替换率(WSR)。 -(3)研究员们在五个公共数据集上评估了BESA的有效性。实验结果表明,BESA不仅提高了ASR和减少了WSR (如表2.1所示),而且能够很好的保持语法正确性和语义相似性(如图2.1所示)。