表1: 对抗攻击的例子。其中标签发生改变,而证据文本不变
为了解决这些挑战,我们提出了一个联合分类和证据提取框架 AT-BMC,其中任务预测和证据提取是通过混合对抗训练(AT)和边界匹配约束(BMC)联合学习的。首先,我们在离散文本空间和嵌入空间中添加扰动,以提高模型的泛化和稳健性。一方面,我们在词的层面上产生对抗性的例子,同时保持证据不变。扰动也保持了预测的不变。另一方面,本文提出的嵌入空间的对抗性训练在计算效率和训练平稳性方面上比标准对抗训练更加完善。
其次,我们通过对边界位置的建模来考虑匹配约束,这使得模型能够进一步关注边界相关的区域。边界约束的主要思想是使序列标签模型在定位实体时考虑边界信息。通过将预测的合理片段的起始索引与相应的结束索引相匹配,全局序列标签信息与局部区域感知信息相融合。此外,我们通过标签嵌入使提取模型利用分类的结果(建立两者的关联)。
我们在两个基准数据集(即 Movie Review 和 MultiRC)上进行了实验。实验结果表明,AT-BMC 在分类和证据提取方面大幅度超过了基线。鲁棒性分析进一步表明,AT-BMC 可以有效地提高模型的鲁棒性,在更强的对抗攻击下,攻击成功率从 96% 下降到 27%。我们的代码已开源。
之前的工作表明,神经网络很容易被攻击,这自然带来了一个问题:是否有必要应用可解释性技术,来解释模型的预测行为是否会受到攻击的影响。之前的一些工作从经验上观察到,在计算机视觉领域中,鲁棒的模型可以更容易解释。而尽管最近的一些研究专注于将可解释性和对抗的鲁棒性联系起来,但现在并没有模型明确声明同时具备这两种特性。另一方面,我们的目标是专注于理解文本分类任务中两者之间的联系,我们希望它能为自然语言处理任务中此类方法的未来发展带来启示。
我们的基本框架遵循多任务学习(MTL),应用在这两个任务:(1)证据提取和(2)实际预测任务。我们采用 MTL 的共享编码器结构,两个任务共享相同的编码器,但是解码器不同。如图 1 所示,AT-BMC 包含以下 4 个部分:
(a) Prediction Network:根据输入文本进行分类预测;
(b) explanation generation network:根据输入文本和预测的分类标签使用 CRF 层解码器抽取证据;
(c) 混合对抗训练(Mixed Adversarial Training):使用离散对抗方法对输入文本进行改动,以及引入嵌入空间的对抗训练,来增强模型的鲁棒性;
(d) 边界匹配约束(Boundary Constraint):用 start、end 双指针做边界限制来促进模型更准确地定位证据边界。
图1: 混合对抗训练和边界匹配约束的联合分类和证据提取 AT-BMC 的总体架构
在对于证据提取,CRF 解码器可以捕获开始/结束的边界。由于 CRF 在给定观察序列特征的情况下学习标签序列的条件概率,因此可以将其目标函数视为以观察 X 为条件的最大对数似然目标函数。但是,CRF 存在生成非法标签序列的局限性,因为它鼓励合理的标签序列,而对于不合理的过渡惩罚较低。因此,我们使用边界约束来鼓励它在定位边界时更加准确。边界约束的基本思想是将证据文本的预测起始索引与其对应的结束索引匹配。
文本分类和证据抽取的性能比较:如表 2 所示,我们的模型在两个数据集上都比以前的模型有所提高。在证据提取任务中,AT-BMC(BERT-base)和 AT-BMC(RoBERTa-large)在电影评论数据集上比以前的模型提高了 4.3% 和 13.3 % F1。此外,在 MultiRC 数据集上,我们的方法也将 F1 提高了 3.3% 和 10.8%。另一方面,AT-BMC(BERT-base)在准确性方面分别提高了 0.8% 和 1.3%,这可能主要来自两个方面:一个是多任务学习,另一个是对抗性训练。
表2:两个文本分类数据集任务性能和证据抽取表现的对比
在不同攻击方法下模型的鲁棒性:我们没有用可解释性稳健性来衡量稳健性,在这种情况下,证据应该对输入中的小扰动不变。我们考虑了三种不同的攻击方法(即 TextFooler、TextBugger 和 PWWS)来测试稳健性。在测试中,我们关注的是攻击的成功率。TextFooler 和 TextBugger 使用混合的方法(如单词嵌入距离、部分 Pos tag 标签匹配),并设计了一个单词替换机制来攻击现有模型;PWWS 使用单词重要性排名来替换部分句子,其中单词突出性和同义词交换分数被用来计算单词重要性。
有限证据标注下模型的表现:我们的方法也可以应用在只有有限的注释例子的情况下。如图 3 所示,我们比较了训练集中不同比例的人类标记的证据的模型的性能。我们发现,当只有 5% 的带有标注信号的例子时,模型在测试集上的提取精度达到了 40% 以上。随着这些标记实例比例的增加,模型的性能也随之提高。由于这些标注的人工标注是耗时耗力的,这可能意味着我们的方法可以在没有很多人工标注的情况下稳定地生成合理的解释。
图3:不同攻击策略下的节点分类性能
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧