最近的研究表明,可解释性和鲁棒性是可信和可靠文本分类的两个关键因素。然而,以往的研究通常涉及两个方面之一:i)如何在有利于预测的同时提取出可解释性的准确理论;如何使预测模型对不同类型的对抗攻击具有鲁棒性。从直观上看,一个产生有用解释的模型应该在对抗攻击时更加鲁棒,因为我们不能相信输出解释但在小扰动下改变预测的模型。为此,我们提出了一个联合分类和基本原理提取模型AT-BMC。它包括两种关键机制: 混合对抗训练(AT)利用离散空间和嵌入空间中的各种扰动来提高模型的鲁棒性,边界匹配约束(BMC)利用边界信息的引导来更精确地定位理论。在基准数据集上的性能表明,所提出的AT-BMC在分类和基本原理提取方面都大大优于基线。鲁棒性分析表明,所提出的AT-BMC有效地降低了攻击成功率,达到69%。实证结果表明,鲁棒的模型与较好的解释之间存在联系。
https://www.zhuanzhi.ai/paper/ab5113988be2a2ceaa86e920411ba06f
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“ATBMC” 就可以获取《【AAAI2022】联合文本分类和关系提取的统一模型可解释性和鲁棒性》专知下载链接