最近的研究表明,可解释性和鲁棒性是可信和可靠文本分类的两个关键因素。然而,以往的研究通常涉及两个方面之一:i)如何在有利于预测的同时提取出可解释性的准确理论;如何使预测模型对不同类型的对抗攻击具有鲁棒性。从直观上看,一个产生有用解释的模型应该在对抗攻击时更加鲁棒,因为我们不能相信输出解释但在小扰动下改变预测的模型。为此,我们提出了一个联合分类和基本原理提取模型AT-BMC。它包括两种关键机制: 混合对抗训练(AT)利用离散空间和嵌入空间中的各种扰动来提高模型的鲁棒性,边界匹配约束(BMC)利用边界信息的引导来更精确地定位理论。在基准数据集上的性能表明,所提出的AT-BMC在分类和基本原理提取方面都大大优于基线。鲁棒性分析表明,所提出的AT-BMC有效地降低了攻击成功率,达到69%。实证结果表明,鲁棒的模型与较好的解释之间存在联系。