论文题目: Adversarial Explanations for Understanding Image Classification Decisions and Improved Neural Network Robustness
论文摘要: 对于敏感问题,如医学成像或欺诈检测,由于担心其可靠性,神经网络(NN)的采用进程一直很慢。NNs还容易受到一类不可察觉的攻击,称为对抗性攻击,这些攻击会任意改变网络的输出。在这里,我们证明了这些攻击可以使先前解释NNs决策的尝试失效,并且对于非常健壮的网络,攻击本身可以作为对模型更精确的解释。我们证明,在Lipschitz约束的启发下引入一种新的正则化技术,以及其他提出的改进,极大地提高了神经网络对对抗性例子的抵抗能力。在ImageNet分类任务中,我们展示了一个精度稳健性区域(ARA)为0.0053的网络,ARA比现有技术高2.4倍。提高对决策的理解是在敏感领域建立信任和进一步了解神经网络对刺激的反应的重要方向。
作者简介:
Jack Chen,美国戴尔公司,首席数据科学家。
Christof Teuscher,波特兰州立大学(PSU)电子与计算机工程系(ECE)的正式教授。他的研究团队研究下一代计算模型和技术。