【导读】牛津大学的博士生Oana-Maria Camburu撰写了毕业论文《解释神经网络 (Explaining Deep Neural Networks)》,系统性介绍了深度神经网络可解释性方面的工作,值得关注。

作者介绍:

Oana-Maria Camburu,来自罗马尼亚,目前是牛津大学的博士生,主修机器学习、人工智能等方向。

Explaining Deep Neural Networks

深度神经网络在计算机视觉、自然语言处理和语音识别等不同领域取得了革命性的成功,因此越来越受欢迎。然而,这些模型的决策过程通常是无法向用户解释的。在各种领域,如医疗保健、金融或法律,了解人工智能系统所做决策背后的原因至关重要。因此,最近研究了几个解释神经模型的方向。

在这篇论文中,我研究了解释深层神经网络的两个主要方向。第一个方向由基于特征的事后解释方法组成,也就是说,这些方法旨在解释一个已经训练过的固定模型(事后解释),并提供输入特征方面的解释,例如文本标记和图像的超级像素(基于特征的)。第二个方向由生成自然语言解释的自解释神经模型组成,也就是说,模型有一个内置模块,为模型的预测生成解释。在这些方面的贡献如下:

  • 首先,我揭示了仅使用输入特征来解释即使是微不足道的模型也存在一定的困难。我表明,尽管有明显的隐含假设,即解释方法应该寻找一种特定的基于真实值特征的解释,但对于预测通常有不止一种这样的解释。我还展示了两类流行的解释方法,它们针对的是不同类型的事实基础解释,但没有明确地提及它。此外,我还指出,有时这两种解释都不足以提供一个实例上决策过程的完整视图。

  • 其次,我还介绍了一个框架,用于自动验证基于特征的事后解释方法对模型的决策过程的准确性。这个框架依赖于一种特定类型的模型的使用,这种模型有望提供对其决策过程的洞察。我分析了这种方法的潜在局限性,并介绍了减轻这些局限性的方法。引入的验证框架是通用的,可以在不同的任务和域上实例化,以提供现成的完整性测试,这些测试可用于测试基于特性的后特殊解释方法。我在一个情绪分析任务上实例化了这个框架,并提供了完备性测试s1,在此基础上我展示了三种流行的解释方法的性能。

  • 第三,为了探索为预测生成自然语言解释的自解释神经模型的发展方向,我在有影响力的斯坦福自然语言推断(SNLI)数据集之上收集了一个巨大的数据集,数据集约为570K人类编写的自然语言解释。我把这个解释扩充数据集称为e-SNLI。我做了一系列的实验来研究神经模型在测试时产生正确的自然语言解释的能力,以及在训练时提供自然语言解释的好处。

  • 第四,我指出,目前那些为自己的预测生成自然语言解释的自解释模型,可能会产生不一致的解释,比如“图像中有一只狗。”以及“同一幅图片中没有狗”。不一致的解释要么表明解释没有忠实地描述模型的决策过程,要么表明模型学习了一个有缺陷的决策过程。我将介绍一个简单而有效的对抗性框架,用于在生成不一致的自然语言解释时检查模型的完整性。此外,作为框架的一部分,我解决了使用精确目标序列的对抗性攻击的问题,这是一个以前在序列到序列攻击中没有解决的场景,它对于自然语言处理中的其他任务很有用。我将这个框架应用到e-SNLI上的一个最新的神经模型上,并表明这个模型会产生大量的不一致性。

这项工作为获得更稳健的神经模型以及对预测的可靠解释铺平了道路。

地址: https://arxiv.org/abs/2010.01496

成为VIP会员查看完整内容
216

相关内容

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。
最新《图神经网络实用指南》2020论文,28页pdf
专知会员服务
221+阅读 · 2020年10月17日
【Haute-Alsace博士论文】深度学习时序分类,175页pdf
专知会员服务
99+阅读 · 2020年10月4日
最新《深度持续学习》综述论文,32页pdf
专知会员服务
84+阅读 · 2020年9月6日
专知会员服务
169+阅读 · 2020年8月26日
专知会员服务
133+阅读 · 2020年8月24日
【神经语言生成:形式化,方法与评价,70页pdf】
专知会员服务
35+阅读 · 2020年8月8日
最新《深度多模态数据分析》综述论文,26页pdf
专知会员服务
298+阅读 · 2020年6月16日
最新《图嵌入组合优化》综述论文,40页pdf
关于GANs在医学图像领域应用的总结
人工智能前沿讲习班
31+阅读 · 2019年6月4日
5篇顶会论文带你了解知识图谱最新研究进展
PaperWeekly
15+阅读 · 2019年2月21日
Arxiv
10+阅读 · 2020年4月5日
Arxiv
3+阅读 · 2019年8月19日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Sparse Sequence-to-Sequence Models
Arxiv
5+阅读 · 2019年5月14日
Arxiv
17+阅读 · 2018年4月2日
Arxiv
7+阅读 · 2018年1月31日
Arxiv
25+阅读 · 2018年1月24日
VIP会员
相关VIP内容
最新《图神经网络实用指南》2020论文,28页pdf
专知会员服务
221+阅读 · 2020年10月17日
【Haute-Alsace博士论文】深度学习时序分类,175页pdf
专知会员服务
99+阅读 · 2020年10月4日
最新《深度持续学习》综述论文,32页pdf
专知会员服务
84+阅读 · 2020年9月6日
专知会员服务
169+阅读 · 2020年8月26日
专知会员服务
133+阅读 · 2020年8月24日
【神经语言生成:形式化,方法与评价,70页pdf】
专知会员服务
35+阅读 · 2020年8月8日
最新《深度多模态数据分析》综述论文,26页pdf
专知会员服务
298+阅读 · 2020年6月16日
相关论文
Arxiv
10+阅读 · 2020年4月5日
Arxiv
3+阅读 · 2019年8月19日
Neural Image Captioning
Arxiv
5+阅读 · 2019年7月2日
Sparse Sequence-to-Sequence Models
Arxiv
5+阅读 · 2019年5月14日
Arxiv
17+阅读 · 2018年4月2日
Arxiv
7+阅读 · 2018年1月31日
Arxiv
25+阅读 · 2018年1月24日
微信扫码咨询专知VIP会员