打开深度学习黑箱，牛津大学博士小姐姐分享134页毕业论文

2020 年 10 月 8 日 AI科技评论

作者 | 青暮

深度神经网络在计算机视觉、自然语言处理和语音识别等领域读取得了革命性成功。但是，这些模型的决策过程通常无法解释。

不可解释性制约着深度学习方法的结构化和研究创新性，在实际应用中调参往往占据了很大的工作量，让人不明其创新所在的调参型研究论文充斥着深度学习社区。此外在模型失效或出现偏见等问题时，不可解释性也会导致高成本的修复工作。

深度学习模型通常只能将多个变量进行关联，而无法理解背后的机制，这会导致因果关系的模糊性。而确定因果关系，对于医疗、金融或法律等领域至关重要。在近年来，深度学习的可解释性也越来越受到学界和业界的重视。

近日，一篇134页的博士论文《Explaining Deep Neural Networks》受到了广泛的关注，作者Oana-Maria Camburu在论文中介绍了不同类型的神经网络解释方法，即事后解释和自解释，并对两种方法进行了分析和验证，并表示“这项工作为获得更鲁棒的神经模型以及对它们预测的可信解释铺平了道路。”

论文地址：https://arxiv.org/pdf/2010.01496.pdf

第一个方向是基于特征的事后（post-hoc）解释方法，即旨在解释已经训练和固定的模型的方法（事后解释），并提供输入特征方面的解释，例如文本的token、图像的超像素（基于特征）。

图注：两个解释器给出至少两个基于特征的解释的示例。其中假设得分线性反映情绪强度，且0.1的差距是显著的。

第二个方向是生成自然语言解释的自解释（self-explanatory）神经模型，即具有内置模块的模型，该模块生成对模型预测的解释。

图注：（a）BiLSTMMax-PredExpl，（b）BiLSTM-Max-ExplPred-Seq2Seq和（c）BiLSTMMax-ExplPred-Att的预测标签和生成解释的示例，方括号中为正确性得分。

论文成果

通过这两个方向的探索，作者首先揭示了仅使用输入特征来解释即便是简单模型的某些困难。

尽管明显地隐含了一个假设，即解释方法应该寻找一种基于事实的特定解释，但对于某个预测而言，通常会有不止一种这样的解释。

此外，两种流行的解释方法针对不同类型的事实解释，但却没有明确提及。而且，有时这些解释都不足以提供有关实例决策过程的完整视图。

第二，作者介绍了一个用于自动验证真实性的框架，基于特征的事后解释方法可用来描述其旨在解释的模型的决策过程。

该框架依赖于特定类型的模型，该模型有望提供对其决策过程的深入了解。作者分析了这种方法的潜在局限性，并介绍了缓解这些局限性的方法。

作者引入的验证框架是通用的，可以在不同的任务和域上实例化以提供现成的健全性测试（sanity test），可用于测试基于特征的事后解释方法。

作者在情感分析任务上实例化了此框架，并提供了健全性测试，在该测试中，作者展示了三种流行的解释方法的性能。

第三，为了探索生成自解释神经模型的方向（模型为预测提供自然语言解释），作者在斯坦福自然语言推理（SNLI）数据集之上收集了约570K的人类书面自然语言解释的大型数据集。作者将该解释增强的数据集称为e-SNLI。

图注：e-SNLI数据集的示例。注释中提供了前提、假设和标签，强调了对标签至关重要的词语，并提供了解释。

图注：可解释模型BiLSTM-Max-PredExpl的架构。

作者进行了一系列实验，研究了神经模型在测试时生成正确的自然语言解释的能力，以及在训练时提供自然语言解释的好处。

最后，作者证明了当前的自解释模型为预测生成自然语言解释时，可能会产生不一致的解释，例如“图像中有一条狗”和“ 图像中没有狗”。

不一致的解释表明，要么解释不如实地描述了模型的决策过程，要么是模型学习了有缺陷的决策过程。

作者还介绍了一个简单而有效的对抗框架，以进行健全性检查模型，从而防止产生不一致的自然语言解释。

此外，作为框架的一部分，作者还将解决具有精确目标序列的对抗攻击问题，这种情况以前没有在逐次序列攻击中得到解决，并且可以用于自然语言处理中的其他任务。作者将该框架应用于e-SNLI上最先进的神经模型，并表明该模型会生成大量不一致之处。

论文目录

Oana-Maria Camburu

这篇博士论文的作者Oana-Maria Camburu是一名牛津大学博士生。

Oana-Maria Camburu的导师是牛津大学计算机科学系的助理教授Phil Blunsom和教授Thomas Lukasiewicz，这两位都是牛人。Phil Blunsom还就职于DeepMind，主要研究自然语言处理。

图注：Phil Blunsom谷歌指数

图注：Thomas Lukasiewicz谷歌指数

Oana-Maria Camburu还表示，她之后也将继续在牛津大学做博士后研究，方向仍然是可解释人工智能，期待她的后续成果。

[博文视点赠书福利]

在10月1日头条《秋天的第一本AI书：周志华亲作森林书&贾扬清力荐天池书 | 赠书》留言区留言，谈一谈你对这两本书的看法或有关的学习、竞赛等经历。

AI 科技评论将会在留言区选出15名读者，送出《阿里云天池大赛赛题解析——机器学习篇》10本，《集成学习：基础与算法》5本，每人最多获得其中一本。

活动规则：

1. 在留言区留言，留言点赞最高的前 15 位读者将获得赠书，活动结束后，中奖读者将按照点赞排名由高到低的顺序优先挑选两本书中的其中一本，获得赠书的读者请添加AI科技评论官方微信（aitechreview）。

2. 留言内容会有筛选，例如“选我上去”等内容将不会被筛选，亦不会中奖。

3. 本活动时间为2020年10月1日 - 2020年10月8日（23:00），活动推送内仅允许中奖一次。

点击阅读原文，直达NeurIPS小组~

登录查看更多

相关内容

神经模型

关注 1

【牛津大学BoYang博士论文】学习重建和分割三维物体，143页pdf

专知会员服务

68+阅读 · 2020年11月9日

【Cell 2020】神经网络中的持续学习

专知会员服务

62+阅读 · 2020年11月7日

【牛津大学博士论文】解释深度神经网络，134页pdf

专知会员服务

221+阅读 · 2020年10月8日

【Haute-Alsace博士论文】深度学习时序分类，175页pdf

专知会员服务

103+阅读 · 2020年10月4日

【ICML2020-哈佛】深度语言表示中可分流形

专知会员服务

13+阅读 · 2020年6月2日

【滑铁卢大学】医学图像分析中可解释的深度学习模型，18页pdf

专知会员服务

121+阅读 · 2020年5月31日

【哈佛大学】机器学习的黑盒解释性，52页ppt

专知会员服务

172+阅读 · 2020年5月27日

【经典】《上海交通大学生存手册》，一本让你在大学活出精彩的秘籍

专知会员服务

202+阅读 · 2020年4月18日

【伯克利博士论文】从自然语言中学习（附106页pdf全文下载）

专知会员服务

52+阅读 · 2019年10月26日

南洋理工大学，深度学习推荐系统综述

专知会员服务

176+阅读 · 2019年10月14日

【斯坦福李飞飞等人Nature论文】基于深度学习检测ICU中的患者移动

专知

20+阅读 · 2019年3月2日

可解释机器学习：打开黑盒之谜（238页书籍下载）

专知

29+阅读 · 2019年1月15日

2018年有意思的几篇GAN论文

专知

21+阅读 · 2019年1月5日

OpenAI ICLR 2018论文汇总：主要兴趣为强化学习

论智

19+阅读 · 2018年5月1日

从草图到网站：基于深度学习自动化前端开发

论智

4+阅读 · 2018年4月3日

神经网络可解释性最新进展

专知

18+阅读 · 2018年3月10日

NLP选题：6大研究方向助你开启科研之路

论智

4+阅读 · 2018年3月6日

【286页干货】一天搞懂深度学习

七月在线实验室

9+阅读 · 2018年1月30日

干货 | 人工智能如何帮助银行反欺诈：来看看关于银行智能欺诈风险预测模型的研究

AI100

11+阅读 · 2017年11月17日

深度学习在情感分析中的应用

CSDN

7+阅读 · 2017年8月23日

Robust Federated Learning with Noisy Labels

Arxiv

0+阅读 · 2020年12月3日

Introducing Inter-Relatedness between Wikipedia Articles in Explicit Semantic Analysis

Arxiv

0+阅读 · 2020年12月1日

TailCoR

Arxiv

0+阅读 · 2020年11月26日

Talking-Heads Attention

Arxiv

15+阅读 · 2020年3月5日

Memory Augmented Graph Neural Networks for Sequential Recommendation

Arxiv

13+阅读 · 2019年12月26日

Social-BiGAT: Multimodal Trajectory Forecasting using Bicycle-GAN and Graph Attention Networks

Arxiv

6+阅读 · 2019年7月17日

What we really want to find by Sentiment Analysis: The Relationship between Computational Models and Psychological State

Arxiv

6+阅读 · 2018年6月3日

Visual Question Answering with Memory-Augmented Networks

Arxiv

4+阅读 · 2018年3月25日

Visual Interpretability for Deep Learning: a Survey

Arxiv

16+阅读 · 2018年2月7日

Interpretable R-CNN

Arxiv

4+阅读 · 2017年11月14日

VIP会员