![]()
深度神经网络在计算机视觉、自然语言处理和语音识别等领域读取得了革命性成功。但是,这些模型的决策过程通常无法解释。
不可解释性制约着深度学习方法的结构化和研究创新性,在实际应用中调参往往占据了很大的工作量,让人不明其创新所在的调参型研究论文充斥着深度学习社区。此外在模型失效或出现偏见等问题时,不可解释性也会导致高成本的修复工作。
深度学习模型通常只能将多个变量进行关联,而无法理解背后的机制,这会导致因果关系的模糊性。而确定因果关系,对于医疗、金融或法律等领域至关重要。在近年来,深度学习的可解释性也越来越受到学界和业界的重视。
近日,一篇134页的博士论文《Explaining Deep Neural Networks》受到了广泛的关注,作者Oana-Maria Camburu在论文中介绍了不同类型的神经网络解释方法,即事后解释和自解释,并对两种方法进行了分析和验证,并表示“这项工作为获得更鲁棒的神经模型以及对它们预测的可信解释铺平了道路。”
论文地址:https://arxiv.org/pdf/2010.01496.pdf
第一个方向是基于特征的事后(post-hoc)解释方法,即旨在解释已经训练和固定的模型的方法(事后解释),并提供输入特征方面的解释,例如文本的token、图像的超像素(基于特征)。
图注:两个解释器给出至少两个基于特征的解释的示例。其中假设得分线性反映情绪强度,且0.1的差距是显著的。
第二个方向是生成自然语言解释的自解释(self-explanatory)神经模型,即具有内置模块的模型,该模块生成对模型预测的解释。
图注:(a)BiLSTMMax-PredExpl,(b)BiLSTM-Max-ExplPred-Seq2Seq和(c)BiLSTMMax-ExplPred-Att的预测标签和生成解释的示例,方括号中为正确性得分。
论文成果
通过这两个方向的探索,作者首先揭示了仅使用输入特征来解释即便是简单模型的某些困难。
尽管明显地隐含了一个假设,即解释方法应该寻找一种基于事实的特定解释,但对于某个预测而言,通常会有不止一种这样的解释。
此外,两种流行的解释方法针对不同类型的事实解释,但却没有明确提及。而且,有时这些解释都不足以提供有关实例决策过程的完整视图。
第二,作者介绍了一个用于自动验证真实性的框架,基于特征的事后解释方法可用来描述其旨在解释的模型的决策过程。
该框架依赖于特定类型的模型,该模型有望提供对其决策过程的深入了解。作者分析了这种方法的潜在局限性,并介绍了缓解这些局限性的方法。
作者引入的验证框架是通用的,可以在不同的任务和域上实例化以提供现成的健全性测试(sanity test),可用于测试基于特征的事后解释方法。
作者在情感分析任务上实例化了此框架,并提供了健全性测试,在该测试中,作者展示了三种流行的解释方法的性能。
第三,为了探索生成自解释神经模型的方向(模型为预测提供自然语言解释),作者在斯坦福自然语言推理(SNLI)数据集之上收集了约570K的人类书面自然语言解释的大型数据集。作者将该解释增强的数据集称为e-SNLI。
图注:e-SNLI数据集的示例。注释中提供了前提、假设和标签,强调了对标签至关重要的词语,并提供了解释。
图注:可解释模型BiLSTM-Max-PredExpl的架构。
作者进行了一系列实验,研究了神经模型在测试时生成正确的自然语言解释的能力,以及在训练时提供自然语言解释的好处。
最后,作者证明了当前的自解释模型为预测生成自然语言解释时,可能会产生不一致的解释,例如“图像中有一条狗”和“ 图像中没有狗”。
不一致的解释表明,要么解释不如实地描述了模型的决策过程,要么是模型学习了有缺陷的决策过程。
作者还介绍了一个简单而有效的对抗框架,以进行健全性检查模型,从而防止产生不一致的自然语言解释。
此外,作为框架的一部分,作者还将解决具有精确目标序列的对抗攻击问题,这种情况以前没有在逐次序列攻击中得到解决,并且可以用于自然语言处理中的其他任务。作者将该框架应用于e-SNLI上最先进的神经模型,并表明该模型会生成大量
不一致之处。
论文目录
Oana-Maria Camburu
这篇博士论文的作者Oana-Maria Camburu是一名牛津大学博士生。
Oana-Maria Camburu的导师是牛津大学计算机科学系的助理教授Phil Blunsom和教授Thomas Lukasiewicz,这两位都是牛人。Phil Blunsom还就职于DeepMind,主要研究自然语言处理。
图注:Thomas Lukasiewicz谷歌指数
Oana-Maria Camburu还表示,她之后也将继续在牛津大学做博士后研究,方向仍然是可解释人工智能,期待她的后续成果。
在10月1日头条《秋天的第一本AI书:周志华亲作森林书&贾扬清力荐天池书 | 赠书》留言区留言,谈一谈你对这两本书的看法或有关的学习、竞赛等经历。
AI 科技评论将会在留言区选出15名读者,送出《阿里云天池大赛赛题解析——机器学习篇》10本,《集成学习:基础与算法》5本,每人最多获得其中一本。
活动规则:
1. 在留言区留言,留言点赞最高的前 15 位读者将获得赠书,活动结束后,中奖读者将按照点赞排名由高到低的顺序优先挑选两本书中的其中一本,获得赠书的读者请添加AI科技评论官方微信(aitechreview)。
2. 留言内容会有筛选,例如“选我上去”等内容将不会被筛选,亦不会中奖。
3. 本活动时间为2020年10月1日 - 2020年10月8日(23:00),活动推送内仅允许中奖一次。
![]()
点击阅读原文,直达NeurIPS小组~