The field of explainable AI has recently seen an explosion in the number of explanation methods for highly non-linear deep neural networks. The extent to which such methods -- that are often proposed and tested in the domain of computer vision -- are appropriate to address the explainability challenges in NLP is yet relatively unexplored. In this work, we consider Contextual Decomposition (CD) -- a Shapley-based input feature attribution method that has been shown to work well for recurrent NLP models -- and we test the extent to which it is useful for models that contain attention operations. To this end, we extend CD to cover the operations necessary for attention-based models. We then compare how long distance subject-verb relationships are processed by models with and without attention, considering a number of different syntactic structures in two different languages: English and Dutch. Our experiments confirm that CD can successfully be applied for attention-based models as well, providing an alternative Shapley-based attribution method for modern neural networks. In particular, using CD, we show that the English and Dutch models demonstrate similar processing behaviour, but that under the hood there are consistent differences between our attention and non-attention models.


翻译:可以解释的AI领域最近看到高度非线性深海神经网络解释方法的数量激增。这些方法 -- -- 经常在计算机视野领域提出和测试的 -- -- 在多大程度上适合解决NLP的可解释性挑战,但相对而言尚未探索。在这项工作中,我们认为背景分解(CD) -- -- 一种基于毛质的输入特征归属方法 -- -- 已经证明对经常性NLP模式行之有效 -- -- 我们测试它在多大程度上对包含关注操作的模型有用。为此,我们扩大CD,以涵盖基于关注模型的必要操作。我们随后比较由模型处理的远程主题动词关系有多长,是否受到关注,同时考虑到两种不同语言:英语和荷兰语的不同合成结构。我们的实验证实CD可以成功地应用于基于关注的模式,并为现代神经网络提供一种基于毛质的属性的替代方法。我们特别用CD显示,英语和荷兰模式显示了类似的处理行为,但在这种模式下,我们的关注和不留视而不留之间始终存在差异。

0
下载
关闭预览

相关内容

ACM/IEEE第23届模型驱动工程语言和系统国际会议,是模型驱动软件和系统工程的首要会议系列,由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来,模型涵盖了建模的各个方面,从语言和方法到工具和应用程序。模特的参加者来自不同的背景,包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛,参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会,并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。 官网链接:http://www.modelsconference.org/
专知会员服务
64+阅读 · 2021年5月2日
注意力机制综述
专知会员服务
83+阅读 · 2021年1月26日
专知会员服务
55+阅读 · 2020年11月17日
【KDD2020】基于动态知识图谱的多事件预测
专知会员服务
58+阅读 · 2020年11月10日
【KDD2020】动态知识图谱的多事件预测
专知会员服务
128+阅读 · 2020年8月30日
机器学习的可解释性
专知会员服务
177+阅读 · 2020年8月27日
【综述】基于图的对抗式攻击和防御,附22页论文下载
专知会员服务
69+阅读 · 2020年3月5日
注意力机制介绍,Attention Mechanism
专知会员服务
170+阅读 · 2019年10月13日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
已删除
将门创投
3+阅读 · 2019年11月25日
赛尔笔记 | Attention!注意力机制可解释吗?
哈工大SCIR
23+阅读 · 2019年9月27日
Attention!注意力机制模型最新综述(附下载)
数据派THU
36+阅读 · 2019年4月14日
Attention!注意力机制模型最新综述
专知
65+阅读 · 2019年4月8日
Local Explanation of Dialogue Response Generation
Arxiv
0+阅读 · 2021年6月11日
Area Attention
Arxiv
5+阅读 · 2019年5月23日
Learning to Focus when Ranking Answers
Arxiv
5+阅读 · 2018年8月8日
Arxiv
14+阅读 · 2018年4月18日
Arxiv
10+阅读 · 2018年2月4日
VIP会员
相关VIP内容
专知会员服务
64+阅读 · 2021年5月2日
注意力机制综述
专知会员服务
83+阅读 · 2021年1月26日
专知会员服务
55+阅读 · 2020年11月17日
【KDD2020】基于动态知识图谱的多事件预测
专知会员服务
58+阅读 · 2020年11月10日
【KDD2020】动态知识图谱的多事件预测
专知会员服务
128+阅读 · 2020年8月30日
机器学习的可解释性
专知会员服务
177+阅读 · 2020年8月27日
【综述】基于图的对抗式攻击和防御,附22页论文下载
专知会员服务
69+阅读 · 2020年3月5日
注意力机制介绍,Attention Mechanism
专知会员服务
170+阅读 · 2019年10月13日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
Top
微信扫码咨询专知VIP会员