The great success of Transformer-based models benefits from the powerful multi-head self-attention mechanism, which learns token dependencies and encodes contextual information from the input. Prior work strives to attribute model decisions to individual input features with different saliency measures, but they fail to explain how these input features interact with each other to reach predictions. In this paper, we propose a self-attention attribution method to interpret the information interactions inside Transformer. We take BERT as an example to conduct extensive studies. Firstly, we apply self-attention attribution to identify the important attention heads, while others can be pruned with marginal performance degradation. Furthermore, we extract the most salient dependencies in each layer to construct an attribution tree, which reveals the hierarchical interactions inside Transformer. Finally, we show that the attribution results can be used as adversarial patterns to implement non-targeted attacks towards BERT.


翻译:以变异器为基础的模型的巨大成功得益于强大的多头自我注意机制,该机制从输入中学习象征性依赖性,并编码背景信息。先前的工作努力将模型决定归因于具有不同突出度的单个输入特征,但未能解释这些输入特征如何相互作用,以得出预测。在本文中,我们提出一种自我注意归属方法来解释变异器内部的信息互动。我们以BERT为例进行广泛的研究。首先,我们运用自我注意归属来确定重要的关注负责人,而其他人则可以随着边际性能退化而消化。此外,我们提取了每一层中最突出的相互依赖性,以构建一个归属树,揭示变异器内部的等级互动。最后,我们表明,归因结果可以用作对抗模式,对BERT实施非有针对性的攻击。

0
下载
关闭预览

相关内容

IFIP TC13 Conference on Human-Computer Interaction是人机交互领域的研究者和实践者展示其工作的重要平台。多年来,这些会议吸引了来自几个国家和文化的研究人员。官网链接:http://interact2019.org/
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
注意力图神经网络的小样本学习
专知会员服务
191+阅读 · 2020年7月16日
IJCAI2020接受论文列表,592篇论文pdf都在这了!
专知会员服务
63+阅读 · 2020年7月16日
《可解释的机器学习-interpretable-ml》238页pdf
专知会员服务
202+阅读 · 2020年2月24日
AI可解释性文献列表
专知
42+阅读 · 2019年10月7日
BERT源码分析PART I
AINLP
38+阅读 · 2019年7月12日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
清华大学孙茂松组:图神经网络必读论文列表
机器之心
46+阅读 · 2018年12月27日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Visualizing and Measuring the Geometry of BERT
Arxiv
7+阅读 · 2019年10月28日
Revealing the Dark Secrets of BERT
Arxiv
4+阅读 · 2019年9月11日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
VIP会员
相关资讯
AI可解释性文献列表
专知
42+阅读 · 2019年10月7日
BERT源码分析PART I
AINLP
38+阅读 · 2019年7月12日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
清华大学孙茂松组:图神经网络必读论文列表
机器之心
46+阅读 · 2018年12月27日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员