This paper studies the relative importance of attention heads in Transformer-based models to aid their interpretability in cross-lingual and multi-lingual tasks. Prior research has found that only a few attention heads are important in each mono-lingual Natural Language Processing (NLP) task and pruning the remaining heads leads to comparable or improved performance of the model. However, the impact of pruning attention heads is not yet clear in cross-lingual and multi-lingual tasks. Through extensive experiments, we show that (1) pruning a number of attention heads in a multi-lingual Transformer-based model has, in general, positive effects on its performance in cross-lingual and multi-lingual tasks and (2) the attention heads to be pruned can be ranked using gradients and identified with a few trial experiments. Our experiments focus on sequence labeling tasks, with potential applicability on other cross-lingual and multi-lingual tasks. For comprehensiveness, we examine two pre-trained multi-lingual models, namely multi-lingual BERT (mBERT) and XLM-R, on three tasks across 9 languages each. We also discuss the validity of our findings and their extensibility to truly resource-scarce languages and other task settings.


翻译:本文研究了在以变异器为基础的模型中,关注负责人的相对重要性,以帮助其在跨语言和多语言的任务中进行解释; 先前的研究发现,在每种单一语言的自然语言处理(NLP)任务中,只有少数关注负责人在每一个单一语言的自然语言处理(NLP)任务中很重要,对其余负责人的剪裁导致模型的可比较性或改进; 然而,在跨语言和多语言的任务中,削减关注负责人的影响尚不明确。 通过广泛的实验,我们发现:(1) 在多语言的变异器模型中,将一些关注负责人的可解释性对其在跨语言和多语言的任务中的绩效产生了积极影响;(2) 拟调整的注意负责人可以使用梯度进行评级,并用少数实验来确定。 我们的实验重点是排序任务顺序,有可能适用于其他跨语言和多语言的任务。 为了全面性,我们研究了两种经过预先培训的多语言模式,即多语言的BERT(M)和XLM-R(XLM-R),分别涉及三种语言的任务和其他任务。 我们还讨论了我们的调查结果的有效性及其在真正资源定位上的任务设置中的存在性。

0
下载
关闭预览

相关内容

iOS 8 提供的应用间和应用跟系统的功能交互特性。
  • Today (iOS and OS X): widgets for the Today view of Notification Center
  • Share (iOS and OS X): post content to web services or share content with others
  • Actions (iOS and OS X): app extensions to view or manipulate inside another app
  • Photo Editing (iOS): edit a photo or video in Apple's Photos app with extensions from a third-party apps
  • Finder Sync (OS X): remote file storage in the Finder with support for Finder content annotation
  • Storage Provider (iOS): an interface between files inside an app and other apps on a user's device
  • Custom Keyboard (iOS): system-wide alternative keyboards

Source: iOS 8 Extensions: Apple’s Plan for a Powerful App Ecosystem
最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
专知会员服务
52+阅读 · 2020年11月17日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
注意力机制介绍,Attention Mechanism
专知会员服务
168+阅读 · 2019年10月13日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
40+阅读 · 2019年10月9日
Transformer中的相对位置编码
AINLP
5+阅读 · 2020年11月28日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
跨越注意力:Cross-Attention
我爱读PAMI
172+阅读 · 2018年6月2日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
暗通沟渠:Multi-lingual Attention
我爱读PAMI
7+阅读 · 2018年2月24日
Arxiv
103+阅读 · 2021年6月8日
Arxiv
28+阅读 · 2021年5月17日
Talking-Heads Attention
Arxiv
15+阅读 · 2020年3月5日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Arxiv
19+阅读 · 2018年3月28日
VIP会员
相关资讯
Transformer中的相对位置编码
AINLP
5+阅读 · 2020年11月28日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
跨越注意力:Cross-Attention
我爱读PAMI
172+阅读 · 2018年6月2日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
暗通沟渠:Multi-lingual Attention
我爱读PAMI
7+阅读 · 2018年2月24日
相关论文
Arxiv
103+阅读 · 2021年6月8日
Arxiv
28+阅读 · 2021年5月17日
Talking-Heads Attention
Arxiv
15+阅读 · 2020年3月5日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Arxiv
19+阅读 · 2018年3月28日
Top
微信扫码咨询专知VIP会员