The transformer multi-head self-attention mechanism has been thoroughly investigated recently. On one hand, researchers are interested in understanding why and how transformers work. On the other hand, they propose new attention augmentation methods to make transformers more accurate, efficient and interpretable. In this paper, we synergize these two lines of research in a human-in-the-loop pipeline to first find important task-specific attention patterns. Then those patterns are applied, not only to the original model, but also to smaller models, as a human-guided knowledge distillation process. The benefits of our pipeline are demonstrated in a case study with the extractive summarization task. After finding three meaningful attention patterns in the popular BERTSum model, experiments indicate that when we inject such patterns, both the original and the smaller model show improvements in performance and arguably interpretability.


翻译:最近对变压器多头自留机制进行了彻底调查。一方面,研究人员有兴趣了解变压器为何和如何运作。另一方面,他们提出新的关注增强方法,以使变压器更加准确、高效和易于解释。在本文中,我们在人行中将这两条研究线协同起来,首先找到重要的任务关注模式。然后,这些模式不仅适用于原始模式,而且适用于较小的模型,作为人类指导的知识蒸馏过程。我们输压管的效益在一项采掘合成任务案例研究中得到了证明。在找到流行的BERTSum模型的三个有意义的关注模式之后,实验表明,当我们输入这种模式时,原始和较小的模型都显示业绩的改善和可论证的解释性。

0
下载
关闭预览

相关内容

专知会员服务
48+阅读 · 2021年4月18日
专知会员服务
124+阅读 · 2020年9月8日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
111+阅读 · 2020年5月15日
Transformer文本分类代码
专知会员服务
117+阅读 · 2020年2月3日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Arxiv
5+阅读 · 2019年8月22日
Arxiv
6+阅读 · 2019年3月19日
VIP会员
相关VIP内容
专知会员服务
48+阅读 · 2021年4月18日
专知会员服务
124+阅读 · 2020年9月8日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
111+阅读 · 2020年5月15日
Transformer文本分类代码
专知会员服务
117+阅读 · 2020年2月3日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
104+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Top
微信扫码咨询专知VIP会员