Without positional information, attention-based transformer neural networks are permutation-invariant. Absolute or relative positional embeddings are the most popular ways to feed transformer models positional information. Absolute positional embeddings are simple to implement, but suffer from generalization issues when evaluating on sequences of different length than those seen at training time. Relative positions are more robust to length change, but are more complex to implement and yield inferior model throughput. In this paper, we propose an augmentation-based approach (CAPE) for absolute positional embeddings, which keeps the advantages of both absolute (simplicity and speed) and relative position embeddings (better generalization). In addition, our empirical evaluation on state-of-the-art models in machine translation, image and speech recognition demonstrates that CAPE leads to better generalization performance as well as increased stability with respect to training hyper-parameters.


翻译:没有位置信息, 以关注为基础的变压器神经网络是变异的。 绝对或相对位置嵌入是喂养变压器模型定位信息最常用的方法。 绝对位置嵌入简单易行,但在评价长度与培训时间不同的序列时会遇到一般化问题。 相对位置对长度变化比较强,但对于执行和生成低级模型吞吐量则比较复杂。 在本文中,我们建议对绝对位置嵌入采用以增强为基础的方法( CAPE ), 以保持绝对( 简单和速度) 和相对位置嵌入( 更简单化) 的优势。 此外, 我们对机器翻译、 图像和语音识别方面最先进的模型的经验评估表明, CAPE 提高了通用性表现,提高了培训超参数的稳定性。

1
下载
关闭预览

相关内容

专知会员服务
27+阅读 · 2021年7月3日
不可错过!华盛顿大学最新《生成式模型》课程,附PPT
专知会员服务
60+阅读 · 2020年12月11日
最新《深度卷积神经网络理论》报告,35页ppt
专知会员服务
45+阅读 · 2020年11月30日
知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
105+阅读 · 2020年6月10日
注意力机制介绍,Attention Mechanism
专知会员服务
166+阅读 · 2019年10月13日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
【TED】生命中的每一年的智慧
英语演讲视频每日一推
9+阅读 · 2019年1月29日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Type-augmented Relation Prediction in Knowledge Graphs
Arxiv
4+阅读 · 2020年5月25日
VIP会员
相关VIP内容
专知会员服务
27+阅读 · 2021年7月3日
不可错过!华盛顿大学最新《生成式模型》课程,附PPT
专知会员服务
60+阅读 · 2020年12月11日
最新《深度卷积神经网络理论》报告,35页ppt
专知会员服务
45+阅读 · 2020年11月30日
知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
105+阅读 · 2020年6月10日
注意力机制介绍,Attention Mechanism
专知会员服务
166+阅读 · 2019年10月13日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
相关资讯
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
【TED】生命中的每一年的智慧
英语演讲视频每日一推
9+阅读 · 2019年1月29日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员