由于线性空间和时间的复杂性,Transformer模型的最新进展允许前所未有的序列长度。同时,相对位置编码(relative position encoding, RPE)被认为是一种利用滞后而不是绝对位置进行推理的方法。尽管如此,RPE还不能用于Transformer最近的线性变体,因为它需要显式计算注意力矩阵,而这正是这些方法所避免的。在本文中,我们填补了这一缺口,并提出了随机位置编码作为生成PE的一种方法,该方法可以用来替代经典的加性(正弦)PE,并且可以证明其行为类似于RPE。其主要理论贡献是将位置编码与相关高斯过程的交叉协方差结构联系起来。我们在Long-Range Arena基准测试和音乐生成上证明了我们的方法的性能。

https://www.zhuanzhi.ai/paper/e42297b68bb088dc94c114e44992cea1

成为VIP会员查看完整内容
25

相关内容

Transformer是谷歌发表的论文《Attention Is All You Need》提出一种完全基于Attention的翻译架构

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
12+阅读 · 2021年7月4日
专知会员服务
43+阅读 · 2021年7月1日
专知会员服务
39+阅读 · 2021年6月11日
专知会员服务
41+阅读 · 2021年6月10日
专知会员服务
37+阅读 · 2021年5月15日
专知会员服务
82+阅读 · 2021年5月10日
专知会员服务
63+阅读 · 2021年3月12日
【AAAI2021】生成式Transformer的对比三元组提取
专知会员服务
51+阅读 · 2021年2月7日
WWW 2020 开源论文 | 异构图Transformer
PaperWeekly
13+阅读 · 2020年4月3日
【NeurIPS2019】图变换网络:Graph Transformer Network
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
Transformer-XL:释放注意力模型的潜力
谷歌开发者
31+阅读 · 2019年2月19日
CMU、谷歌提出Transformer-XL:学习超长上下文关系
机器之心
9+阅读 · 2019年1月18日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
9+阅读 · 2021年2月8日
Arxiv
19+阅读 · 2020年12月23日
Arxiv
6+阅读 · 2019年7月11日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Doubly Attentive Transformer Machine Translation
Arxiv
4+阅读 · 2018年7月30日
VIP会员
相关VIP内容
专知会员服务
12+阅读 · 2021年7月4日
专知会员服务
43+阅读 · 2021年7月1日
专知会员服务
39+阅读 · 2021年6月11日
专知会员服务
41+阅读 · 2021年6月10日
专知会员服务
37+阅读 · 2021年5月15日
专知会员服务
82+阅读 · 2021年5月10日
专知会员服务
63+阅读 · 2021年3月12日
【AAAI2021】生成式Transformer的对比三元组提取
专知会员服务
51+阅读 · 2021年2月7日
相关论文
Arxiv
17+阅读 · 2021年3月29日
Arxiv
9+阅读 · 2021年2月8日
Arxiv
19+阅读 · 2020年12月23日
Arxiv
6+阅读 · 2019年7月11日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Doubly Attentive Transformer Machine Translation
Arxiv
4+阅读 · 2018年7月30日
微信扫码咨询专知VIP会员