【ICML2021】具有线性复杂度的Transformer的相对位置编码 - 专知VIP

会员服务 ·

3

Transformer · 相对位置编码 ·

2021 年 5 月 20 日

【ICML2021】具有线性复杂度的Transformer的相对位置编码

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

由于线性空间和时间的复杂性，Transformer模型的最新进展允许前所未有的序列长度。同时，相对位置编码(relative position encoding, RPE)被认为是一种利用滞后而不是绝对位置进行推理的方法。尽管如此，RPE还不能用于Transformer最近的线性变体，因为它需要显式计算注意力矩阵，而这正是这些方法所避免的。在本文中，我们填补了这一缺口，并提出了随机位置编码作为生成PE的一种方法，该方法可以用来替代经典的加性(正弦)PE，并且可以证明其行为类似于RPE。其主要理论贡献是将位置编码与相关高斯过程的交叉协方差结构联系起来。我们在Long-Range Arena基准测试和音乐生成上证明了我们的方法的性能。

https://www.zhuanzhi.ai/paper/e42297b68bb088dc94c114e44992cea1

成为VIP会员查看完整内容

25

相关内容

Transformer

Transformer是谷歌发表的论文《Attention Is All You Need》提出一种完全基于Attention的翻译架构

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【ICML2021】双加速的快速间隔最大化

专知会员服务

12+阅读 · 2021年7月4日

【ICML2021】互信息分解估计的对比表示学习

专知会员服务

44+阅读 · 2021年7月1日

【ICML2021】贝叶斯注意力信念网络

专知会员服务

39+阅读 · 2021年6月11日

【ICML2021】突破图神经网络中消息传递的限制

专知会员服务

41+阅读 · 2021年6月10日

【ICML2021】SparseBERT: 自注意力机制的重要性分析再思考

专知会员服务

37+阅读 · 2021年5月15日

【ICML2021】有向图网络

专知会员服务

82+阅读 · 2021年5月10日

【CVPR2021】空间一致性表示学习

专知会员服务

63+阅读 · 2021年3月12日

【AAAI2021】生成式Transformer的对比三元组提取

【AAAI2021】生成式Transformer的对比三元组提取

专知会员服务

51+阅读 · 2021年2月7日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【KDD2020-清华大学】理解图表示学习中的负采样，Understanding Negative Sampling

【KDD2020-清华大学】理解图表示学习中的负采样，Understanding Negative Sampling

专知会员服务

63+阅读 · 2020年5月23日

WWW 2020 开源论文 | 异构图Transformer

WWW 2020 开源论文 | 异构图Transformer

PaperWeekly

13+阅读 · 2020年4月3日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知

245+阅读 · 2019年11月18日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

微软亚研：对深度神经网络中空间注意力机制的经验性研究

微软亚研：对深度神经网络中空间注意力机制的经验性研究

机器之心

6+阅读 · 2019年4月15日

Transformer-XL：释放注意力模型的潜力

Transformer-XL：释放注意力模型的潜力

谷歌开发者

31+阅读 · 2019年2月19日

推理速度快千倍！谷歌开源语言模型Transformer-XL

推理速度快千倍！谷歌开源语言模型Transformer-XL

AI前线

9+阅读 · 2019年1月26日

CMU、谷歌提出Transformer-XL：学习超长上下文关系

CMU、谷歌提出Transformer-XL：学习超长上下文关系

机器之心

9+阅读 · 2019年1月18日

【NAACL 2018】Self-attention考虑相对位置，谷歌Vaswani团队最新工作

【NAACL 2018】Self-attention考虑相对位置，谷歌Vaswani团队最新工作

专知

3+阅读 · 2018年5月25日

FAIR何恺明等人提出组归一化：替代批归一化，不受批量大小限制

FAIR何恺明等人提出组归一化：替代批归一化，不受批量大小限制

机器之心

4+阅读 · 2018年3月23日

Relative Positional Encoding for Transformers with Linear Complexity

Arxiv

8+阅读 · 2021年5月18日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Colorization Transformer

Arxiv

9+阅读 · 2021年2月8日

A Survey on Visual Transformer

Arxiv

19+阅读 · 2020年12月23日

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Arxiv

21+阅读 · 2020年12月17日

Language Modeling with Deep Transformers

Arxiv

6+阅读 · 2019年7月11日

The Evolved Transformer

The Evolved Transformer

Arxiv

5+阅读 · 2019年1月30日

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Arxiv

4+阅读 · 2019年1月9日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

Doubly Attentive Transformer Machine Translation

Doubly Attentive Transformer Machine Translation

Arxiv

4+阅读 · 2018年7月30日

VIP会员

相关主题

相对位置编码

相关VIP内容

【ICML2021】双加速的快速间隔最大化

专知会员服务

12+阅读 · 2021年7月4日

【ICML2021】互信息分解估计的对比表示学习

专知会员服务

44+阅读 · 2021年7月1日

【ICML2021】贝叶斯注意力信念网络

专知会员服务

39+阅读 · 2021年6月11日

【ICML2021】突破图神经网络中消息传递的限制

专知会员服务

41+阅读 · 2021年6月10日

【ICML2021】SparseBERT: 自注意力机制的重要性分析再思考

专知会员服务

37+阅读 · 2021年5月15日

【ICML2021】有向图网络

专知会员服务

82+阅读 · 2021年5月10日

【CVPR2021】空间一致性表示学习

专知会员服务

63+阅读 · 2021年3月12日

【AAAI2021】生成式Transformer的对比三元组提取

【AAAI2021】生成式Transformer的对比三元组提取

专知会员服务

51+阅读 · 2021年2月7日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【KDD2020-清华大学】理解图表示学习中的负采样，Understanding Negative Sampling

【KDD2020-清华大学】理解图表示学习中的负采样，Understanding Negative Sampling

专知会员服务

63+阅读 · 2020年5月23日

热门VIP内容

开通专知VIP会员享更多权益服务

《美陆军徒步机动作战条令手册》最新168页

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

军事后勤数字化未来展望

《美海军后勤体系整合与创新挑战》最新报告

相关资讯

WWW 2020 开源论文 | 异构图Transformer

WWW 2020 开源论文 | 异构图Transformer

PaperWeekly

13+阅读 · 2020年4月3日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知

245+阅读 · 2019年11月18日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

微软亚研：对深度神经网络中空间注意力机制的经验性研究

微软亚研：对深度神经网络中空间注意力机制的经验性研究

机器之心

6+阅读 · 2019年4月15日

Transformer-XL：释放注意力模型的潜力

Transformer-XL：释放注意力模型的潜力

谷歌开发者

31+阅读 · 2019年2月19日

推理速度快千倍！谷歌开源语言模型Transformer-XL

推理速度快千倍！谷歌开源语言模型Transformer-XL

AI前线

9+阅读 · 2019年1月26日

CMU、谷歌提出Transformer-XL：学习超长上下文关系

CMU、谷歌提出Transformer-XL：学习超长上下文关系

机器之心

9+阅读 · 2019年1月18日

【NAACL 2018】Self-attention考虑相对位置，谷歌Vaswani团队最新工作

【NAACL 2018】Self-attention考虑相对位置，谷歌Vaswani团队最新工作

专知

3+阅读 · 2018年5月25日

FAIR何恺明等人提出组归一化：替代批归一化，不受批量大小限制

FAIR何恺明等人提出组归一化：替代批归一化，不受批量大小限制

机器之心

4+阅读 · 2018年3月23日

相关论文

Relative Positional Encoding for Transformers with Linear Complexity

Arxiv

8+阅读 · 2021年5月18日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Colorization Transformer

Arxiv

9+阅读 · 2021年2月8日

A Survey on Visual Transformer

Arxiv

19+阅读 · 2020年12月23日

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

Arxiv

21+阅读 · 2020年12月17日

Language Modeling with Deep Transformers

Arxiv

6+阅读 · 2019年7月11日

The Evolved Transformer

The Evolved Transformer

Arxiv

5+阅读 · 2019年1月30日

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Arxiv

4+阅读 · 2019年1月9日

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Arxiv

15+阅读 · 2018年10月11日

Doubly Attentive Transformer Machine Translation

Doubly Attentive Transformer Machine Translation

Arxiv

4+阅读 · 2018年7月30日

微信扫码咨询专知VIP会员