Transformers are state of the art models in NLP that map a given input sequence of vectors to an output sequence of vectors. However these models are permutation equivariant, and additive position embeddings to the input are used to supply the information about the order of the input tokens. Further, for some tasks, additional additive segment embeddings are used to denote different types of input sentences. Recent works proposed variations of positional encodings with relative position encodings achieving better performance. In this work, we do a systematic study comparing different position encodings and understanding the reasons for differences in their performance. We demonstrate a simple yet effective way to encode position and segment into the Transformer models. The proposed method performs on par with SOTA on GLUE, XTREME and WMT benchmarks while saving computation costs.


翻译:在 NLP 中, 变异器是艺术模型的状态, 该变异器将矢量的特定输入序列映射为矢量的输出序列。 然而, 这些模型是变异等式, 输入的添加位置嵌入用于提供有关输入符的顺序的信息。 此外, 对某些任务, 还使用额外的添加元件嵌入来表示不同类型的输入句。 最近的工作提出了位置编码与相对位置编码的变异, 以取得更好的性能。 在此工作中, 我们进行系统化的研究, 比较不同位置编码, 并了解其性能差异的原因。 我们展示了一种简单而有效的方法, 将位置和区段编码到变异器模型中。 拟议的方法在节省计算成本的同时, 在 GLUE、 XTREME 和 WMT 基准上与 SOTA 相同地运行 。

0
下载
关闭预览

相关内容

专知会员服务
36+阅读 · 2021年5月15日
【CVPR2021】动态度量学习
专知会员服务
39+阅读 · 2021年3月30日
最新《Transformers模型》教程,64页ppt
专知会员服务
308+阅读 · 2020年11月26日
Transformer模型-深度学习自然语言处理,17页ppt
专知会员服务
103+阅读 · 2020年8月30日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
站在BERT肩膀上的NLP新秀们(PART III)
AINLP
11+阅读 · 2019年6月18日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
BERT大火却不懂Transformer?读这一篇就够了
大数据文摘
11+阅读 · 2019年1月8日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
论文共读 | Attention is All You Need
黑龙江大学自然语言处理实验室
14+阅读 · 2017年9月7日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
1+阅读 · 2021年8月5日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
6+阅读 · 2019年7月11日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Arxiv
3+阅读 · 2018年11月13日
VIP会员
相关VIP内容
相关资讯
站在BERT肩膀上的NLP新秀们(PART III)
AINLP
11+阅读 · 2019年6月18日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
BERT大火却不懂Transformer?读这一篇就够了
大数据文摘
11+阅读 · 2019年1月8日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
论文共读 | Attention is All You Need
黑龙江大学自然语言处理实验室
14+阅读 · 2017年9月7日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Arxiv
1+阅读 · 2021年8月5日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
6+阅读 · 2019年7月11日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
The Evolved Transformer
Arxiv
5+阅读 · 2019年1月30日
Music Transformer
Arxiv
5+阅读 · 2018年12月12日
Arxiv
3+阅读 · 2018年11月13日
Top
微信扫码咨询专知VIP会员