Transformers are state of the art models in NLP that map a given input sequence of vectors to an output sequence of vectors. However these models are permutation equivariant, and additive position embeddings to the input are used to supply the information about the order of the input tokens. Further, for some tasks, additional additive segment embeddings are used to denote different types of input sentences. Recent works proposed variations of positional encodings with relative position encodings achieving better performance. In this work, we do a systematic study comparing different position encodings and understanding the reasons for differences in their performance. We demonstrate a simple yet effective way to encode position and segment into the Transformer models. The proposed method performs on par with SOTA on GLUE, XTREME and WMT benchmarks while saving computation costs.
翻译:在 NLP 中, 变异器是艺术模型的状态, 该变异器将矢量的特定输入序列映射为矢量的输出序列。 然而, 这些模型是变异等式, 输入的添加位置嵌入用于提供有关输入符的顺序的信息。 此外, 对某些任务, 还使用额外的添加元件嵌入来表示不同类型的输入句。 最近的工作提出了位置编码与相对位置编码的变异, 以取得更好的性能。 在此工作中, 我们进行系统化的研究, 比较不同位置编码, 并了解其性能差异的原因。 我们展示了一种简单而有效的方法, 将位置和区段编码到变异器模型中。 拟议的方法在节省计算成本的同时, 在 GLUE、 XTREME 和 WMT 基准上与 SOTA 相同地运行 。