In order to preserve word-order information in a non-autoregressive setting, transformer architectures tend to include positional knowledge, by (for instance) adding positional encodings to token embeddings. Several modifications have been proposed over the sinusoidal positional encodings used in the original transformer architecture; these include, for instance, separating position encodings and token embeddings, or directly modifying attention weights based on the distance between word pairs. We first show that surprisingly, while these modifications tend to improve monolingual language models, none of them result in better multilingual language models. We then answer why that is: Sinusoidal encodings were explicitly designed to facilitate compositionality by allowing linear projections over arbitrary time steps. Higher variances in multilingual training distributions requires higher compression, in which case, compositionality becomes indispensable. Learned absolute positional encodings (e.g., in mBERT) tend to approximate sinusoidal embeddings in multilingual settings, but more complex positional encoding architectures lack the inductive bias to effectively learn compositionality and cross-lingual alignment. In other words, while sinusoidal positional encodings were originally designed for monolingual applications, they are particularly useful in multilingual language models.


翻译:为了在非偏向环境中保存单顺序信息,变压器结构往往包括定位知识,例如,通过(例如)在象征性嵌入中添加位置编码。对原变压器结构中使用的正弦形位置编码提出了若干修改建议;例如,将位置编码和象征性嵌入分开,或直接改变基于单词对立距离的注意权重。我们首先显示出这一点,虽然这些修改倾向于改进单语语言模型,但没有一项能够产生更好的多语种语言模型。然后我们回答为什么:对等离子编码的明确设计是为了通过允许任意时间步骤进行线性预测来促进构成性。多语种培训分布的更大差异需要更高的压缩,在这种情况下,构成性变得不可或缺。对绝对位置编码(例如,在 mBERT中)倾向于在多语种环境中接近类离子粘合,但更复杂的定位编码结构缺乏感化的偏向性,无法有效地学习组合和跨语种语言校准。在其他词语中,对于多语言的多语言模型应用是有用的。

0
下载
关闭预览

相关内容

专知会员服务
81+阅读 · 2021年5月10日
数字化健康白皮书,17页pdf
专知会员服务
107+阅读 · 2021年1月6日
最新《Transformers模型》教程,64页ppt
专知会员服务
305+阅读 · 2020年11月26日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
LibRec 精选:EfficientNet、XLNet 论文及代码实现
LibRec智能推荐
5+阅读 · 2019年7月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
已删除
将门创投
4+阅读 · 2018年5月31日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Arxiv
0+阅读 · 2021年11月3日
Arxiv
0+阅读 · 2021年10月29日
Arxiv
20+阅读 · 2021年9月21日
Arxiv
103+阅读 · 2021年6月8日
Compression of Deep Learning Models for Text: A Survey
Arxiv
6+阅读 · 2019年9月4日
VIP会员
相关VIP内容
专知会员服务
81+阅读 · 2021年5月10日
数字化健康白皮书,17页pdf
专知会员服务
107+阅读 · 2021年1月6日
最新《Transformers模型》教程,64页ppt
专知会员服务
305+阅读 · 2020年11月26日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
相关资讯
LibRec 精选:EfficientNet、XLNet 论文及代码实现
LibRec智能推荐
5+阅读 · 2019年7月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
已删除
将门创投
4+阅读 · 2018年5月31日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
相关论文
Arxiv
0+阅读 · 2021年11月3日
Arxiv
0+阅读 · 2021年10月29日
Arxiv
20+阅读 · 2021年9月21日
Arxiv
103+阅读 · 2021年6月8日
Compression of Deep Learning Models for Text: A Survey
Arxiv
6+阅读 · 2019年9月4日
Top
微信扫码咨询专知VIP会员