In this work, we investigate the positional encoding methods used in language pre-training (e.g., BERT) and identify several problems in the existing formulations. First, we show that in the absolute positional encoding, the addition operation applied on positional embeddings and word embeddings brings mixed correlations between the two heterogeneous information resources. It may bring unnecessary randomness in the attention and further limit the expressiveness of the model. Second, we question whether treating the position of the symbol \texttt{[CLS]} the same as other words is a reasonable design, considering its special role (the representation of the entire sentence) in the downstream tasks. Motivated from above analysis, we propose a new positional encoding method called \textbf{T}ransformer with \textbf{U}ntied \textbf{P}ositional \textbf{E}ncoding (TUPE). In the self-attention module, TUPE computes the word contextual correlation and positional correlation separately with different parameterizations and then adds them together. This design removes the mixed and noisy correlations over heterogeneous embeddings and offers more expressiveness by using different projection matrices. Furthermore, TUPE unties the \texttt{[CLS]} symbol from other positions, making it easier to capture information from all positions. Extensive experiments and ablation studies on GLUE benchmark demonstrate the effectiveness of the proposed method. Codes and models are released at https://github.com/guolinke/TUPE.


翻译:在此工作中, 我们调查语言培训前( 如 BERT) 所使用的位置编码方法, 并找出现有配方中的一些问题 。 首先, 我们显示在绝对位置编码中, 对位置嵌入和字嵌入应用的附加操作在两种混杂信息资源之间产生了混杂的关联性 。 这可能会引起不必要的随机性, 并进一步限制模型的表达性 。 其次, 我们质疑是否对待符号\ texttrt{ [CLS] 的位置, 与其他词一样是一个合理的设计, 考虑到其在下游任务中的特殊作用( 整个句子的表示) 。 我们从以上分析中激发出一个新的位置编码方法, 叫做\ textbff{Tr} 和 world 嵌入。 在自我保存模块中, TUPE 将词的背景相关性和位置相关性分别与不同参数化( 整个句的表示) { 。 从以上分析中, 我们提出了一个新的位置编码方法, 以\ textb/ text 格式化法 来, 解析化 。, 和 解缩缩化 的模型, 将 解析取出不同的 和 基质化 。

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
306+阅读 · 2020年11月26日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
71+阅读 · 2020年8月2日
【Google论文】ALBERT:自我监督学习语言表达的精简BERT
专知会员服务
23+阅读 · 2019年11月4日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
NLP预训练模型大集合!
黑龙江大学自然语言处理实验室
6+阅读 · 2018年12月31日
NLP预训练模型大集合
机器学习算法与Python学习
8+阅读 · 2018年12月28日
通过预训练提升语言理解
开放知识图谱
4+阅读 · 2018年11月21日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
Arxiv
21+阅读 · 2019年8月21日
Arxiv
8+阅读 · 2018年11月21日
Arxiv
23+阅读 · 2017年3月9日
VIP会员
相关资讯
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
NLP预训练模型大集合!
黑龙江大学自然语言处理实验室
6+阅读 · 2018年12月31日
NLP预训练模型大集合
机器学习算法与Python学习
8+阅读 · 2018年12月28日
通过预训练提升语言理解
开放知识图谱
4+阅读 · 2018年11月21日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
10+阅读 · 2015年7月1日
Top
微信扫码咨询专知VIP会员