把Transformer加深几倍，会怎么样？

2020 年 8 月 29 日 AI科技评论

更深层次的模型有助于更好地表达特性；在计算机视觉以及分本分类任务上，已经有成功案例。但是在机器翻译领域，目前标准的Transformer模型，仅仅有6层。论文《Very Deep Transformers for Neural Machine Translation》将标准的Transfomer模型encoder加深至60层，decoder加深至12层。这些深层模型比基线模型的性能更优，并在WMT14 EnglishFrench和WMT14 EnglishGerman上达到了SOTA。

论文地址：https://arxiv.org/pdf/2008.07772.pdf

项目地址：https://github.com/namisan/exdeep-nmt

预备知识

Transformer模型包含N层Transformer layer。每个Transformer layer包含两个部分：Multi-Head Attention (MHA) 和Position-wise Feed-Forward Network (FFN)。用论文中的公式表示，分为两步：

MHA：

FFN：

MHA层和FFN层之间，以及FFN层之后包含一个残差连接和LN层，详细可见文献1。以上两个公式，可以统一表达为以下公式：

其中

代表ATT注意力层和FNN层，i下标表示第i层。

方法

越深层的网络，越难训练。因为训练网络时，容易出现梯度消失问题，即使layer normalization缓解了此问题，但是依然存在。在机器翻译中，解码器和编码器下层之间缺少梯度流动尤其成问题。文献2提出将交换

和

的位置，即先进行layer normalization, 再进行self-attention或者feed-forward network（Pre-LN）, 公式如下：（Transofmer中标准形式称为Post-LN）：

Pre-LN：

Post-LN：

将Transofmer的encoder增加到30层，并且改变了上一层信息传递到下一层的方式，该方法也被96层的GPT-3 采用。

论文在不改变Transformer结构的基础, 加深模型。主要参考了论文作者自己的一篇文献3 ：该文献指出，Pre-LN比Post-LN训练更加稳定，但是Post-LN比Pre-LN有更大的潜力达到更好的效果；并且对比分析Post-LN训练不稳定的原因在于：Post-LN对于残差输出部分（非直接连接部分）进行LN次数少于其他部分，因此权重较大。因此提出Adaptive Model Initialization（Admin）方法来使得Transformer模型更加稳定，并且能够达到原有的效果。主要公式如下：

引入了一个额外的向量

，

与输入

的维度相同，对应元素相乘。分为两个阶段：

（1）Profiling：初始化

为元素全为1的向量，即保持原有Transformer中的公式计算，进行前向操作，计算每层

方差。

（2）Initialization：在训练阶段，固定

按照上述公式进行前向操作，并更新参数。训练完成之后，重新参数化模型，例如最简单的操作，移除

。文献3附录中给出了更多重新参数化的方式，这里不再说明。

使用Admin初始化方法，可以有效训练稳定性，即使在深层的网络中使用。

实验

在英法和英德翻译任务上进行了实验，结果如下：

随着层数加深到60层encoder，12层decoder，如果不用Admin初始化方法，模型不再收敛；使用Admin方法后，模型收敛并且BIEU相比标准的Transformer模型提升了2.5. 说明加深标准的Transformer训练是可行并且有效的。值得注意的是，在标准的Transformer的基础上使用Admin初始化方法也带来了一定的提升。

Table2列出了当前一些最好的机器翻译的模型的效果，可以看出ADMIN深层Tansformer在以上两个数据集上也达到了最好的效果。