机器翻译新突破！“普适注意力”模型：概念简单参数少，性能大增

会员服务 ·

机器翻译新突破！“普适注意力”模型：概念简单参数少，性能大增

2018 年 8 月 26 日 未来产业促进会

点击上方“公众号”可以订阅哦！

来源：新智元

编译：大明

【导读】目前的机器翻译模型基于编码器-解码器系统结构，本文提出了一种名为“普适注意力”的新翻译模型，用2D卷积网络做序列预测，无论长句短句翻译结果都更好，使用的参数也更少。实验表明，新模型的总体表现优于目前最出色的解码器-编码器模型系统。

目前，最先进的机器翻译系统基于编码器-解码器架构，首先对输入序列进行编码，然后根据输入编码生成输出序列。两者都与注意机制接口有关，该机制基于解码器状态，对源令牌的固定编码进行重新组合。

本文提出了一种替代方法，该方法于跨两个序列的单个2D卷积神经网络。网络的每一层都根据当前的输出序列重新编码源令牌。因此，类似注意力的属性在整个网络中普遍存在。我们的模型在实验中表现出色，优于目前最先进的编码器-解码器系统，同时在概念上更简单，参数更少。

“普适注意力”模型及原理

我们的模型中的卷积层使用隐性3×3滤波器，特征仅根据先前的输出符号计算。图为经过一层（深蓝色）和两层（浅蓝色）计算之后的感受野，以及正常3×3滤波器（灰色）的视野的隐藏部分。

上图为具有两个隐藏层的解码器网络拓扑的图示，底部和顶部的节点分别表示输入和输出。水平方向连接用于RNN，对角线方向连接用于卷积网络。在两种情况下都会使用垂直方向的连接。参数跨时间步长（水平方向）共享，但不跨层（垂直方向）共享。

块级（顶部）和每个块（底部）内的DenseNet体系结构

令牌嵌入大小、层数（L）和增长率（g）的影响

无论是长句、短句，翻译结果都更好

与现有最佳技术的比较

我们将结果与表3中的现有技术进行了比较，包括德-英翻译（De-En）和英-德翻译（En-De）。我们的模型名为Pervasive Attention。除非另有说明，我们使用最大似然估计（MLE）训练所有模型的参数。对于一些模型，我们会另外报告通过序列水平估计（SLE，如强化学习方法）获得的结果，我们通常直接针对优化BLEU量度，而不是正确翻译的概率。

在不同句子序列长度上的表现

在上图中，我们将翻译质量视为句子长度的函数，并将我们的模型与RNNsearch、ConvS2S和Transformer进行比较。结果表明，我们的模型几乎在所有句子长度上都得到了最好的结果，ConvS2S和Transformer只在最长的句子上表现更好。总的来说，我们的模型兼备RNNsearch在短句中的强大表现，同时也接近ConvS2S和Transformer在较长句子上的良好表现。

隐性的句子对齐