机器翻译新突破！“普适注意力”模型：概念简单参数少，性能大增 - 专知

会员服务 ·

0

机器翻译新突破！“普适注意力”模型：概念简单参数少，性能大增

2018 年 8 月 27 日 全球人工智能

来源：arxiv,新智元

目前，最先进的机器翻译系统基于编码器-解码器架构，首先对输入序列进行编码，然后根据输入编码生成输出序列。两者都与注意机制接口有关，该机制基于解码器状态，对源令牌的固定编码进行重新组合。

本文提出了一种替代方法，该方法于跨两个序列的单个2D卷积神经网络。网络的每一层都根据当前的输出序列重新编码源令牌。因此，类似注意力的属性在整个网络中普遍存在。我们的模型在实验中表现出色，优于目前最先进的编码器-解码器系统，同时在概念上更简单，参数更少。

“普适注意力”模型及原理

我们的模型中的卷积层使用隐性3×3滤波器，特征仅根据先前的输出符号计算。图为经过一层（深蓝色）和两层（浅蓝色）计算之后的感受野，以及正常3×3滤波器（灰色）的视野的隐藏部分。

上图为具有两个隐藏层的解码器网络拓扑的图示，底部和顶部的节点分别表示输入和输出。水平方向连接用于RNN，对角线方向连接用于卷积网络。在两种情况下都会使用垂直方向的连接。参数跨时间步长（水平方向）共享，但不跨层（垂直方向）共享。

块级（顶部）和每个块（底部）内的DenseNet体系结构

令牌嵌入大小、层数（L）和增长率（g）的影响

无论是长句、短句，翻译结果都更好

与现有最佳技术的比较

我们将结果与表3中的现有技术进行了比较，包括德-英翻译（De-En）和英-德翻译（En-De）。我们的模型名为Pervasive Attention。除非另有说明，我们使用最大似然估计（MLE）训练所有模型的参数。对于一些模型，我们会另外报告通过序列水平估计（SLE，如强化学习方法）获得的结果，我们通常直接针对优化BLEU量度，而不是正确翻译的概率。

在不同句子序列长度上的表现

在上图中，我们将翻译质量视为句子长度的函数，并将我们的模型与RNNsearch、ConvS2S和Transformer进行比较。结果表明，我们的模型几乎在所有句子长度上都得到了最好的结果，ConvS2S和Transformer只在最长的句子上表现更好。总的来说，我们的模型兼备RNNsearch在短句中的强大表现，同时也接近ConvS2S和Transformer在较长句子上的良好表现。

隐性的句子对齐

上图所示为最大池化运算符在我们的模型中生成的隐式句子对齐。作为参考，我们还展示了我们的模型使用的“自我注意力”产生的对齐。可以看到，两种模型都成功定性地模拟了隐性的句子对齐。

我们的模型（L = 24，g = 32，ds = dt = 128），具有不同的池化操作符，使用门控卷积单元

在不同的滤波器尺寸k和深度L下，我们的模型（g = 32，ds = dt = 128）的表现。

与IWSLT德语-英语翻译模型的最新结果的比较。

（*）：使用我们的实现获得的结果（**）：使用FairSeq获得的结果。

脱离编码器-解码器范式，用DenseNet作机器翻译

我们提出了一种新的神经机器翻译架构，该架构脱离了编码器-解码器范例。我们的模型将源序列和目标序列联合编码为深度特征层次结构，其中源令牌嵌入到部分目标序列的上下文中。沿源维度对此联合编码进行最大池化，将相关要素映射到下一个目标令牌的预测。该模型实现基于DenseNet的2D CNN。

由于我们的模型会结合语境，对每一层当前生成的目标序列的输入令牌重新编码，因此该模型网络构造的每层中都具有“类似注意力”（attention-like）的属性。

因此，添加明确的“自注意模块”具有非常有限、但十分积极的效果。然而，我们模型中的最大池化运算符生成的隐式句子对齐，在性质上与注意力机制生成的对齐类似。我们在IWSLT'14数据集上评估了我们的模型，将德-英双语互译。

我们获得的BLEU分数与现有最佳方法相当，我们的模型使用的参数更少，概念上也更简单。我们希望这一成果可以引发对编码器-解码器模型的替代方案的兴趣。在未来，我们计划研究混合方法，其中联合编码模型的输入不是由嵌入向量提供的，而是1D源和目标嵌入网络的输出。

未来我们还将研究如何该模型来跨多语种进行翻译。

论文链接：

https://arxiv.org/pdf/1808.03867v1.pdf

Github资源：

https://github.com/elbayadm/ attn2d。

点击“ 阅读原文 ”进入AI学院学习

登录查看更多

0

相关内容

机器翻译

机器翻译，又称为自动翻译，是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支，是人工智能的终极目标之一，具有重要的科学研究价值。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

[ICML-Google]先宽后窄:对深度薄网络的有效训练

[ICML-Google]先宽后窄:对深度薄网络的有效训练

专知会员服务

36+阅读 · 2020年7月5日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【ICLR 2019】双曲注意力网络，Hyperbolic Attention Network

【ICLR 2019】双曲注意力网络，Hyperbolic Attention Network

专知会员服务

84+阅读 · 2020年6月21日

【ACL2020-MIT-韩松】用于高效自然语言处理的硬件感知Transformer

【ACL2020-MIT-韩松】用于高效自然语言处理的硬件感知Transformer

专知会员服务

24+阅读 · 2020年5月29日

【CMU】深度学习模型中集成优化、约束和控制，33页ppt

【CMU】深度学习模型中集成优化、约束和控制，33页ppt

专知会员服务

46+阅读 · 2020年5月23日

【CVPR2020-港中文】图像识别中的自注意力探索

【CVPR2020-港中文】图像识别中的自注意力探索

专知会员服务

56+阅读 · 2020年4月29日

注意力图神经网络的多标签文本分类

注意力图神经网络的多标签文本分类

专知会员服务

112+阅读 · 2020年3月28日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

专知会员服务

51+阅读 · 2020年2月16日

注意力机制模型最新综述

注意力机制模型最新综述

专知会员服务

270+阅读 · 2019年10月20日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

介绍高维超参数调整 - 优化ML模型的最佳实践

介绍高维超参数调整 - 优化ML模型的最佳实践

AI研习社

7+阅读 · 2019年4月17日

Attention！注意力机制模型最新综述

Attention！注意力机制模型最新综述

中国人工智能学会

18+阅读 · 2019年4月8日

3分钟看懂史上最强NLP模型BERT

3分钟看懂史上最强NLP模型BERT

机器学习算法与Python学习

8+阅读 · 2019年2月27日

入门 | 深度学习模型的简单优化技巧

入门 | 深度学习模型的简单优化技巧

机器之心

10+阅读 · 2018年6月10日

机器翻译不可不知的 Seq2Seq 模型

机器翻译不可不知的 Seq2Seq 模型

AI研习社

4+阅读 · 2018年5月24日

全连接网络到卷积神经网络逐步推导（组图无公式）

全连接网络到卷积神经网络逐步推导（组图无公式）

全球人工智能

5+阅读 · 2018年4月22日

【干货】seq2seq模型实例：用Keras实现机器翻译

【干货】seq2seq模型实例：用Keras实现机器翻译

专知

6+阅读 · 2018年1月11日

TensorFlow seq2seq中的Attention机制（续）

TensorFlow seq2seq中的Attention机制（续）

深度学习每日摘要

15+阅读 · 2017年11月16日

Attention Forcing for Sequence-to-sequence Model Training

Attention Forcing for Sequence-to-sequence Model Training

Arxiv

7+阅读 · 2019年9月26日

Aspect-based Sentiment Classification with Aspect-specific Graph Convolutional Networks

Arxiv

11+阅读 · 2019年9月8日

Self-Attention Graph Pooling

Self-Attention Graph Pooling

Arxiv

5+阅读 · 2019年4月17日

Optimization Models for Machine Learning: A Survey

Arxiv

18+阅读 · 2019年1月16日

Rethinking ImageNet Pre-training

Arxiv

8+阅读 · 2018年11月21日

Relational Deep Reinforcement Learning

Arxiv

5+阅读 · 2018年6月5日

Hyperbolic Attention Networks

Arxiv

9+阅读 · 2018年5月24日

Complex Relations in a Deep Structured Prediction Model for Fine Image Segmentation

Arxiv

7+阅读 · 2018年5月24日

Aspect Based Sentiment Analysis with Gated Convolutional Networks

Arxiv

12+阅读 · 2018年5月18日

Graph Attention Networks

Arxiv

10+阅读 · 2018年2月4日

VIP会员

相关主题

编码器-解码器架构

相关VIP内容

[ICML-Google]先宽后窄:对深度薄网络的有效训练

[ICML-Google]先宽后窄:对深度薄网络的有效训练

专知会员服务

36+阅读 · 2020年7月5日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【ICLR 2019】双曲注意力网络，Hyperbolic Attention Network

【ICLR 2019】双曲注意力网络，Hyperbolic Attention Network

专知会员服务

84+阅读 · 2020年6月21日

【ACL2020-MIT-韩松】用于高效自然语言处理的硬件感知Transformer

【ACL2020-MIT-韩松】用于高效自然语言处理的硬件感知Transformer

专知会员服务

24+阅读 · 2020年5月29日

【CMU】深度学习模型中集成优化、约束和控制，33页ppt

【CMU】深度学习模型中集成优化、约束和控制，33页ppt

专知会员服务

46+阅读 · 2020年5月23日

【CVPR2020-港中文】图像识别中的自注意力探索

【CVPR2020-港中文】图像识别中的自注意力探索

专知会员服务

56+阅读 · 2020年4月29日

注意力图神经网络的多标签文本分类

注意力图神经网络的多标签文本分类

专知会员服务

112+阅读 · 2020年3月28日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

专知会员服务

51+阅读 · 2020年2月16日

注意力机制模型最新综述

注意力机制模型最新综述

专知会员服务

270+阅读 · 2019年10月20日

热门VIP内容

开通专知VIP会员享更多权益服务

【新书】面向企业的图学习扩展：生产级图学习与推理，485页pdf

AI智能体编程：技术、挑战与机遇综述

【国家标准】数据安全技术数据安全风险评估方法

【CMU博士论文】交互式学习的进展：替代性反馈机制与自适应因果推理

相关资讯

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

介绍高维超参数调整 - 优化ML模型的最佳实践

介绍高维超参数调整 - 优化ML模型的最佳实践

AI研习社

7+阅读 · 2019年4月17日

Attention！注意力机制模型最新综述

Attention！注意力机制模型最新综述

中国人工智能学会

18+阅读 · 2019年4月8日

3分钟看懂史上最强NLP模型BERT

3分钟看懂史上最强NLP模型BERT

机器学习算法与Python学习

8+阅读 · 2019年2月27日

入门 | 深度学习模型的简单优化技巧

入门 | 深度学习模型的简单优化技巧

机器之心

10+阅读 · 2018年6月10日

机器翻译不可不知的 Seq2Seq 模型

机器翻译不可不知的 Seq2Seq 模型

AI研习社

4+阅读 · 2018年5月24日

全连接网络到卷积神经网络逐步推导（组图无公式）

全连接网络到卷积神经网络逐步推导（组图无公式）

全球人工智能

5+阅读 · 2018年4月22日

【干货】seq2seq模型实例：用Keras实现机器翻译

【干货】seq2seq模型实例：用Keras实现机器翻译

专知

6+阅读 · 2018年1月11日

TensorFlow seq2seq中的Attention机制（续）

TensorFlow seq2seq中的Attention机制（续）

深度学习每日摘要

15+阅读 · 2017年11月16日

相关论文

Attention Forcing for Sequence-to-sequence Model Training

Attention Forcing for Sequence-to-sequence Model Training

Arxiv

7+阅读 · 2019年9月26日

Aspect-based Sentiment Classification with Aspect-specific Graph Convolutional Networks

Arxiv

11+阅读 · 2019年9月8日

Self-Attention Graph Pooling

Self-Attention Graph Pooling

Arxiv

5+阅读 · 2019年4月17日

Optimization Models for Machine Learning: A Survey

Arxiv

18+阅读 · 2019年1月16日

Rethinking ImageNet Pre-training

Arxiv

8+阅读 · 2018年11月21日

Relational Deep Reinforcement Learning

Arxiv

5+阅读 · 2018年6月5日

Hyperbolic Attention Networks

Arxiv

9+阅读 · 2018年5月24日

Complex Relations in a Deep Structured Prediction Model for Fine Image Segmentation

Arxiv

7+阅读 · 2018年5月24日

Aspect Based Sentiment Analysis with Gated Convolutional Networks

Arxiv

12+阅读 · 2018年5月18日

Graph Attention Networks

Arxiv

10+阅读 · 2018年2月4日

大家都在搜

CMU博士论文

无人机集群

国防科技创新

久别重逢话双塔

软件无线电

OpenKG开源系列 | 海洋鱼类百科知识图谱（浙江大学）

微信扫码咨询专知VIP会员