学界 | 对比对齐模型：神经机器翻译中的注意力到底在注意什么 - 专知

会员服务 ·

0

学界 | 对比对齐模型：神经机器翻译中的注意力到底在注意什么

2017 年 10 月 15 日 机器之心

选自arXiv

机器之心编译

参与：李亚洲、刘晓坤、路雪

神经机器翻译近来广受关注，基于注意力的NMT逐渐流行。但是，很少有研究分析注意力到底在「注意」什么？它与对齐一样吗？本文将对此进行分析。

神经机器翻译（NMT）近期备受关注，它极大地改进了多种语言的机器翻译质量，取得了顶级的结果。神经机器翻译模型的核心架构基于常见的编译器-解码器方法，学习把源语言编码成分布式表征，并把这些表征解码成目标语言。在不同的神经机器翻译模型中，基于注意力的 NMT 逐渐流行，因为它在每一翻译步使用源句最相关的部分。这一能力使得注意力模型在翻译长句时极为优秀。

从 2015 年 Bahdanau 等人的论文将注意力模型引入神经机器翻译以来，出现了各种变体。然而，少有研究分析「attention」到底捕捉到了什么现象。有一些研究认为 attention 与传统的词对齐类似，一些方法也尝试使用传统的词对齐来训练注意力模型，实验结果表明注意力模型也可被视为重排序模型（reordering model）和对齐模型（alignment model）。

但在此论文中，作者调查了注意力模型和对齐模型之间的区别，以及注意力机制到底捕捉到了什么。论文旨在解答两个问题：注意力模型只能做对齐吗？在不同的句法现象中注意力与对齐的类似程度有多大？

该论文的贡献有：

提供了 NMT 中的注意力机制与词对齐的详细对比。
虽然不同的注意力机制会与词对齐有不同程度的符合度，但完全符合对词预测而言不总是有利的。
研究表明根据生成的词类型，注意力也会有不同的模式。
研究证明注意力并不总是符合对齐机制。研究表明注意力与对齐的区别源于注意力模型关注当前要翻译词的上下文，这会影响当前词的翻译结果。

论文：What does Attention in Neural Machine Translation Pay Attention to?

论文链接：https://arxiv.org/pdf/1710.03348.pdf

摘要：神经机器翻译的注意力机制提供了在每一个翻译步中编码源句最相关部分的可能性，因此注意力机制通常被当做对齐模型。然而，目前并没有论文专门研究注意力机制，分析注意力模型究竟学到了什么。所以，关于注意力机制和传统对齐模型的相似性和区别的问题仍然没有答案。在这篇论文中，我们对注意力机制进行了详细分析，并和传统的对齐模型作了比较。对于注意力机制只能做词对齐，还是能捕捉更多信息，我们给出了解答。我们的研究表明，对于某些案例，注意力机制和对齐模型是不同的，注意力能够捕捉到更多有用的信息。

图 1：翻译样本中每一个生成词的源句子最相关部分的注意力可视化。我们可以看到在「would」和「like」的例子中，注意力是如何在多个源词中「弥散」开的。

图 2：注意力和对齐不一致的例子。带边框的单元格展示了 RWTH 数据集手工对齐的结果（见表 1）。我们可以看到在「will」和「come」的例子中，注意力是如何偏离对齐点的。

表 1：RWTH 德英数据集提供的手动对齐统计数据。

图 3：输入-馈送系统（input-feeding system）的平均注意力损失和平均词预测损失。

图 4：输入-馈送模型的词预测损失和注意力损失之间的相关性。

图 5：输入-馈送模型的注意力熵（attention entropy）及其与注意力损失之间的相关性。

图 6：输入-馈送系统的注意力熵和词预测损失之间的相关性。

本文为机器之心编译，转载请联系本公众号获得授权。

✄------------------------------------------------

加入机器之心（全职记者/实习生）：hr@jiqizhixin.com

投稿或寻求报道：content@jiqizhixin.com

广告&商务合作：bd@jiqizhixin.com

登录查看更多

10

相关内容

神经机器翻译

神经机器翻译

神经机器翻译NMT使用基于神经网络的技术来实现更多上下文精确的翻译，而不是一次翻译一个单词的破碎句子。使用大型人工神经网络计算单词序列的概率，NMT将完整的句子放入一个集成模型中。

基于多头注意力胶囊网络的文本分类模型

基于多头注意力胶囊网络的文本分类模型

专知会员服务

78+阅读 · 2020年5月24日

【IJCAI2020-CMU】结构注意力的神经抽象摘要

【IJCAI2020-CMU】结构注意力的神经抽象摘要

专知会员服务

22+阅读 · 2020年4月23日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

【MIT-ICLR2020】神经网络能推断出什么? What Can Neural Networks Reason About?

【MIT-ICLR2020】神经网络能推断出什么? What Can Neural Networks Reason About?

专知会员服务

44+阅读 · 2020年2月21日

机器翻译深度学习最新综述

机器翻译深度学习最新综述

专知会员服务

99+阅读 · 2020年2月20日

麻省理工学院MIT-ICLR2020《神经网络能推断出什么?》

麻省理工学院MIT-ICLR2020《神经网络能推断出什么?》

专知会员服务

51+阅读 · 2020年2月19日

Transformer文本分类代码

Transformer文本分类代码

专知会员服务

117+阅读 · 2020年2月3日

模型压缩究竟在做什么？我们真的需要模型压缩么？

模型压缩究竟在做什么？我们真的需要模型压缩么？

专知会员服务

28+阅读 · 2020年1月16日

注意力机制模型最新综述

注意力机制模型最新综述

专知会员服务

270+阅读 · 2019年10月20日

注意力机制介绍，Attention Mechanism

注意力机制介绍，Attention Mechanism

专知会员服务

171+阅读 · 2019年10月13日

注意力机制可解释吗？这篇ACL 2019论文说……

注意力机制可解释吗？这篇ACL 2019论文说……

机器之心

10+阅读 · 2019年6月16日

注意力模型深度综述：注意力类型和网络架构都有什么

注意力模型深度综述：注意力类型和网络架构都有什么

极市平台

35+阅读 · 2019年5月6日

注意力能提高模型可解释性？实验表明：并没有

注意力能提高模型可解释性？实验表明：并没有

黑龙江大学自然语言处理实验室

11+阅读 · 2019年4月16日

Attention！注意力机制模型最新综述

Attention！注意力机制模型最新综述

中国人工智能学会

18+阅读 · 2019年4月8日

自然语言处理中注意力机制综述

自然语言处理中注意力机制综述

黑龙江大学自然语言处理实验室

11+阅读 · 2019年2月26日

EMNLP 2018 | 为什么使用自注意力机制？

EMNLP 2018 | 为什么使用自注意力机制？

机器之心

8+阅读 · 2018年9月17日

前沿 | CNN取代RNN？当序列建模不再需要循环网络

前沿 | CNN取代RNN？当序列建模不再需要循环网络

机器之心

3+阅读 · 2018年8月7日

学界 | 哈佛大学提出变分注意力：用VAE重建注意力机制

学界 | 哈佛大学提出变分注意力：用VAE重建注意力机制

机器之心

7+阅读 · 2018年7月26日

干货 | NLP中的self-attention【自-注意力】机制

干货 | NLP中的self-attention【自-注意力】机制

机器学习算法与Python学习

12+阅读 · 2018年4月11日

神经网络中的「注意力」是什么？怎么用？

神经网络中的「注意力」是什么？怎么用？

人工智能学家

5+阅读 · 2017年10月19日

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Arxiv

11+阅读 · 2019年6月2日

Universal Transformers

Universal Transformers

Arxiv

5+阅读 · 2019年3月5日

Star-Transformer

Star-Transformer

Arxiv

5+阅读 · 2019年2月28日

Pay Less Attention with Lightweight and Dynamic Convolutions

Pay Less Attention with Lightweight and Dynamic Convolutions

Arxiv

4+阅读 · 2019年1月29日

Re-Identification with Consistent Attentive Siamese Networks

Re-Identification with Consistent Attentive Siamese Networks

Arxiv

8+阅读 · 2018年11月23日

You May Not Need Attention

Arxiv

4+阅读 · 2018年10月31日

Doubly Attentive Transformer Machine Translation

Doubly Attentive Transformer Machine Translation

Arxiv

4+阅读 · 2018年7月30日

QANet: Combining Local Convolution with Global Self-Attention for Reading Comprehension

Arxiv

4+阅读 · 2018年4月23日

Towards Neural Phrase-based Machine Translation

Arxiv

3+阅读 · 2018年4月18日

Multilingual Topic Models

Arxiv

3+阅读 · 2017年12月18日

VIP会员

相关主题

神经机器翻译

注意力模型

注意力机制

相关VIP内容

基于多头注意力胶囊网络的文本分类模型

基于多头注意力胶囊网络的文本分类模型

专知会员服务

78+阅读 · 2020年5月24日

【IJCAI2020-CMU】结构注意力的神经抽象摘要

【IJCAI2020-CMU】结构注意力的神经抽象摘要

专知会员服务

22+阅读 · 2020年4月23日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

【MIT-ICLR2020】神经网络能推断出什么? What Can Neural Networks Reason About?

【MIT-ICLR2020】神经网络能推断出什么? What Can Neural Networks Reason About?

专知会员服务

44+阅读 · 2020年2月21日

机器翻译深度学习最新综述

机器翻译深度学习最新综述

专知会员服务

99+阅读 · 2020年2月20日

麻省理工学院MIT-ICLR2020《神经网络能推断出什么?》

麻省理工学院MIT-ICLR2020《神经网络能推断出什么?》

专知会员服务

51+阅读 · 2020年2月19日

Transformer文本分类代码

Transformer文本分类代码

专知会员服务

117+阅读 · 2020年2月3日

模型压缩究竟在做什么？我们真的需要模型压缩么？

模型压缩究竟在做什么？我们真的需要模型压缩么？

专知会员服务

28+阅读 · 2020年1月16日

注意力机制模型最新综述

注意力机制模型最新综述

专知会员服务

270+阅读 · 2019年10月20日

注意力机制介绍，Attention Mechanism

注意力机制介绍，Attention Mechanism

专知会员服务

171+阅读 · 2019年10月13日

热门VIP内容

开通专知VIP会员享更多权益服务

【新书】《信息检索：高级主题与技术》

【EPFL博士论文】决策系统中的机器学习：公平性、鲁棒性与数据偏差

面向电磁信息智能控制的生成对抗网络研究进展

【ICML2025】一图胜千言：一种可用性可保留的文本-图像协同擦除框架

相关资讯

注意力机制可解释吗？这篇ACL 2019论文说……

注意力机制可解释吗？这篇ACL 2019论文说……

机器之心

10+阅读 · 2019年6月16日

注意力模型深度综述：注意力类型和网络架构都有什么

注意力模型深度综述：注意力类型和网络架构都有什么

极市平台

35+阅读 · 2019年5月6日

注意力能提高模型可解释性？实验表明：并没有

注意力能提高模型可解释性？实验表明：并没有

黑龙江大学自然语言处理实验室

11+阅读 · 2019年4月16日

Attention！注意力机制模型最新综述

Attention！注意力机制模型最新综述

中国人工智能学会

18+阅读 · 2019年4月8日

自然语言处理中注意力机制综述

自然语言处理中注意力机制综述

黑龙江大学自然语言处理实验室

11+阅读 · 2019年2月26日

EMNLP 2018 | 为什么使用自注意力机制？

EMNLP 2018 | 为什么使用自注意力机制？

机器之心

8+阅读 · 2018年9月17日

前沿 | CNN取代RNN？当序列建模不再需要循环网络

前沿 | CNN取代RNN？当序列建模不再需要循环网络

机器之心

3+阅读 · 2018年8月7日

学界 | 哈佛大学提出变分注意力：用VAE重建注意力机制

学界 | 哈佛大学提出变分注意力：用VAE重建注意力机制

机器之心

7+阅读 · 2018年7月26日

干货 | NLP中的self-attention【自-注意力】机制

干货 | NLP中的self-attention【自-注意力】机制

机器学习算法与Python学习

12+阅读 · 2018年4月11日

神经网络中的「注意力」是什么？怎么用？

神经网络中的「注意力」是什么？怎么用？

人工智能学家

5+阅读 · 2017年10月19日

相关论文

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Arxiv

11+阅读 · 2019年6月2日

Universal Transformers

Universal Transformers

Arxiv

5+阅读 · 2019年3月5日

Star-Transformer

Star-Transformer

Arxiv

5+阅读 · 2019年2月28日

Pay Less Attention with Lightweight and Dynamic Convolutions

Pay Less Attention with Lightweight and Dynamic Convolutions

Arxiv

4+阅读 · 2019年1月29日

Re-Identification with Consistent Attentive Siamese Networks

Re-Identification with Consistent Attentive Siamese Networks

Arxiv

8+阅读 · 2018年11月23日

You May Not Need Attention

Arxiv

4+阅读 · 2018年10月31日

Doubly Attentive Transformer Machine Translation

Doubly Attentive Transformer Machine Translation

Arxiv

4+阅读 · 2018年7月30日

QANet: Combining Local Convolution with Global Self-Attention for Reading Comprehension

Arxiv

4+阅读 · 2018年4月23日

Towards Neural Phrase-based Machine Translation

Arxiv

3+阅读 · 2018年4月18日

Multilingual Topic Models

Arxiv

3+阅读 · 2017年12月18日

大家都在搜

语言模型推理

EPFL博士论文

论文浅尝 - ICLR2020 | 通过神经逻辑归纳学习有效地解释

微信扫码咨询专知VIP会员