干货 | NIPS 2017线上分享:利用价值网络改进神经机器翻译

2017 年 11 月 23 日 机器学习研究会

编者按:机器学习领域顶会NIPS 2017将于12月4号至9号在美国加州长滩举办。微软亚洲研究院的多篇论文入选了本次大会。上周,中国科学技术大学-微软联合培养博士生夏应策应邀参加机器之心优质论文线上分享活动,就其中一篇有关神经机器翻译的入选论文进行了详细讲解。一起来看看吧!本文转载自公众号“机器之心”。



线上分享视频回顾

(以下为夏应策分享的文字整理)


神经机器翻译(Neural Machine Translation,NMT)基于深度神经网络,为机器翻译提供了端到端的解决方案,在研究社区中受到了越来越多的关注,且近几年已被逐渐应用到了产业中。NMT 使用基于 RNN 的编码器-解码器框架对整个翻译过程建模。在训练过程中,它会最大化目标语句对给定源语句的似然度。在测试的时候,给定一个源语句x,它会寻找目标语言中的一个语句y*,以最大化条件概率P(y|x)。由于目标语句的可能数目是指数量级的,找到最优的 y*是 NP-hard 的。因此通常会使用束搜索(beam search)以找到合理的 y。


束搜索是一种启发式搜索算法,会以从左向右的形式保留得分最高的部分序列扩展。特别是,它保存了一群候选的部分序列。在每个时间步上,该算法将都会通过添加新词的方法扩展每一个候选部分语句,然后保留由 NMT 模型评分最高的新候选语句。当达到最大解码深度或者所有的语句都完全生成的时候(即所有的语句都包含 EOS 符号后缀的时候),算法就会终止。


虽然 NMT 结合束搜索是很成功的,但也存在几个明显的问题,已经被研究过的包括曝光偏差(exposure bias)、损失评估失配(loss-evaluation mismatch)和标签偏差(label bias)。然而我们观察到,其中仍然有一个很重要的问题被广泛忽视,即短视偏差(myopic bias)。束搜索倾向于更关注短期奖励。例如,在第 t 次迭代中,对于候选语句 y_1,...,y_t-1(记为 y_<t),和两个词 w 和 w',当把 w 添加到 y_<t 的时候记为 y_<t+w。如果



则新的候选语句 y_<t+w 相比 y_<t+w』 更可能被保留,即使 w'是在第 t 次迭代中的真实翻译,或在未来的解码中能获得更高的分数。这种源于短视的搜索错误有时候在模型很好的情况下也会提供糟糕的翻译。


为了解决短视偏差,对每一个词 w 和每一个候选语句 y_<t,我们设计了一个预测模型以在把 w 添加到 y_<t 的时候,评估长期奖励。这个过程会跟随当前使用的 NMT 模型,直到解码完成。然后我们可以在每个解码步中应用这个模型输出的预测分数帮助寻找更好的 w,以提升长句翻译性能。这种预测长期奖励的模型,恰好和强化学习中的价值函数的概念相同。


在本研究中我们开发了一个基于神经网络的预测模型,即为 NMT 设计的价值网络。该价值网络将源语句与任何部分序列作为输入,并输出预测值以估计 NMT 模型生成这一部分序列的期望总回报(例如 BLEU 分值)。在所有解码的步骤中,我们不仅基于该部分序列的条件概率选择最优的候选译文,同时还基于价值网络估计翻译效果的长期回报。


该项工作的主要贡献如下。首先我们开发了一个考虑长期回报的解码方案,它会为机器翻译逐一生成译文,这在 NMT 中是比较新的方案。在每个步骤中,新的解码方案不仅考虑源语句的条件概率,同时还依赖于未来的预测回报。我们相信考虑这两个部分将导致更好的翻译效果。


其次,我们设计了一种新颖的价值网络。在 NMT 编码器-解码器层的顶部,我们为价值网络开发了另外两个模块,即一个语义匹配模块和一个上下文覆盖(context-coverage)模块。语义匹配模块旨在估计源语句与目标语句之间的相似度,该模块直接有助于翻译质量的提升。不过我们经常观察到,随着注意力机制使用更多的上下文信息,模型能生成更好的翻译 [14, 15]。因此我们构建了一个上下文覆盖模块来度量编码器-解码器层中的上下文覆盖范围。通过这两个模块的输出,模型最终的预测将由全连接层完成。


图 1:价值网络的架构


算法 1:价值网络训练


算法 2:NMT 中用价值网络的束搜索


转自:微软研究院AI头条


完整内容请点击“阅读原文”

登录查看更多
0

相关内容

神经机器翻译NMT使用基于神经网络的技术来实现更多上下文精确的翻译,而不是一次翻译一个单词的破碎句子。使用大型人工神经网络计算单词序列的概率,NMT将完整的句子放入一个集成模型中。
【清华大学】低资源语言:回顾综述和未来的挑战,14页pdf
【伯克利】再思考 Transformer中的Batch Normalization
专知会员服务
40+阅读 · 2020年3月21日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
【ICLR2020-】基于记忆的图网络,MEMORY-BASED GRAPH NETWORKS
专知会员服务
108+阅读 · 2020年2月22日
机器翻译深度学习最新综述
专知会员服务
98+阅读 · 2020年2月20日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
专知会员服务
87+阅读 · 2020年1月20日
命名实体识别新SOTA:改进Transformer模型
AI科技评论
17+阅读 · 2019年11月26日
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
利用神经网络进行序列到序列转换的学习
AI研习社
12+阅读 · 2019年4月26日
强化学习与文本生成
微信AI
41+阅读 · 2019年4月4日
<论文分享> NLP领域最新论文分享-1123
深度学习与NLP
9+阅读 · 2018年11月23日
基础 | 基于注意力机制的seq2seq网络
黑龙江大学自然语言处理实验室
16+阅读 · 2018年3月7日
干货|从LSTM到Seq2Seq
全球人工智能
15+阅读 · 2018年1月9日
【干货】强化学习在生成对抗网络文本生成中扮演的角色(下)
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
Star-Transformer
Arxiv
5+阅读 · 2019年2月28日
Doubly Attentive Transformer Machine Translation
Arxiv
4+阅读 · 2018年7月30日
Relational recurrent neural networks
Arxiv
8+阅读 · 2018年6月28日
VIP会员
相关VIP内容
相关资讯
命名实体识别新SOTA:改进Transformer模型
AI科技评论
17+阅读 · 2019年11月26日
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
利用神经网络进行序列到序列转换的学习
AI研习社
12+阅读 · 2019年4月26日
强化学习与文本生成
微信AI
41+阅读 · 2019年4月4日
<论文分享> NLP领域最新论文分享-1123
深度学习与NLP
9+阅读 · 2018年11月23日
基础 | 基于注意力机制的seq2seq网络
黑龙江大学自然语言处理实验室
16+阅读 · 2018年3月7日
干货|从LSTM到Seq2Seq
全球人工智能
15+阅读 · 2018年1月9日
【干货】强化学习在生成对抗网络文本生成中扮演的角色(下)
Top
微信扫码咨询专知VIP会员