AAAI 2020 | 南京大学:利用多头注意力机制生成多样性翻译

2020 年 1 月 6 日 AI科技评论

作者 | 孙泽维

本文来自公众号「 南大NLP
当下的神经机器翻译(Neural Machine Translation, NMT)已经拥有很强的翻译性能,在诸多模型之中,Transformer模型取得了最好的效果。其区别于传统模型之处在两个方面:自注意力机制(Self-Attention)以及多头注意力机制(Multi-Head Attention)。
本文主要针对后者,传统的单头注意力机制已经有了比较多的研究, 广泛的结论是注意力代表了词对齐。但多头注意力机制代表了什么还缺乏研究。 本文基于一项对Transformer多头注意力的观察展开:解码器(Decoder)的最后一层对于编码器(Encoder)的多头注意力机制,代表了多重词对齐。并利用该现象,生成多样化翻译。更进一步,利用多样化翻译,辅助利用逆向翻译技术(back translation),增强翻译模型性能。最后一项有关问答任务的实验也证明了性能的提升。

现象分析
首先,为了验证我们的猜想: 解码器(Decoder)的最后一层对于编码器(Encoder)的多头注意力机制,代表了多重词对齐,即解码器最后一层注意力对应的源端的词,是接下来极有可能会生成的词 ,我们做了三个验证实验:
1、我们将解码器每个头对应最大注意力值的源端词选取出来,利用翻译的基线模型翻译生成目标端单词,看这些生成的目标端语言单词,在下一步目标端生成的softmax概率表中排名第几,如图1所示,非常尖锐的分布,大部分对应的词都在排名前列。

图1:被注意力头选中的词都排名非常靠前
2、与上面相似,我们查看了这些词的负对数似然(Negative Log-Likelihood, NLL),并计算了所有情况下排名第R的词的平均NLL(例如K=1,就是所有排名第1的词的NLL),进行对比,如表1所示,被选中的词的NLL非常小。

表1:所有情况中排名第R的词的NLL,每个头的NLL都非常小
3、更进一步,我们发现可以通过控制不同的注意力头,来控制下一步的生成。 具体见下面的例子,源端句子是“他说, 去年九月以来, 出口下降导致印度经济恶化。 ”模型已经翻译出“he said”,正在等待下一步翻译。 我们摘取了此时各个头的注意力情况,如图2所示。 接下来,我们挑选第4、5、6个头,分别对应到“以来”、“下降” 、“出口”三个词,每次都用某个头的注意力数值覆盖其他头,观察到对应的头的词都被即刻生成出来了,如表2所示。

图2:不同的头对应不同的源端的词

表2:选择不同的头(对应不同的源端词),就能控制下一步的生成

方法应用
我们利用该现象,提出了利用该多头注意力机制增强翻译多样性的算法。
具体来说就是 在每一次生成的时刻,随机采样某个头,用其注意力数值覆盖其他头 。但如果在生成的每个步骤都进行采样,虽然能显著增加多样性,却也会降低翻译质量。因此,我们提出了一个针对性算法:若多个头都对应到不同的源端词,意味着此时有多个合理的候选,此时我们就进行采样。
具体来说分如下几步:
1、令每个时刻的注意力数值为att(i,t,h),代表目标端生成第t个时刻,第h个头,对源端第i个词的注意力,我们取第h个头注意力最强的源端词candidate(t,h) = argmax(att(i,t,h), i)。
2、令[n_0, ..., n_i, ..., n_(T-1)]表示源端词被选为candidate的数量,T为源端长度。明显地,sum(n) = H,H代表头的总数。
3、若max(n) <= K,则进行采样,K为超参。这一步可以理解为,注意力很分散,可以有不同的候选。
具体算法如算法1所示。

算法1:采样策略

实验结果
我们在NIST 中英数据集,WMT14 英德数据集,和WMT16 英罗数据集上进行了实验。评价指标主要针对两个方面,翻译质量和翻译多样性,翻译质量仍然采用传统的BLEU,即与参考译文的比较(Reference-BLEU,rfb),越高质量越好,翻译多样性采用多次生成结果之间的BLEU(Pair-Wise BLEU,pwb),越低多样性越好。
最后,我们还提出一个综合的指标:每单位质量的多样性提升(Diversity Enhancement per Quality,DEQ),表示相较于baseline,提升的多样性BLEU与降低的翻译质量的BLEU的比值,越大越好,说明能以同样的质量代价实现更高的多样性。
实验结果如表3,4,5所示,比起之前的工作,我们在维持了比较高的翻译质量的前提下,实现了多样性的提升。

表3:中英实验

表4:英德实验

表5:英罗实验
我们将之前的工作、噪音组(为了去除噪音带来多样性的可能性)的结果绘在图3中,横轴是rfb,纵轴是pwb,右下角是最优点,结果显示,我们的方法都在右下角。

图3:Pair-Wise BLEU对Reference BLEU
越右下角越优,我们的方法都处在右下角。
表6是一个例子:

表6:多样性翻译例子
我们还看了不同长度的实验结果,如图4所示。理论上来说,随着长度增长,翻译的多样性应该增加,因为搜索空间更大了,但beam search由于其先天的缺陷,长度越长,多样性越差。我们的方法就实现了,随着长度增加,多样性增加的效果。

图4:随着句子长度增加多样性的变化
我们利用这些多样性的翻译来做逆向翻译(Back-Translation),在中英和英中实验上都有提升,如表7,8

表7:中英逆向翻译实验

表8:英中逆向翻译实验
最后还有一项对话的实验,也验证了我们的结论,如表9。评价指标详见论文。

表9:对话实验

总结
在本文中,我们发现了Transformer模型的一个内在结构特性,并利用它提出了一个多样性翻译生成的算法,比起以往的工作,在同等质量的前提下取得了更高的多样性。收益于我们的方法的逆向翻译算法、对话策略也取得了比以往更好的效果。

南大NLP研究组介绍

南京大学自然语言处理研究组从事自然语言处理领域的研究工作始于20世纪80年代。曾先后承担过该领域的18项国家科技攻关项目、863项目、国家自然科学基金和江苏省自然科学基金以及多项对外合作项目的研制。其中,承担的国家七五科技攻关项目“日汉机译系统研究”获七五国家科技攻关重大成果奖、教委科技进步二等奖以及江苏省科技进步三等奖。

分析理解人类语言是人工智能的重要问题之一,本研究组在自然语言处理的多个方向上做了大量、深入的工作。近年来集中关注文本分析、机器翻译、社交媒体分析推荐、知识问答等多个热点问题,结合统计方法和深度学习方法进行问题建模和求解,取得了丰富的成果。本研究组在自然语言处理顶级国际会议ACL上连续三年发表多篇论文,也在人工智能顶级国际会议IJCAI和AAAI上发表论文多篇,相关系统在机器翻译、中文分词、命名实体识别、情感计算等多个国际国内评测中名列前茅。

本实验室立志于研究和解决在传统文本和互联网资源的分析处理中面临的各项问题和挑战,并积极探索自然语言处理的各种应用。如果你也和我们有共同兴趣或目标,欢迎加入我们!




AAAI 2020 论文集:
AAAI 2020 论文解读会 @ 望京(附PPT下载)

AAAI 2020 论文解读系列:

01. [中科院自动化所] 通过识别和翻译交互打造更优的语音翻译模型
02. [中科院自动化所] 全新视角,探究「目标检测」与「实例分割」的互惠关系
03. [北理工] 新角度看双线性池化,冗余、突发性问题本质源于哪里?
04. [复旦大学] 利用场景图针对图像序列进行故事生成
05. [腾讯 AI Lab] 2100场王者荣耀,1v1胜率99.8%,腾讯绝悟 AI 技术解读
06. [复旦大学] 多任务学习,如何设计一个更好的参数共享机制?
07. [清华大学] 话到嘴边却忘了?这个模型能帮你 | 多通道反向词典模型
08. [北航等] DualVD: 一种视觉对话新框架
09. [清华大学] 借助BabelNet构建多语言义原知识库
10. [微软亚研] 沟壑易填:端到端语音翻译中预训练和微调的衔接方法
11. [微软亚研] 时间可以是二维的吗?基于二维时间图的视频内容片段检测
12. [清华大学] 用于少次关系学习的神经网络雪球机制
13. [中科院自动化所] 通过解纠缠模型探测语义和语法的大脑表征机制
14. [中科院自动化所] 多模态基准指导的生成式多模态自动文摘



    



招 聘


AI 科技评论希望能够招聘 科技编辑/记者 一名

办公地点:北京

职务:以参与学术顶会报道、人物专访为主

工作内容:

1、参加各种人工智能学术会议,并做会议内容报道;

2、采访人工智能领域学者或研发人员;

3、关注学术领域热点事件,并及时跟踪报道。

要求:

1、热爱人工智能学术研究内容,擅长与学者或企业工程人员打交道;

2、有一定的理工科背景,对人工智能技术有所了解者更佳;

3、英语能力强(工作内容涉及大量英文资料);

4、学习能力强,对人工智能前沿技术有一定的了解,并能够逐渐形成自己的观点。


感兴趣者,可将简历发送到邮箱:jiawei@leiphone.com


点击“阅读原文” 观看 AAAI 2020 论文预讲直播视频

登录查看更多
2

相关内容

【ICML2020-浙江大学】对抗性互信息的文本生成
专知会员服务
43+阅读 · 2020年7月4日
基于多头注意力胶囊网络的文本分类模型
专知会员服务
76+阅读 · 2020年5月24日
【CVPR2020】用多样性最大化克服单样本NAS中的多模型遗忘
注意力图神经网络的多标签文本分类
专知会员服务
111+阅读 · 2020年3月28日
专知会员服务
25+阅读 · 2020年2月15日
注意力机制介绍,Attention Mechanism
专知会员服务
168+阅读 · 2019年10月13日
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
论文浅尝 | 基于复杂查询图编码的知识库问答
开放知识图谱
17+阅读 · 2019年7月22日
自然语言处理中注意力机制综述
黑龙江大学自然语言处理实验室
11+阅读 · 2019年2月26日
论文浅尝 | 使用变分推理做KBQA
开放知识图谱
13+阅读 · 2018年4月15日
TensorFlow seq2seq中的Attention机制(续)
深度学习每日摘要
15+阅读 · 2017年11月16日
Talking-Heads Attention
Arxiv
15+阅读 · 2020年3月5日
Image Captioning: Transforming Objects into Words
Arxiv
7+阅读 · 2019年6月14日
Arxiv
19+阅读 · 2018年5月17日
Arxiv
27+阅读 · 2018年4月12日
Arxiv
6+阅读 · 2018年1月29日
Arxiv
27+阅读 · 2017年12月6日
Arxiv
4+阅读 · 2017年7月25日
VIP会员
相关VIP内容
【ICML2020-浙江大学】对抗性互信息的文本生成
专知会员服务
43+阅读 · 2020年7月4日
基于多头注意力胶囊网络的文本分类模型
专知会员服务
76+阅读 · 2020年5月24日
【CVPR2020】用多样性最大化克服单样本NAS中的多模型遗忘
注意力图神经网络的多标签文本分类
专知会员服务
111+阅读 · 2020年3月28日
专知会员服务
25+阅读 · 2020年2月15日
注意力机制介绍,Attention Mechanism
专知会员服务
168+阅读 · 2019年10月13日
相关资讯
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
论文浅尝 | 基于复杂查询图编码的知识库问答
开放知识图谱
17+阅读 · 2019年7月22日
自然语言处理中注意力机制综述
黑龙江大学自然语言处理实验室
11+阅读 · 2019年2月26日
论文浅尝 | 使用变分推理做KBQA
开放知识图谱
13+阅读 · 2018年4月15日
TensorFlow seq2seq中的Attention机制(续)
深度学习每日摘要
15+阅读 · 2017年11月16日
相关论文
Talking-Heads Attention
Arxiv
15+阅读 · 2020年3月5日
Image Captioning: Transforming Objects into Words
Arxiv
7+阅读 · 2019年6月14日
Arxiv
19+阅读 · 2018年5月17日
Arxiv
27+阅读 · 2018年4月12日
Arxiv
6+阅读 · 2018年1月29日
Arxiv
27+阅读 · 2017年12月6日
Arxiv
4+阅读 · 2017年7月25日
Top
微信扫码咨询专知VIP会员