技术分享 | 在WMT2021勇夺四冠，微信翻译怎么做到的？

2021 年 8 月 4 日 微信AI

近日，WMT2021国际机器翻译大赛的榜单停止提交结果并发布排名，继去年在中英翻译上夺冠后，微信AI团队今年参加了新闻赛道的其他4个翻译任务并获得冠军，分别是：英中翻译、日英翻译、英日翻译和英德受限资源翻译。

负责英中翻译任务的其中一位核心成员来自校企合作项目团队北京交通大学，现已通过大咖计划入职微信AI团队。

*了解大咖计划： https://join.qq.com/detail.html?id=248

比赛简介

WMT 是全球学术界公认的国际顶级机器翻译比赛，由国际计算语言学协会 (ACL) 举办，自2006年创办至今，WMT已经成功举办16届。大赛拥有很高的权威性，被业界视为检验机器翻译能力的一个标准，因而每年都吸引了众多来自全球的企业、科研机构和高校所组成的顶尖团队来参与角逐，包括微软、Facebook、DeepMind、华为、百度、金山、日本情报通信研究机构（NICT）、清华大学、上海交通大学等。

在赛制上，组委会根据英中、日英、英德等不同翻译任务提供测试集，参赛者在线提交机器翻译结果，组委会根据在国际上具有广泛认可度的BLEU自动评估指标对参赛者提交的机器译文和标准答案进行拟合计算，拟合程度高者排名在前。

按照官方邮件提供的数据，本次大赛共有82个队伍实名参赛，获得1,308次有效提交，竞争相当激烈。微信AI团队在经过多次逐角后逐脱颖而出，在英中翻译、日英翻译、英日翻译这3个任务上成功占据自动评估指标的榜首，超过了所有使用受限资源和外部资源（即非受限资源）的系统。英德翻译在榜上呈现是第二名，超过了所有受限资源的系统，但榜上第一名是使用了外部资源的非受限系统，不在同一竞争维度。

技术分享

在WMT21竞赛中，微信AI团队在模型结构、数据增强、训练优化和集成搜索方面继续探索，验证和使用了多项有效技术，同时也提出了多项有效的创新技术。

系统整体架构图

▍ 模型架构

当前主流的神经网络机器翻译模型通常基于Transformer结构，往年一些有效的结构变种主要是增加模型深度和模型宽度。今年，我们在此基础上验证并使用了几项有效的模型变种，同时也提出了一些改进的模型结构，在明显提升翻译效果的同时，大幅增加了模型之间的多样性。在集成实验中，我们仅使用少量的改进后的变种模型就超越了几十个更深和更宽的Transformer模型集成效果。

■ Post-Norm Transformer

前人研究表明，通过改进模型的初始化方法，可以有效缓解深层Post-Norm Transformer训练失败的问题。我们引入了修改后的初始化方法，成功训练了深层Post-Norm Transformer，并在集成中得到了明显收益。

■ Talking-Heads Attention Transformer

前人研究表明，在多头注意力计算中加入额外的线性映射，加强头和头之前的信息流动，来增强注意力机制的性能和多样性。

■ Average Attention Transformer

Average Attention Network

平均注意力模型将Transformer解码器的多头自注意力机制（Multi-Head Self-Attention）替换成平均注意力机制（Average Attention），在没有明显损失性能的条件下，加速了模型速度。同时，因为注意力机制的不同，Average Attention模型在模型集成中提供了很好的多样性。

■ Weighted Attention Transformer

Weighted Attention Network

进而，我们对 Average Attention Network (AAN)的权重计算进行了修改，通过对距离越远的历史赋予越低的权重，模型的性能得到了进一步提升，效果超过了普通的深层Transformer。

■ Mix-AAN Transformer

Mix-AAN Transformer

因为Average Attention和Multi-Head Self-Attention表现出良好的多样性，我们将两者在模型Decoder端进行混合，通过串行或并行的方式顺序排列，得到一系列单模型性能强劲且多样性很好的模型。在我们的模型集成实验中，这类模型变种带来了很大的收益。

▍ 数据增强

领域知识迁移

为了构建更好的伪数据，我们在大量的源端和目标端单语数据中过滤出高质量的数据。通过迭代回译和知识蒸馏，来生成伪双语数据。我们还使用了多粒度（子词、词、短语）的噪声加入方式和动态Top-p采样，进一步增加了伪数据的多样性，构建了大规模的通用领域伪数据。

当我们把模型微调至目标领域（新闻领域）后，我们集成多个不同结构的模型，将大量源语言的单语数据翻译至目标语言。这样，我们的领域知识就被迁移到了大规模的伪数据中。我们再在包含领域知识的伪数据上重新训练模型，将领域相关的知识迁移到了模型中，迭代地执行这个过程。

▍ 训练优化

我们提出了三种改进的训练算法，来缓解暴露偏差的问题。

基于调度采样的两阶段模型训练架构

■ 基于模型置信度的调度采样算法（Confidence-Aware Scheduled Sampling）

基于模型置信度的调度采样算法(https://aclanthology.org/2021.findings-acl.205.pdf）是微信AI团队近期提出的一种有效缓解暴露偏差问题的训练方法。训练过程中，基于模型置信度设计调度采样策略，从第一阶段Decoder的输出历史和标准历史中采样，作为第二阶段Decoder的输入，在训练中模拟真实的翻译推导场景。论文已被ACL2021-Findings收录。

■ 针对目标端输入的抗噪训练（Target Denoising）

在训练过程中，我们延用去年参赛的经验（https://aclanthology.org/2020.wmt-1.24.pdf），将Decoder的输入随机替换成句子中的其他单词，来模拟模型翻译时容易产生的乱序的问题。

■ 渐进的标签平滑技术（Graduated Label Smoothing）

为了缓解模型在领域微调时产生的过拟合问题，我们对置信度较高的单词给与更大的惩罚，给置信度较低的单词不给予惩罚，以加强数据分布中低频词的训练。

▍ 集成搜索

模型集成是一个有效提升模型性能的方案，但是如何在大量的候选模型中，选出最优的模型组合是一个耗时非常大，非常棘手的问题。常用的方法是通过贪心算法进行搜索，并引入一些随机性的策略，来得到一个较优的结果。

模型Self-BLEU示意图

我们去年在WMT20上曾提出一种基于Self-BLEU的集成搜索算法，有效的提升了模型集成搜索效率。在本次WMT21竞赛中，我们进一步改进了该搜索算法，同时兼顾了单个模型的多样性和模型在开发集上的效果（BLEU），对模型重要性进行排序。再基于候选模型和集成模型的平均Self-BLEU进行贪心搜索，最终搜索时间减少了95%以上，搜索得到的模型集成效果也明显优于简单的贪心搜索。

目前，微信翻译已成为一个日翻译百亿级字符的大型多语言机器翻译引擎，支持多语种间的双向翻译，在翻译质量上达到业界领先水平。我们新提出的部分技术已上线微信翻译，服务场景涵盖微信聊天翻译、朋友圈翻译、图片翻译、网页翻译、扫一扫翻译、QQ邮箱、QQ音乐、微信读书、腾讯小微等，后续会陆续应用于更多的场景。

此外，微信翻译团队还是腾讯内部开源协同组织TencentMT Oteam的主要成员之一，TencentMT Oteam的成立旨在融合公司内多个翻译团队的优势，集中资源深度优化核心技术模块，打造强大的翻译引擎和服务。

微信AI

不描摹技术的酷炫，不依赖拟人的形态，微信AI是什么？是悄无声息却无处不在，是用技术创造更高效率，是更懂你。

微信AI关注语音识别与合成、自然语言处理、计算机视觉、工业级推荐系统等领域，成果对内应用于微信翻译、微信视频号、微信看一看等业务，对外服务王者荣耀、QQ音乐等产品。

登录查看更多

相关内容

注意力机制

关注 120

Attention机制最早是在视觉图像领域提出来的，但是真正火起来应该算是google mind团队的这篇论文《Recurrent Models of Visual Attention》[14]，他们在RNN模型上使用了attention机制来进行图像分类。随后，Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Align and Translate》 [1]中，使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行，他们的工作算是是第一个提出attention机制应用到NLP领域中。接着类似的基于attention机制的RNN模型扩展开始应用到各种NLP任务中。最近，如何在CNN中使用attention机制也成为了大家的研究热点。下图表示了attention研究进展的大概趋势。

创新工场首席科学家周明博士：认知智能的进展和思考

专知会员服务

54+阅读 · 2022年3月24日

【NeurIPS2021】多模态融合的注意力瓶颈

专知会员服务

63+阅读 · 2021年10月14日

AutoML如何落地工业界？看这份阿里KDD2021《自动机器学习: 学术界与工业界视角》教程，附150页Slides

专知会员服务

86+阅读 · 2021年8月15日

【ICML2021】贝叶斯神经网络的后验到底是什么样的?

专知会员服务

33+阅读 · 2021年5月18日