预训练如何用于机器翻译？字节跳动ACL2021这份190页ppt教程带你全面了解

【导读】ACL-IJCNLP 2021是CCF A类会议，是人工智能领域自然语言处理（ Natural Language Processing，NLP）方向最权威的国际会议。ACL2021计划于今年8月1日-8月6日以线上会议形式召开. 最近字节跳动AI实验室总监李磊重返学术界，进入加州大学圣巴巴拉分校担任助理教授。他和王明轩给了关于预训练时代机器翻译的教程，非常值得关注！

预训练是自然语言处理(NLP)[28,8,20]、计算机视觉(CV)[12,34]和自动语音识别(ASR)[3,6,24]的主导范式。通常，首先对模型进行大量未标记数据的预训练，以捕获丰富的输入表示，然后通过提供上下文感知的输入表示，或初始化下游模型的参数进行微调，将模型应用于下游任务。最近，自监督的预训练和任务特定的微调范式终于完全达到了神经机器翻译(NMT)[37,35,5]。

尽管取得了成功，但在NMT中引入一个通用的预训练模型并非易事，而且不一定会产生有希望的结果，特别是对于资源丰富的环境。在几个方面仍然存在独特的挑战。首先，大多数预训练方法的目标不同于下游的NMT任务。例如，BERT[8]是一种流行的预训练模型，其设计目的是仅使用一个转换器编码器进行语言理解，而NMT模型通常由一个编码器和一个解码器组成，以执行跨语言生成。这一差距使得运用NMT[30]的预训练不够可行。此外，机器翻译本身就是一个多语言问题，但一般的NLP预训练方法主要集中在英语语料库上，如BERT和GPT。鉴于迁移学习在多语言机器翻译中的成功，对NMT[7]进行多语言预训练是非常有吸引力的。最后，语音翻译近年来受到了广泛的关注，而大多数的预训练方法都侧重于文本表示。如何利用预训练的方法来提高口语翻译水平成为一个新的挑战。

本教程提供了一个充分利用神经机器翻译的预训练的全面指导。首先，我们将简要介绍NMT的背景、预训练的方法，并指出将预训练应用于NMT的主要挑战。在此基础上，我们将着重分析预训练在提高非语言教学绩效中的作用，如何设计更好的预训练模式来执行特定的非语言教学任务，以及如何更好地将预训练模式整合到非语言教学系统中。在每一部分中，我们将提供例子，讨论训练技巧，并分析在应用预训练时转移了什么。

第一个主题是NMT的单语预训练，这是研究最深入的领域之一。ELMo、GPT、MASS和BERT等单语文本表征具有优势，显著提高了各种自然语言处理任务的性能[25,8,28,30]。然而，NMT有几个明显的特点，如大的训练数据(1000万或更多)的可用性和基线NMT模型的高容量，这需要仔细设计预训练。在这一部分，我们将介绍不同的预训练方法，并分析它们在不同的机器翻译场景(如无监督的NMT、低资源的NMT和富资源的NMT)中应用的最佳实践[37,35]。我们将介绍使用各种策略对预训练的模型进行微调的技术，如知识蒸馏和适配器[4,16]。

下一个话题是NMT的多语言预训练。在此背景下，我们旨在缓解英语为中心的偏见，并建议可以建立不同语言的普遍表示，以改善大量多语言的NMT。在这部分中，我们将讨论不同语言的一般表示，并分析知识如何跨语言迁移。这将有助于更好地设计多语言预训练，特别是零样本迁移到非英语语言对[15,27,7,26,13,17,19,23,18]。

本教程的最后一个技术部分是关于NMT的预训练。特别地，我们关注于利用弱监督或无监督训练数据来改进语音翻译。在这一部分中，我们将讨论在言语和文本中建立一个一般表示的可能性。并展示了文本或音频预处理训练如何引导NMT的文本生成[33,21,32,14,22,10,9,11,36]。

在本教程的最后，我们指出了在应用NMT预训练时的最佳实践。这些主题涵盖了针对不同的NMT情景的各种预训练方法。在本教程之后，观众将理解为什么NMT预训练不同于其他任务，以及如何充分利用NMT预训练。重要的是，我们将深入分析预训练如何以及为什么在NMT中起作用，这将为未来设计特定的NMT预训练范式提供启发。

https://sites.cs.ucsb.edu/~lilei/TALKS/2021-ACL/

报告嘉宾：

李磊，加州大学圣巴巴拉分校担任助理教授，曾任字节跳动人工智能实验室总监。本科博士分别毕业于上海交通大学和卡耐基梅隆大学计算机系。曾任加州大学伯克利分校作博士后研究员和百度美国深度学习实验室少帅科学家。曾获2012年美国计算机学会SIGKDD最佳博士论文第二名、2017年吴文俊人工智能技术发明二等奖、2017年CCF杰出演讲者、2019年CCF青竹奖。在机器学习、数据挖掘和自然语言处理领域于国际顶级学术会议发表论文100余篇，拥有二十余项技术发明专利。担任CCF自然语言处理专委委员和EMNLP, NeurIPS, AAAI, IJCAI, KDD等多个会议组委成员和领域主席。

王明轩，字节跳动人工智能实验室资深研究员，博士毕业于中国科学院计算技术研究所，主要研究方向为机器翻译。主导研发了火山翻译系统，服务全球过亿用户，并多次带领团队在 WMT 机器翻译评测中拿到过冠军。在 ACL、EMNLP、NAACL 等相关领域发表论文 30 多篇。担任CCF自然语言处理专委委员和国内外多个会议组委成员。

成为VIP会员查看完整内容