「机器翻译评测研究」最新2022综述

2022 年 3 月 13 日 专知

爱尔兰都柏林城市大学博士生Lifeng Han《机器翻译评测研究》综述论文！

自从 1950 年代开始，机器翻译成为人工智能研究发展的重要任务之一，经历了几个不同时期和阶段性发展，包括基于规则的方法、统计的方法、和最近提出的基于神经网络的学习方法。伴随这几个阶段性飞跃的是机器翻译的评测研究与发展，尤其是评测方法在统计翻译和神经翻译研究上所扮演的重要角色。机器翻译的评测任务不仅仅在于评价机器翻译质量，还在于及时的反馈给机器翻译研究人员机器翻译本身存在的问题，如何去改进以及如何去优化。在一些实际的应用领域，比如在没有参考译文的情况下，机器翻译的质量估计更是起到重要的指示作用来揭示自动翻译目标译文的可信度。这份报告主要包括一下内容：机器翻译评测的简史、研究方法分类、以及前沿的进展，这其中包括人工评测、自动评测、和评测方法的评测（元评测）。人工评测和自动评测包含基于参考译文的和不需参考译文参与的；自动评测方法包括传统字符串匹配、应用句法和语义的模型、以及深度学习模型；评测方法的评测包含估计人工评测的可信度、自动评测的可信度、和测试集的可信度等。前沿的评测方法进展包括基于任务的评测、基于大数据预训练的模型、以及应用蒸馏技术的轻便优化模型。

https://www.zhuanzhi.ai/paper/1a1dbb2ca0c5430b4de224253237f95d

1 简介

机器翻译 (machine translation) 的研究始于 1950 年代 [152]，隶属于机器智能框架下的计算语言学 (computational linguistics) 的一个重要分支。机器翻译经历了基于规则理论模型 (rule-based)、基于实例的方法 (example-based)、基于概率统计学 (statistical MT, SMT)、和近年来的基于机器学习神经网络的方法 (neural MT, NMT) [18, 122, 32, 88, 33, 83, 151, 149, 91]。虽然机器翻译的质量持续改进，自动翻译的目标译文依然没有真正达到人类翻译专家的水平，这个现象在大部分语料对和不同领域的测试集上非常明显，最近的研究包括反应普遍流行的翻译测试集的狭隘性和文学领域 (literature domain) 机器翻译的表现很不佳 [95, 108, 77, 79]。因此，一如既往，机器翻译的评测 (MT evaluation, MTE) 扮演着推动机器翻译发展的重要角色 [77, 80]。机器翻译质量的评测本身是一个很有挑战性的研究课题，这源于翻译本身的多样性、语言的多变性和丰富性、以及语义相似度计算的复杂性。

这份报告包括对人工评测、自动评测、和针对评测的评测（元评测）的介绍、以及该领域一些前沿的研究进展，请参见图1，其中还包括交叉性的研究比如有人工参与的 Metric、以及 Metric 用于质量估计的研究。图1的上部分框架还揭示这个元评测的理论图也可应用于大部分的自然语言处理评测任务、不仅限于机器翻译。

有关机器翻译评测的国际赛事包括每年一届的统计机器翻译会议（WMT） [89, 21, 23, 24, 25, 26, 27, 12, 13, 14, 15, 16, 17, 8, 9, 10] 所组织的人工评测、自动评测（Metrics）和质量估计任务（QE），美国国家标椎和技术机构（NIST）组织的机器翻译比赛 [100] 1，和语音语言技术国际研讨会（IWSLT） [46, 124, 125, 49] 协办的文本翻译赛事；地区性的赛事包括中国机器翻译研讨会（CWMT）。这份报告的大部分方法来自对以上国际和地区性的评测赛事的总结。

2 相关工作

从翻译教学和翻译工业应用的角度，[138] 在 2005 年做了有关机器翻译错误分类的研究。欧洲机器翻译研究联合项目 EuroMatrix 于 2007 年的一份报告简介了人工评测和当时流行的自动评测 [48]。美国国防先进研究项目机构（DARPA）的 GALE 项目助攻机器翻译并在 2009 年的一份汇报中介绍了自动评测和半自动评测，包含基于任务的和有人工参与的评测方法，其中 HTER 是该项目主要信赖评测指标。该报告还指出评测方法可用来机器翻译参数的优化 [43]。2013 年欧洲机器翻译会议（EAMT）的一份邀请报告阐述了该作者所在机构开发的 Asiya 在线机器翻译错误分析平台。同时还提及了机器翻译评测的简史，包含基于词面相似度的方法和语言学驱动的方法。这份报告区别于以上工作，在人工评测、自动评测、和元评测上分别加以综合介绍，并且对近几年的该领域研究进展进行更新讲解。此报告是基于我们近期发表在 “翻译建模：数字时代的翻译学 (MoTra21) ” 国际研讨会的工作 [80]。

3 人工评测

人工评测部分我们分两个小节介绍传统的方法和后续发展的方法，参见图2。

3.1 传统方法

早期的机器翻译人工评价标准始于美国自动语言处理指导委员会 (ALPAC) [28] 所制定的 “清晰度” 和 “保真度”。清晰度被定义为：尽最大可能地，翻译文本应该读起来像正常的认真写出来的片段，并且容易理解，就像是一开始就是用目标语言所写的。保真度被定义为：翻译文本应该尽小可能地对源语言文本进行扭曲、歪曲、或者制造争议。

在 1990 年代，美国先进研究项目机构 (ARPA) 制定新的机器翻译评测标准，包含流利度、忠实度、和理解力 [34]。这些标准被后续机器翻译竞赛所采纳 [154]。流利度反应翻译文本的句法和语法正确性和流畅性，流利度的判断不需要参考原文；忠实度反应对原文的保真性，需要有源语言文本的指导；理解力反应信息度也就是看一个机器翻译系统能否输出给用户充分有效的和必要的信息。最初的流利度和忠实度的设计包含五个不同等级；而对于理解力，则设计了六个不同的问题让专业评判者回答。由于流利度和忠实度的互补性和易用性，机器翻译研究人员对这两个指标进行了不同程度的应用、修改和整合等。比如以 “准确性” 作为整合的标准，[7] 对准确性加以分类，包括简单字符串、生成字符串、和解析树的准确性。[133] 的工作进行了流利度和所需字数的相关性计算来区分人工翻译和机器翻译。语言数据集团 (LDC)2采用五个等级的流利度和忠实度来评估 NIST 的机器翻译比赛。其中对流利度的判断除了语法要求，还包含了对习惯用词（惯用语）的选择。

[144] 则对忠实度进行了四个等级的划分：非常、一般、较差、和完全不忠实。非常 (highly): 翻译文本非常信实的传达原文意思；一般 (fairly): 翻译文本在传达原文意思上一般表现一般，在字序、时态、语气、数字等方面有问题，或者存在重复、添加或遗漏字词；较差 (poorly): 译文没有足够反应到原文意思；完全不忠实 (completely not): 译文没有反应原文的任何意思。

3.2 后续发展

后续和近期发展的人工评测归为以下几类：基于任务 (task)、后编辑 (postediting)、新标准、子集排序 (segment-ranking)、众筹平台 (crowd-sourcing)、和对传统方法的回顾更新。这种分法是为了便捷需要，有的人工评测方法可以涉及多个子类的交叉，比如基于任务和后编辑的两个子类型。

4 自动评测

人工评测一直以来作为评测机器翻译质量的最终标准，但是人工评测也存在很多缺陷，比如耗时、昂贵、不可重复 (抑或不可重用) 性、以及很多情况下出现的人工评价人员之间的不一致性（主观性）。因此自动评测方法成为技术和实践上的双重需求。自动评价的产生伴随着几个不同的类型，包括需要参考译文的和不基于参考译文的情况。在需要参考译文的模型里又包括使用单个参考译文和多项参考译文的类型 [103, 66, 80]。基于参考译文的自动翻译评测模型，多属于计算自动译文输出和参考译文之间的相似度来评价翻译质量。当然，语言相似度的计算是一个很有争议、也很有挑战性的问题，比如句法上、语义上、风格上、写作领域和标准上的不同和变化等。不依赖于参考译文的评价模型大多依赖机器学习的特征模型，从源语言的原句字和目标语言的译文里提取有效特征来估计译文质量、这些特征可以包括词性、句法、语言模型等。与人工评价相比，自动评价的好处包括廉价、快速、可重复性、和可用来调整和优化机器翻译的模型参数等。

在本节，我们将传统的自动翻译评价模型分为基于字符串匹配的（n-gram）和应用语言学特征的两类。在字符串匹配的种类里又包括基于编辑距离、准确度和召回率、以及加强模型的。在语言学特征上我们把基于句法和语义的分两个子类。其中句法特征包括词性、短语、句子结构等，而语义特征包括命名体、组合词、同义词、文本蕴含、释义、语义角色、和语言模型等。我们将基于深度学习和大规模预训练模型的评测方法归为新近模型一类。在这一个领域，最近又发展了优化大数据和大模型花费的蒸馏模型。总览见图3。当然这些分发是为了介绍和理解的方便，部分自动评测模型也会涉及到多个子类里面、各个子类也有时候会交叉，比如我们自己开发的 LEPOR、hLEPOR、和 nLEPOR 方法 [71, 74]，将会在下文提到。

5 元评测 (评测的评测)

在元评测这一节，我们介绍针对评测方法的评测。这包括统计学重要性（也叫显著性差异, statistical significance），评价一致性 (agreement level)，和评测结果的相关系性数，以及对不同评测指标（metric）的相互比较等。

6 未来展望及研究方向

首先，组合词以及组合词表达 (multiword-expressions, MWEs) 的识别是自然语言处理的一个重要任务，组合词表达包含很多不同类别的词语组合并且涵盖比喻、言语、成语等成分，在机器翻译、自然语言处理 (NLP) 和评测任务扮演着非常重要的角色 [135, 110, 121, 132, 77]。这反映在历年的国际 MWE 研讨会和近几年该研讨会组织的 MWE 识别任务 [112, 111, 137]。因此，在此方面与机器翻译领域的两个未来研究方向包括：1）组合词表达的识别模型和翻译模型的结合；2）组合词表达在机器翻译评测里的应用。

针对 1），目前在深度学习领域已有对 MWE 的可解析性 (decompositionality) 和可侦测性 (identification) 的前沿进展，比如 [64] 用神经网络对名词构成词的语义结构研究，如何建立综合的神经网络模型 (hybrid neural networks) 将 MWE 构词和解析研究与神经机器翻译两个目前分开的神经学习模型结合起来，是一个非常可行的研究课题 (讨论见 [78])，并且这种结合的模型训练将有助于系统的总体优化，比如使用机器学习里现有的先进的神经网络高等参数优化框架模型 (hyper-parameter optimisation framework, Optuna)[1]。

针对 2），如何改进目前的广泛使用又饱受批评的流行评测方法（如 BLEU），设计新的评测模型，将语义评测合理囊括进评测系统里，这是一个很有挑战性的课题。而由于众多 MWE 子类对语义的涉及（比如言语、成语、习语），其在翻译评测过程扮演了一个很重要的角色。这既可以是障碍（如歧义）、也可以是助手。因此如何积极利用这一角色，发挥其优势是一个非常可行的研究方向，这包含相应的多语种对齐语料建设、人工标注、神经网络建模、和模型测试。

其次，篇章级别（context-aware）的机器翻译评测是未来发展趋势之一。目前的评测方法，大都关注于句子级别的内容。 但是，从语言学角度观察，一个句子所在的环境（篇章背景）对本句子的理解起到至关重要的作用，尤其是含有指代词、和歧义词的情况，如何更精确的去翻译和评价翻译的好坏，需要对句子背后的信息有足够的认知掌握 [77]。这个研究方向在深度学习模型、以及相应的神经语言模型出现后变得非常可行。比如，目前成熟的深度学习模型可以不止对句子级别进行词到向量的转化，并且还可以对跨句子和篇章级别的内容进行向量转化 (sentences/paragraphs to vectors), 这样，对文本和背景知识的学习可以嵌入到评测系统里，作为模型学习的特征。

再次，基于具体任务 (task-oriented) 的翻译评测在机器翻译的大流行下变得越来越紧迫需要 [54]，比如旅馆预定的机器翻译，由于该领域句子偏短并且多附有表格填写，会更侧重于命名实体的翻译准确性如地名、机构名、人名（尤其外语人名的翻译）等；再比如目前刚开始流行的多模态机器翻译(multi-modal MT) 包括多模态图片标题生成和翻译（image captioning MT）任务，这样的情况下对多模态 (image+text) 资源的利用变得非常必要。最后，无参考译文的机器翻译质量估计（QE）是研究的一个重点 [145, 67]。由于在某些情境下参考译文的缺失，比如地震灾害等情况下需要对当地语言进行多语种翻译以提高营救效果，无参考译文的质量估计模型更加的适用于现实的需求。这在 WMT 的历史机器翻译任务里有出现过。在其他情况，当参考译文的获得非常昂贵或者不实际时，没有参考译文的翻译质量信心估计也是一个挑战性的问题，比如现有的在线翻译平台软件，很少有在提供用户自动翻译译文的同时提供翻译质量估计水平 (confidence estimation)。在未来机器翻译和评测的发展中，如何将翻译和质量估计同时提供给使用者是一个难题。这涉及到翻译模型和质量估计模型的同步学习训练。

7 结语

此文主在介绍机器翻译评测的发展，内容覆盖人工评价模型、自动评价模型、元评测（评价模型的评价）、以及对此方向的未来发展研究展望。在人工评价和自动评价模型分块分别简要介绍了历史性的方法和前沿的进展，这包含人工评价里对 crowd-source 的应用以及自动评价里对当前的深度学习和预训练模型的运用。在元评测部分我们探讨了统计学中显著性差异、可信度等在评价里的应用、以及不同的相关性系数比较。由于机器翻译属于自然语言处理（NLP）的一个大的分支，涉及到自然语言理解 (NLU) 和自然语言生成 (NLG) 的其他不同子分支，我们希望这份综合性评测报告也会有利于其他 NLP 相关研究领域的推进、尤其在评测和质量估计建模方面，比如这包括摘要生成 (summarization) 的评测、图像标题生成 (image captioning) 的评测、释义 (paraphrase) 和蕴含 (entailment) 的评测、信息提取 (information extraction) 的评测、代码生成 (code generation) 的评测等。

专知便捷查看