LH: PhD candidate (博士研究生,都柏林城市大学,爱尔兰)
自从 1950 年代开始,机器翻译成为人工智能研究发展的重要任务之一,经历了几个不同时期和阶段性发展,包括基于规则的方法、统计的方法、和最近提出的基于神经网络的学习方法。伴随这几个阶段性飞跃的是机器翻译的评测研究与发展,尤其是评测方法在统计翻译和神经翻译研究上所扮演的重要角色。机器翻译的评测任务不仅仅在于评价机器翻译质量,还在于及时的反馈给机器翻译研究人员机器翻译本身存在的问题,如何去改进以及如何去优化。在一些实际的应用领域,比如在没有参考译文的情况下,机器翻译的质量估计更是起到重要的指示作用来揭示自动翻译目标译文的可信度。这份报告主要包括一下内容:机器翻译评测的简史、研究方法分类、以及前沿的进展,这其中包括人工评测、自动评测、和评测方法的评测(元评测)。人工评测和自动评测包含基于参考译文的和不需参考译文参与的;自动评测方法包括传统字符串匹配、应用句法和语义的模型、以及深度学习模型;评测方法的评测包含估计人工评测的可信度、自动评测的可信度、和测试集的可信度等。前沿的评测方法进展包括基于任务的评测、基于大数据预训练的模型、以及应用蒸馏技术的轻便优化模型。