机器音译研究综述

机器音译是基于语音相似性自动将文本从一种语言转换为另一种语言的过程，它是机器翻译的一个子任务，侧重于语音信息的翻译。音译后可知道源单词在另一种语言中的发音，使不熟悉源语言的人更容易理解该语言，有益于消除语言和拼写障碍。机器音译在多语言文本处理、语料库对齐、信息抽取等自然语言应用中发挥着重要作用。本文阐述了目前机器音译任务中存在的挑战，对主要的音译方法进行了剖析、分类和整理，对音译数据集进行了罗列汇总，并列出了常用的音译效果评价指标，最后对该领域目前存在的问题进行了说明并对音译学的未来进行了展望。本文以期对进入该领域的新人提供快速的入门指南，或供其他研究者参考。

引言

机器音译是指利用计算机将源语言中的给定名称(源书写系统或拼写体系中的文本字符串)自动转换为目标语言中的名称(目标书写系统或拼写体系中的另一文本字符串)(Wei, 2004)。关于目标语言中名称表示的具体要求如下：它符合目标语言的音系，在语音上等同于源名称，并且与源语言名称的对等上符合用户的直觉。例如炒面在伦敦的中餐馆菜单里常被写作Chow Mein。机器翻译、数据挖掘以及跨语言信息检索和抽取等系统的性能极大依赖于命名实体(人名、地名、机构名、专有名词等)的音译准确性，尤其在涉及到人名、专有名称、技术术语时。因此，研究机器音译有重要的意义。

机器音译按照源语言(音译输入语言)与起源语言(来源于何种语言)是否一致可分为正向音译与反向音译(Mammadzada, 2021)。将单词从其起源语言音译为外语称之为正向音译。例如将张三(汉语)音译为Zhang San(英语)。而将用本语言拼写的外语词音译回起源语言称之为反向音译。例如将Zhang San(英语)音译回张三(汉语)。反向音译相比于正向音译来说更加困难。这是因为反向音译需要消除在正向音译中引入的噪声，正向音译的过程中往往会过滤掉不发音的音节，例如De Sciglio(意大利语)音译为德西利奥(汉语)，其中的字母g不发音。此外反向音译往往不允许有音译变体，它应该尽可能的接近原词也是反向音译更困难的一个重要的原因。比如说雷欧、李傲(汉语)音译为英语只有一个正确结果Leo。

音译与翻译和转写/转录都有所不同(Zepedda, 2020)。翻译在于使用不同语言传达语句的原始意义，其并不知道单词在原始语言中的发音。翻译与音译相反，它更注重单词的意义而不是发音。而转写是将一种字母表中的字符转换为另一种字母表中字符的过程0。转写字符之间是一一对应转换的，即被转换字母表中的每一个字符只能转换为另一个字母表中的一个字符，才能保证两个字母表能够完全的、无歧义的转换(冯志伟, 2012)。例如阿拉伯语单词I. J»，其英语翻译为book，英语音译结果为kataba，而拉丁转写结果为ktb。由于不同语言之间的较大差异性，音译任务存在着诸多困难与挑战。一是源语言与目标语言使用的是不同的字母体系。例如拉丁/罗马字母源于希腊字母，它作为罗马文明的成果之一，随着征服推广到西欧地区。西里尔/斯拉夫字母是通行于斯拉夫语族部分民族中的字母书写系统。而阿拉伯/天方字母则在伊斯兰教兴盛的地区使用。音译处理的过程中需要了解不同字母体系中的字符编码。此外字母体系的书写方向也是必须要考虑的一点。例如阿拉伯字母、希伯来字母、波斯字母、乌尔都字母遵循从右到左的书写原则，而罗马字母、西里尔字母、婆罗米字母遵循从左到右的书写原则(Prabhakar and Pal, 2018)。二是音译变体的存在。由于音译是一个基于个人认知的创造性过程，导致不同的专业音译者也有不同的观点。此外，同一种语言存在的不同方言也会导致音译变体的存在。而在音译语料的搜集过程中很难捕获到所有的变体。这种情况会让音译的质量评估变得很困难，因此很难建立起让所有人都信服的音译评估标准。三是不同字母体系中涵盖音的范围不同，会导致发音缺失的问题。这与春秋时期创立的音阶——宫商角徵羽只能对应于现代音阶的do、re、mi、sol、la相类似(Jacques, 2017)。这将导致目标字母体系中缺少某些发音就必须使用多个字母来近似表示其发音，甚至会出现字母组合后仍无法找到类似发音的情况。因此需要让音译模型学习如何“创造”出缺失的相似发音，以保持发音的完整。四是很难让音译模型学会“察言观色”。音译通常是对命名实体进行的。但如何让系统判断不同词采用音译还是翻译，需要模型通过从大量的训练语料或上下文中意识到这一点。例如Kunlun Mountains(英语)，第一个单词应该音译为昆仑(汉语)，而第二个单词应该翻译为山(汉语)。这对于传统的音译方法来说有着巨大的挑战，而基于深度学习的音译方法通过大量语料的学习和在注意力机制的帮助下相对来说能较容易的学习到这一点。本文的组织方式如下。第二节描述了音译涉及到的主要语言。第三节综合阐述了具有代表性的音译方法，并对它们进行了分类整理。第四节罗列了音译的相关语料库资源。第五节介绍了音译质量/性能评估中常使用的指标。第六节对整个音译学的未来进行了展望，讨论了未来的工作方向。第七节对全文进行了总结。

成为VIP会员查看完整内容