机器音译是基于语音相似性自动将文本从一种语言转换为另一种语言的过程,它是机 器翻译的一个子任务,侧重于语音信息的翻译。音译后可知道源单词在另一种语言中 的发音,使不熟悉源语言的人更容易理解该语言,有益于消除语言和拼写障碍。机器 音译在多语言文本处理、语料库对齐、信息抽取等自然语言应用中发挥着重要作用。本文阐述了目前机器音译任务中存在的挑战,对主要的音译方法进行了剖析、分类和 整理,对音译数据集进行了罗列汇总,并列出了常用的音译效果评价指标,最后对该 领域目前存在的问题进行了说明并对音译学的未来进行了展望。本文以期对进入该领 域的新人提供快速的入门指南,或供其他研究者参考。

引言

机器音译是指利用计算机将源语言中的给定名称(源书写系统或拼写体系中的文本字符 串)自动转换为目标语言中的名称(目标书写系统或拼写体系中的另一文本字符串)(Wei, 2004)。 关于目标语言中名称表示的具体要求如下:它符合目标语言的音系,在语音上等同于源名称, 并且与源语言名称的对等上符合用户的直觉。例如炒面在伦敦的中餐馆菜单里常被写作Chow Mein。机器翻译、数据挖掘以及跨语言信息检索和抽取等系统的性能极大依赖于命名实体(人 名、地名、机构名、专有名词等)的音译准确性,尤其在涉及到人名、专有名称、技术术语时。 因此,研究机器音译有重要的意义。

机器音译按照源语言(音译输入语言)与起源语言(来源于何种语言)是否一致可分为正向音 译与反向音译(Mammadzada, 2021)。将单词从其起源语言音译为外语称之为正向音译。例如将 张三(汉语)音译为Zhang San(英语)。而将用本语言拼写的外语词音译回起源语言称之为反向音 译。例如将Zhang San(英语)音译回张三(汉语)。反向音译相比于正向音译来说更加困难。这是 因为反向音译需要消除在正向音译中引入的噪声,正向音译的过程中往往会过滤掉不发音的音 节,例如De Sciglio(意大利语)音译为德西利奥(汉语),其中的字母g不发音。此外反向音译往往 不允许有音译变体,它应该尽可能的接近原词也是反向音译更困难的一个重要的原因。比如说 雷欧、李傲(汉语)音译为英语只有一个正确结果Leo。

音译与翻译和转写/转录都有所不同(Zepedda, 2020)。翻译在于使用不同语言传达语句的原 始意义,其并不知道单词在原始语言中的发音。翻译与音译相反,它更注重单词的意义而不是 发音。而转写是将一种字母表中的字符转换为另一种字母表中字符的过程0。转写字符之间是一 一对应转换的,即被转换字母表中的每一个字符只能转换为另一个字母表中的一个字符,才能 保证两个字母表能够完全的、无歧义的转换(冯志伟, 2012)。例如阿拉伯语单词I. J»,其英语翻 译为book,英语音译结果为kataba,而拉丁转写结果为ktb。由于不同语言之间的较大差异性,音译任务存在着诸多困难与挑战。 一是源语言与目标语言使用的是不同的字母体系。例如拉丁/罗马字母源于希腊字母,它作 为罗马文明的成果之一,随着征服推广到西欧地区。西里尔/斯拉夫字母是通行于斯拉夫语族部 分民族中的字母书写系统。而阿拉伯/天方字母则在伊斯兰教兴盛的地区使用。音译处理的过程 中需要了解不同字母体系中的字符编码。此外字母体系的书写方向也是必须要考虑的一点。例 如阿拉伯字母、希伯来字母、波斯字母、乌尔都字母遵循从右到左的书写原则,而罗马字母、 西里尔字母、婆罗米字母遵循从左到右的书写原则(Prabhakar and Pal, 2018)。 二是音译变体的存在。由于音译是一个基于个人认知的创造性过程,导致不同的专业音译 者也有不同的观点。此外,同一种语言存在的不同方言也会导致音译变体的存在。而在音译语 料的搜集过程中很难捕获到所有的变体。这种情况会让音译的质量评估变得很困难,因此很难 建立起让所有人都信服的音译评估标准。 三是不同字母体系中涵盖音的范围不同,会导致发音缺失的问题。这与春秋时期创立的音 阶——宫商角徵羽只能对应于现代音阶的do、re、mi、sol、la相类似(Jacques, 2017)。这将导 致目标字母体系中缺少某些发音就必须使用多个字母来近似表示其发音,甚至会出现字母组合 后仍无法找到类似发音的情况。因此需要让音译模型学习如何“创造”出缺失的相似发音,以保 持发音的完整。 四是很难让音译模型学会“察言观色”。音译通常是对命名实体进行的。但如何让系统判 断不同词采用音译还是翻译,需要模型通过从大量的训练语料或上下文中意识到这一点。 例如Kunlun Mountains(英语),第一个单词应该音译为昆仑(汉语),而第二个单词应该翻译为 山(汉语)。这对于传统的音译方法来说有着巨大的挑战,而基于深度学习的音译方法通过大量 语料的学习和在注意力机制的帮助下相对来说能较容易的学习到这一点。 本文的组织方式如下。第二节描述了音译涉及到的主要语言。第三节综合阐述了具有代表 性的音译方法,并对它们进行了分类整理。第四节罗列了音译的相关语料库资源。第五节介绍 了音译质量/性能评估中常使用的指标。第六节对整个音译学的未来进行了展望,讨论了未来的 工作方向。第七节对全文进行了总结。

成为VIP会员查看完整内容
16

相关内容

「视频片段检索」最新2022研究综述
专知会员服务
31+阅读 · 2022年8月7日
文本风格迁移研究综述
专知会员服务
33+阅读 · 2022年1月1日
【NUS】深度长尾学习综述,20页pdf172篇文献
专知会员服务
58+阅读 · 2021年10月14日
专知会员服务
30+阅读 · 2021年9月27日
专知会员服务
69+阅读 · 2021年5月21日
专知会员服务
25+阅读 · 2020年9月9日
【神经语言生成:形式化,方法与评价,70页pdf】
专知会员服务
35+阅读 · 2020年8月8日
【清华大学】低资源语言:回顾综述和未来的挑战,14页pdf
多模态深度学习综述,18页pdf
专知会员服务
210+阅读 · 2020年3月29日
 图像内容自动描述技术综述
专知会员服务
84+阅读 · 2019年11月17日
「视频片段检索」最新2022研究综述
专知
4+阅读 · 2022年8月7日
「深度学习注意力机制 」TKDE 2022研究综述
新智元
5+阅读 · 2022年4月8日
赛尔笔记|基于深度学习方法的对话状态跟踪综述
哈工大SCIR
2+阅读 · 2021年6月29日
多模态深度学习综述,18页pdf
专知
45+阅读 · 2020年3月29日
命名实体识别(NER)综述
AI研习社
65+阅读 · 2019年1月30日
自然语言处理中注意力机制综述
AINLP
27+阅读 · 2019年1月21日
综述 | 知识图谱发展概述
PaperWeekly
75+阅读 · 2017年11月3日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
5+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年11月16日
Arxiv
13+阅读 · 2022年1月20日
Arxiv
56+阅读 · 2021年5月3日
Arxiv
29+阅读 · 2020年3月16日
A Comprehensive Survey on Transfer Learning
Arxiv
117+阅读 · 2019年11月7日
VIP会员
相关VIP内容
「视频片段检索」最新2022研究综述
专知会员服务
31+阅读 · 2022年8月7日
文本风格迁移研究综述
专知会员服务
33+阅读 · 2022年1月1日
【NUS】深度长尾学习综述,20页pdf172篇文献
专知会员服务
58+阅读 · 2021年10月14日
专知会员服务
30+阅读 · 2021年9月27日
专知会员服务
69+阅读 · 2021年5月21日
专知会员服务
25+阅读 · 2020年9月9日
【神经语言生成:形式化,方法与评价,70页pdf】
专知会员服务
35+阅读 · 2020年8月8日
【清华大学】低资源语言:回顾综述和未来的挑战,14页pdf
多模态深度学习综述,18页pdf
专知会员服务
210+阅读 · 2020年3月29日
 图像内容自动描述技术综述
专知会员服务
84+阅读 · 2019年11月17日
相关资讯
「视频片段检索」最新2022研究综述
专知
4+阅读 · 2022年8月7日
「深度学习注意力机制 」TKDE 2022研究综述
新智元
5+阅读 · 2022年4月8日
赛尔笔记|基于深度学习方法的对话状态跟踪综述
哈工大SCIR
2+阅读 · 2021年6月29日
多模态深度学习综述,18页pdf
专知
45+阅读 · 2020年3月29日
命名实体识别(NER)综述
AI研习社
65+阅读 · 2019年1月30日
自然语言处理中注意力机制综述
AINLP
27+阅读 · 2019年1月21日
综述 | 知识图谱发展概述
PaperWeekly
75+阅读 · 2017年11月3日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
5+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员