机器音译研究综述

2022 年 10 月 16 日 专知


机器音译是基于语音相似性自动将文本从一种语言转换为另一种语言的过程,它是机 器翻译的一个子任务,侧重于语音信息的翻译。音译后可知道源单词在另一种语言中 的发音,使不熟悉源语言的人更容易理解该语言,有益于消除语言和拼写障碍。机器 音译在多语言文本处理、语料库对齐、信息抽取等自然语言应用中发挥着重要作用。本文阐述了目前机器音译任务中存在的挑战,对主要的音译方法进行了剖析、分类和 整理,对音译数据集进行了罗列汇总,并列出了常用的音译效果评价指标,最后对该 领域目前存在的问题进行了说明并对音译学的未来进行了展望。本文以期对进入该领 域的新人提供快速的入门指南,或供其他研究者参考。
引言
机器音译是指利用计算机将源语言中的给定名称(源书写系统或拼写体系中的文本字符 串)自动转换为目标语言中的名称(目标书写系统或拼写体系中的另一文本字符串)(Wei, 2004)。 关于目标语言中名称表示的具体要求如下:它符合目标语言的音系,在语音上等同于源名称, 并且与源语言名称的对等上符合用户的直觉。例如炒面在伦敦的中餐馆菜单里常被写作Chow Mein。机器翻译、数据挖掘以及跨语言信息检索和抽取等系统的性能极大依赖于命名实体(人 名、地名、机构名、专有名词等)的音译准确性,尤其在涉及到人名、专有名称、技术术语时。 因此,研究机器音译有重要的意义。 
机器音译按照源语言(音译输入语言)与起源语言(来源于何种语言)是否一致可分为正向音 译与反向音译(Mammadzada, 2021)。将单词从其起源语言音译为外语称之为正向音译。例如将 张三(汉语)音译为Zhang San(英语)。而将用本语言拼写的外语词音译回起源语言称之为反向音 译。例如将Zhang San(英语)音译回张三(汉语)。反向音译相比于正向音译来说更加困难。这是 因为反向音译需要消除在正向音译中引入的噪声,正向音译的过程中往往会过滤掉不发音的音 节,例如De Sciglio(意大利语)音译为德西利奥(汉语),其中的字母g不发音。此外反向音译往往 不允许有音译变体,它应该尽可能的接近原词也是反向音译更困难的一个重要的原因。比如说 雷欧、李傲(汉语)音译为英语只有一个正确结果Leo。 
音译与翻译和转写/转录都有所不同(Zepedda, 2020)。翻译在于使用不同语言传达语句的原 始意义,其并不知道单词在原始语言中的发音。翻译与音译相反,它更注重单词的意义而不是 发音。而转写是将一种字母表中的字符转换为另一种字母表中字符的过程0。转写字符之间是一 一对应转换的,即被转换字母表中的每一个字符只能转换为另一个字母表中的一个字符,才能 保证两个字母表能够完全的、无歧义的转换(冯志伟, 2012)。例如阿拉伯语单词I. J»,其英语翻 译为book,英语音译结果为kataba,而拉丁转写结果为ktb。
由于不同语言之间的较大差异性,音译任务存在着诸多困难与挑战。 
一是源语言与目标语言使用的是不同的字母体系。例如拉丁/罗马字母源于希腊字母,它作 为罗马文明的成果之一,随着征服推广到西欧地区。西里尔/斯拉夫字母是通行于斯拉夫语族部 分民族中的字母书写系统。而阿拉伯/天方字母则在伊斯兰教兴盛的地区使用。音译处理的过程 中需要了解不同字母体系中的字符编码。此外字母体系的书写方向也是必须要考虑的一点。例 如阿拉伯字母、希伯来字母、波斯字母、乌尔都字母遵循从右到左的书写原则,而罗马字母、 西里尔字母、婆罗米字母遵循从左到右的书写原则(Prabhakar and Pal, 2018)。 
二是音译变体的存在。由于音译是一个基于个人认知的创造性过程,导致不同的专业音译 者也有不同的观点。此外,同一种语言存在的不同方言也会导致音译变体的存在。而在音译语 料的搜集过程中很难捕获到所有的变体。这种情况会让音译的质量评估变得很困难,因此很难 建立起让所有人都信服的音译评估标准。 
三是不同字母体系中涵盖音的范围不同,会导致发音缺失的问题。这与春秋时期创立的音 阶——宫商角徵羽只能对应于现代音阶的do、re、mi、sol、la相类似(Jacques, 2017)。这将导 致目标字母体系中缺少某些发音就必须使用多个字母来近似表示其发音,甚至会出现字母组合 后仍无法找到类似发音的情况。因此需要让音译模型学习如何“创造”出缺失的相似发音,以保 持发音的完整。 
四是很难让音译模型学会“察言观色”。音译通常是对命名实体进行的。但如何让系统判 断不同词采用音译还是翻译,需要模型通过从大量的训练语料或上下文中意识到这一点。 例如Kunlun Mountains(英语),第一个单词应该音译为昆仑(汉语),而第二个单词应该翻译为 山(汉语)。这对于传统的音译方法来说有着巨大的挑战,而基于深度学习的音译方法通过大量 语料的学习和在注意力机制的帮助下相对来说能较容易的学习到这一点。 本文的组织方式如下。
第二节描述了音译涉及到的主要语言。第三节综合阐述了具有代表 性的音译方法,并对它们进行了分类整理。第四节罗列了音译的相关语料库资源。第五节介绍 了音译质量/性能评估中常使用的指标。第六节对整个音译学的未来进行了展望,讨论了未来的 工作方向。第七节对全文进行了总结。

专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“MSTC” 就可以获取机器音译研究综述》专知下载链接

                       
专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取100000+AI(AI与军事、医药、公安等)主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取100000+AI主题知识资料

登录查看更多
0

相关内容

「基于深度学习的 SQL 生成」2022研究综述
专知会员服务
27+阅读 · 2022年8月12日
联邦学习攻防研究综述
专知会员服务
56+阅读 · 2022年7月15日
亚马逊最新《联邦学习》简明综述
专知会员服务
84+阅读 · 2022年2月6日
专知会员服务
35+阅读 · 2021年6月16日
专知会员服务
18+阅读 · 2021年6月10日
专知会员服务
69+阅读 · 2021年5月21日
专知会员服务
51+阅读 · 2021年3月28日
专知会员服务
45+阅读 · 2021年3月19日
专知会员服务
26+阅读 · 2020年9月9日
【中国人民大学】机器学习的隐私保护研究综述
专知会员服务
131+阅读 · 2020年3月25日
「深度学习事件抽取」最新2022研究综述
专知
5+阅读 · 2022年6月2日
视频隐私保护技术综述
专知
3+阅读 · 2022年1月19日
最新《多任务学习》综述,39页pdf
专知
28+阅读 · 2020年7月10日
命名实体识别(NER)综述
AI研习社
65+阅读 · 2019年1月30日
深度学习综述(下载PDF版)
机器学习算法与Python学习
27+阅读 · 2018年7月3日
综述 | 知识图谱发展概述
PaperWeekly
75+阅读 · 2017年11月3日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
A Survey on Edge Intelligence
Arxiv
50+阅读 · 2020年3月26日
A Comprehensive Survey on Transfer Learning
Arxiv
121+阅读 · 2019年11月7日
Few-shot Learning: A Survey
Arxiv
362+阅读 · 2019年4月10日
Arxiv
25+阅读 · 2018年1月24日
VIP会员
相关VIP内容
「基于深度学习的 SQL 生成」2022研究综述
专知会员服务
27+阅读 · 2022年8月12日
联邦学习攻防研究综述
专知会员服务
56+阅读 · 2022年7月15日
亚马逊最新《联邦学习》简明综述
专知会员服务
84+阅读 · 2022年2月6日
专知会员服务
35+阅读 · 2021年6月16日
专知会员服务
18+阅读 · 2021年6月10日
专知会员服务
69+阅读 · 2021年5月21日
专知会员服务
51+阅读 · 2021年3月28日
专知会员服务
45+阅读 · 2021年3月19日
专知会员服务
26+阅读 · 2020年9月9日
【中国人民大学】机器学习的隐私保护研究综述
专知会员服务
131+阅读 · 2020年3月25日
相关资讯
「深度学习事件抽取」最新2022研究综述
专知
5+阅读 · 2022年6月2日
视频隐私保护技术综述
专知
3+阅读 · 2022年1月19日
最新《多任务学习》综述,39页pdf
专知
28+阅读 · 2020年7月10日
命名实体识别(NER)综述
AI研习社
65+阅读 · 2019年1月30日
深度学习综述(下载PDF版)
机器学习算法与Python学习
27+阅读 · 2018年7月3日
综述 | 知识图谱发展概述
PaperWeekly
75+阅读 · 2017年11月3日
相关基金
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员