稀缺资源语言神经网络机器翻译研究综述

2020 年 12 月 3 日 专知

摘要: 作为目前主流翻译方法的神经网络机器翻译已经取得了很大突破, 在很多具有丰富数据资源的语言上的翻译质量也不断得到改善, 但对于稀缺资源语言的翻译效果却仍然并不理想. 稀缺资源语言机器翻译是目前机器翻译领域的重要研究热点之一, 近几年来吸引了国内外的广泛关注. 本文对稀缺资源语言机器翻译的研究进行比较全面的回顾, 首先简要介绍了与稀缺资源语言翻译相关的学术活动和数据集, 然后重点梳理了目前主要的研究方法和一些研究结论, 总结了每类方法的特点, 在此基础上总结了不同方法之间的关系并分析了目前的研究现状. 最后, 对稀缺资源语言机器翻译未来可能的研究趋势和发展方向进行了展望,并给出了相关建议.


神经网络机器翻译(Neural Machine Translation, NMT)于2013年正式出现[1]. 在短短几年的时间里, 从最初的RNN encoder-decoder结构[2], 到基于注意力机制的RNN search模型[3]及其各种变体, 再到目前最流行的Transformer架构[4]以及随后多样的预训练模型, NMT以其独特的优势迅速成为主流的翻译方法, 翻译技术取得了巨大突破, 翻译质量也不断得到改善和提高.

NMT的成功与算力资源、算法模型和数据资源密不可分, 尤其依赖于海量的双语数据资源. 而获取高质量的双语资源往往需要很多高昂的代价, 另一方面, 世界上目前现存的很多语言在双语数据资源方面却十分匮乏甚至缺失. 在机器翻译领域的研究中, 这些语言一般称为“稀缺资源语言”, 也称为“低资源语言”(low-resource languages). 本文接下来会交替使用这两种术语.

在数据因素的制约下, NMT在低资源语言中的翻译效果仍然并不理想. 而低资源语言机器翻译一直具有很多实际的需求和应用场景, 因此引起了国内外学术界和业界的广泛关注, 已经成为当前机器翻译领域的重要研究热点之一, 也出现了很多值得关注的研究成果.

Google、Facebook、CMU和爱丁堡大学等在低资源语言机器翻译上做了很多研究. 国内机器翻译领域也非常重视这方面的研究. 中科院自动化所、清华大学、苏州大学、东北大学、昆明理工大学、北京理工大学等多个科研团队在承担低资源语言机器翻译国家级科研项目、自主研发实用翻译系统等方面都积极推动深入的技术交流与合作, 同时在全国机器翻译大会等多种学术活动都有广泛、密切的研讨,推动了这个方向的研究进展[5-8].

随着国内外研究的发展和深入, 我们认为很有必要对目前稀缺资源语言机器翻译的研究进展进行比较全面的回顾. 本文期望能够为机器翻译和相关领域的研究者提供有益的参考, 帮助他们更好地深入了解低资源语言机器翻译的研究动态和选择未来的研究方向.

本综述的剩余部分组织如下: 第1节介绍了与低资源语言机器翻译相关的学术活动和公开的数据资源; 第2节详细梳理归纳了目前比较重要和常用的低资源翻译方法和技术, 并总结了它们各自的特点; 第3节总结了这些方法之间的关系, 第4节分析了当前研究现状的主要特点; 最后对未来的研究趋势和发展方向提出了展望和建议.



http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200103


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“LRNMT” 就可以获取稀缺资源语言神经网络机器翻译研究综述》专知下载链接

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
5

相关内容

机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
注意力机制综述
专知会员服务
203+阅读 · 2021年1月26日
专知会员服务
119+阅读 · 2020年12月9日
多模态视觉语言表征学习研究综述
专知会员服务
191+阅读 · 2020年12月3日
专知会员服务
27+阅读 · 2020年9月9日
实体关系抽取方法研究综述
专知会员服务
176+阅读 · 2020年7月19日
【北航】面向自然语言处理的预训练技术研究综述
专知会员服务
112+阅读 · 2020年4月23日
机器翻译深度学习最新综述
专知会员服务
98+阅读 · 2020年2月20日
深度学习自然语言处理综述,266篇参考文献
专知会员服务
229+阅读 · 2019年10月12日
知识图谱最新研究综述
深度学习自然语言处理
45+阅读 · 2020年6月14日
NLP领域预训练模型的现状及分析
AI科技评论
5+阅读 · 2019年11月1日
SFFAI 37 报名通知 | 机器翻译专场之同步双向与多语言机器翻译
人工智能前沿讲习班
3+阅读 · 2019年6月25日
自然语言处理中注意力机制综述
Python开发者
11+阅读 · 2019年1月31日
AI综述专栏|多模态学习研究进展综述
人工智能前沿讲习班
64+阅读 · 2018年7月13日
机器翻译的技术进化史——机器翻译专题(一)
线性资本
8+阅读 · 2018年1月16日
用于神经网络机器翻译的全并行文本生成
深度神经网络机器翻译
机器学习研究会
5+阅读 · 2017年10月16日
Area Attention
Arxiv
5+阅读 · 2019年2月5日
Arxiv
3+阅读 · 2018年11月13日
Arxiv
3+阅读 · 2018年10月25日
Phrase-Based & Neural Unsupervised Machine Translation
VIP会员
相关VIP内容
注意力机制综述
专知会员服务
203+阅读 · 2021年1月26日
专知会员服务
119+阅读 · 2020年12月9日
多模态视觉语言表征学习研究综述
专知会员服务
191+阅读 · 2020年12月3日
专知会员服务
27+阅读 · 2020年9月9日
实体关系抽取方法研究综述
专知会员服务
176+阅读 · 2020年7月19日
【北航】面向自然语言处理的预训练技术研究综述
专知会员服务
112+阅读 · 2020年4月23日
机器翻译深度学习最新综述
专知会员服务
98+阅读 · 2020年2月20日
深度学习自然语言处理综述,266篇参考文献
专知会员服务
229+阅读 · 2019年10月12日
相关资讯
知识图谱最新研究综述
深度学习自然语言处理
45+阅读 · 2020年6月14日
NLP领域预训练模型的现状及分析
AI科技评论
5+阅读 · 2019年11月1日
SFFAI 37 报名通知 | 机器翻译专场之同步双向与多语言机器翻译
人工智能前沿讲习班
3+阅读 · 2019年6月25日
自然语言处理中注意力机制综述
Python开发者
11+阅读 · 2019年1月31日
AI综述专栏|多模态学习研究进展综述
人工智能前沿讲习班
64+阅读 · 2018年7月13日
机器翻译的技术进化史——机器翻译专题(一)
线性资本
8+阅读 · 2018年1月16日
用于神经网络机器翻译的全并行文本生成
深度神经网络机器翻译
机器学习研究会
5+阅读 · 2017年10月16日
Top
微信扫码咨询专知VIP会员