In this paper, we describe our end-to-end multilingual speech translation system submitted to the IWSLT 2021 evaluation campaign on the Multilingual Speech Translation shared task. Our system is built by leveraging transfer learning across modalities, tasks and languages. First, we leverage general-purpose multilingual modules pretrained with large amounts of unlabelled and labelled data. We further enable knowledge transfer from the text task to the speech task by training two tasks jointly. Finally, our multilingual model is finetuned on speech translation task-specific data to achieve the best translation results. Experimental results show our system outperforms the reported systems, including both end-to-end and cascaded based approaches, by a large margin. In some translation directions, our speech translation results evaluated on the public Multilingual TEDx test set are even comparable with the ones from a strong text-to-text translation system, which uses the oracle speech transcripts as input.


翻译:在本文中,我们描述了我们提交给IWSLT 2021年多语种语言翻译共同任务评价运动的端到端多语种语言翻译系统。我们的系统是通过利用不同模式、任务和语言的转移学习而建立的。首先,我们利用通用多语种模块,这些模块经过大量未加标签和贴标签的数据的预先培训。我们通过联合培训两项任务,进一步从文本任务向演讲任务转移知识。最后,我们的多语种模式对语言翻译任务特定数据进行了微调,以取得最佳翻译结果。实验结果显示我们的系统大大超过了所报告的系统,包括端到端和级联方法。在某些翻译方向上,在公开的多语种TEDx测试组上评价的语音翻译结果甚至与强健的文本到文本翻译系统所评估的结果相仿,后者使用口头语音记录作为投入。

0
下载
关闭预览

相关内容

通过计算机进行不同语言之间的直接语音翻译,辅助不同语言背景的人们进行沟通已经成为世界各国研究的重点。 和一般的文本翻译不同,语音翻译需要把语音识别、机器翻译和语音合成三大技术进行集成,具有很大的挑战性。
【DeepMind】多模态预训练模型概述,37页ppt
专知会员服务
93+阅读 · 2021年7月2日
专知会员服务
26+阅读 · 2020年9月9日
【IJCAI2020南大】上下文在神经机器翻译中的充分利用
专知会员服务
15+阅读 · 2020年8月17日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
77+阅读 · 2020年7月26日
因果图,Causal Graphs,52页ppt
专知会员服务
246+阅读 · 2020年4月19日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Facebook PyText 在 Github 上开源了
AINLP
7+阅读 · 2018年12月14日
VIP会员
Top
微信扫码咨询专知VIP会员