SpokenVocab制作语音翻译合成演讲 (Generating Synthetic Speech from SpokenVocab for Speech Translation)

Training end-to-end speech translation (ST) systems requires sufficiently large-scale data, which is unavailable for most language pairs and domains. One practical solution to the data scarcity issue is to convert machine translation data (MT) to ST data via text-to-speech (TTS) systems. Yet, using TTS systems can be tedious and slow, as the conversion needs to be done for each MT dataset. In this work, we propose a simple, scalable and effective data augmentation technique, i.e., SpokenVocab, to convert MT data to ST data on-the-fly. The idea is to retrieve and stitch audio snippets from a SpokenVocab bank according to words in an MT sequence. Our experiments on multiple language pairs from Must-C show that this method outperforms strong baselines by an average of 1.83 BLEU scores, and it performs equally well as TTS-generated speech. We also showcase how SpokenVocab can be applied in code-switching ST for which often no TTS systems exit. Our code is available at https://github.com/mingzi151/SpokenVocab

翻译：培训端到端语音翻译(ST)系统需要足够大规模的数据,大多数语言配对和域都无法获得这些数据。数据稀缺问题的一个实际解决办法是通过文本到语音(TTS)系统将机器翻译数据(MT)转换为ST数据。然而,使用TTS系统可能会是乏味和缓慢的,因为每个MT数据集都需要进行转换。在这项工作中,我们提议一种简单、可扩展和有效的数据增强技术,即SpokenVocab, 将MT数据转换为ST在实时上的数据。其想法是将机器翻译数据(MT)转换成ST数据。将SpokenVocab银行的音频片按照MT序列中的单词进行检索和缝合。我们对MT-C多语言配对的实验显示,该方法平均超过1.83 BLEE的强基线,并同样使用TS生成的语音。我们还展示了如何将SpokenVocab应用于代码转换ST,而TTTS系统通常没有退出。我们的代码可以在 https://gibs/Scommovgen/Sgo上查到。

相关内容

语音合成

关注 0

语音合成（Speech Synthesis），也称为文语转换（Text-to-Speech, TTS,它是将任意的输入文本转换成自然流畅的语音输出。语音合成涉及到人工智能、心理学、声学、语言学、数字信号处理、计算机科学等多个学科技术，是信息处理领域中的一项前沿技术。随着计算机技术的不断提高，语音合成技术从早期的共振峰合成,逐步发展为波形拼接合成和统计参数语音合成，再发展到混合语音合成；合成语音的质量、自然度已经得到明显提高，基本能满足一些特定场合的应用需求。目前，语音合成技术在银行、医院等的信息播报系统、汽车导航系统、自动应答呼叫中心等都有广泛应用，取得了巨大的经济效益。另外，随着智能手机、MP3、PDA 等与我们生活密切相关的媒介的大量涌现，语音合成的应用也在逐渐向娱乐、语音教学、康复治疗等领域深入。可以说语音合成正在影响着人们生活的方方面面。

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

专知会员服务

104+阅读 · 2022年2月10日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

167+阅读 · 2020年3月18日

【跨语言BERT模型大集合】Transfer learning is increasingly going multilingual with language-specific BERT models

专知会员服务

54+阅读 · 2020年1月30日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日