利用Tactron2、WaveGlow和转移学习的低资源端到端梵文TTS (Low-Resource End-to-end Sanskrit TTS using Tacotron2, WaveGlow and Transfer Learning)

End-to-end text-to-speech (TTS) systems have been developed for European languages like English and Spanish with state-of-the-art speech quality, prosody, and naturalness. However, development of end-to-end TTS for Indian languages is lagging behind in terms of quality. The challenges involved in such a task are: 1) scarcity of quality training data; 2) low efficiency during training and inference; 3) slow convergence in the case of large vocabulary size. In our work reported in this paper, we have investigated the use of fine-tuning the English-pretrained Tacotron2 model with limited Sanskrit data to synthesize natural sounding speech in Sanskrit in low resource settings. Our experiments show encouraging results, achieving an overall MOS of 3.38 from 37 evaluators with good Sanskrit spoken knowledge. This is really a very good result, considering the fact that the speech data we have used is of duration 2.5 hours only.

翻译：为英语和西班牙语等欧洲语言开发了终端到终端文本到语音系统(TTS),具有最先进的语言质量、手语和自然性,然而,为印度语言开发端到终端 TTS的质量在质量方面落后。这一任务涉及的挑战有:(1) 缺乏高质量的培训数据;(2) 培训和推论期间效率低;(2) 词汇大小大的情况下的趋同速度缓慢。在本文件中报告的工作中,我们调查了在低资源环境下使用精细调整英语预先训练的Tacotron2模型(只有有限的梵语数据)来合成梵语中自然声音的情况。我们的实验显示令人鼓舞的结果,从具有良好梵语口述知识的37名评价人员中取得了3.38个总体MOS。考虑到我们使用的语音数据只有2.5小时的时间,这确实是一个非常好的结果。

相关内容

语音合成

关注 0

语音合成（Speech Synthesis），也称为文语转换（Text-to-Speech, TTS,它是将任意的输入文本转换成自然流畅的语音输出。语音合成涉及到人工智能、心理学、声学、语言学、数字信号处理、计算机科学等多个学科技术，是信息处理领域中的一项前沿技术。随着计算机技术的不断提高，语音合成技术从早期的共振峰合成,逐步发展为波形拼接合成和统计参数语音合成，再发展到混合语音合成；合成语音的质量、自然度已经得到明显提高，基本能满足一些特定场合的应用需求。目前，语音合成技术在银行、医院等的信息播报系统、汽车导航系统、自动应答呼叫中心等都有广泛应用，取得了巨大的经济效益。另外，随着智能手机、MP3、PDA 等与我们生活密切相关的媒介的大量涌现，语音合成的应用也在逐渐向娱乐、语音教学、康复治疗等领域深入。可以说语音合成正在影响着人们生活的方方面面。

不可错过！《机器学习100讲》课程，UBC Mark Schmidt讲授

专知会员服务

76+阅读 · 2022年6月28日