This paper presents the CUHK-EE voice cloning system for ICASSP 2021 M2VoC challenge. The challenge provides two Mandarin speech corpora: the AIShell-3 corpus of 218 speakers with noise and reverberation and the MST corpus including high-quality speech of one male and one female speakers. 100 and 5 utterances of 3 target speakers in different voice and style are provided in track 1 and 2 respectively, and the participants are required to synthesize speech in target speaker's voice and style. We take part in the track 1 and carry out voice cloning based on 100 utterances of target speakers. An end-to-end voicing cloning system is developed to accomplish the task, which includes: 1. a text and speech front-end module with the help of forced alignment, 2. an acoustic model combining Tacotron2 and DurIAN to predict melspectrogram, 3. a Hifigan vocoder for waveform generation. Our system comprises three stages: multi-speaker training stage, target speaker adaption stage and target speaker synthesis stage. Our team is identified as T17. The subjective evaluation results provided by the challenge organizer demonstrate the effectiveness of our system. Audio samples are available at our demo page: https://daxintan-cuhk.github.io/CUHK-EE-system-M2VoC-challenge/ .


翻译:本文介绍了ICASSP 2021 M2VoC 的CUHK-EE语音克隆系统挑战。挑战提供了两种普通话语调:AHEL-3系统,218个讲者,其中有噪音和回响,还有MST系统,包括一名男讲者和一名女讲者高质量的发言。第1和第2轨中分别提供了100和5个讲3个不同声音和风格的目标发言者的语音系统。参与者需要用目标发言者的声音和风格综合发言。我们参加第1轨,并根据目标发言者的100次发言进行语音克隆。我们团队被确定为T17。我们团队的终端至终端发声克隆系统为完成这一任务,其中包括:1个文本和发言前端模块,有强迫调整的帮助;2个将Tacotron2和Durian综合3个不同声音和风格的3个声音和5个声音和3个目标发言者的声调模型,以及波形一代的Hiffigan vocoder。我们系统分为三个阶段:多讲者培训阶段,目标发言者调整舞台和目标发言者合成阶段。我们团队被确定为T17。我们小组提供的主观-CUPRO-C/CU/SU 显示我们的挑战系统。

0
下载
关闭预览

相关内容

ICASSP是全球最大,最全面的技术会议,重点是信号处理及其应用。会议主题包括但不限于以下主题:音频和声音信号处理、量子信号处理、生物医学信号与图像处理、遥感与信号处理、压缩感知,采样和字典学习、传感器阵列和多通道信号处理、信号处理的设计与实现、大数据信号处理、财务信号处理。 官网地址:http://dblp.uni-trier.de/db/conf/icassp/
生成对抗网络GAN在各领域应用研究进展(中文版),37页pdf
专知会员服务
150+阅读 · 2020年12月30日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
23+阅读 · 2019年12月15日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
ActivityNet Challenge 2017 冠军方案分享
极市平台
4+阅读 · 2017年7月25日
Arxiv
7+阅读 · 2018年9月27日
CoQA: A Conversational Question Answering Challenge
Arxiv
7+阅读 · 2018年8月21日
VIP会员
Top
微信扫码咨询专知VIP会员