This paper presents the CUHK-EE voice cloning system for ICASSP 2021 M2VoC challenge. The challenge provides two Mandarin speech corpora: the AIShell-3 corpus of 218 speakers with noise and reverberation and the MST corpus including high-quality speech of one male and one female speakers. 100 and 5 utterances of 3 target speakers in different voice and style are provided in track 1 and 2 respectively, and the participants are required to synthesize speech in target speaker's voice and style. We take part in the track 1 and carry out voice cloning based on 100 utterances of target speakers. An end-to-end voicing cloning system is developed to accomplish the task, which includes: 1. a text and speech front-end module with the help of forced alignment, 2. an acoustic model combining Tacotron2 and DurIAN to predict melspectrogram, 3. a Hifigan vocoder for waveform generation. Our system comprises three stages: multi-speaker training stage, target speaker adaption stage and target speaker synthesis stage. Our team is identified as T17. The subjective evaluation results provided by the challenge organizer demonstrate the effectiveness of our system. Audio samples are available at our demo page: https://daxintan-cuhk.github.io/CUHK-EE-system-M2VoC-challenge/ .


翻译:本文介绍了ICASSP 2021 M2VoC 的CUHK-EE语音克隆系统挑战。挑战提供了两种普通话语调:AHEL-3系统,218个讲者,其中有噪音和回响,还有MST系统,包括一名男讲者和一名女讲者高质量的发言。第1和第2轨中分别提供了100和5个讲3个不同声音和风格的目标发言者的语音系统。参与者需要用目标发言者的声音和风格综合发言。我们参加第1轨,并根据目标发言者的100次发言进行语音克隆。我们团队被确定为T17。我们团队的终端至终端发声克隆系统为完成这一任务,其中包括:1个文本和发言前端模块,有强迫调整的帮助;2个将Tacotron2和Durian综合3个不同声音和风格的3个声音和5个声音和3个目标发言者的声调模型,以及波形一代的Hiffigan vocoder。我们系统分为三个阶段:多讲者培训阶段,目标发言者调整舞台和目标发言者合成阶段。我们团队被确定为T17。我们小组提供的主观-CUPRO-C/CU/SU 显示我们的挑战系统。

0
下载
关闭预览

相关内容

ICASSP是全球最大,最全面的技术会议,重点是信号处理及其应用。会议主题包括但不限于以下主题:音频和声音信号处理、量子信号处理、生物医学信号与图像处理、遥感与信号处理、压缩感知,采样和字典学习、传感器阵列和多通道信号处理、信号处理的设计与实现、大数据信号处理、财务信号处理。 官网地址:http://dblp.uni-trier.de/db/conf/icassp/
专知会员服务
15+阅读 · 2021年5月13日
【ACL2020-Allen AI】预训练语言模型中的无监督域聚类
专知会员服务
23+阅读 · 2020年4月7日
【Google AI】开源NoisyStudent:自监督图像分类
专知会员服务
54+阅读 · 2020年2月18日
MIT-深度学习Deep Learning State of the Art in 2020,87页ppt
专知会员服务
61+阅读 · 2020年2月17日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
AI Challenger 2017 奇遇记
AINLP
5+阅读 · 2018年6月10日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
5+阅读 · 2019年1月16日
VIP会员
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
LibRec 精选:AutoML for Contextual Bandits
LibRec智能推荐
7+阅读 · 2019年9月19日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
AI Challenger 2017 奇遇记
AINLP
5+阅读 · 2018年6月10日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员