Beyond the conventional voice conversion (VC) where the speaker information is converted without altering the linguistic content, the background sounds are informative and need to be retained in some real-world scenarios, such as VC in movie/video and VC in music where the voice is entangled with background sounds. As a new VC framework, we have developed a noisy-to-noisy (N2N) VC framework to convert the speaker's identity while preserving the background sounds. Although our framework consisting of a denoising module and a VC module well handles the background sounds, the VC module is sensitive to the distortion caused by the denoising module. To address this distortion issue, in this paper we propose the improved VC module to directly model the noisy speech waveform while controlling the background sounds. The experimental results have demonstrated that our improved framework significantly outperforms the previous one and achieves an acceptable score in terms of naturalness, while reaching comparable similarity performance to the upper bound of our framework.


翻译:在传统声音转换框架之外,发言人信息在不改变语言内容的情况下转换,背景声音是信息性的,需要保留在现实世界的一些情景中,如电影/视频中的VC和音乐中的VC,其中声音与背景声音交织在一起。作为一个新的VC框架,我们开发了一个噪音到噪音(N2N) VC框架,以在保存背景声音的同时转换发言者身份。虽然我们的框架包括一个拆音模块和一个VC模块,它很好地处理背景声音,但VC模块对拆音模块造成的扭曲十分敏感。为了解决这一扭曲问题,我们在本文件中建议改进VC模块,在控制背景声音的同时直接模拟噪音语音波形。实验结果表明,我们改进后的框架大大超越了先前的框架,在自然性方面达到了可接受的分数,同时达到了与我们框架上层相似的类似性表现。

0
下载
关闭预览

相关内容

《计算机信息》杂志发表高质量的论文,扩大了运筹学和计算的范围,寻求有关理论、方法、实验、系统和应用方面的原创研究论文、新颖的调查和教程论文,以及描述新的和有用的软件工具的论文。官网链接:https://pubsonline.informs.org/journal/ijoc
AAAI 2022:三角分解一致性约束的端到端语音翻译
专知会员服务
8+阅读 · 2022年1月17日
专知会员服务
28+阅读 · 2021年8月2日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
28+阅读 · 2019年10月18日
Hierarchically Structured Meta-learning
CreateAMind
24+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Arxiv
6+阅读 · 2020年4月14日
Teacher-Student Training for Robust Tacotron-based TTS
VIP会员
相关VIP内容
AAAI 2022:三角分解一致性约束的端到端语音翻译
专知会员服务
8+阅读 · 2022年1月17日
专知会员服务
28+阅读 · 2021年8月2日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
28+阅读 · 2019年10月18日
Top
微信扫码咨询专知VIP会员