Prosody plays an important role in characterizing the style of a speaker or an emotion, but most non-parallel voice or emotion style transfer algorithms do not convert any prosody information. Two major components of prosody are pitch and rhythm. Disentangling the prosody information, particularly the rhythm component, from the speech is challenging because it involves breaking the synchrony between the input speech and the disentangled speech representation. As a result, most existing prosody style transfer algorithms would need to rely on some form of text transcriptions to identify the content information, which confines their application to high-resource languages only. Recently, SpeechSplit has made sizeable progress towards unsupervised prosody style transfer, but it is unable to extract high-level global prosody style in an unsupervised manner. In this paper, we propose AutoPST, which can disentangle global prosody style from speech without relying on any text transcriptions. AutoPST is an Autoencoder-based Prosody Style Transfer framework with a thorough rhythm removal module guided by the self-expressive representation learning. Experiments on different style transfer tasks show that AutoPST can effectively convert prosody that correctly reflects the styles of the target domains.


翻译:Prosody 在描述一个演讲者或情感的风格方面发挥着重要的作用, 但大多数非平行的声音或情绪风格传输算法并不转换任何 prosody 信息。 prosody 的两个主要组成部分是音速和节奏。 将 prosody 信息, 特别是节奏部分从演讲中分离出来, 具有挑战性, 因为它涉及到打破输入式演讲和分解的语音表达方式之间的同步。 因此, 大部分现有的 prosotion 风格传输算法需要依赖某种形式的文本转录来识别内容信息, 这些信息将其应用程序限制在高资源语言。 最近, SolomentSplit 已经朝着非超导的 prosody风格传输取得了相当大的进展, 但是它无法以不超导的方式提取高层次的全球 prosody 风格。 在本文中, 我们建议 AutPST, 它可以在不依赖任何文本校正校正的校正描述下, 以自动编码为基础的Prosody Sty 传输框架, 由自我表达式风格学习的彻底的节态删除模块模块 。

0
下载
关闭预览

相关内容

多标签学习的新趋势(2020 Survey)
专知会员服务
42+阅读 · 2020年12月6日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
79+阅读 · 2020年7月26日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
130+阅读 · 2020年5月14日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
165+阅读 · 2020年3月18日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
推荐|深度强化学习聊天机器人(附论文)!
全球人工智能
4+阅读 · 2018年1月30日
【音乐】Attention
英语演讲视频每日一推
3+阅读 · 2017年8月22日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Arxiv
15+阅读 · 2018年6月23日
Arxiv
27+阅读 · 2018年4月12日
Arxiv
7+阅读 · 2018年1月30日
VIP会员
相关资讯
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
推荐|深度强化学习聊天机器人(附论文)!
全球人工智能
4+阅读 · 2018年1月30日
【音乐】Attention
英语演讲视频每日一推
3+阅读 · 2017年8月22日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员