利用文本语音语音:两阶段序列到序列培训 (Limited Data Emotional Voice Conversion Leveraging Text-to-Speech: Two-stage Sequence-to-Sequence Training) - 专知论文

会员服务 ·

0

Performer · 语音合成 · INFORMS · state-of-the-art · 基准 ·

2021 年 6 月 9 日

Limited Data Emotional Voice Conversion Leveraging Text-to-Speech: Two-stage Sequence-to-Sequence Training

翻译：利用文本语音语音:两阶段序列到序列培训

Kun Zhou,Berrak Sisman,Haizhou Li

from arxiv, Accepted by Interspeech 2021

Emotional voice conversion (EVC) aims to change the emotional state of an utterance while preserving the linguistic content and speaker identity. In this paper, we propose a novel 2-stage training strategy for sequence-to-sequence emotional voice conversion with a limited amount of emotional speech data. We note that the proposed EVC framework leverages text-to-speech (TTS) as they share a common goal that is to generate high-quality expressive voice. In stage 1, we perform style initialization with a multi-speaker TTS corpus, to disentangle speaking style and linguistic content. In stage 2, we perform emotion training with a limited amount of emotional speech data, to learn how to disentangle emotional style and linguistic information from the speech. The proposed framework can perform both spectrum and prosody conversion and achieves significant improvement over the state-of-the-art baselines in both objective and subjective evaluation.

翻译：情感语音转换(EVC)旨在改变语言表达的情绪状态,同时保留语言内容和语言特征。在本文中,我们提出一个新的两阶段培训战略,用于以数量有限的情感言语数据进行顺序到顺序的情感声音转换。我们注意到,拟议的EVC框架将文字转换为语音(TTS)作为杠杆,因为它们有一个共同的目标,即产生高质量的表达声音。在第1阶段,我们用多语种 TTTS 程序进行风格初始化,分解语音风格和语言内容。在第2阶段,我们用数量有限的情感言语数据进行情感培训,学习如何将情感风格和语言信息从演讲中分离开来。拟议的框架可以进行频谱和手动转换,并在客观和主观评价中大大改进最先进的基线。

0

相关内容

Performer

注意力机制综述

注意力机制综述

专知会员服务

83+阅读 · 2021年1月26日

【论文推荐】联邦学习的个性化技术综述，Survey of Personalization Techniques for Federated Learning

【论文推荐】联邦学习的个性化技术综述，Survey of Personalization Techniques for Federated Learning

专知会员服务

79+阅读 · 2020年3月19日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

167+阅读 · 2020年3月18日

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

专知会员服务

96+阅读 · 2020年3月12日

【东京大学】图采样，Sampling on Graphs: From Theory to Applications

【东京大学】图采样，Sampling on Graphs: From Theory to Applications

专知会员服务

19+阅读 · 2020年3月10日

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

专知会员服务

43+阅读 · 2020年1月28日

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

专知会员服务

33+阅读 · 2020年1月5日

【ACL 2019 Tutorials】话语分析及其应用（Discourse Analysis and Its Applications），Shafiq Joty，Giuseppe Carenini，Raymond Ng，Gabriel Murray

【ACL 2019 Tutorials】话语分析及其应用（Discourse Analysis and Its Applications），Shafiq Joty，Giuseppe Carenini，Raymond Ng，Gabriel Murray

专知会员服务

11+阅读 · 2019年11月16日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

【资源】语音增强资源集锦

【资源】语音增强资源集锦

专知

8+阅读 · 2020年7月4日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

【论文推荐】最新八篇情感分析相关论文—Pair-wise判别器、多模态情感分析、上下文语境、Gated 卷积网络

【论文推荐】最新八篇情感分析相关论文—Pair-wise判别器、多模态情感分析、上下文语境、Gated 卷积网络

专知

20+阅读 · 2018年6月29日

语音顶级会议Interspeech2018接受论文列表！

语音顶级会议Interspeech2018接受论文列表！

专知

6+阅读 · 2018年6月10日

【论文推荐】最新六篇聊天机器人相关论文—弱监督信息、内容驱动、对话管理系统、可扩展情感序列到序列、自主性

【论文推荐】最新六篇聊天机器人相关论文—弱监督信息、内容驱动、对话管理系统、可扩展情感序列到序列、自主性

专知

9+阅读 · 2018年5月12日

【论文推荐】最新八篇主题模型相关论文—在线光谱学习、PAM变分推断、章节推荐、多芯片系统、文本分析、动态主题模型

【论文推荐】最新八篇主题模型相关论文—在线光谱学习、PAM变分推断、章节推荐、多芯片系统、文本分析、动态主题模型

专知

12+阅读 · 2018年5月6日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

多轮对话之对话管理：Dialog Management

多轮对话之对话管理：Dialog Management

PaperWeekly

18+阅读 · 2018年1月15日

一种基于Sequence-to-Sequence的高质量对话生成方法

一种基于Sequence-to-Sequence的高质量对话生成方法

科技创新与创业

9+阅读 · 2017年11月13日

Musical Speech: A Transformer-based Composition Tool

Musical Speech: A Transformer-based Composition Tool

Arxiv

0+阅读 · 2021年8月2日

Analyzing Speaker Information in Self-Supervised Models to Improve Zero-Resource Speech Processing

Analyzing Speaker Information in Self-Supervised Models to Improve Zero-Resource Speech Processing

Arxiv

0+阅读 · 2021年8月2日

End to End Bangla Speech Synthesis

Arxiv

0+阅读 · 2021年8月1日

Speech2AffectiveGestures: Synthesizing Co-Speech Gestures with Generative Adversarial Affective Expression Learning

Arxiv

0+阅读 · 2021年7月31日

Voice Reconstruction from Silent Speech with a Sequence-to-Sequence Model

Arxiv

0+阅读 · 2021年7月31日

BERT Embeddings for Automatic Readability Assessment

BERT Embeddings for Automatic Readability Assessment

Arxiv

0+阅读 · 2021年7月30日

Attention Forcing for Sequence-to-sequence Model Training

Attention Forcing for Sequence-to-sequence Model Training

Arxiv

7+阅读 · 2019年9月26日

Fine-grained robust prosody transfer for single-speaker neural text-to-speech

Fine-grained robust prosody transfer for single-speaker neural text-to-speech

Arxiv

5+阅读 · 2019年7月4日

Neural Speech Synthesis with Transformer Network

Neural Speech Synthesis with Transformer Network

Arxiv

5+阅读 · 2019年1月30日

A Spoofing Benchmark for the 2018 Voice Conversion Challenge: Leveraging from Spoofing Countermeasures for Speech Artifact Assessment

Arxiv

3+阅读 · 2018年9月4日

VIP会员

文章信息

相关主题

state-of-the-art

相关VIP内容

注意力机制综述

注意力机制综述

专知会员服务

83+阅读 · 2021年1月26日

【论文推荐】联邦学习的个性化技术综述，Survey of Personalization Techniques for Federated Learning

【论文推荐】联邦学习的个性化技术综述，Survey of Personalization Techniques for Federated Learning

专知会员服务

79+阅读 · 2020年3月19日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知会员服务

167+阅读 · 2020年3月18日

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

专知会员服务

96+阅读 · 2020年3月12日

【东京大学】图采样，Sampling on Graphs: From Theory to Applications

【东京大学】图采样，Sampling on Graphs: From Theory to Applications

专知会员服务

19+阅读 · 2020年3月10日

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

专知会员服务

43+阅读 · 2020年1月28日

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

专知会员服务

33+阅读 · 2020年1月5日

【ACL 2019 Tutorials】话语分析及其应用（Discourse Analysis and Its Applications），Shafiq Joty，Giuseppe Carenini，Raymond Ng，Gabriel Murray

【ACL 2019 Tutorials】话语分析及其应用（Discourse Analysis and Its Applications），Shafiq Joty，Giuseppe Carenini，Raymond Ng，Gabriel Murray

专知会员服务

11+阅读 · 2019年11月16日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

热门VIP内容

开通专知VIP会员享更多权益服务

自动驾驶轨迹规划中的基础模型：进展综述与开放挑战

《用于提升多域战备的大型语言模型辅助场景生成器》报告

【斯坦福博士论文】为人类使用优化 AI 模型

国防领域人工智能规模化应用的理论与实践

相关资讯

【资源】语音增强资源集锦

【资源】语音增强资源集锦

专知

8+阅读 · 2020年7月4日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

【论文推荐】最新八篇情感分析相关论文—Pair-wise判别器、多模态情感分析、上下文语境、Gated 卷积网络

【论文推荐】最新八篇情感分析相关论文—Pair-wise判别器、多模态情感分析、上下文语境、Gated 卷积网络

专知

20+阅读 · 2018年6月29日

语音顶级会议Interspeech2018接受论文列表！

语音顶级会议Interspeech2018接受论文列表！

专知

6+阅读 · 2018年6月10日

【论文推荐】最新六篇聊天机器人相关论文—弱监督信息、内容驱动、对话管理系统、可扩展情感序列到序列、自主性

【论文推荐】最新六篇聊天机器人相关论文—弱监督信息、内容驱动、对话管理系统、可扩展情感序列到序列、自主性

专知

9+阅读 · 2018年5月12日

【论文推荐】最新八篇主题模型相关论文—在线光谱学习、PAM变分推断、章节推荐、多芯片系统、文本分析、动态主题模型

【论文推荐】最新八篇主题模型相关论文—在线光谱学习、PAM变分推断、章节推荐、多芯片系统、文本分析、动态主题模型

专知

12+阅读 · 2018年5月6日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

多轮对话之对话管理：Dialog Management

多轮对话之对话管理：Dialog Management

PaperWeekly

18+阅读 · 2018年1月15日

一种基于Sequence-to-Sequence的高质量对话生成方法

一种基于Sequence-to-Sequence的高质量对话生成方法

科技创新与创业

9+阅读 · 2017年11月13日

相关论文

Musical Speech: A Transformer-based Composition Tool

Musical Speech: A Transformer-based Composition Tool

Arxiv

0+阅读 · 2021年8月2日

Analyzing Speaker Information in Self-Supervised Models to Improve Zero-Resource Speech Processing

Analyzing Speaker Information in Self-Supervised Models to Improve Zero-Resource Speech Processing

Arxiv

0+阅读 · 2021年8月2日

End to End Bangla Speech Synthesis

Arxiv

0+阅读 · 2021年8月1日

Speech2AffectiveGestures: Synthesizing Co-Speech Gestures with Generative Adversarial Affective Expression Learning

Arxiv

0+阅读 · 2021年7月31日

Voice Reconstruction from Silent Speech with a Sequence-to-Sequence Model

Arxiv

0+阅读 · 2021年7月31日

BERT Embeddings for Automatic Readability Assessment

BERT Embeddings for Automatic Readability Assessment

Arxiv

0+阅读 · 2021年7月30日

Attention Forcing for Sequence-to-sequence Model Training

Attention Forcing for Sequence-to-sequence Model Training

Arxiv

7+阅读 · 2019年9月26日

Fine-grained robust prosody transfer for single-speaker neural text-to-speech

Fine-grained robust prosody transfer for single-speaker neural text-to-speech

Arxiv

5+阅读 · 2019年7月4日

Neural Speech Synthesis with Transformer Network

Neural Speech Synthesis with Transformer Network

Arxiv

5+阅读 · 2019年1月30日

A Spoofing Benchmark for the 2018 Voice Conversion Challenge: Leveraging from Spoofing Countermeasures for Speech Artifact Assessment

Arxiv

3+阅读 · 2018年9月4日

微信扫码咨询专知VIP会员