Supervised speech enhancement relies on parallel databases of degraded speech signals and their clean reference signals during training. This setting prohibits the use of real-world degraded speech data that may better represent the scenarios where such systems are used. In this paper, we explore methods that enable supervised speech enhancement systems to train on real-world degraded speech data. Specifically, we propose a semi-supervised approach for speech enhancement in which we first train a modified vector-quantized variational autoencoder that solves a source separation task. We then use this trained autoencoder to further train an enhancement network using real-world noisy speech data by computing a triplet-based unsupervised loss function. Experiments show promising results for incorporating real-world data in training speech enhancement systems.


翻译:受监督的语音增强取决于关于退化的语音信号及其在培训期间的清洁参考信号的平行数据库。 这一设置禁止使用真实世界退化的语音数据, 这些数据可能更好地代表使用这些系统的情形。 在本文中, 我们探索了能够使监管的语音增强系统能够培训真实世界退化的语音数据的方法。 具体地说, 我们提出了一种半监督的语音增强方法, 我们首先在其中培训一个经过修改的矢量定量变异自动编码器, 解决源分离任务。 我们随后使用这个经过培训的自动编码器, 通过计算基于三重制且不受监督的损失功能, 进一步培训使用真实世界噪音的语音数据增强网络。 实验显示将真实世界数据纳入语言强化系统培训的有希望的结果 。

0
下载
关闭预览

相关内容

语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。一句话,从含噪语音中提取尽可能纯净的原始语音。
专知会员服务
28+阅读 · 2021年8月2日
神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
29+阅读 · 2020年4月15日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
已删除
将门创投
3+阅读 · 2019年4月12日
无监督元学习表示学习
CreateAMind
25+阅读 · 2019年1月4日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
论文分类
统计学习与视觉计算组
5+阅读 · 2018年3月13日
课程 | Andrew Ng 深度学习课程笔记3
黑龙江大学自然语言处理实验室
3+阅读 · 2017年9月15日
Teacher-Student Training for Robust Tacotron-based TTS
Arxiv
4+阅读 · 2019年4月17日
Phase-aware Speech Enhancement with Deep Complex U-Net
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
8+阅读 · 2018年11月27日
Arxiv
3+阅读 · 2018年6月19日
VIP会员
相关VIP内容
专知会员服务
28+阅读 · 2021年8月2日
神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
29+阅读 · 2020年4月15日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
已删除
将门创投
3+阅读 · 2019年4月12日
无监督元学习表示学习
CreateAMind
25+阅读 · 2019年1月4日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
语音顶级会议Interspeech2018接受论文列表!
专知
6+阅读 · 2018年6月10日
论文分类
统计学习与视觉计算组
5+阅读 · 2018年3月13日
课程 | Andrew Ng 深度学习课程笔记3
黑龙江大学自然语言处理实验室
3+阅读 · 2017年9月15日
Top
微信扫码咨询专知VIP会员