Recently, deep neural network (DNN)-based speech enhancement (SE) systems have been used with great success. During training, such systems require clean speech data - ideally, in large quantity with a variety of acoustic conditions, many different speaker characteristics and for a given sampling rate (e.g., 48kHz for fullband SE). However, obtaining such clean speech data is not straightforward - especially, if only considering publicly available datasets. At the same time, a lot of material for automatic speech recognition (ASR) with the desired acoustic/speaker/sampling rate characteristics is publicly available except being clean, i.e., it also contains background noise as this is even often desired in order to have ASR systems that are noise-robust. Hence, using such data to train SE systems is not straightforward. In this paper, we propose two improvements to train SE systems on noisy speech data. First, we propose several modifications of the loss functions, which make them robust against noisy speech targets. In particular, computing the median over the sample axis before averaging over time-frequency bins allows to use such data. Furthermore, we propose a noise augmentation scheme for mixture-invariant training (MixIT), which allows using it also in such scenarios. For our experiments, we use the Mozilla Common Voice dataset and we show that using our robust loss function improves PESQ by up to 0.19 compared to a system trained in the traditional way. Similarly, for MixIT we can see an improvement of up to 0.27 in PESQ when using our proposed noise augmentation.


翻译:最近,以深神经网络为基础的语音增强系统(DNN)被成功使用。在培训期间,这类系统需要清洁的言语数据 -- -- 理想的情况是,数量众多且有各种声学条件、许多不同的发言者特点和特定取样率(例如,全频SE,48kHz)。然而,获取这种清洁的言语数据并非直截了当 -- -- 特别是,如果仅考虑公开提供的数据集的话。与此同时,大量自动语音识别材料(ASR)和所需的声频/语音/采样率特性都公开提供,但清洁除外,即,这种系统还包含背景的言语数据,因为为了让ASR系统具有噪声-robust,这种系统往往需要。因此,使用这些数据来培训SEE系统并非简单易懂。我们建议对SEE系统进行两项改进,这些修改使损失功能与噪音目标相对稳健。特别是,在平均时间频率的硬盘使用这种数据之前,在样本轴上计算中间轴轴轴轴线上的噪音,我们还可以使用这种改进数据。此外,我们提议用一种稳定变压式的变压方案,我们用一种变压式的变压式的MIT数据,我们用这种变压式的变压式的变压式数据系统来进行。

0
下载
关闭预览

相关内容

语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。一句话,从含噪语音中提取尽可能纯净的原始语音。
专知会员服务
44+阅读 · 2020年10月31日
【干货书】真实机器学习,264页pdf,Real-World Machine Learning
Stabilizing Transformers for Reinforcement Learning
专知会员服务
57+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
已删除
将门创投
11+阅读 · 2019年7月4日
人工智能 | CCF推荐期刊专刊约稿信息6条
Call4Papers
5+阅读 · 2019年2月18日
Ray RLlib: Scalable 降龙十八掌
CreateAMind
8+阅读 · 2018年12月28日
计算机 | CCF推荐会议信息10条
Call4Papers
5+阅读 · 2018年10月18日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Multi-Label Learning with Label Enhancement
Arxiv
4+阅读 · 2019年4月16日
Phase-aware Speech Enhancement with Deep Complex U-Net
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
8+阅读 · 2018年11月27日
Arxiv
3+阅读 · 2018年6月19日
VIP会员
Top
微信扫码咨询专知VIP会员