题目: Wavesplit: End-to-End Speech Separation by Speaker Clustering

摘要:

本文介绍了一种端到端的语音分离系统Wavesplit。从混合语音的单一记录中,该模型推断和聚集了每个说话者的表征,然后根据推断的表征估计每个源信号。该模型根据原始波形进行训练,共同完成这两项任务。该模型通过聚类的方法推导出一组说话人表示,解决了语音分离的基本排列问题。此外,与以前的方法相比,序列范围的扬声器表示提供了更健壮的长而有挑战性的序列分离。我们证明Wavesplit在2个或3个扬声器(WSJ0-2mix、WSJ0-3mix)的混合物上,以及在有噪声(WHAM!)和混响 (WHAMR!)的情况下,都比以前的技术水平要好。此外,我们通过引入在线数据增强来进一步改进我们的模型。

成为VIP会员查看完整内容
19

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
【CVPR2020-Facebook AI】前置不变表示的自监督学习
专知会员服务
47+阅读 · 2020年4月19日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
已删除
将门创投
5+阅读 · 2018年11月15日
漫谈语音合成之Char2Wav模型
深度学习每日摘要
8+阅读 · 2017年12月31日
Mozilla发布开源语音数据库和语音识别模型
Python程序员
3+阅读 · 2017年12月1日
一文读懂语音识别史
机械鸡
9+阅读 · 2017年10月16日
Image Captioning: Transforming Objects into Words
Arxiv
7+阅读 · 2019年6月14日
Arxiv
8+阅读 · 2018年11月27日
VIP会员
相关VIP内容
【CVPR2020-Facebook AI】前置不变表示的自监督学习
专知会员服务
47+阅读 · 2020年4月19日
相关资讯
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
已删除
将门创投
5+阅读 · 2018年11月15日
漫谈语音合成之Char2Wav模型
深度学习每日摘要
8+阅读 · 2017年12月31日
Mozilla发布开源语音数据库和语音识别模型
Python程序员
3+阅读 · 2017年12月1日
一文读懂语音识别史
机械鸡
9+阅读 · 2017年10月16日
微信扫码咨询专知VIP会员