【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering - 专知VIP

会员服务 ·

3

语音识别 · 聚类 · 序列分析 · Google ·

2020 年 2 月 26 日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

题目： Wavesplit: End-to-End Speech Separation by Speaker Clustering

摘要：

本文介绍了一种端到端的语音分离系统Wavesplit。从混合语音的单一记录中，该模型推断和聚集了每个说话者的表征，然后根据推断的表征估计每个源信号。该模型根据原始波形进行训练，共同完成这两项任务。该模型通过聚类的方法推导出一组说话人表示，解决了语音分离的基本排列问题。此外，与以前的方法相比，序列范围的扬声器表示提供了更健壮的长而有挑战性的序列分离。我们证明Wavesplit在2个或3个扬声器(WSJ0-2mix、WSJ0-3mix)的混合物上，以及在有噪声(WHAM!)和混响 (WHAMR!)的情况下，都比以前的技术水平要好。此外，我们通过引入在线数据增强来进一步改进我们的模型。

成为VIP会员查看完整内容

19

相关内容

语音识别

语音识别是计算机科学和计算语言学的一个跨学科子领域，它发展了一些方法和技术，使计算机可以将口语识别和翻译成文本。它也被称为自动语音识别（ASR），计算机语音识别或语音转文本（STT）。它整合了计算机科学，语言学和计算机工程领域的知识和研究。

从多个自我监督任务中学习问题无关的语音表示，Learning Problem-agnostic Speech Representations from Multiple Self-supervised Tasks

从多个自我监督任务中学习问题无关的语音表示，Learning Problem-agnostic Speech Representations from Multiple Self-supervised Tasks

专知会员服务

17+阅读 · 2020年5月6日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知会员服务

24+阅读 · 2020年3月31日

【北邮-腾讯AI】自监督学习音视觉说话人认证，Self-supervised learning for audio-visual speaker diarization

【北邮-腾讯AI】自监督学习音视觉说话人认证，Self-supervised learning for audio-visual speaker diarization

专知会员服务

26+阅读 · 2020年2月16日

【Yoshua Bengio新论文】多任务自监督学习语音识别，MULTI-TASK SELF-SUPERVISED LEARNING FOR ROBUST SPEECH RECOGNITION

【Yoshua Bengio新论文】多任务自监督学习语音识别，MULTI-TASK SELF-SUPERVISED LEARNING FOR ROBUST SPEECH RECOGNITION

专知会员服务

39+阅读 · 2020年1月30日

【NLP| 推荐文章】语言语音处理（Speech and Language Processing(3rd ed.draft)）

专知会员服务

15+阅读 · 2019年11月24日

用于语音识别的数据增强

用于语音识别的数据增强

AI研习社

24+阅读 · 2019年6月5日

已删除

将门创投

5+阅读 · 2018年11月15日

谷歌提出全新视觉-音频分离模型，解决鸡尾酒会效应

谷歌提出全新视觉-音频分离模型，解决鸡尾酒会效应

引力空间站

6+阅读 · 2018年4月17日

Mozilla发布开源语音数据库和语音识别模型

Mozilla发布开源语音数据库和语音识别模型

Python程序员

3+阅读 · 2017年12月1日

业界 | Facebook开源TTS神经网络VoiceLoop：基于室外声音的语音合成（附PyTorch实现）

业界 | Facebook开源TTS神经网络VoiceLoop：基于室外声音的语音合成（附PyTorch实现）

机器之心

4+阅读 · 2017年9月5日

End-to-End Multi-speaker Speech Recognition with Transformer

Arxiv

8+阅读 · 2020年2月13日

SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition

SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition

Arxiv

7+阅读 · 2019年4月18日

An end-to-end Neural Network Framework for Text Clustering

An end-to-end Neural Network Framework for Text Clustering

Arxiv

6+阅读 · 2019年3月22日

Learning latent representations for style control and transfer in end-to-end speech synthesis

Learning latent representations for style control and transfer in end-to-end speech synthesis

Arxiv

5+阅读 · 2019年2月14日

Improved Speech Enhancement with the Wave-U-Net

Arxiv

8+阅读 · 2018年11月27日

VIP会员

相关主题

相关VIP内容

从多个自我监督任务中学习问题无关的语音表示，Learning Problem-agnostic Speech Representations from Multiple Self-supervised Tasks

从多个自我监督任务中学习问题无关的语音表示，Learning Problem-agnostic Speech Representations from Multiple Self-supervised Tasks

专知会员服务

17+阅读 · 2020年5月6日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知会员服务

24+阅读 · 2020年3月31日

【北邮-腾讯AI】自监督学习音视觉说话人认证，Self-supervised learning for audio-visual speaker diarization

【北邮-腾讯AI】自监督学习音视觉说话人认证，Self-supervised learning for audio-visual speaker diarization

专知会员服务

26+阅读 · 2020年2月16日

【Yoshua Bengio新论文】多任务自监督学习语音识别，MULTI-TASK SELF-SUPERVISED LEARNING FOR ROBUST SPEECH RECOGNITION

【Yoshua Bengio新论文】多任务自监督学习语音识别，MULTI-TASK SELF-SUPERVISED LEARNING FOR ROBUST SPEECH RECOGNITION

专知会员服务

39+阅读 · 2020年1月30日

【NLP| 推荐文章】语言语音处理（Speech and Language Processing(3rd ed.draft)）

专知会员服务

15+阅读 · 2019年11月24日

热门VIP内容

开通专知VIP会员享更多权益服务

从代码基础模型到智能体与应用：代码智能的全面综述与实践指南

《北约认知战概念报告》

【MIT博士论文】高效的视觉合成生成模型

美海军放弃星座级转而采用国家安全巡逻舰设计

相关资讯

用于语音识别的数据增强

用于语音识别的数据增强

AI研习社

24+阅读 · 2019年6月5日

已删除

将门创投

5+阅读 · 2018年11月15日

谷歌提出全新视觉-音频分离模型，解决鸡尾酒会效应

谷歌提出全新视觉-音频分离模型，解决鸡尾酒会效应

引力空间站

6+阅读 · 2018年4月17日

Mozilla发布开源语音数据库和语音识别模型

Mozilla发布开源语音数据库和语音识别模型

Python程序员

3+阅读 · 2017年12月1日

业界 | Facebook开源TTS神经网络VoiceLoop：基于室外声音的语音合成（附PyTorch实现）

业界 | Facebook开源TTS神经网络VoiceLoop：基于室外声音的语音合成（附PyTorch实现）

机器之心

4+阅读 · 2017年9月5日

相关论文

End-to-End Multi-speaker Speech Recognition with Transformer

Arxiv

8+阅读 · 2020年2月13日

SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition

SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition

Arxiv

7+阅读 · 2019年4月18日

An end-to-end Neural Network Framework for Text Clustering

An end-to-end Neural Network Framework for Text Clustering

Arxiv

6+阅读 · 2019年3月22日

Learning latent representations for style control and transfer in end-to-end speech synthesis

Learning latent representations for style control and transfer in end-to-end speech synthesis

Arxiv

5+阅读 · 2019年2月14日

Improved Speech Enhancement with the Wave-U-Net

Arxiv

8+阅读 · 2018年11月27日

微信扫码咨询专知VIP会员