Given a multi-microphone recording of an unknown number of speakers talking concurrently, we simultaneously localize the sources and separate the individual speakers. At the core of our method is a deep network, in the waveform domain, which isolates sources within an angular region $\theta \pm w/2$, given an angle of interest $\theta$ and angular window size $w$. By exponentially decreasing $w$, we can perform a binary search to localize and separate all sources in logarithmic time. Our algorithm allows for an arbitrary number of potentially moving speakers at test time, including more speakers than seen during training. Experiments demonstrate state-of-the-art performance for both source separation and source localization, particularly in high levels of background noise.


翻译:鉴于对同时交谈的发言者数量不详的多式麦克风记录,我们同时对发言来源进行本地化,并将个别发言者分开。我们的方法的核心是,在波形域内,一个深度的网络,将角区域内的源隔开来,考虑到一个感兴趣的角度,即$\theta $\ pm w/2美元和角窗口大小为$w美元。通过指数下降,我们可以进行二进制搜索,在对数时将所有来源本地化和分离。我们的算法允许在测试时任意选择一些可能移动的源,包括比培训期间更多的发言者。实验显示了源分离和源本地化的最新表现,特别是在高背景噪音方面。

0
下载
关闭预览

相关内容

Google最新《机器学习对偶性》报告,48页ppt
专知会员服务
36+阅读 · 2020年11月29日
专知会员服务
45+阅读 · 2020年10月31日
知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
109+阅读 · 2020年6月10日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
基于手机系统的实时目标检测
计算机视觉战队
8+阅读 · 2018年12月5日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
已删除
将门创投
8+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2020年11月28日
Arxiv
0+阅读 · 2020年11月26日
Arxiv
0+阅读 · 2020年11月26日
Arxiv
8+阅读 · 2018年11月27日
Arxiv
5+阅读 · 2018年10月4日
VIP会员
相关资讯
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
基于手机系统的实时目标检测
计算机视觉战队
8+阅读 · 2018年12月5日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
已删除
将门创投
8+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员