To extract the voice of a target speaker when mixed with a variety of other sounds, such as white and ambient noises or the voices of interfering speakers, we extend the Transformer network to attend the most relevant information with respect to the target speaker given the characteristics of his or her voices as a form of contextual information. The idea has a natural interpretation in terms of the selective attention theory. Specifically, we propose two models to incorporate the voice characteristics in Transformer based on different insights of where the feature selection should take place. Both models yield excellent performance, on par or better than published state-of-the-art models on the speaker extraction task, including separating speech of novel speakers not seen during training.


翻译:为了在与诸如白人和环境噪音或干扰性演讲者的声音等各种其他声音混杂在一起时获取目标演讲者的声音,我们扩大了变换器网络,以关注与目标演讲者最相关的信息,因为其声音是作为背景信息的一种形式。这种想法在选择性关注理论方面有着自然的解释。具体地说,我们提出两种模式,根据对地物选择地点的不同认识,将变换器的声音特点纳入其中。两种模式在与发言者的提取任务上均优于或优于公布的最新模型,包括将培训期间未见的新演讲者分开讲话。

0
下载
关闭预览

相关内容

Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
ExBert — 可视化分析Transformer学到的表示
专知会员服务
31+阅读 · 2019年10月16日
注意力机制介绍,Attention Mechanism
专知会员服务
168+阅读 · 2019年10月13日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
【论文笔记】通俗理解少样本文本分类 (Few-Shot Text Classification) (1)
深度学习自然语言处理
7+阅读 · 2020年4月8日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Arxiv
6+阅读 · 2019年7月11日
VIP会员
Top
微信扫码咨询专知VIP会员