Target speaker extraction, which aims at extracting a target speaker's voice from a mixture of voices using audio, visual or locational clues, has received much interest. Recently an audio-visual target speaker extraction has been proposed that extracts target speech by using complementary audio and visual clues. Although audio-visual target speaker extraction offers a more stable performance than single modality methods for simulated data, its adaptation towards realistic situations has not been fully explored as well as evaluations on real recorded mixtures. One of the major issues to handle realistic situations is how to make the system robust to clue corruption because in real recordings both clues may not be equally reliable, e.g. visual clues may be affected by occlusions. In this work, we propose a novel attention mechanism for multi-modal fusion and its training methods that enable to effectively capture the reliability of the clues and weight the more reliable ones. Our proposals improve signal to distortion ratio (SDR) by 1.0 dB over conventional fusion mechanisms on simulated data. Moreover, we also record an audio-visual dataset of simultaneous speech with realistic visual clue corruption and show that audio-visual target speaker extraction with our proposals successfully work on real data.


翻译:旨在利用音频、视觉或位置线索从声音混合体中提取目标发言者声音的目标发言者提取工作引起了很大的兴趣。最近,提出了利用补充视听线索来提取目标演讲的视听目标发言者提取工作,通过补充视听线索来提取目标演讲词。虽然视听目标发言者提取工作比模拟数据的单一模式方法具有更稳定的性能,但没有充分探讨其适应现实情况的适应性,也没有对真实记录混合物进行评价。处理现实情况的主要问题之一是如何使系统能够强有力地揭示腐败,因为在真实的录音中,两种线索可能不同样可靠,例如视觉线索可能受到隐蔽的影响。在这项工作中,我们提出了多模式融合的新关注机制及其培训方法,以便能够有效地捕捉线索的可靠性和重量的可靠性。我们的提案改进了通过1.0 dB对模拟数据的传统聚合机制的扭曲率信号。此外,我们还记录了与现实视觉线索腐败同时使用的视听数据集,并显示视听目标发言者的提取工作与我们关于真实数据的建议的成功工作。

1
下载
关闭预览

相关内容

商业数据分析,39页ppt
专知会员服务
162+阅读 · 2020年6月2日
【阿里巴巴-CVPR2020】频域学习,Learning in the Frequency Domain
ExBert — 可视化分析Transformer学到的表示
专知会员服务
32+阅读 · 2019年10月16日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
【资源】语音增强资源集锦
专知
8+阅读 · 2020年7月4日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【跟踪Tracking】15篇论文+代码 | 中秋快乐~
专知
18+阅读 · 2018年9月24日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【音乐】Attention
英语演讲视频每日一推
3+阅读 · 2017年8月22日
Arxiv
4+阅读 · 2019年8月7日
Arxiv
7+阅读 · 2017年12月28日
VIP会员
Top
微信扫码咨询专知VIP会员