We introduce a new approach for audio-visual speech separation. Given a video, the goal is to extract the speech associated with a face in spite of simultaneous background sounds and/or other human speakers. Whereas existing methods focus on learning the alignment between the speaker's lip movements and the sounds they generate, we propose to leverage the speaker's face appearance as an additional prior to isolate the corresponding vocal qualities they are likely to produce. Our approach jointly learns audio-visual speech separation and cross-modal speaker embeddings from unlabeled video. It yields state-of-the-art results on five benchmark datasets for audio-visual speech separation and enhancement, and generalizes well to challenging real-world videos of diverse scenarios. Our video results and code: http://vision.cs.utexas.edu/projects/VisualVoice/.


翻译:我们引入了一种新的视听语言分离方法。在视频中,我们的目标是在同时使用背景声音和/或其他人类演讲者的情况下,提取与面孔有关的演讲。虽然现有的方法侧重于学习演讲者的嘴唇运动和声音之间的调和,但我们建议利用演讲者的面貌作为额外手段,在隔离他们可能制作的相应的声质之前,利用演讲者的面貌。我们的方法是共同学习视听语言分离和跨模式演讲者从未贴标签的视频中嵌入。它为视听语言分离和强化的五个基准数据集提供了最先进的结果,并概括了挑战现实世界不同情景的视频。我们的视频结果和代码是:http://vision.cs.utexas.edu/projects/VisualVoice/。

0
下载
关闭预览

相关内容

无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
人工智能 | AAAI 2019等国际会议信息7条
Call4Papers
5+阅读 · 2018年9月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
人工智能 | 国际会议截稿信息9条
Call4Papers
4+阅读 · 2018年3月13日
人工智能 | 国际会议/SCI期刊约稿信息9条
Call4Papers
3+阅读 · 2018年1月12日
微软发布Visual Studio Tools for AI
AI前线
4+阅读 · 2017年11月20日
Arxiv
8+阅读 · 2021年2月1日
Learning Blind Video Temporal Consistency
Arxiv
3+阅读 · 2018年8月1日
Arxiv
9+阅读 · 2016年10月27日
VIP会员
相关VIP内容
Top
微信扫码咨询专知VIP会员