Although speaker verification has conventionally been an audio-only task, some practical applications provide both audio and visual streams of input. In these cases, the visual stream provides complementary information and can often be leveraged in conjunction with the acoustics of speech to improve verification performance. In this study, we explore audio-visual approaches to speaker verification, starting with standard fusion techniques to learn joint audio-visual (AV) embeddings, and then propose a novel approach to handle cross-modal verification at test time. Specifically, we investigate unimodal and concatenation based AV fusion and report the lowest AV equal error rate (EER) of 0.7% on the VoxCeleb1 dataset using our best system. As these methods lack the ability to do cross-modal verification, we introduce a multi-view model which uses a shared classifier to map audio and video into the same space. This new approach achieves 28% EER on VoxCeleb1 in the challenging testing condition of cross-modal verification.


翻译:虽然发言者的核查是传统的独有音频任务,但有些实际应用提供了视听输入流。在这些情况下,视觉流提供了补充信息,而且往往可以与语音声学一起利用,以提高核查性能。在本研究中,我们探索了对发言者核查的视听方法,首先从标准的聚合技术开始,学习联合视听嵌入器,然后提出一种新的方法,在试验时处理跨模式核查。具体地说,我们调查以AV聚合为基础的单式和组合,并利用我们的最佳系统报告VoxCeleb1数据集中0.7 % 的最低AV等值误差率(ER)。由于这些方法缺乏进行跨模式核查的能力,我们引入了一个多视角模型,使用共用的分类器将音像带入同一空间。在具有挑战性的跨模式核查测试条件中,这一新方法在VoxCeleb1上实现了28%的 VoxCeleb1 EER。

0
下载
关闭预览

相关内容

Linux导论,Introduction to Linux,96页ppt
专知会员服务
76+阅读 · 2020年7月26日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
161+阅读 · 2020年3月18日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
二值多视角聚类:Binary Multi-View Clustering
我爱读PAMI
4+阅读 · 2018年6月24日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
ActivityNet Challenge 2017 冠军方案分享
极市平台
4+阅读 · 2017年7月25日
Arxiv
0+阅读 · 2021年4月7日
Arxiv
1+阅读 · 2021年4月5日
VIP会员
相关VIP内容
Linux导论,Introduction to Linux,96页ppt
专知会员服务
76+阅读 · 2020年7月26日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
161+阅读 · 2020年3月18日
Top
微信扫码咨询专知VIP会员