In this work, we present a novel audio-visual dataset for active speaker detection in the wild. A speaker is considered active when his or her face is visible and the voice is audible simultaneously. Although active speaker detection is a crucial pre-processing step for many audio-visual tasks, there is no existing dataset of natural human speech to evaluate the performance of active speaker detection. We therefore curate the Active Speakers in the Wild (ASW) dataset which contains videos and co-occurring speech segments with dense speech activity labels. Videos and timestamps of audible segments are parsed and adopted from VoxConverse, an existing speaker diarisation dataset that consists of videos in the wild. Face tracks are extracted from the videos and active segments are annotated based on the timestamps of VoxConverse in a semi-automatic way. Two reference systems, a self-supervised system and a fully supervised one, are evaluated on the dataset to provide the baseline performances of ASW. Cross-domain evaluation is conducted in order to show the negative effect of dubbed videos in the training data.


翻译:在这项工作中,我们展示了一个用于在野外积极语音检测的新颖的视听数据集。 当一个发言者的面部可见且声音同时可听时,该发言者被视为活跃的视听数据集。虽然积极语音检测是许多视听任务的关键预处理步骤,但目前没有关于自然人类言语的现有数据集来评价积极语音检测的性能。因此,我们在野外(ASW)数据集中,我们翻译了活跃的发言者数据集,该数据集包含带密集语音活动标签的视频和共同发声部分。在VoxConvers提供并采纳了可听部分的视频和时间戳。VoxConvers是现有由野外视频组成的语音对称数据集。从视频中提取了面迹,根据VoxConvers的时标半自动方式,对活动部分作了附加说明。在数据集上评价了两个参考系统,一个是自我监督的系统,一个是完全受监督的系统,以提供ASW的基线性能。进行了交叉评价,以显示培训数据中被涂饰的视频的负面效果。

0
下载
关闭预览

相关内容

专知会员服务
60+阅读 · 2020年3月19日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
MMDetection v2.0 训练自己的数据集
CVer
30+阅读 · 2020年8月9日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
11+阅读 · 2018年3月15日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
【今日新增】IEEE Trans.专刊截稿信息8条
Call4Papers
7+阅读 · 2017年6月29日
Arxiv
20+阅读 · 2020年6月8日
Deep Learning for Deepfakes Creation and Detection
Arxiv
6+阅读 · 2019年9月25日
Arxiv
5+阅读 · 2018年5月22日
VIP会员
相关VIP内容
专知会员服务
60+阅读 · 2020年3月19日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
MMDetection v2.0 训练自己的数据集
CVer
30+阅读 · 2020年8月9日
无人机视觉挑战赛 | ICCV 2019 Workshop—VisDrone2019
PaperWeekly
7+阅读 · 2019年5月5日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
11+阅读 · 2018年3月15日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
【今日新增】IEEE Trans.专刊截稿信息8条
Call4Papers
7+阅读 · 2017年6月29日
Top
微信扫码咨询专知VIP会员