The goal of this paper is speaker diarisation of videos collected 'in the wild'. We make three key contributions. First, we propose an automatic audio-visual diarisation method for YouTube videos. Our method consists of active speaker detection using audio-visual methods and speaker verification using self-enrolled speaker models. Second, we integrate our method into a semi-automatic dataset creation pipeline which significantly reduces the number of hours required to annotate videos with diarisation labels. Finally, we use this pipeline to create a large-scale diarisation dataset called VoxConverse, collected from 'in the wild' videos, which we will release publicly to the research community. Our dataset consists of overlapping speech, a large and diverse speaker pool, and challenging background conditions.


翻译:本文的目标是对“ 野生” 收集的视频进行语音分解。 我们做出三大贡献。 首先, 我们提出YouTube视频的自动视听分解方法。 我们的方法包括使用视听方法和自我放大的演讲模型对演讲者进行积极的检测。 其次, 我们将我们的方法整合到半自动数据元件创建管道中, 从而大大减少用分解标签对视频进行批注所需的小时数。 最后, 我们利用这条管道来创建大规模分解数据集, 名为“ 野生” 视频中收集的VoxConvers, 我们将向研究界公开发布这些数据。 我们的数据集由相互重叠的演讲、 大型和多样化的演讲者库以及具有挑战性的背景条件组成 。

0
下载
关闭预览

相关内容

Linux导论,Introduction to Linux,96页ppt
专知会员服务
79+阅读 · 2020年7月26日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
154+阅读 · 2019年10月12日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
计算机视觉的不同任务
专知
5+阅读 · 2018年8月27日
carla 学习笔记
CreateAMind
9+阅读 · 2018年2月7日
深度学习医学图像分析文献集
机器学习研究会
19+阅读 · 2017年10月13日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
16+阅读 · 2021年7月18日
AutoML: A Survey of the State-of-the-Art
Arxiv
70+阅读 · 2019年8月14日
Neural Approaches to Conversational AI
Arxiv
8+阅读 · 2018年12月13日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
计算机视觉的不同任务
专知
5+阅读 · 2018年8月27日
carla 学习笔记
CreateAMind
9+阅读 · 2018年2月7日
深度学习医学图像分析文献集
机器学习研究会
19+阅读 · 2017年10月13日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员