我们的目标是利用自监督学习将视频转换成一组离散的视听对象。为此,我们介绍了一个模型,它使用注意力来定位和分组声源,以及光流来随时间聚合信息。我们通过使用我们的模型学习的视听对象嵌入四个下游的面向语音的任务(a)多说话人的声源分离,(b)定位和跟踪说话人,(c)纠正不正确的视听数据,和(d)主动说话人检测的有效性。利用我们的表示法,这些任务完全可以通过训练未标记的视频来解决,而不需要物体检测器的帮助。我们还通过将我们的方法应用于非人类演讲者,包括卡通和木偶,来展示我们方法的普遍性。我们的模型显著优于其他自监督方法,并获得与使用监督人脸检测方法竞争的性能。

Self-Supervised Learning of Audio-Visual Objects from Video

https://arxiv.org/abs/2008.04237

成为VIP会员查看完整内容
19

相关内容

自监督学习(self-supervised learning)可以被看作是机器学习的一种“理想状态”,模型直接从无标签数据中自行学习,无需标注数据。
【视频】几何数据嵌入表示学习,74页ppt
专知会员服务
33+阅读 · 2020年7月24日
【牛津大学&DeepMind】自监督学习教程,141页ppt
专知会员服务
179+阅读 · 2020年5月29日
少标签数据学习,54页ppt
专知会员服务
198+阅读 · 2020年5月22日
【CVPR2020-Facebook AI】前置不变表示的自监督学习
专知会员服务
46+阅读 · 2020年4月19日
AAAI 2020 | 北大:图卷积中的多阶段自监督学习算法
AI科技评论
8+阅读 · 2020年1月12日
【泡泡点云时空】基于分割方法的物体六维姿态估计
泡泡机器人SLAM
18+阅读 · 2019年9月15日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
通过视频着色进行自监督跟踪
谷歌开发者
3+阅读 · 2018年7月11日
Arxiv
21+阅读 · 2019年3月25日
Arxiv
5+阅读 · 2018年4月30日
Arxiv
7+阅读 · 2018年3月19日
VIP会员
微信扫码咨询专知VIP会员