【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

2020 年 8 月 11 日 专知


我们的目标是利用自监督学习将视频转换成一组离散的视听对象。为此,我们介绍了一个模型,它使用注意力来定位和分组声源,以及光流来随时间聚合信息。我们通过使用我们的模型学习的视听对象嵌入四个下游的面向语音的任务(a)多说话人的声源分离,(b)定位和跟踪说话人,(c)纠正不正确的视听数据,和(d)主动说话人检测的有效性。利用我们的表示法,这些任务完全可以通过训练未标记的视频来解决,而不需要物体检测器的帮助。我们还通过将我们的方法应用于非人类演讲者,包括卡通和木偶,来展示我们方法的普遍性。我们的模型显著优于其他自监督方法,并获得与使用监督人脸检测方法竞争的性能。


https://arxiv.org/abs/2008.04237



专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“SSLV” 可以获取《【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化》专知下载链接索引

专 · 知
专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程视频资料和与专家交流咨询
点击“阅读原文”,了解使用专知,查看5000+AI主题知识资料
登录查看更多
8

相关内容

自监督学习(self-supervised learning)可以被看作是机器学习的一种“理想状态”,模型直接从无标签数据中自行学习,无需标注数据。
【视频】几何数据嵌入表示学习,74页ppt
专知会员服务
33+阅读 · 2020年7月24日
【牛津大学&DeepMind】自监督学习教程,141页ppt
专知会员服务
177+阅读 · 2020年5月29日
少标签数据学习,54页ppt
专知会员服务
196+阅读 · 2020年5月22日
【CVPR2020-Facebook AI】前置不变表示的自监督学习
专知会员服务
46+阅读 · 2020年4月19日
新任务&数据集:视觉常识推理(VCR)
专知
50+阅读 · 2018年12月1日
基于深度学习的文本生成【附217页PPT下载】
专知
35+阅读 · 2018年11月24日
Arxiv
15+阅读 · 2020年2月6日
Arxiv
21+阅读 · 2019年3月25日
Arxiv
5+阅读 · 2018年4月30日
VIP会员
Top
微信扫码咨询专知VIP会员