本文提出了从视频无监督的时空表示学习的大规模研究。借助对四个基于图像的最新框架的统一观点,我们研究了一个简单的目标,可以轻松地将所有这些方法推广到时空。我们的目标是鼓励在同一视频中使用时间上持久的特征,尽管它简单易用,但在以下情况下却表现出色:(i)不同的无监督框架,(ii)预训练数据集,(iii)下游数据集,以及(iv) 骨干架构。我们从这项研究中得出了一系列有趣的观察结果,例如,我们发现,即使跨度为60秒,鼓励长时间跨度的持久性也是有效的。除了在多个基准测试中得到的最新结果之外,我们还报告了一些有希望的案例,其中无监督的预训练可以胜过其有监督的预训练。

https://www.zhuanzhi.ai/paper/c814846601d2bda3489e56a681716b05

成为VIP会员查看完整内容
22

相关内容

专知会员服务
38+阅读 · 2021年5月16日
专知会员服务
20+阅读 · 2021年5月1日
专知会员服务
43+阅读 · 2021年4月18日
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
37+阅读 · 2021年4月9日
【CVPR2021】背景鲁棒的自监督视频表征学习
专知会员服务
15+阅读 · 2021年3月13日
【AAAI2021】时间关系建模与自监督的动作分割
专知会员服务
36+阅读 · 2021年1月24日
专知会员服务
19+阅读 · 2020年12月11日
【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练
专知会员服务
14+阅读 · 2020年10月27日
【ACL2020-Facebook AI】大规模无监督跨语言表示学习
专知会员服务
33+阅读 · 2020年4月5日
ICML2020 图神经网络的预训练
图与推荐
12+阅读 · 2020年4月4日
通过视频着色进行自监督跟踪
谷歌开发者
3+阅读 · 2018年7月11日
2017上半年无监督特征学习研究成果汇总
全球人工智能
6+阅读 · 2017年9月12日
Grounding Spatio-Temporal Language with Transformers
Arxiv
0+阅读 · 2021年6月16日
Arxiv
9+阅读 · 2021年2月8日
UNITER: Learning UNiversal Image-TExt Representations
Arxiv
23+阅读 · 2019年9月25日
Arxiv
3+阅读 · 2018年8月27日
Arxiv
7+阅读 · 2018年1月24日
VIP会员
相关VIP内容
专知会员服务
38+阅读 · 2021年5月16日
专知会员服务
20+阅读 · 2021年5月1日
专知会员服务
43+阅读 · 2021年4月18日
【CVPR2021】基于端到端预训练的视觉-语言表征学习
专知会员服务
37+阅读 · 2021年4月9日
【CVPR2021】背景鲁棒的自监督视频表征学习
专知会员服务
15+阅读 · 2021年3月13日
【AAAI2021】时间关系建模与自监督的动作分割
专知会员服务
36+阅读 · 2021年1月24日
专知会员服务
19+阅读 · 2020年12月11日
【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练
专知会员服务
14+阅读 · 2020年10月27日
【ACL2020-Facebook AI】大规模无监督跨语言表示学习
专知会员服务
33+阅读 · 2020年4月5日
相关论文
Grounding Spatio-Temporal Language with Transformers
Arxiv
0+阅读 · 2021年6月16日
Arxiv
9+阅读 · 2021年2月8日
UNITER: Learning UNiversal Image-TExt Representations
Arxiv
23+阅读 · 2019年9月25日
Arxiv
3+阅读 · 2018年8月27日
Arxiv
7+阅读 · 2018年1月24日
微信扫码咨询专知VIP会员