本文提出了从视频无监督的时空表示学习的大规模研究。借助对四个基于图像的最新框架的统一观点,我们研究了一个简单的目标,可以轻松地将所有这些方法推广到时空。我们的目标是鼓励在同一视频中使用时间上持久的特征,尽管它简单易用,但在以下情况下却表现出色:(i)不同的无监督框架,(ii)预训练数据集,(iii)下游数据集,以及(iv) 骨干架构。我们从这项研究中得出了一系列有趣的观察结果,例如,我们发现,即使跨度为60秒,鼓励长时间跨度的持久性也是有效的。除了在多个基准测试中得到的最新结果之外,我们还报告了一些有希望的案例,其中无监督的预训练可以胜过其有监督的预训练。
https://www.zhuanzhi.ai/paper/c814846601d2bda3489e56a681716b05