时空表示学习是视频自监督表示的关键。目前的学习方法主要是对比学习和前置任务。然而,这些方法都是通过潜在空间中的特征相似度来判别采样实例来学习表征,而忽略了学习表征的中间状态,从而限制了整体性能。在这项工作中,考虑采样实例的相似程度作为中间状态,我们提出了一个新的前置任务-时空重叠率(spatial - temporal overlap rate, STOR)预测。它源于人类能够分辨视频在空间和时间上的重叠率。这个任务鼓励模型区分两个生成样本的STOR来学习表示。此外,我们采用结合前置任务和对比学习的联合优化方法来进一步增强时空表示学习。我们还研究了所提出方案中各组成部分的相互影响。大量实验表明,本文提出的语料存储任务对对比学习和托词学习都有较好的效果。联合优化方案可以显著提高视频理解的时空表征。代码可以在https://github.com/Katou2/CSTP上找到。
https://www.zhuanzhi.ai/paper/c0dee275900d84eb9dddb0d36111a0ed