自监督视频表示方法主要关注视频中时间属性的表示。然而,静态属性与非静态属性的作用却很少被探索:静态特征在整个视频中都保持着相似,它能够预测视频级别的动作类。表示时间变化属性的非平稳特征对于涉及更细粒度的时间理解(如动作分割)的下游任务更有利。我们认为用单一的表示来捕获两种类型的特征是次优的,并提出通过对长和短视图的对比学习,即长视频序列及其短子序列,将表示空间分解为平稳和非平稳特征。静止特征在短期和长期视图之间共享,而非静止特征聚合短期视图以匹配相应的长期视图。为了验证我们的方法,我们证明了我们的固定特征在动作识别下游任务上工作得特别好,而我们的非固定特征在动作分割上表现得更好。此外,我们分析了学习的表征,发现平稳特征捕获更多的时间稳定的静态属性,而非平稳特征包含更多的时间变化的属性。
https://www.zhuanzhi.ai/paper/084c413e8f11e0bb93c51b0b978ea784