本文提出了一种融合了对比学习和概率表示的自监督表示学习方法——概率视频对比学习。我们假设构成视频的片段在短期内有不同的分布,但可以通过组合在一个共同的嵌入空间中来表示复杂和复杂的视频分布。因此,该方法将视频片段表示为正态分布,并将它们组合成混合高斯分布来建模整个视频分布。通过从整个视频分布中进行采样嵌入,我们可以绕过仔细的采样策略或转换来生成视频片段的增强视图,而不像以前的确定性方法主要关注对比学习中的这种样本生成策略。我们进一步提出了一种随机对比损失来学习合适的视频分布和处理原始视频的固有不确定性。实验结果证明,在UCF101和HMDB51等最流行的基准上,我们的概率嵌入是一种最先进的视频表示学习,用于动作识别和视频检索。
https://www.zhuanzhi.ai/paper/e9a8860b49e4b44cee3e7cf2b74a4c33