在本文中,我们研究了在自然环境下使用无标记视频进行视觉对应的自监督学习。我们的方法同时考虑视频内和视频间的表示关联,以获得可靠的对应估计。视频内学习通过帧对相似性在单个视频中跨帧转换图像内容。为了获得实例级分离的判别表示,我们在视频内部分析的基础上,构造了视频间的相似关系,以方便不同视频之间的对比变换。通过强制视频内级和视频间级之间的转换一致性,可以很好地保留细粒度的对应关联,有效地加强实例级特征识别。在视频目标跟踪(VOT)、视频目标分割(VOS)、姿态关键点跟踪等一系列视觉任务上,我们的简单框架的性能优于最近的自监督对应方法。值得一提的是,我们的方法也超过了完全监督的相似表示(如ResNet),并与最近为特定任务(如VOT和VOS)设计的完全监督算法相媲美。