本文提出了一种基于无监督学习的视频目标分割方法。与之前的工作不同,我们的公式允许在完全卷积的情况下直接学习密集特征表示。我们依靠统一的网格采样来提取一组锚点,并训练我们的模型来在视频间和视频内消除它们之间的歧义。然而,训练这样一个模型的朴素方案会得到一个退化解。我们提出了一种简单的正则化方案来防止这种情况,该方案适应了分割任务对相似变换的等方差特性。我们的训练目标实现高效,并表现出快速的训练趋同。在已建立的VOS基准上,我们的方法超过了以前工作的分割精度,尽管使用的训练数据和计算能力明显更少。
https://www.zhuanzhi.ai/paper/0ef8bdd09f3e46584b83f6236ca799fb