深度学习的出现为许多基本的计算机视觉任务带来了巨大的进展,如分类、检测和分割,这些任务描述了图像和视频中物体的类别和位置。在监督学习方面也做了很多工作--教机器使用人类注释的标签来解决这些任务。然而,机器只知道某些物体的名称和位置是不够的;许多任务需要对复杂的物理世界有更深入的了解--例如,物体与周围环境的互动(通常通过创造阴影、反射、表面变形和其他视觉效果)。此外,在严重依赖人类监督的情况下,训练模型来解决这些任务,成本很高,而且不切实际,难以推广。因此,本论文探索了两个方向:首先,我们的目标是超越分割,解决一个全新的任务:将物体与其相关的视觉效果(如阴影、反射或附着的物体)分组;其次,我们以自我监督的方式解决视频物体分割的基本任务,而不依赖任何人类注释。
https://ora.ox.ac.uk/objects/uuid:6c722b16-1a13-4ae1-aebb-fb7026820a64
为了将物体与其相关的视觉效果自动分组,我们采用了一种分层的方法:我们的目标是将视频分解成特定的物体层,其中包含所有与物体一起移动的元素。这些层的一个应用是,它们可以以新的方式重新组合,以产生一个高度真实的、经过改变的原始视频版本(例如,删除或复制物体,或改变其运动的时间)。这里的关键是利用卷积神经网络的自然属性来获得输入视频的分层分解。我们设计了一个神经网络,通过对视频的过度拟合,为视频输出层。我们首先介绍了一种针对人类的方法,然后展示了如何将其适应于任意的物体类别,如动物或汽车。我们的第二个任务是视频物体分割:为视频中的物体产生像素级的标签(段)。我们以前的工作是在单个视频上进行优化,而在这里,我们采取了一种数据驱动的方法,以自我监督的方式对大量的视频语料库进行训练。我们考虑了两种不同的任务设置:(1)半监督物体分割,即为单一帧提供初始物体掩码,该方法必须将该掩码传播到其余帧;(2)移动物体发现,即不提供掩码,该方法必须分割突出的移动物体。我们探讨了两种不同的输入流。RGB和光流,并讨论它们与人类视觉系统的联系。