作为人类,我们天生就有一种关于场景或图片中物体的概念。即使没有颜色或纹理,我们也能识别物体的存在。我们对物体的感知通常不是原子式的,有时是任务依赖的。我们甚至可以毫不犹豫地识别和计数未见过类别的物体实例。心理学研究提到过格式塔法则,作为我们在没有监督的情况下寻找物体的线索。拥有正确的基础,使机器能够在没有监督的情况下识别场景中的物体,可以减少对手工标注训练数据集的依赖。因此,模型会具有更好的领域外泛化能力。此外,它可以通过限制人与训练数据集的互动,绕过训练数据集固有的偏差。根据设计选择,模型可能会变得更加可靠、值得信赖和可解释。本文讨论了神经网络架构设计和训练方法,使其能够在没有监督的情况下将图像分解为感兴趣的物体。二维无监督物体分割的主要挑战是区分感兴趣的前景物体和背景。FlowCapsules 使用运动作为二维场景中感兴趣物体的线索。本文的最后部分集中在三维应用中,目标是从输入图像中检测和去除感兴趣的物体。在这些任务中,我们利用三维场景的几何一致性来检测不一致的动态物体。我们的瞬态物体掩码随后用于设计鲁棒的优化内核,以改进随意拍摄设置下的三维建模。本文的目标之一是展示计算机视觉中无监督物体方法的优点。此外,我们提出了在不需要监督的情况下定义感兴趣物体或前景物体的可能方向。我们的希望是激励并激发社区进一步探索图像理解任务中的显式物体表示。