【牛津博士论文】无监督物体学习（Unsupervised Object Learning）

视觉世界由离散的、有意义的物体组成，人类能够在没有监督的情况下轻松地感知并分割这些物体。在计算机视觉中模拟这一能力是一个根本性的问题，为监督方法提供了一种更具认知合理性和可扩展性的替代方案。本文探讨了不依赖于密集掩码标注的情况下，发现视觉物体的原则性方法。首先，我们探讨了组合性原则（principle of compositionality），该原则认为场景是由离散的、可重用的物体组成的。基于这一原则，已有许多方法，但我们注意到它们仅适用于简单的环境。为此，我们引入了一系列新的基准数据集，分析现有方法是否能扩展到视觉上复杂的输入。大多数方法在处理复杂场景时表现不佳，需要更简单、统一的外观才能产生良好的分割效果。其次，我们探讨了共同命运原则（principle of common fate），该原则认为一起运动的实体应当被归为一组。我们设计了几种损失函数，将掩码预测与场景运动的估计关联起来，以处理二物体和多物体的场景。我们提出的这些方法可以应用于各种现有的分割方法，借助运动学习来补充其学习原理。随后，我们考虑了瞬时运动的局限性，并提出了使用稀疏点轨迹来整合长期运动信息。为实现这一目标，我们设计了一种损失函数，强化了这样一个理念：一个物体中的轨迹应具有较高的冗余性。最后，我们探索了如何利用现有语言结构来进行物体分割，而无需任何密集的掩码标注。我们构建了一种开放词汇分割方法，使用预训练的文本到图像扩散模型（text-to-image diffusion model）将语言与物体的视觉表示相连接。这种方法避免了进一步训练，展示了文本到图像扩散模型作为强大的开放词汇分割方法的潜力。

成为VIP会员查看完整内容

相关内容

博士论文

关注 126

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

VIP会员