视觉世界由离散的、有意义的物体组成,人类能够在没有监督的情况下轻松地感知并分割这些物体。在计算机视觉中模拟这一能力是一个根本性的问题,为监督方法提供了一种更具认知合理性和可扩展性的替代方案。本文探讨了不依赖于密集掩码标注的情况下,发现视觉物体的原则性方法。 首先,我们探讨了组合性原则(principle of compositionality),该原则认为场景是由离散的、可重用的物体组成的。基于这一原则,已有许多方法,但我们注意到它们仅适用于简单的环境。为此,我们引入了一系列新的基准数据集,分析现有方法是否能扩展到视觉上复杂的输入。大多数方法在处理复杂场景时表现不佳,需要更简单、统一的外观才能产生良好的分割效果。 其次,我们探讨了共同命运原则(principle of common fate),该原则认为一起运动的实体应当被归为一组。我们设计了几种损失函数,将掩码预测与场景运动的估计关联起来,以处理二物体和多物体的场景。我们提出的这些方法可以应用于各种现有的分割方法,借助运动学习来补充其学习原理。 随后,我们考虑了瞬时运动的局限性,并提出了使用稀疏点轨迹来整合长期运动信息。为实现这一目标,我们设计了一种损失函数,强化了这样一个理念:一个物体中的轨迹应具有较高的冗余性。 最后,我们探索了如何利用现有语言结构来进行物体分割,而无需任何密集的掩码标注。我们构建了一种开放词汇分割方法,使用预训练的文本到图像扩散模型(text-to-image diffusion model)将语言与物体的视觉表示相连接。这种方法避免了进一步训练,展示了文本到图像扩散模型作为强大的开放词汇分割方法的潜力。

成为VIP会员查看完整内容
0

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
微信扫码咨询专知VIP会员