人类能够轻松地利用先验知识与经验,从二维观测中理解三维环境。在 AR/VR 和机器人等领域,我们希望赋予视觉模型类似的能力,例如识别物体、估计其形状以及确定相机位置。然而,在推理阶段可用的信息往往模糊或不完整。为弥合这一差距,视觉模型可以通过从数据中学习来获取关于物体和环境的先验知识,从而增强其对三维世界的理解,并提升这些任务的性能。
在本论文中,我们探索了多种将学习型先验融入三维视觉模型的方法,从而在多个相关任务中提升了准确性与鲁棒性。我们首先聚焦于物体级三维视觉。针对单目物体重建,我们提出了一种基于射线的先验,该方法能够捕捉多层级特征,有效约束全局形状的同时保留精细细节。结合我们提出的基于射线的三维表示,该模型不仅实现了较高的准确性和泛化能力,还提升了推理速度。接着,我们提出了一种基于扩散模型的框架,利用来自多种来源的视觉先验,实现了类别无关的三维目标检测。该方法在域内任务上表现优异,并在复杂的真实场景中展现了对新类别物体的鲁棒性。
随后,我们将视角转向场景级三维视觉,研究已知与未知相机位姿下的场景结构与相机位姿的联合优化。在位姿信息不可用的情况下,我们引入了来自单目深度估计器的几何先验,以同时正则化几何结构与相对相机位姿,从而提升联合优化的鲁棒性。在可靠的位姿初始化可用时,我们进一步通过一种全局轨迹约束的替代参数化方式,以及结合对极几何损失引入的对应先验,对位姿与场景几何进行细化。最后,我们提出了多种几何先验来增强场景坐标回归,从而在重建与视觉重定位任务中取得了更优性能。