人类在理解和推理我们的三维视觉世界方面具有非凡的能力。通过仅仅几次随意的观察,我们就能把握周围环境的三维结构和外观,并在心中想象各种“如果”情景。相比之下,现有的三维系统做不到这一点。它们缺乏对世界的结构性理解,并且当被转移到不受限制的、部分观察到的、嘈杂的环境中时常常会出问题。为了缓解这一挑战,本论文专注于开发能够有效感知、建模和模拟三维世界的鲁棒计算工具,从不受约束的感官数据中出发。我们研究了动态三维世界理解的全谱:从机器人定位到识别,从静态三维重建到动态运动估计,以及从闭环仿真到三维生成。通过不仅在受控环境中,而且在稀疏、嘈杂,有时甚至是极端的现实世界环境中检查这些任务,我们旨在回答以下两个问题:(i)如何鲁棒地建模和推理我们所看到的可见世界;以及(ii)如何幻想未见之物,并以现实的方式想象新颖的场景。