本论文探索了如何利用在大规模合成数据上训练得到的显式三维几何表示,作为几何先验来提升机器人操作能力。尽管最近在几何理解方面取得了快速进展,但对未见对象和环境的泛化能力仍受限于现有三维训练数据的规模与多样性。虽然已有更多大规模三维数据集被发布,它们的规模仍明显小于图像和语言领域的数据集。此外,收集多样化的真实三维数据耗时且费力,限制了对真实物体和场景的覆盖范围。为应对这一挑战,本论文研究如何利用从大规模合成三维模型数据集中学习到的几何理解,在不进一步扩展真实世界三维训练数据的前提下,提高机器人操作任务的泛化能力。 作为第一步,第 2 章介绍了 RePOSE,一种快速且准确的 6D 物体位姿精修方法,为可扩展的几何感知奠定基础。第 3 章和第 4 章将通用几何先验的获取表述为一个三维几何任务上的监督学习问题。我们提出了两个框架,OctMAE 和 ZeroGrasp,分别通过形状重建和抓取姿态预测来学习几何先验。我们还引入了 ZeroGrasp-11B,一个包含 100 万张 RGB-D 图像、1.2 万个三维模型以及 110 亿条抓取数据的大规模合成数据集,专门用于训练此类模型。这些方法在公开基准上针对未见物体的形状重建和抓取姿态预测均取得了最新的最先进性能,展示了所学几何先验的强大泛化能力。真实世界的抓取与放置实验进一步验证了其在实际机器人场景中的适应性。 尽管所学习的几何先验在抓取与放置任务中表现强劲,机器人操作往往涉及更广泛的行为类型以及更长的时间跨度。为此,在第 5 章中,我们重点探讨如何将该先验融入模仿学习,以应对更复杂、长时间跨度的任务。为此,我们提出了 GeoFlow,一个基于流模型的三维视觉-运动策略学习框架,利用具有几何感知能力的预训练模型作为强先验。GeoFlow 在多个基准上取得了最先进的性能,并在存在杂乱物体和干扰项的情况下表现出更高的数据效率与鲁棒性,凸显了大规模几何预训练与稀疏体素表示对于构建可扩展、可泛化机器人学习系统的重要性。