从图像中重建三维场景和物体一直是计算机视觉的长期目标。近年来,我们在这方面取得了巨大进展,能够从任何视点生成近乎逼真的渲染。然而,现有方法通常依赖大量输入图像(通常为50-100张)来计算相机姿态并确保视图一致性。这一限制减少了这些方法的适用性,因为获取100张高质量且无运动模糊的图像对于终端用户来说可能是个负担。为了在非受限场景中实现三维重建,这篇论文提出了稀疏视角三维重建技术,自动估计相机姿态并从少于10张图像中重建野外三维物体。我们首先探讨了如何利用隐式表面来正则化从稀疏视角学习到的三维表示。我们证明了我们的表示方法可以将视角依赖的镜面效应与视角无关的漫反射外观分离开,从而能够从4-8张伴随噪声相机姿态的图像中稳健地重建三维。然而,首先获得这种相机姿态初始化是具有挑战性的。为了解决这个问题,我们提出了一个基于能量的框架,用于预测相对相机旋转的概率分布。然后将这些分布组合成稀疏图像集中的一致相机旋转集合。接着,我们展示了如何利用基于transformer的架构来扩展我们的基于能量的表示,从而有效利用更多的图像。我们发现,额外的图像上下文使我们的方法能够解决仅使用两张图像时产生的歧义问题。虽然自上而下的基于能量的姿态估计能够有效处理姿态歧义,但它在采样姿态时可能较慢,并且没有利用可能提供有用线索的级别特征来进行对应匹配和几何一致性。为了解决这些问题,我们提出将相机表示为从相机中心到每个图像补丁中心的一束射线。然后我们训练了一个基于扩散的去噪网络来预测这种表示。我们发现,这种通用的相机表示显著提高了姿态准确性。