卫星影像的广泛可用性,例如在Google Earth等平台上的应用,极大地增强了人们绘制和可视化地球表面的能力。尽管卫星影像具有广覆盖性和易获取性,但其分辨率通常有限,缺乏探索感兴趣环境(尤其是城市区域)所需的细节。街景图像则在场景理解方面提供了重要的洞察力和实用性,从城市规划到户外导航,再到增强现实的多种应用都受益于街景图像。然而,获取街景图像成本高昂,并且需要频繁更新以保持准确性。相比之下,卫星影像更易获取且无处不在,因此成为生成街景图像的有前景替代方案。这一过程被称为卫星到地面跨视图合成(satellite-to-ground cross-view synthesis),因其广泛的实际应用前景而受到广泛关注。 从卫星图像直接生成地面视图需要克服显著的技术挑战,这主要是由于两类图像在视角和尺度上的巨大差异。本研究探讨了创新方法,旨在生成几何上一致且符合对应卫星图像的3D城市场景和街景图像,同时在不同视角之间保持强鲁棒的多视图一致性,并提升跨视图合成和大规模3D城市场景的质量和真实感。 为实现这一目标,我们首先在生成管线中引入了一种地理变换层(geo-transformation layer)。该层通过估算的地面高度值构建密集体素网格,并将信息从俯视图转换为街景视图,从而保留了物理的卫星到地面的关系,解决了几何一致性问题。接着,通过在几何中计算3D场景点云与帧像素之间的密集映射,我们提出了一种考虑点间空间关系的3D稀疏生成器,解决了在生成图像序列时的多视图一致性问题。此外,在隐式辐射场(implicit radiance field)爆炸性应用的背景下,我们进一步探索了神经场景表示在有限部分观测下完成3D场景的潜在生成能力。我们提出了一种基于稀疏网格表示的可扩展新视图合成管线,可以为大量不完整的场景数据填充合理的信息。
最后,我们不再仅局限于图像或视频生成,而是进一步提升到整个大规模场景的生成。我们的方法将扩散模型引入3D稀疏表示中,用于直接生成3D场景,并结合基于点的神经渲染技术,从任意视角生成一致且合理的图像或视频。
通过利用生成模型和神经渲染技术的最新进展,我们旨在提升场景级生成能力,弥合通过卫星图像生成一致地面视图的鸿沟,并释放其在虚拟建模、地图服务、3D城市设计、游戏、仿真以及跨视图匹配等多样化应用中的巨大潜力。本研究希望挖掘卫星影像的全部潜能,为理解我们所处的世界及其环境提供更深刻的洞察力。