近年来,深度学习推动的视觉内容创作取得了显著进展。这包括3D感知的生成图像合成,以3D一致的方式产生高保真图像,同时从纯图像集合中捕获紧凑的物体表面,而不需要任何3D监督,从而弥合了2D图像和3D现实之间的差距。3D感知生成模型表明,3D信息的引入可以使生成的图像更加可控。3D图像合成的任务已经席卷了计算机视觉领域,近年来(主要是在过去两年)有数百篇论文被顶级期刊和会议接受,但缺乏对这一显著而迅速的进展的全面调研。本文旨在介绍新的研究人员,为相关工作提供有用的参考,并通过讨论部分激发未来的研究方向。除了现有的论文,我们还将在https://weihaox.github.io/projects/awesome-3d-aware上不断更新最新的相关论文和相应的实现。
引言
深度生成模型已经取得了巨大的进展,导致了逼真的图像合成。尽管取得了令人信服的结果,但大多数方法专注于二维(2D)图像,忽略了物理世界的三维(3D)本质。因此,三维结构的缺乏不可避免地限制了它们的一些实际应用。因此,最近的一些工作提出了3D感知的生成模型,即场景在3D中建模,然后在图像平面上进行差异化渲染。与2D生成模型相比,最近开发的3D感知生成模型[1]、[2]在2D图像和3D物理世界之间架起了桥梁。我们周围的物理世界本质上是三维的,图像在一定的几何、材料和照明条件下描绘现实,因此在三维空间中建模图像生成过程是很自然的。如图1所示,经典渲染(a)在给定人类设计或扫描的3D形状模型的特定相机位置渲染图像;逆渲染(b)从2D图像中恢复3D物理世界的潜在内在属性;2D图像生成(c)主要由生成模型驱动,在真实感图像合成方面取得了令人印象深刻的成果;3D感知的图像合成(d)提供了用直接从图像学习的有效模型取代经典渲染管道的可能性。
尽管近年来三维图像合成的研究取得了惊人的进展,但对这一进展缺乏及时和系统的综述。在这项工作中,我们通过呈现三维感知图像合成方法的最新研究的全面调研来填补空白。我们的工作将阐明三维感知图像合成的设计考虑因素和先进方法,展示其不同种类的优缺点,并提出未来的研究方向。我们在图2中提供了这次调研的大纲和分类。我们建议将3D感知的图像合成方法分为三类:二维生成模型的3D控制(第3节)、来自多个视图的3D新视图合成(第4节)和来自单个视图的3D生成模型(第5节)。然后,根据实验设置或3D信息的具体利用,将每一类进一步划分为一些子类别。具体而言,二维生成模型的三维控制进一步分为1)三维控制潜在方向(第3.1节),2)三维参数作为控制(第3.2节),3)三维先验知识作为约束(第3.3节)。第4和第5节都总结了通过学习3D表示来生成逼真和多视点一致图像的方法。一般来说,这两类都是利用神经3D表示来表示场景,使用可微神经渲染器将场景渲染到图像平面,并通过最小化渲染图像与观察图像之间的差异来优化网络参数。然而,由于它们的应用场景截然不同,它们在多视图和单视图图像集合上的训练存在显著差异。此外,为了直观地展示这些代表性的生成式3D感知图像合成方法,我们将它们组织成前面提到的三个范例,在图3中按时间顺序概述了它们。
在这里,我们提出了一个及时的最新综述的三维图像合成的发展领域。考虑到缺乏全面的调查和日益增长的兴趣和普及,我们认为有必要组织一个帮助计算机视觉从业者与这一新兴课题。本次调研的目的是为该领域的新研究人员提供对3d感知图像合成方法的全面了解,并展示其优于现有方法的优越性能。最后,我们强调了几个有待进一步研究的研究方向和问题。这一迅速发展的领域的范围是相当广泛的,全面的综述将是具有挑战性的。我们将只介绍具有代表性的3D感知图像合成方法,而不是列出所有的文献。因此,这篇综述可以作为一种教学工具,为研究人员提供关于3D感知图像合成的典型方法的关键信息。研究人员可以使用这些通用的指导方针,为自己的特定研究开发最合适的技术。这项工作的主要技术贡献如下:
层次分类。我们为三维图像合成研究提出了一个系统的分类法。我们将现有的模型分为三类:2D生成模型的3D控制、单视图的3D生成模型和多视图的新视图合成。
全面地综述。我们提供了现有的最先进的三维图像合成方法的全面概述。我们比较和分析每种类型的主要特点和改进,评估它们的优缺点。
出色的挑战。在此基础上,提出了三维感知图像合成的若干研究问题,并对其未来发展提出了一些建议。
为了持续跟踪这一快速发展领域的最新发展,我们提供了一个相应的网页,根据我们的基于问题的分类:https://weihaox,该网页对处理3d感知图像合成的论文进行了分类。github.io /项目/ awesome-3d-aware。
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
后台回复“3D26” 就可以获取《 伦敦大学学院最新《三维图像合成技术》综述,26页pdf阐述3D图像合成技术进展》专知下载链接