深度学习背景下的图像三维重建技术进展综述

三维重建是指从单幅或多幅二维图像中重建出物体的三维模型并对三维模型进行纹理映射的过程。三维重建可获取从任意视角观测并具有色彩纹理的三维模型，是计算机视觉领域的一个重要研究方向。传统的三维重建方法通常需要输入大量图像，并进行相机参数估计、密集点云重建、表面重建和纹理映射等多个步骤。近年来，深度学习背景下的图像三维重建受到了广泛关注，并表现出了优越的性能和发展前景。本文对深度学习背景下的图像三维重建的技术方法、评测方法和数据集进行全面综述。首先对三维重建进行分类，根据三维模型的表示形式可将图像三维重建方法分类为基于体素的三维重建、基于点云的三维重建和基于网格的三维重建；根据输入图像的类型可将图像三维重建分类为单幅图像三维重建和多幅图像三维重建。随后介绍了不同类别的三维重建方法，从三维重建方法的输入、三维模型表示形式、模型纹理颜色、重建网络的基准值类型和特点等方面进行总结，归纳了深度学习背景下的图像三维重建方法的常用数据集和实验对比，最后总结了当前图像三维重建领域的待解决问题以及未来的研究方向。

三维重建的目标是从单幅或多幅二维图像中重建出物体和场景的三维模型并对三维模型进行纹理映射。三维重建是计算机视觉领域的一个重要研究方向，利用计算机重建出物体的三维模型，已经成为众多领域进行深入研究前不可或缺的一部分。在医疗领域中，利用三维模型诊断身体状况；在历史文化领域中，将文物进行立体重建，供科学研究及游客参观。除此之外，在游戏开发、工业设计以及航天航海等领域，三维重建技术具有重要的应用前景。目前，研究人员主要利用 3 类方法来重建三维模型，1）直接操作的人工几何建模技术；2）利用三维扫描设备对目标进行扫描，然后重建目标的三维模型；3）图像三维重建，采集单幅或多幅图像，运用计算机视觉技术来重建三维模型。在上述 3 种方法中，图像三维重建成本低、操作简单，可以对不规则的自然或人工合成物体进行建模，重建真实物体的三维模型。传统的图像三维重建是从多视图几何（Andrew，2001）的角度进行处理，从几何上理解和分析从三维到二维的投影过程，设计从二维到三维的逆问题解决方案进行三维重建。传统的三维重建通常需要大量已知相机参数的图像，并进行相机参数估计、密集点云重建和表面重建等多个步骤。随着卷积神经网络（convolutional neural network，CNN）的发展，深度学习广泛应用于计算机视觉中的各种领域，基于深度学习的技术方法利用先验知识来解决各种复杂问题。人们通常能够对物体和场景建立丰富的先验知识，便于从单一视角重建物体的立体模型，推断物体的大小和其他视角的形状。深度学习背景下的图像三维重建方法利用大量数据建立先验知识，将三维重建转变为编码与解码问题，从而对物体进行三维重建。随着三维数据集的数量不断增加，计算机的计算能力不断提升，深度学习背景下的图像三维重建方法能够在无需复杂的相机校准的情况下从单幅或多幅二维图像中重建物体的三维模型。三维模型的表示形式有3种：体素模型、网格模型和点云模型。体素是三维空间中的正方体，相当于三维空间中的像素；网格是由多个三角形组成的多面体结构，可以表示复杂物体的表面形状；点云是坐标系中的点的集合，包含了三维坐标、颜色和分类值等信息。三维模型的表示形式如图1所示。根据三维模型的表示形式可以将图像三维重建方法分类为基于体素的三维重建、基于点云的三维重建和基于网格的三维重建。其中，基于网格的三维重建方法包含单一颜色的网格三维重建和具有色彩纹理的网格三维重建。根据输入图像的类型可将图像三维重建分类为单幅图像三维重建和多幅图像三维重建。图像三维重建方法分类如图2所示。典型的三维重建算法时间顺序概述如图3所示。尽管目前已有一些三维重建相关综述文献（郑太雄等，2020；吴博剑和黄惠，2020；龙霄潇等， 2021），但已有的综述文献主要介绍传统方法或特殊物体的三维重建，介绍深度学习背景下的图像三维重建技术的文献相对偏少。本文主要对近年来深度学习背景下的图像三维重建的分类和研究现状进行总结。