【导读】深度图补全在自动驾驶、三维重建、增强现实和机器人导航等各种应用有着关键的作用。深圳市人工智能与机器人研究院等最新《基于深度学习的深度图补全》综述论文,调研了5年的深度图补全的论文,值得关注!
深度图补全的目的是从深度传感器捕获的稀疏图预测密集像素级深度。它在自动驾驶、三维重建、增强现实和机器人导航等各种应用中发挥着至关重要的作用。最近在这项任务上的成功已经被证明和主导基于深度学习的解决方案。在这篇论文中,我们第一次提供了一个全面的文献综述,帮助读者更好地把握研究趋势,清楚地了解当前的进展。我们从网络架构、损失函数、基准数据集和学习策略的设计方面对相关研究进行了调研,并提出了一种新的分类法来分类现有的方法。此外,我们还对两种广泛使用的基准数据集(包括室内数据集和室外数据集)上的模型性能进行了定量比较。最后,我们讨论了前人工作所面临的挑战,并对未来的研究方向提出了一些见解。
获取正确的像素级场景深度对于场景理解[50]、自动驾驶[90]、机器人导航[69]、[95]、同时定位和地图绘制[33]、智能农业[22]和增强现实[18]等任务具有重要作用。因此,在过去的几十年里,这一直是一个长期的研究目标。一种经济有效的获取场景深度的方法是使用单目深度估计算法[26],[30],[40],[57]从单幅图像中直接估计场景深度。然而,视觉方法通常产生低的推断精度和较差的通用性,因此在现实世界中使用非常脆弱。
另一方面,深度传感器提供了精确和鲁棒的距离测量与真实的场景尺度。因此,它们更适用于需要安全保障和高性能[25][70]、[90]的应用,如自动驾驶汽车。事实上,在工业应用中,使用激光雷达测量深度可能仍然是获得可靠深度的最可部署的方法。然而,无论是激光雷达还是常用的RGBD相机,如微软Kinect,都不能提供密集的像素级深度图。如图1所示,Kinect捕捉到的深度图有小孔,而LiDAR捕捉到的深度图明显更稀疏。因此,有必要在实践中填充空白像素。
由于Kinect和LiDAR获取的深度图存在明显的差异,根据[45][101],我们在技术上将Kinect数据和LiDAR数据的完成和估计任务区分如下:
** 1) 深度增强**: 又称深度填孔,是指在致密的原始深度图上填充不规则的、罕见的小洞。一个典型的应用就是Kinect的增强。
2) 深度补全: 从高度稀疏的输入深度图中恢复高密度深度图,通常使用LiDAR数据。直观地说,由于输入极为稀疏,深度补全比深度增强更具挑战性。
近年来,基于深度学习的方法在任务中表现出了令人瞩目的性能,并引领了发展趋势。以前的研究表明,具有几个卷积层[98]或一个简单的自编码器[102]的网络可以弥补缺失的深度。此外,深度补全可以通过利用RGB信息进一步改进。这种类型的典型方法[50][88]是使用双编码器分别从稀疏深度图及其对应的RGB图像中提取特征,然后用解码器将其融合。为了突破深度完成的界限,最近的方法倾向于使用复杂的网络结构和复杂的学习策略。除了多分支用于从图像、稀疏深度等多模态数据中提取特征外,研究人员已经开始将表面法线[79]、亲和矩阵[11]、残差深度图[32]等集成到他们的框架中。此外,为了解决缺乏监督像素的问题,一些研究引入了利用多视图几何约束[70]和对抗性正则化[54]。这些努力极大地促进了深度图补全任务的进展。
尽管基于学习的方法取得了巨大的进步,但就我们所知,还缺乏全面的综述。本文旨在通过对已有方法的层次分析和分类,描述基于学习的深度图补全技术的发展,让读者对深度图补全有一个直观的了解,并提供一些有价值的指导。
通常,我们希望回答以下问题:
基于以上问题,我们对2017年1月至2022年5月(撰写本文时)的相关工作进行调研。图2显示了基于所提分类方法选择方法的时间轴,底部和顶部分别为无引导方法和五种RGB引导方法。可以看到,尽管早期研究以无指导的方式处理深度完成,但我们观察到,2020年后发表的研究已逐渐被RGB指导方法所主导。本文从网络结构、损失函数、学习策略和基准数据集等方面对前人的研究进行了综述。我们特别强调提出新的算法或显著提高性能的方法,并适当地提供其技术贡献的可视化描述,以促进澄清。此外,我们在最流行的基准数据集上提供了具有基本特征的现有方法的定量比较。通过对前人研究的深入分析,希望读者对深度图补全有一个清晰的认识。
总而言之,我们的主要贡献如下:
据我们所知,这是第一次深度图补全综述。我们给出了一个深入和全面的综述,包括无指导和RGB指导的方法。
我们提出了一个新的分类方法来分类以前的方法,并可视化它们的主要特征,包括网络结构、损失函数和学习策略。
这篇文章涵盖了基于深度学习的最新进展,并在基准数据集上进行了性能比较。它为读者提供了最先进的方法。
我们提供了几个开放的问题和有前途的未来研究方向。
本文其余部分的组织如下:第2节给出了基于深度学习的深度图补全的公式,并提供了分类法。第3节回顾了非引导方法,第4节阐述了RGB引导方法。第5节介绍了前面方法中使用的损失函数。第6节列出了基准数据集,并介绍了深度完井任务的评估指标。第7节从综合不同的角度对以往的方法进行了比较。第8节总结了开放的挑战,并为未来的研究提供了有价值的方向。第9节是结论。