Self-supervised monocular depth prediction provides a cost-effective solution to obtain the 3D location of each pixel. However, the existing approaches usually lead to unsatisfactory accuracy, which is critical for autonomous robots. In this paper, we propose FusionDepth, a novel two-stage network to advance the self-supervised monocular dense depth learning by leveraging low-cost sparse (e.g. 4-beam) LiDAR. Unlike the existing methods that use sparse LiDAR mainly in a manner of time-consuming iterative post-processing, our model fuses monocular image features and sparse LiDAR features to predict initial depth maps. Then, an efficient feed-forward refine network is further designed to correct the errors in these initial depth maps in pseudo-3D space with real-time performance. Extensive experiments show that our proposed model significantly outperforms all the state-of-the-art self-supervised methods, as well as the sparse-LiDAR-based methods on both self-supervised monocular depth prediction and completion tasks. With the accurate dense depth prediction, our model outperforms the state-of-the-art sparse-LiDAR-based method (Pseudo-LiDAR++) by more than 68% for the downstream task monocular 3D object detection on the KITTI Leaderboard. Code is available at https://github.com/AutoAILab/FusionDepth
翻译:自我监督的单心深度预测提供了一种低成本有效的解决方案,以获得每个像素的 3D 位置。 但是, 现有的方法通常会导致不满意的准确性, 这对于自主机器人至关重要 。 在本文中, 我们提出Fusion Depth, 是一个新型的两阶段网络, 利用低成本稀薄( 例如 4比am) 的LIDAR, 推进自监督的单心密度深度学习。 与目前主要以耗时的迭接后处理方式使用稀疏的LIDAR 的方法不同, 我们的模型将单眼图像特性和稀疏的LIDAR 特性结合到最初的深度地图上。 然后, 一个高效的供餐前改进网络被进一步设计, 以实时性能来纠正这些模拟-3D空间初步深度地图上的错误。 广泛的实验显示, 我们拟议的模型大大超越了所有最先进的自我监督方法, 以及基于稀薄的LiDAR 级深度预测和完成任务的方法。 随着精确的深度预测, 我们的模型比目前用于 AR- DO-L 级 的轨道 级 级 级 级 级 级 的 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级定式 级 级 级 级 级 级 级 级 A 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级 级