Stereo-LiDAR fusion is a promising task in that we can utilize two different types of 3D perceptions for practical usage -- dense 3D information (stereo cameras) and highly-accurate sparse point clouds (LiDAR). However, due to their different modalities and structures, the method of aligning sensor data is the key for successful sensor fusion. To this end, we propose a geometry-aware stereo-LiDAR fusion network for long-range depth estimation, called volumetric propagation network. The key idea of our network is to exploit sparse and accurate point clouds as a cue for guiding correspondences of stereo images in a unified 3D volume space. Unlike existing fusion strategies, we directly embed point clouds into the volume, which enables us to propagate valid information into nearby voxels in the volume, and to reduce the uncertainty of correspondences. Thus, it allows us to fuse two different input modalities seamlessly and regress a long-range depth map. Our fusion is further enhanced by a newly proposed feature extraction layer for point clouds guided by images: FusionConv. FusionConv extracts point cloud features that consider both semantic (2D image domain) and geometric (3D domain) relations and aid fusion at the volume. Our network achieves state-of-the-art performance on the KITTI and the Virtual-KITTI datasets among recent stereo-LiDAR fusion methods.
翻译:立体- 立体- 立体- 立体聚合是一个很有希望的任务, 因为我们可以利用两种不同类型的三维感知来实际使用 -- -- 密集 3D 信息( 立体相机) 和高度精确的稀有点云( 立体雷达) 。 然而, 由于其模式和结构不同, 将传感器数据统一起来的方法是成功的传感器聚合的关键。 为此, 我们提出一个称为量子传播网络的长距离深度估计的几何觉立体- 立体- 立体聚合网络。 我们网络的关键思想是利用稀有和准确的点云作为导线, 用以指导3D 统一的体积空间内立体图像的通信。 与现有的融合战略不同, 我们直接将点云嵌入体体积, 从而使我们能够将有效信息传播到音量的附近的毒物中, 并减少通信的不确定性。 因此, 我们能够将两种不同的输入模式紧密的深度地图连接起来。 我们的融合由于新提出的由图像引导的点云的地谱提取层: Fusion Convion- D 提取点云点点云特征- 和在考虑我们虚拟网络上的磁体- 度- 度- 度- 级数据库中的数据- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库- 数据库-