Monocular 3D detection has drawn much attention from the community due to its low cost and setup simplicity. It takes an RGB image as input and predicts 3D boxes in the 3D space. The most challenging sub-task lies in the instance depth estimation. Previous works usually use a direct estimation method. However, in this paper we point out that the instance depth on the RGB image is non-intuitive. It is coupled by visual depth clues and instance attribute clues, making it hard to be directly learned in the network. Therefore, we propose to reformulate the instance depth to the combination of the instance visual surface depth (visual depth) and the instance attribute depth (attribute depth). The visual depth is related to objects' appearances and positions on the image. By contrast, the attribute depth relies on objects' inherent attributes, which are invariant to the object affine transformation on the image. Correspondingly, we decouple the 3D location uncertainty into visual depth uncertainty and attribute depth uncertainty. By combining different types of depths and associated uncertainties, we can obtain the final instance depth. Furthermore, data augmentation in monocular 3D detection is usually limited due to the physical nature, hindering the boost of performance. Based on the proposed instance depth disentanglement strategy, we can alleviate this problem. Evaluated on KITTI, our method achieves new state-of-the-art results, and extensive ablation studies validate the effectiveness of each component in our method. The codes are released at https://github.com/SPengLiang/DID-M3D.
翻译:单体 3D 检测因其成本低和设置简单而吸引了社区的极大关注。 它将 RGB 图像作为输入并预测 3D 空间的 3D 框。 最具挑战性的子任务在于实例深度估计 。 以前的工作通常使用直接估测方法 。 但是, 在本文中, 我们指出 RGB 图像的外观深度是非直观的。 与视觉深度线索和实例属性线索相配合, 使得它很难在网络中直接学习 。 因此, 我们提议将实例深度重新配置为图像表面深度( 视觉深度) 和实例属性深度( 贡献深度) 的组合。 最具有挑战性的子任务深度与对象的外观和图像位置有关 。 相比之下, 先前的外观深度取决于对象的固有属性, 与图像的近距离变化有关。 我们将3D 位置的不确定性与视觉深度不确定性和相关的不确定性混杂在一起, 我们可以得到最后的深度( 视频深度) 和实例深度( 属性深度) 深度( 深度深度深度深度) 。 此外, KD 深度中的数据递增度 的物理 度 度 度 深度( 深度) 深度( 深度) 深度) 深度( 深度) 的深度) 的深度/ 通常限制我们提出的 深度( 深度) 深度( 深度) 深度) 深度( 深度) 深度) 深度) 深度( 深度) ( 深度) ( 深度) 深度) 深度( 深度) ( 深度) ( 深度) ( 深度) ( 深度) 深度) ( 深度) ( 深度) ( 深度) ( 深度) ( 深度) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ) ) ) ) ( ) ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ) ) ( ) ( ) ( ) ( ) ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ) ( ) (