In this paper, we develop position embedding transformation (PETR) for multi-view 3D object detection. PETR encodes the position information of 3D coordinates into image features, producing the 3D position-aware features. Object query can perceive the 3D position-aware features and perform end-to-end object detection. PETR achieves state-of-the-art performance (50.4% NDS and 44.1% mAP) on standard nuScenes dataset and ranks 1st place on the benchmark. It can serve as a simple yet strong baseline for future research. Code is available at \url{https://github.com/megvii-research/PETR}.
翻译:在本文中,我们为多视图 3D 对象探测开发嵌入转换位置(PETR) 。 PETR 将 3D 坐标的定位信息编码为图像特征, 生成 3D 位置观测特征 。 对象查询可以感知 3D 位置观测特征, 并进行端到端的物体探测 。 PETR 在标准 nuScenes 数据集上达到最先进的性能( 50.4% NDS 和 44.1% mAP ), 并在基准中排在第1位 位 。 它可以作为未来研究的简单而有力的基准 。 代码可在 url{https://github.com/megving-research/PETR}查阅 。