Autonomous driving requires understanding infrastructure elements, such as lanes and crosswalks. To navigate safely, this understanding must be derived from sensor data in real-time and needs to be represented in vectorized form. Learned Bird's-Eye View (BEV) encoders are commonly used to combine a set of camera images from multiple views into one joint latent BEV grid. Traditionally, from this latent space, an intermediate raster map is predicted, providing dense spatial supervision but requiring post-processing into the desired vectorized form. More recent models directly derive infrastructure elements as polylines using vectorized map decoders, providing instance-level information. Our approach, Augmentation Map Network (AugMapNet), proposes latent BEV feature grid augmentation, a novel technique that significantly enhances the latent BEV representation. AugMapNet combines vector decoding and dense spatial supervision more effectively than existing architectures while remaining easy to integrate compared to other hybrid approaches. It additionally benefits from extra processing on its latent BEV features. Experiments on nuScenes and Argoverse2 datasets demonstrate significant improvements on vectorized map prediction of up to 13.3% over the StreamMapNet baseline on 60 m range and greater improvements on larger ranges. We confirm transferability by applying our method to another baseline, SQD-MapNet, and find similar improvements. A detailed analysis of the latent BEV grid confirms a more structured latent space of AugMapNet and shows the value of our novel concept beyond pure performance improvement. The code can be found at https://github.com/tmonnin/augmapnet


翻译:自动驾驶需要理解基础设施元素,如车道线和人行横道。为确保安全导航,这种理解必须从传感器数据中实时获取,并以矢量化形式表示。学习型鸟瞰图编码器通常用于将多视角相机图像集融合为一个联合潜在BEV网格。传统方法从该潜在空间预测中间栅格地图,提供密集的空间监督,但需后处理转换为所需的矢量化形式。较新的模型则通过矢量化地图解码器直接将基础设施元素提取为折线,提供实例级信息。本文提出的增强地图网络提出了一种新颖的潜在BEV特征网格增强技术,显著提升了潜在BEV表示能力。AugMapNet相比现有架构更有效地结合了矢量解码与密集空间监督,同时相较于其他混合方法更易于集成。该模型还受益于对其潜在BEV特征的额外处理。在nuScenes和Argoverse2数据集上的实验表明,在60米范围内矢量化地图预测性能较StreamMapNet基线提升高达13.3%,在更大范围内改进更为显著。通过将本方法应用于另一基线SQD-MapNet,我们验证了其可迁移性并观察到相似的性能提升。对潜在BEV网格的详细分析证实了AugMapNet具有更结构化的潜在空间,并揭示了该新颖概念超越纯性能提升的价值。代码发布于https://github.com/tmonnin/augmapnet

0
下载
关闭预览

相关内容

Python图像处理,366页pdf,Image Operators Image Processing in Python
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员