3D object detection is an essential perception task in autonomous driving to understand the environments. The Bird's-Eye-View (BEV) representations have significantly improved the performance of 3D detectors with camera inputs on popular benchmarks. However, there still lacks a systematic understanding of the robustness of these vision-dependent BEV models, which is closely related to the safety of autonomous driving systems. In this paper, we evaluate the natural and adversarial robustness of various representative models under extensive settings, to fully understand their behaviors influenced by explicit BEV features compared with those without BEV. In addition to the classic settings, we propose a 3D consistent patch attack by applying adversarial patches in the 3D space to guarantee the spatiotemporal consistency, which is more realistic for the scenario of autonomous driving. With substantial experiments, we draw several findings: 1) BEV models tend to be more stable than previous methods under different natural conditions and common corruptions due to the expressive spatial representations; 2) BEV models are more vulnerable to adversarial noises, mainly caused by the redundant BEV features; 3) Camera-LiDAR fusion models have superior performance under different settings with multi-modal inputs, but BEV fusion model is still vulnerable to adversarial noises of both point cloud and image. These findings alert the safety issue in the applications of BEV detectors and could facilitate the development of more robust models.


翻译:自动驾驶中基于鸟瞰图表示的3D物体检测鲁棒性的理解 3D物体检测是自动驾驶中必不可少的感知任务,用于了解周围环境。基于鸟瞰图(BEV)表示已经在流行的基准测试中显著提高了基于相机输入的三维检测器的性能。然而,这些依赖于视觉的BEV模型的稳健性仍然缺乏系统性的了解,这与自动驾驶系统的安全密切相关。在本文中,我们在广泛的设置下评估了各种代表性模型的自然和对抗性稳健性,以充分理解其行为,比较具有BEV和不具有BEV的模型的影响。除了经典的设置之外,我们提出了一种3D一致补丁攻击方法,通过在三维空间中应用对抗补丁来保证时空一致性,这对自动驾驶情景更具现实意义。通过大量的实验,我们得出了几个发现:1)由于表达空间,BEV模型倾向于在不同的自然条件和常见的损坏下比以前的方法更为稳定。2)BEV模型更容易受到对抗性噪声的影响,主要是由于冗余的BEV特征;3)相机-LiDAR融合模型在多模态输入的不同设置下具有优越的性能,但BEV融合模型仍然容易受到点云和图像的对抗噪声的影响。这些发现警示了BEV检测器应用中的安全问题,并有助于开发更为稳健的模型。

0
下载
关闭预览

相关内容

BEVFormer:基于Transformer的自动驾驶BEV纯视觉感知
【泡泡一分钟】DS-SLAM: 动态环境下的语义视觉SLAM
泡泡机器人SLAM
23+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2023年5月19日
Arxiv
28+阅读 · 2022年3月28日
Arxiv
12+阅读 · 2021年6月21日
Arxiv
20+阅读 · 2020年6月8日
Arxiv
11+阅读 · 2019年4月15日
VIP会员
相关VIP内容
相关资讯
BEVFormer:基于Transformer的自动驾驶BEV纯视觉感知
【泡泡一分钟】DS-SLAM: 动态环境下的语义视觉SLAM
泡泡机器人SLAM
23+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
【推荐】深度学习目标检测全面综述
机器学习研究会
21+阅读 · 2017年9月13日
【推荐】GAN架构入门综述(资源汇总)
机器学习研究会
10+阅读 · 2017年9月3日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员