对场景的语义、空间和时间结构进行有效的推理是实现自动驾驶的重要前提。我们提出了神经注意力场(NEural ATtention fields, NEAT),这是一种新颖的表示方式,能够对端到端模仿学习模型进行推理。NEAT是一个连续函数,它将鸟瞰(BEV)场景坐标中的位置映射到路径点和语义,使用中间注意力地图迭代地压缩高维2D图像特征到一个紧凑的表示。这使得我们的模型可以选择性地关注输入中的相关区域,而忽略与驾驶任务无关的信息,有效地将图像与BEV表示关联起来。在涉及恶劣环境条件和具有挑战性的场景的新评估环境中,NEAT的表现超过了几个强大的基线,并取得了与用于生成训练数据的特权CARLA专家相当的驾驶分数。此外,可视化具有NEAT中间表示的模型的注意力图提供了更好的可解释性。
https://www.zhuanzhi.ai/paper/aca890b91e33f48083beb64b8fc6057d