While autonomous driving (AD) stacks struggle with decision making under partial observability and real-world complexity, human drivers are capable of commonsense reasoning to make near-optimal decisions with limited information. Recent work has attempted to leverage finetuned Vision-Language Models (VLMs) for trajectory planning at inference time to emulate human behavior. Despite their success in benchmark evaluations, these methods are often impractical to deploy (a 70B parameter VLM inference at merely 8 tokens per second requires more than 160G of memory), and their monolithic network structure prohibits safety decomposition. To bridge this gap, we propose VLM-Embedded Reasoning for autonomous Driving (VERDI), a training-time framework that distills the reasoning process and commonsense knowledge of VLMs into the AD stack. VERDI augments modular differentiable end-to-end (e2e) AD models by aligning intermediate module outputs at the perception, prediction, and planning stages with text features explaining the driving reasoning process produced by VLMs. By encouraging alignment in latent space, VERDI enables the modular AD stack to internalize structured reasoning, without incurring the inference-time costs of large VLMs. We validate VERDI in both open-loop (NuScenes and Bench2Drive benchmarks) and closed-loop (HugSim Simulator) settings. We find that VERDI outperforms existing e2e methods that do not embed reasoning by up to 11% in $\ell_{2}$ distance and 11% in driving performance, while maintaining real-time inference speed.


翻译:尽管自动驾驶系统在部分可观测性和现实世界复杂性下的决策制定方面面临挑战,但人类驾驶员能够凭借常识推理,在信息有限的情况下做出近乎最优的决策。近期研究尝试利用微调后的视觉语言模型在推理时进行轨迹规划,以模拟人类行为。尽管这些方法在基准评估中取得了成功,但其部署往往不切实际(一个700亿参数的视觉语言模型以每秒仅8个令牌的速度进行推理,需要超过160G的内存),并且其单一的网络结构阻碍了安全性的分解。为弥合这一差距,我们提出了面向自动驾驶的视觉语言模型嵌入式推理框架,这是一个训练时框架,旨在将视觉语言模型的推理过程和常识知识提炼到自动驾驶系统中。VERDI通过将模块化可微分端到端自动驾驶模型在感知、预测和规划阶段的中间模块输出,与视觉语言模型生成的解释驾驶推理过程的文本特征进行对齐,从而增强了此类模型。通过在潜在空间中鼓励对齐,VERDI使得模块化的自动驾驶系统能够内化结构化推理,而无需承担大型视觉语言模型在推理时的高昂成本。我们在开环和闭环设置下验证了VERDI。我们发现,在$\ell_{2}$距离和驾驶性能上,VERDI比未嵌入推理的现有端到端方法分别提升了高达11%,同时保持了实时推理速度。

0
下载
关闭预览

相关内容

【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应
专知会员服务
15+阅读 · 8月5日
【CIKM2020】多模态知识图谱推荐系统,Multi-modal KG for RS
专知会员服务
98+阅读 · 2020年8月24日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员