《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

本文提出CognitiveDrone——一种专为需要高级认知能力的复杂无人机任务设计的创新性视觉-语言-动作（VLA）模型。通过在三类核心认知任务（人员识别、符号理解与推理）上对8,000余条仿真飞行轨迹进行训练，该模型能够基于第一视角视觉输入和文本指令实时生成四维动作指令。为进一步提升复杂场景下的表现，我们开发了CognitiveDrone-R1变体，通过整合额外的视觉语言模型（VLM）推理模块，在高频控制前对任务指令进行简化处理。使用我们开源的CognitiveDroneBench基准测试表明：专注于竞速任务的模型（RaceVLA）整体成功率仅为31.3%，基础版CognitiveDrone模型达到59.6%，而CognitiveDrone-R1成功率则提升至77.2%。这些结果验证了在关键认知任务中最高达30%的性能提升，凸显了高级推理能力对无人机控制系统的增效作用。本研究的贡献包括开发了最先进的无人机控制VLA模型，以及首个专注于无人机认知任务评估的专用基准。完整项目仓库已发布于https://cognitivedrone.github.io。

在机器人技术与人工智能快速发展的时代背景下，如何使机器人能够在动态变化的环境中执行多样化复杂任务已成为关键挑战。认知机器人学不仅追求赋予机器精确控制能力，更致力于培养其高级推理与决策能力，使其能够适应真实场景中的不可预测性。尽管机器人学各领域已取得显著进展，但一个根本性挑战依然存在：如何客观评估与比较认知机器人系统，尤其是当它们被寄望于处理多种复杂任务时。

这种标准化开源基准与数据集的匮乏在无人机领域尤为突出。现有评估框架多局限于竞速或基础导航任务，这不仅阻碍了不同认知无人机系统间的公平比较，更限制了对推理、人员识别、符号理解等高级认知功能的探索。

为此，提出CognitiveDrone——专为无人机实时认知任务解决与推理设计的新型VLA模型。配套开发的CognitiveDroneBench开源基准建立在Gazebo物理仿真环境基础上，将无人机竞速赛道与认知检查点相结合。在赛道每个阶段，无人机需通过解决认知任务选择特定通行门，从而形成超越传统竞速指标的综合性能评估。

进一步引入基于Qwen2.5-VL视觉语言模型的辅助推理模块，构建了CognitiveDrone-R1增强版本。该推理模块以低于主VLA组件的频率运行，旨在提升任务理解能力并促进更稳健的决策制定。通过系统化整合这些创新组件，本研究为认知无人机研究开辟了更严谨的评估方法与创新应用路径。

图1. CognitiveDrone是一个面向无人机的VLA系统，能够基于第一视角视觉输入与自然语言指令实时生成平滑的四维控制指令。该系统融合了两个核心组件：基于海量认知任务（包括推理、人员识别和符号理解）开源数据集训练的70亿参数VLA模型，以及用于对任务指令进行优化处理的70亿参数VLM推理模块。系统在CognitiveDroneBench——首个专为认知无人机定制的VLA系统评估基准中接受测试，要求无人机通过解决认知任务选择正确通行门完成赛道穿越。我们已完整开源数据集、基准环境、模型权重及训练/推理代码。

成为VIP会员查看完整内容