基于 Transformer 的模型的快速发展,正在重塑无人机(UAV)系统的格局,大幅提升其感知、决策与自主性。本文综述系统地梳理并评估了 Transformer 架构在无人机中的最新进展,包括注意力机制、CNN-Transformer 混合结构、基于强化学习的 Transformer,以及大语言模型(LLMs)。与以往的综述不同,本研究提出了一个统一的无人机 Transformer 模型分类法,重点介绍了精细农业、自主导航等新兴应用,并通过结构化表格与性能基准提供对比分析。本文还回顾了该领域的关键数据集、仿真器和评估指标。进一步地,我们识别了现有文献中的空白,总结了计算效率与实时部署方面的关键挑战,并提出了未来的研究方向。本综述旨在为研究人员和实践者提供系统性参考,帮助他们理解并推动基于 Transformer 的无人机技术的发展。

1 引言

自动化与传感技术的快速发展正在推动多个领域(包括国防、交通与工业)从载人(crewed/manned)系统向无人(uncrewed/unmanned)系统转变。无论是空中、地面还是海上的无人载具,相较于传统载人系统,都展现出显著优势,使其应用已成为必然趋势,而不仅仅是技术潮流。 推动这一转变的首要因素是安全性。在战区、灾害救援区域或深海探测等高危环境中,无人载具能够有效避免对人类操作者的风险。这些系统通过消除直接的人类参与,可以更高效地执行危险任务,同时降低伤亡和作业风险。在采矿、物流等行业中,无人自主车辆通过精确地执行高风险作业,提升了作业安全性。 效率与成本效益进一步支撑了向无人系统的转变。自主车辆能够优化燃料消耗、减少人为错误、降低停机时间,从而提高生产力。例如,无人地面车辆(UGVs)如自动驾驶卡车,可持续运行而不受人类疲劳的限制,大幅提升物流效率。无人水面艇(USVs)如“海上猎人”自主舰艇,可提升海上监视与侦察能力 [1];无人水下潜航器(UUVs)则用于水下勘探与水雷探测 [2]。类似地,无人机(UAVs)在农业中可提升作物监测与精准农业水平,减少资源浪费 [3]。随着技术的不断进步,无人载具的可靠性和适应性大幅提升。图1展示了 UAV 及自主车辆在多个领域的关键应用,包括精准农业、军事行动、物流、应急响应、监控、障碍物检测和交通控制。图中还强调了轨迹控制器、GPS 与控制中心在系统管理中的重要作用。 然而,UAV 在非均质环境中面临显著挑战,例如与载人车辆(CVs)共享道路。此类挑战包括保持 UAV 与地面或空中 CVs 的安全间距以避免碰撞、检测与规避障碍物、应对潜在威胁以保护动物和行人,以及遵守交通信号。深度学习(DL)的最新进展极大提升了这些能力,强化了目标检测、监控、定位与整体系统协同。 人工智能(AI)驱动的导航、机器学习(ML)算法与实时数据处理,使这些系统能够在最小化人为干预的情况下自主运行。这推动了军事对无人作战系统的依赖,减少人员暴露于敌对环境的风险,同时增强战略能力。随着产业与政府日益认识到这些优势,从 CV 向无人载具(UCVs)的转变已不再是选择,而是必然。随着持续创新,无人系统将在移动性、安全性与效率方面带来革命性变化,塑造未来交通与作业物流。 在 AI 提供的广泛自主框架下,ML 与 DL 在提升 UAV 能力方面更为有效。ML 使 UAV 能够从大规模数据中学习,无需依赖预设规则即可改进导航、避障与目标识别。DL 尤其是卷积神经网络(CNNs)及其相关的预训练模型 [4],通过支持实时目标检测,增强了 UAV 的实时决策能力;循环神经网络(RNNs)能够预测能耗 [5];其他 DL 技术则支持自主飞行路径规划、优化与避障 [6]。与追求人类推理能力的通用 AI 不同,DL 擅长模式识别,能够在提升精度的同时降低计算开销。此外,ML 与 DL 算法使 UAV 能够动态适应环境变化,提高飞行效率与任务成功率 [7]。它们能够实时处理复杂传感器数据,使其在监视、灾害响应与物流中不可或缺,超越了传统 AI 方法的可靠性与性能。 近期,高级 DL 技术如深度强化学习(DRL)[8]、深度迁移学习(DTL)[9,10] 与联邦学习(FL)展现出更强的适应性、效率与自主性 [11]。DRL 使 UAV 能够通过试错在动态环境中实现实时决策,这对自主飞行控制与多智能体协作至关重要,同时也增强了 UAV 在抗攻击与入侵方面的安全性 [12]。DTL 则使 UAV 能够利用预训练模型,显著降低计算成本,加速对新任务的适应 [13],如识别新地形或新目标,同时缓解 DL 攻击带来的安全漏洞 [14]。FL 则允许 UAV 从分布式数据源中学习,同时降低通信开销与计算成本 [15]。这种方法尤其适用于灾害响应、监视与军事行动等动态且资源受限的环境。FL 通过在本地更新模型并将结果聚合到中央服务器,实现了对抗攻击与数据泄露的鲁棒性,同时缓解了延迟问题,提升了实时决策效率。 尽管传统 DL 与先进 DL 技术具备诸多优势,但其在长程依赖建模、序列数据处理效率与计算开销等方面的局限性,迫使我们引入基于 Transformer 的架构 [16] 来增强 UAV 在真实场景中的表现。例如,CNN-Transformer 融合了 CNN 的空间特征提取能力与 Transformer 的全局上下文感知能力,提升了 UAV 在目标检测、地形建模与低光成像中的性能;DRL-Transformer 则通过引入注意力机制优化了序列决策建模,增强了复杂环境下的自主飞行策略;视觉 Transformer(ViT)提升了 UAV 的再识别与跟踪能力,对安防监控与灾害管理至关重要;时空 Transformer(STT)能够同时捕捉空间与时间依赖性,从而优化 UAV 的轨迹预测,对于运动规划与集群协作尤为关键。此外,大语言模型(LLMs)可以与 UAV 融合,用于智能任务规划、基于自然语言的无人机控制,以及通过多模态数据融合提升态势感知能力。通过联合处理文本、图像与传感器数据,融合 LLM 的 UAV 能够实现更自主、更具上下文感知的操作。Transformer 与现有 DL 技术的结合,为 UAV 带来更强的适应性、更高的计算效率与更优的感知能力,为实现更自主、更具韧性与智能化的 UAV 系统铺平了道路,这些系统将在监视、物流与灾害响应等多个领域得到广泛应用。


1.1 动机与相关工作

随着 UAV 在监视、农业、物流与安防等领域的应用日益广泛,对其更智能、更自主的决策能力需求不断增长。这推动了研究者们对先进 AI 技术,尤其是基于 Transformer 的架构的浓厚兴趣。越来越多的研究探索如何利用 Transformer 模型提升 UAV 的感知能力、适应性与运行效率,相关论文与应用案例数量激增。 Transformer 模型已在自然语言处理与计算机视觉领域取得突破性进展,为 UAV 感知与自主性提供了有力支持。近期的发展,如 ViT、Swin Transformer 与 LLMs,已在 UAV 的目标跟踪、异常检测与自主导航中展现出潜力。然而,尽管应用不断增加,系统性分类与分析 Transformer 在 UAV 应用中的综述仍然缺失。 一方面,已有研究虽然涉及 Transformer 在 UAV 的应用,但多数忽略了专用变体的进展,如 ViTs、STTs 及与 DL 技术融合的混合方法(如 CNN-Transformer、DRL-Transformer、YOLO-Transformer)。这些方法在 UAV 应用中的作用仍未得到充分探讨。表1给出了现有综述的对比总结,突出了当前 UAV 综述在多个核心领域的空白。例如,注意力机制、基于 DRL 的 Transformers、孪生网络架构与 STTs 尚未在现有文献中系统讨论;YOLO-Transformer、ViT、Swin 与 LLMs 等模型也常被忽略。已有综述 [17–19] 往往仅覆盖有限子集或缺乏技术深度;应用导向的讨论在 [17,18,20] 中较少,在 [19,21,22] 中则流于表面;挑战与未来方向在 [17–19,22] 中缺失,在 [21] 中也仅作浅层次处理。因此,这些综述难以有效指导未来研究优先级,或解决 UAV 领域的关键技术与实践问题。 另一方面,[21] 虽对 CNN-Transformer 模型提供了较全面的综述,但 [20] 仅讨论挑战与未来方向而缺乏技术深度,[23] 则仅关注 LLMs 与应用,忽视了关键模型架构。 与此不同,本文通过全面覆盖 Transformer 与混合 Transformer-DL UAV 模型,提供了更整体、更前沿的综述。我们系统性地讨论了 Transformer 模型、LLMs、应用领域与开放挑战,弥合了现有文献碎片化的局限。


1.2 本文贡献与结构

本文通过对基于 Transformer 的 UAV 方法进行全面、系统的评估,填补了现有综述的空白。与已有研究不同,本综述提供了整体性、前沿性的综合视角,紧跟 UAV 自主性快速发展的最新格局。本文的主要贡献如下: * 提出全面的分类体系:涵盖注意力机制、CNN、DRL、STTs、Swin、ViT、YOLO、孪生网络与基于 LLM 的方法,系统梳理 UAV Transformer 模型的最新进展。 * 分析多样化应用场景:探讨 Transformer 在 UAV 实时跟踪、目标检测、异常检测、定位、自主导航、精准农业、安全与多模态传感器融合中的作用。 * 综述关键支撑工具:回顾 UAV 模拟器、用于数据集生成与场景仿真的工具,总结跨应用的核心评估指标,并梳理覆盖多模态、多任务的主要 UAV 数据集。 * 提供系统比较与基准:表2、3、5 对不同 Transformer 架构、注意力机制与 DRL 技术进行比较,辅助模型选择;表4、6、9 提供基于 Transformer 的 UAV 应用性能对比,便于快速评估准确性、效率与局限性。 * 案例研究:呈现两个案例——基于 Transformer 的 UAV 实现,以及基于 LLM 的 UAV 智能控制与任务规划,提供设计与部署的实践启示。 * 讨论挑战与未来方向:超越技术分析,深入探讨 Transformer 融合到 UAV 系统的关键挑战,如可扩展性、实时性与数据限制,并提出未来研究方向以推动该领域发展。

本文余下结构如下:第二节深入分析基于 Transformer 的 UAV 模型,按其与 DL 结合的架构分类;第三节回顾 UAV 模拟器、评估指标与基准数据集;第四节综述并展示 UAV 应用中的最新进展;第五节给出两个案例研究;第六节讨论研究挑战、开放问题与未来方向;第七节总结全文并展望未来研究。

成为VIP会员查看完整内容
0

相关内容

不需要驾驶员登机驾驶的各式遥控飞行器。
微信扫码咨询专知VIP会员