无人驾驶飞行器(UAV)已成为各行各业的变革性技术,为军事和民用领域的复杂挑战提供了适应性强的解决方案。通过集成人工智能(AI)和机器学习(ML)算法等尖端计算工具,无人机不断扩展的能力为进一步发展提供了平台。这些进步极大地影响了人类生活的方方面面,促进了一个无与伦比的高效便捷时代的到来。大型语言模型(LLM)是人工智能的关键组成部分,在部署的环境中表现出卓越的学习和适应能力,展示了一种不断发展的智能形式,有可能接近人类水平的熟练程度。这项工作探索了将无人飞行器与大型语言模型集成以推动自主系统发展的巨大潜力。我们全面回顾了 LLM 架构,评估了它们与无人机集成的适用性。此外,我们还总结了最先进的基于 LLM 的无人机架构,并确定了将 LLM 嵌入无人机框架的新机遇。值得注意的是,我们侧重于利用大型语言模型来完善数据分析和决策过程,特别是在无人机应用中增强光谱传感和共享。此外,我们还研究了 LLM 集成如何扩展现有无人机应用的范围,从而在灾难响应和网络恢复等紧急情况下实现自主数据处理、改进决策和加快响应时间。最后,我们强调了未来研究的关键领域,这些领域对于促进大型语言模型与无人机的有效整合至关重要。
图 3:集成 LLM 的无人飞行器的应用。
五十多年来,无人驾驶飞行器(UAVs)因其卓越的自主性、机动性和适应性而成为人们关注的焦点,增强了包括监视[1, 2]、监测[3, 4]、搜索和救援[5]、医疗保健[6]、海上通信[7]和无线网络供应[8]在内的广泛应用。这些奠基性成就推动了人工智能(AI)与无人机的结合。特别是在 2010 年代,无人机技术和人工智能的进步达到了一个关键时刻,为各种应用带来了巨大效益。例如,人工智能无人机采用人脸识别和实时视频分析技术来加强偏远地区的安全和监控[9, 10, 11]。在农业领域,带有人工智能模型的无人机可分析作物健康状况,实现精准耕作,提高资源效率和产量[12, 13]。同时,人工智能驱动的无人机可优化物流路线规划和库存管理,简化仓库作业并提高交付效率[14, 15, 16]。
在这些进步中,大型语言模型(LLMs)最近获得了极大关注,因为它们能让系统从应用行为中学习并优化现有系统[17, 18]。各种采用变换器架构的大型语言模型,如生成式预训练变换器(GPT)系列[19]、来自变换器的双向编码器表示法(BERT)[20]和文本到文本传输变换器(T5)[21],都表现出了基本的能力。由于在大型数据集上进行了广泛的训练,它们在理解、生成和翻译类人文本方面表现出色,这使它们在机器人、医疗保健、金融、教育、客户服务和内容创建等应用领域具有重要价值。此外,这些模型在实时数据处理、自然语言理解和生成、内容推荐、情感分析、自动应答、语言翻译和内容摘要等方面的熟练程度也为无人机领域创造了机遇。例如,它们能使无人机对动态环境变化和通信需求做出快速反应[22, 23]。它们的自适应学习能力有助于根据接收到的数据不断改进操作策略,从而加强决策过程[24]。此外,无人机支持多种语言的能力拓宽了其在全球行动中的适用性,对于智能城市、医疗保健、救援行动、应急响应、媒体和娱乐等不同应用领域的无人机通信尤为重要[25, 26, 27]。
近期文献[28, 29, 30]探讨了将大型语言模型纳入无人机通信系统,以增强与人类操作员以及无人机之间的互动。传统上,无人机根据预编程指令运行,动态交互能力有限。然而,集成大型语言模型可以支持自然、直观的通信方法。例如,大型语言模型可以用自然语言解释和响应命令,从而简化无人机控制,并允许处理复杂的实时任务调整。这使无人机在各种应用中成为适应性更强、更实用的工具[31]。大型语言模型可根据通信上下文或环境数据增强无人机的自主决策能力[32, 33]。例如,在搜救行动中,无需人工输入,大型语言模型就能分析信息和环境数据,确定优先级和行动。在多无人机行动中,大型语言模型可促进更好的通信和协调,管理和优化无人机之间的信息流,提高整体效率和效果。大型语言模型还可以从收集到的大量数据中生成摘要、见解和可行建议,从而提高数据处理和报告能力。此外,大型语言模型经过训练可识别通信数据中的模式和异常情况,这对于预先防范和解决潜在问题至关重要 [34, 35]。例如,如果无人机发送的数据不一致,大型语言模型可以快速检测到异常情况并向操作员发出警报。大型语言模型可增强通信协议的可扩展性和适应性,根据新数据或操作变化自动学习和适应新协议,确保无缝通信。利用模拟数据对大型语言模型进行预训练有助于了解任务条件和要求,从而在任务期间进行实时调整,以实现最佳性能。
将大型语言模型集成到无人机通信系统的潜力激发了这项工作。我们全面分析了以无人机集成为重点的现有 LLM 方法,以突出在扩展当前无人机通信系统能力方面的优势和局限性。综述总结了最先进的 LLM 集成架构,探讨了将 LLM 纳入无人机架构的机会,并讨论了与 LLM 集成相关的频谱感知和共享问题。我们旨在展示大型语言模型如何优化通信、动态适应新任务以及处理复杂数据流,从而提高无人机在应急响应、环境监测、城市规划和卫星通信等各个领域的效率和多功能性。此外,我们还探讨了部署人工智能驱动的无人机所面临的法律、伦理和技术挑战,强调负责任和有效的整合,为推进无人机技术以满足未来需求奠定基础,并探索人工智能在无人机系统中的创新应用。
本文的贡献概述如下:
未来有望彻底改变各种领域;因此,最近有几篇评论文章对这一主题进行了探讨。例如,[44, 45, 46]研究了大型语言模型架构,[47, 48, 49, 50]概述了训练过程、微调、逻辑推理和相关挑战,以解决其局限性,从而在各领域广泛采用基于大型语言模型的系统。文献[36]对基于 LLM 的智能体进行了全面分析,重点关注其构建、应用和评估。这些智能体具备复杂的自然语言理解和生成能力,无需人工干预即可运行。它们以复杂的方式与环境和用户进行交互,因此需要在社会科学、自然科学和工程学等不同领域整合先进的人工智能技术,以完成交流和解决问题等任务。另一项工作[37]深入研究了基于 LLM 的人工智能体的开发和使用,强调了它们在推进人工通用智能方面的作用。大型语言模型因其语言能力被认为是创建多功能人工智能体的基础,而语言能力对于各种自主任务至关重要。作者提出了一个基于大脑、感知和行动组件的框架,以提高智能体在复杂环境中的表现。在 [38] 一文中,作者对大型语言模型与人类期望相一致所面临的挑战和取得的进展进行了认真研究。通过增强 LLM 匹配的技术解决了误解指令和有偏差的输出等问题。研究还探讨了数据收集策略、训练方法和模型评估技术,以提高理解和生成类人响应的性能。另一项研究[39]探讨了部署大型语言模型所面临的挑战,尤其是在资源紧张的环境下。研究讨论了量化、剪枝和知识提炼等模型压缩技术,以提高效率和适用性。虽然 [40, 41] 研究了大型语言模型面临的挑战,包括庞大的数据集管理和高昂的成本,但他们指出了仅靠增加模型规模无法克服的局限性。文献[30]探讨了生成人工智能(GAI)在改善无人机通信、网络和安全性能方面的应用。文章介绍了一个 GAI 框架,以提高无人机的联网能力。文献[22]调查了无人机群在动态环境中面临的挑战,讨论了各种用于增强协调性和功能性的 GAI 技术。在 [42] 中,作者探讨了大型 GenAI 模型通过改进无线传感和传输来增强未来无线网络的潜力。他们强调了这些模型的好处,包括提高效率、降低培训要求和改善网络管理。在另一项研究[43]中,作者调查了大型语言模型在无线通信和网络中开发高级信号处理算法的应用。他们探索了使用大型语言模型为复杂任务生成硬件描述语言代码的潜力和挑战,重点是通过软件定义无线电进行代码重构、重用和验证。这种方法大大提高了生产率,减少了计算挑战。尽管 [30, 22] 广泛关注 GAI,但大型语言模型在无人机通信系统中的具体应用仍有待探索。这一空白凸显了一个有待研究的领域。表 I 总结了现有研究的主要重点和关键发现。
本文接下来的内容安排如下。在第二节中,我们概述了大型语言模型,介绍了该领域的基本概念和发展情况。第三节专门探讨用于无人机的大型语言模型,我们讨论了 LLM 技术在无人机系统中的集成和适应性。第四节重点讨论无人机通信中大型语言模型的网络架构,研究支持无人机网络中大型语言模型功能的结构设计。第五节讨论无人机中大型语言模型的频谱管理和监管。第六节探讨了大型语言模型在无人机通信中的应用和使用案例,概述了这些技术的实际应用和带来的好处。第七节探讨了在实施集成 LLM 的无人机时所面临的挑战和需要考虑的因素,讨论了潜在的障碍和操作方面的注意事项。第八节专门讨论了未来方向和研究机会,提出了在无人机中进一步探索和发展大型语言模型的潜在领域。最后,第九节总结了我们的研究结果,并对我们研究的广泛意义进行了反思。
由于在各种应用中对集成 LLM 的无人机系统的兴趣日益浓厚,最近出现了一些研究成果。例如,在 [68] 中,作者为四旋翼无人机引入了基于视觉的自主规划系统,以提高安全性。该系统预测动态障碍物的轨迹,并利用 NanoDet 精确检测障碍物和卡尔曼滤波精确估计运动,生成更安全的飞行路径。此外,该系统还采用了 GPT-3 和 ChatGPT 等大型语言模型,以促进更直观的人机交互。这些大型语言模型实现了自然语言处理(NLP)过程,使用户能够通过简单的语言指令控制无人机,而无需复杂的编程知识。它们将用户指令转化为可执行代码,使无人机能够以自然语言执行任务并提供反馈,从而简化了控制过程。无人机可以以临时和网状方式运行,形成动态网络,而无需依赖已有的基础设施。因此,当建立永久性网络基础设施不切实际时,如灾难响应、军事行动或环境监测,无人机就显得尤为重要。ad-hoc 和网状网络都增强了无人机在自动移动过程中配置和保持连接的能力。它们不断发现新的邻居,并能根据网络的拓扑结构和流量条件调整路由,从而提高了可扩展性和灵活性[69]。将大型语言模型集成到无人机通信中,可增强无人机了解网络状况并根据网络特性生成见解的能力,从而突出其适应性和响应能力,以快速适应不断变化的环境条件和操作需求。大型语言模型还有助于无人机了解网络流量模式,以便推荐减少延迟和提高吞吐量的自适应协议,特别是在这些网络中常见的多变条件下。它们还有助于模拟或建模各种情况下的网络行为,帮助无人机部署的规划和决策过程。因此,加入 LLM 可以加强数据分析,提高无人机之间的数据交换效率。大型语言模型具有处理和学习海量数据的能力,可使无人机在路线规划、数据转发和网络配置方面做出明智的决策。例如,针对无人机故障或环境障碍,大型语言模型可以迅速计算出替代路线或重新配置网络,以维持连接性和性能。此外,大型语言模型通过为无人机配备先进的认知能力,使无人机能够理解和执行复杂的指令,并与人类操作员或其他自主系统进行更自然的交互,从而提高无人机的自主水平。
此外,大型语言模型还能分析无人机的数据(如运行日志和遥测数据),在潜在故障或维护需求发生之前对其进行预测。这种预测能力可大大提高无人机的可靠性和使用寿命,减少停机时间和维护成本。安全性也是分散式 ad-hoc 网络最关心的问题;大型语言模型可通过模式识别和异常检测识别潜在威胁,并模拟攻击场景以制定更强大的安全措施,从而增强安全协议。大型语言模型还能优化无人机网络内带宽和电力等关键资源的分配。大型语言模型通过了解和预测网络需求来动态分配资源,从而最大限度地提高效率,延长无人机的运行时间。它们改善了人类操作员与无人机网络之间的界面,提供更直观的控制和反馈系统,包括生成网络状态自然语言报告,或将复杂的网络数据转化为决策者可操作的见解。此外,大型语言模型还能解决特设网络固有的可扩展性难题。当无人机数量发生变化时,它们会动态调整网络协议和配置,确保网络无论规模大小都能保持稳定高效。通过集成 LLM 功能,无人机 ad-hoc 网络可以变得更加智能、反应灵敏和高效,从而显著提高其在各种应用中的有效性。
本节将详细介绍不同的大型语言模型,并讨论它们为基于无人机的通信系统带来的机遇。
如上一节所述,BERT 是 NLP 领域颇具影响力的模型,由谷歌研究人员开发,于 2018 年发布[20]。BERT 的开发代表了 NLP 领域的一个转折点,通过充分利用每个单词周围的上下文,为机器处理和理解人类语言提供了一种更加细致有效的方法。BERT 采用预训练和微调阶段。在预训练阶段,模型在大型文本语料库中进行训练,这些任务旨在帮助模型学习一般语言模式。这些任务包括预测句子中的屏蔽词(即屏蔽语言模型 (MLM))和预测两个句子在逻辑上是否相互衔接(即下一句预测 (NSP))。在预训练之后,BERT 会根据特定任务(如问题解答或情感分析)的需要,使用额外的数据进行微调 [70, 71]。
BERT 的引入大大提升了 NLP 任务的技术水平。在命名实体识别[72, 73]、情感分析[74, 75],特别是问题解答和自然语言推理等任务的排行榜上,BERT 的性能有了明显的提高,在这些任务中,来自两个方向的全句子上下文对于理解微妙之处至关重要。此外,BERT 还激发了许多变化和改进,从而开发出了不同的模型,如鲁棒性优化 BERT 方法(RoBERTa)[76]、来自变换器的精馏双向编码器表示(DistilBERT)[77]和精简 BERT(ALBERT)[78],这些模型使用 BERT 的原始架构和训练程序来优化其他因素,如训练速度、模型大小或增强性能。
整合 BERT 可显著提高无人机在各个领域的性能。例如,在应急响应场景中,BERT 可以帮助无人机理解灾害管理团队发出的复杂的自然语言指令。此外,BERT 还能解释和总结来自无人机传感器和报告的信息,这在需要快速总结大量视频数据的监控任务中尤为重要。此外,BERT 还能快速分析和解读来自多个来源的数据,从而及时做出明智的决策,这在环境监测中对评估森林火灾或污染等情况至关重要。此外,BERT 还能熟练地解析和理解指令,确保多架无人机之间的精确协调,这对于在具有挑战性的环境中运送物资的复杂物流操作至关重要。最近,在文献[79]中,作者介绍了一种创新的端到端基于语言模型的细粒度地址解析框架(LMAR),该框架明确设计用于增强无人机交付系统。传统的地址解析系统主要依赖于用户提供的兴趣点(POI)信息,往往缺乏准确交付所需的精度。为了解决这个问题,LMAR 采用语言模型来处理和完善用户输入的文本数据,改进了数据处理和正则化,提高了无人机投递的准确性和效率。在另一项研究成果[80, 81]中,作者为无人机开发了增强型安全和取证分析协议,以支持各行各业无人机使用量的增加,包括那些容易被犯罪分子滥用的领域。他们引入了一个命名实体识别系统,从无人机飞行日志中提取信息。该系统利用带有注释数据的微调 BERT 和 DistilBERT 模型,大大提高了对无人机相关事件取证调查至关重要的相关实体的识别率。文献[82]的作者侧重于通过从大规模非结构化无人机数据中构建标准化知识图谱,提高无人机在智能战争中的目标识别能力。作者引入了一个两阶段知识提取模型,并集成了 BERT 预训练语言模型来生成字符特征编码,从而提高了未来无人机系统信息提取的效率和准确性。
OpenAI 开发的 GPT 系列代表了大型语言模型在设计和功能上的重大演进,可增强文本生成、翻译、摘要和问题解答等各种自然语言处理任务[83]。第一个架构 GPT-1 于 2018 年 6 月推出,它基于转换器模型,使用了转换器架构的解码器块堆叠。GPT-1 使用 BooksCorpus 数据集进行了语言建模任务(预测句子中的下一个单词)的预训练,该数据集包含 7000 多本独特的未出版书籍(总计约 8 亿个单词)。经过初步预训练后,监督学习针对特定任务进行了微调 [19, 83]。
GPT-2 于 2019 年 2 月发布,在其前身的基础上进行了大幅扩展,最大版本具有多达 48 层,1600 个隐藏单元,48 个注意头,15 亿个参数[84]。GPT-2 使用了一个 WebText 数据集,该数据集是通过搜索从 Reddit 上至少有三个向上投票的帖子中链接出来的网页而创建的。这产生了一个约 40GB 文本数据的多样化数据集。GPT-2 继续使用无监督学习方法,仅利用语言建模进行预训练,而不针对具体任务进行微调。这证明了该模型从语言理解到特定任务的泛化能力[85]。2020 年 6 月发布的 GPT-3 是有史以来最大的人工智能语言模型之一,拥有 1750 亿个参数。它包括 96 层,有 12 288 个隐藏单元和 96 个注意头[86]。它是在一个更加广泛和多样化的数据集上训练的,包括授权数据、人类训练者创建的数据和公开数据的混合,规模远远大于 GPT-2。GPT-2 和 GPT-3 使用无监督学习模型,展示了从大型数据集学习的卓越能力[87]。GPT-4 建立在先进的变压器式架构上,与前代产品 GPT-2 和 GPT-3 相比,在规模和复杂性上都有显著提升。该模型利用 “人的反馈强化学习 ”进行了微调,并采用了公开的互联网数据和第三方提供商授权的数据。不过,与架构有关的具体细节,如模型大小、硬件规格、用于训练的计算资源、数据集构建和训练方法等,尚未公开披露[88]。
无人机中的 GPT 系列代表了人工智能与无人机技术的创新交叉,可在从增强型控制系统到完全自主的任务执行等广泛领域增强无人机的功能、自主性和交互能力 [89,90]。例如,GPT 系列集成可使无人机熟练地执行以普通语言提供的指令。例如,操作员发出在特定坐标处检查桥梁状况的指令后,无人机就会设计出飞行路径,并执行桥梁检查的所有必要步骤,而无需对每个步骤进行人工输入。同样,它还可以根据飞行期间收集的数据生成详细报告,将这些模型与无人机的传感器和数据收集系统集成后,可以自动生成文字说明,突出强调任务结果和检测到的异常情况等各个方面[91]。因此,人类操作员无需查看大量原始数据,就能更容易地理解无人机观察到的情况。例如,Tazir 等人在文献[89]中将 LLM 系统 OpenAI 的 GPT-3.5-Turbo 与无人机模拟系统(即 PX4/Gazebo 模拟器)集成,创建了基于自然语言的无人机控制系统。系统架构的设计目的是通过基于 Python 的中间件提供的聊天机器人界面,实现用户与无人机模拟器之间的无缝交互。Python 中间件是核心组件,负责在聊天机器人(GPT-3.5-Turbo)和 PX4/Gazebo 模拟器之间建立通信渠道。它处理来自用户的自然语言输入,使用 OpenAI API 将这些输入转发给 ChatGPT 模型,检索生成的响应,并将其转换为模拟器可以理解的命令。ChatGPT 通过 PX4 命令和解释提供指导和支持,从而增强了无人机模拟系统的交互性和可访问性。它还通过复杂的人工智能驱动界面促进无人机的控制和管理。在另一项工作[92]中,作者将先进的 GPT 模型和密集字幕技术集成到自主无人机中,以增强其在室内检测环境中的功能。所提出的系统使无人机能够像人类一样理解和响应自然语言命令,从而提高了无人机的可及性,使没有高级技术技能的操作人员也能轻松使用无人机。无人机的密集字幕模型通过分析飞行过程中捕获的图像来生成详细的对象字典,从而促进这种类似人类的交互。这些字典使无人机能够识别和理解环境中的各种元素,并根据预期和意外情况动态调整其行为,从而提高无人机在各种环境条件和应用中进行室内检测的效率和准确性。
此外,在需要快速决策的动态或复杂环境中,GPT 系列可以通过处理实时数据和通信提供帮助,根据数据提供建议或自动决策。例如,搜救行动可以分析来自多个无人机的实时视频馈送和文本报告,综合信息,并建议重点关注的区域或调整搜索模式 [29]。通过建立一个分散的蜂群智能系统,无人机可以共享信息并做出群体决策,从而在增强无人机之间的协作通信方面发挥重要作用。例如,无人机可以使用自然语言相互报告状态和发现,根据共同目标协调行动,并在群组之间优化任务分配,而无需持续的人工干预[93]。GPT 系列还能模拟各种通信场景,通过生成逼真的任务场景和响应,为无人机的培训提供有力的培训,使操作员能够处理不同的情况,从而提高他们在实际操作中的响应能力[91]。
谷歌于 2019 年 10 月推出了 T5 模型,并采用了一种新颖、精简的方法来处理各种 NLP 任务,将其重构为文本到文本问题 [94]。传统模型需要针对不同任务采用不同的架构,并产生不同的输出,而 T5 模型则不同,它将所有任务的输入和输出标准化[95]。每个 NLP 任务(如翻译、摘要、问题解答或文本分类)都被视为从给定文本生成新文本。因此,T5 对所有任务都采用了统一的模型架构。这种简化简化了模型训练和部署流程,因为只需对架构进行最小的修改,就能在多个任务中训练相同的模型[21]。例如,在翻译任务中,输入是英文文本,输出是法文文本,两者都只被视为单词序列。T5 以自我监督的方式在大量文本语料库上进行预训练,主要使用与 BERT 类似的掩蔽语言模型任务的变体。这种预训练使模型能够有效地理解和生成自然语言。之后,通过调整训练数据以适应文本到文本格式,T5 可在特定任务中进行微调。T5 的多功能性使其适用于广泛的应用,包括语言翻译、文档摘要和情感分析(通过生成描述性标签来解释文本情感)。它还能生成适当的文本答案,在问题解答方面表现出色[96]。
无人机可以集成 T5 框架,以提高无人机操作的效率。与 GPT 和 BERT 类似,T5 也能改进无人机的命令解释和响应生成,将操作员用自然语言发出的复杂命令解释并转换为无人机的可执行指令。T5 还能根据无人机收集的数据生成全面的任务报告,包括总结主要发现、突出异常现象和描述勘测区域,以用于环境监测或灾害响应应用。此外,T5 还能通过处理来自无人机传感器和摄像头的数据流执行实时操作,提供即时、可操作的见解。例如,在搜救行动中,T5 可以快速汇总视觉和传感器数据,以描述潜在的关注区域或危险,帮助更有效地指导救援工作。与此同时,T5 还能解释来自一个无人机的信息,并为其他无人机生成适当的响应或命令,从而显著提高无人机协同任务的性能,促进各种应用领域的无缝团队合作,包括管理飞行模式、避免碰撞或协调区域监控的时间安排等。
T5 辅助无人机通信还能实现自动故障排除和反馈,例如,如果无人机在运行过程中遇到问题或异常情况,它可以通过解释错误信息或传感器数据并以自然语言生成故障排除步骤或建议来提供帮助。这还可以扩展到向操作员提供有关任务进展的实时反馈,或提出调整建议以提高运行效率。此外,T5 还能根据历史数据或潜在的未来情况生成模拟任务场景和对话,用于培训目的。
XLNet 是一种先进的 NLP 模型,由谷歌和卡内基梅隆大学的研究人员联合开发[62]。BERT 采用的是 MLM 方法(即随机屏蔽和预测句子中的某些单词),而 XLNet 采用的是基于排列的训练策略。这种方法在训练过程中考虑了句子中所有可能的单词排列,使模型能够根据前后其他单词提供的所有潜在语境预测目标单词。这种方法大大提高了语境理解的灵活性和深度。此外,与 BERT 不同的是,基于排列的训练使 XLNet 能够捕捉到更丰富的语言上下文理解,而 BERT 只专注于预测屏蔽词,可能会遗漏上下文的细微差别 [97,98]。
此外,XLNet 在训练过程中不依赖单词屏蔽,从而避免了 BERT 在预训练和微调阶段之间的差异,使不同操作阶段的行为更加一致。XLNet 还融合了自回归语言建模(如 GPT 系列)和自动编码(如 BERT)的策略,在不遵守固定序列顺序的情况下进行自回归训练。相反,它根据不同的排列组合来预测单词,从而增强了其理解和生成能力[99]。因此,XLNet 通过有效利用完整的句子结构实现更深入、更准确的上下文理解,在包括问题解答、自然语言推理和文档排序在内的多项 NLP 任务中表现出卓越的性能[100, 101, 102]。
由于 XLNet 采用了复杂的语言处理过程,因此将其集成到无人机中可提供独特的优势 [103, 104]。XLNet 基于置换的训练可实现对上下文更细致、更全面的理解,这使其在解释上下文可能变化很大的复杂指令或环境数据时尤为有效。例如,在搜救任务中,作战环境复杂多变,XLNet 可以实时对上下文繁重的指令进行更可靠的解释。同样,由于 XLNet 考虑了输入数据的所有排列组合,因此在应对现实世界无人机任务中常见的噪声或不完整输入时更具鲁棒性。在通信可能中断或不完整的战斗或灾难响应场景中,这一功能尤其有益。XLNet 根据上下文预测缺失信息的能力可以保持无人机操作的有效性。
百度研究院于 2019 年 6 月推出 ERNIE,将世界知识整合到预训练的语言模型中[58]。它将结构化的世界知识整合到语言模型的训练中,是语言理解领域的一次重大进化。与依赖大量文本数据来学习语言模式的传统模型不同,ERNIE 通过将知识图谱纳入训练过程来增强这些模型。知识图谱是存储世界信息的结构化数据库,机器可以通过包含实体(如人、地点和事物)及其关系来理解和处理。
ERNIE 可在传统文本语料库和知识图谱上进行训练。通过知识图谱,ERNIE 可以理解和表示与各种实体相关的复杂关系和属性[105]。这种训练包括两个关键部分:文本数据和知识集成。文本数据与 BERT 或 GPT 等其他模型类似,ERNIE 通过处理这些海量文本来学习语言的句法和语义模式。同时,知识整合组件使 ERNIE 能够同时从知识图谱中学习,吸收现实世界实体及其相互关系的结构化信息。因此,这一过程使 ERNIE 能够从线性文本和涉及现实世界事实和关系的多维角度理解上下文。整合知识图谱能让 ERNIE 更深入地理解语言语义,因为它能将单词和短语与现实世界的实体及其属性联系起来。这种能力使它能更好地完成需要细微理解的任务,如问题解答和命名实体识别 [106,107]。
此外,ERNIE 利用外部知识的能力有助于它提供与上下文相适应的回答或分析,尤其是在特定主题的背景知识至关重要的情况下。它还能更好地处理语言中的歧义,因为来自知识图谱的附加数据能根据相关实体的更广泛的上下文,澄清可能混淆或不清楚的文本[108]。ERNIE 的应用范围广泛,影响深远,尤其是在需要深入理解和上下文意识的领域。例如,ERNIE 可利用其集成知识库来回答需要理解文本之外的复杂问题,如历史事实或有关人物或地点的具体细节。ERNIE还能理解查询中与所学知识有关的深层含义,提供更相关、更精确的答案,从而提高语义搜索引擎的性能。
ERNIE具有将知识图谱中的结构化世界知识与文本数据整合在一起的独特能力,这将大大有利于无人机通信。例如,与传统的语言模型相比,ERNIE 可以更有效地解释操作员发出的复杂的、与上下文相关的命令。例如,如果操作员发出的命令涉及地理或操作术语,ERNIE 对知识图谱的整合使其能够更准确地理解和执行命令。在陌生地区执行复杂任务时,这一点至关重要,因为在这种情况下,对当地地理和术语的准确理解十分必要。ERNIE 还展示了基于环境数据和任务目标的有效自主决策能力,因为它可以同时处理当前任务数据和综合知识,从而做出明智的决策。例如,在环境监测中,ERNIE 可根据其对环境科学的广泛了解,识别地貌中的具体特征或异常现象,从而帮助进行更有效的数据收集和分析。
在搜救或灾难响应等关键任务中,ERNIE 还表现出较高的实时态势感知属性,可应用其语义理解能力,根据其知识图谱解释实时数据输入(如视觉或传感器数据)。这有助于快速识别相关实体或情况,例如识别历史上已知的危险区域或解读遥感数据中的人类活动迹象。在多无人机场景中,ERNIE 可通过理解和管理无人机之间的信息交流,促进更好的沟通和协调。它可以根据与任务目标相关的相关性和紧迫性对通信进行解释和优先排序,利用其语义理解能力确保无人机和谐运行。
此外,在培训目的方面,ERNIE 可以生成背景丰富的模拟场景,将真实世界的知识纳入培训练习,帮助更好地理解如何在复杂场景中与无人机互动,加强他们对真实世界行动的准备。与其他大型语言模型类似,任务完成后,ERNIE 可协助生成详细的事件报告和汇报,其中包括观察数据和基于综合知识的背景见解,以便对任务结果进行语义分析。因此,ERNIE 通过利用其整合和利用广泛的知识图谱以及文本数据的能力,可以显著增强无人机通信系统的能力,使其在复杂的作战环境中更加智能、反应更快和更有效。这使得ERNIE对于先进的无人机应用特别有价值,因为传统的语言模型可能无法理解和处理复杂的上下文信息。
Facebook 开发的 BART 在变换器框架内结合了自动编码和自动回归技术的优势,使其在处理序列到序列任务时异常有效[109]。BERT 主要用于理解和预测同一输入文本中的元素,而 BART 则不同,它针对需要生成或转换文本的任务进行了优化。它的训练方法是用各种噪声函数对文本进行破坏,如标记屏蔽、文本填充,并学习如何重建原始文本 [110, 70]。BART 的训练使其具备了处理各种应用的能力,包括文本摘要(可生成较长文档的简明版本)和文本生成(适用于创建内容或生成对话)。此外,BART 的功能还扩展到机器翻译和数据增强,使其成为将输入文本转化为连贯且与上下文相适应的输出序列的多功能工具 [111]。
将 BART 集成到无人机中具有多种优势,特别是在涉及复杂文本处理和生成的任务中。例如,BART 可以加强任务报告的编写和解释,从大量监视数据或传感器读数中自动生成简明摘要,从而有助于更快地做出决策和通报情况。BART 还善于生成连贯的文本序列,用于自动回复或指示无人机操作员,特别是在需要快速准确通信的场景中。
此外,BART 还能在搜救行动中改进实时策略调整,以解读传入的数据,并根据不断变化的情况提供最新的任务目标或方向。它还能将嘈杂、不完整的文本数据转化为可理解的信息,因此在无人机操作的动态和挑战性环境中特别有价值,可确保通信在复杂的情况下仍保持清晰和上下文相关。
对用于无人机的不同大型语言模型(即 BERT、GPT、T5、XLNet、ERNIE 和 BART)进行比较后发现,它们具有针对无人机操作各个方面的独特能力,反映了各自独特的架构和训练方法。例如,BERT 擅长从单词的两个方向理解上下文,因此在解释复杂命令和从任务数据中提取相关信息方面非常有效。它特别适用于对传感器数据或操作指令的精确理解至关重要的任务,例如在监视或监测任务中,深入的上下文知识至关重要。相比之下,GPT 擅长生成连贯、扩展的文本输出,有利于创建详细的任务报告或进行对话。这种模式非常适合需要叙述式更新或交互式通信以生成操作日志或汇报报告的无人机模拟训练。
而 T5 具有很高的通用性,可将任何基于文本的任务转换为文本到文本的格式,简化了各种类型通信的处理过程。事实证明,它在无人机通信任务中非常有效,如翻译不同语言或协议之间的通信、汇总大量勘探数据以及将原始传感器输出转换为可操作的文本格式。另一方面,XLNet 采用基于置换的训练方法,对语言上下文的理解比 BERT 更灵活、更全面。这种模型有助于复杂、动态的操作环境,如搜索、救援和灾难响应,在这些环境中,实时解释和响应上下文繁重的指令至关重要。
同样,ERNIE 通过知识图谱整合外部知识,增强了对语言的语义理解,非常适合需要深入理解特定术语或概念的任务,如涉及特定生态数据的环境监测应用。虽然 BART 在自动编码和自动回归模型的优势方面有所折损,但它在理解和生成文本方面表现出色。它非常适合用于编写精确、上下文准确的任务报告或总结详细监测数据的说明,在这种情况下,保持信息的完整性和简洁的表达方式至关重要。
因此,总而言之,BERT 和 XLNet 凭借对上下文的深刻理解,在理解指令方面非常有效,而 XLNet 则在动态环境中提供了额外的灵活性。同时,GPT 和 BART 擅长创建连贯、广泛的文本,其中 BART 在文本转换任务中提供了额外的功能。T5 在文本转换任务中具有广泛的适用性,可满足各种通信需求。ERNIE 在整合专业知识对准确操作和决策至关重要的应用场景中表现突出。因此,可以根据无人机任务的具体要求纳入每种模型,以确保通信保持有效和高效,适应无人机操作的复杂性和挑战。表 II 重点介绍了各种 LLM 模型,包括其主要特点、在无人机领域的应用以及集成到无人机系统中的挑战。
将大型语言模型与无人机集成,需要部署先进的语言处理能力,以实现复杂的决策和交互能力。无人机平台由基本硬件组成,包括配备飞行控制硬件的无人机本身、摄像头和激光雷达等传感器以及 Wi-Fi、LTE 和卫星等通信模块。它还包括用于实时数据处理过程的小型机载计算机。在大型语言模型集成中,轻量级版本的大型语言模型直接部署在无人机上,通过边缘人工智能实现快速自主决策。对于更复杂的计算,无人机数据被传输到云服务器,由更强大的大型语言模型进行分析,然后将结果发回无人机。地面控制站为这些操作提供支持,使操作员能够通过直接视距或卫星通信远程监视和控制无人机,并使用安全数据链路进行数据传输。该系统的运行涉及几个关键功能。无人机通过机载传感器收集数据,捕捉视觉图像、环境数据或与其任务相关的特定读数。这些数据要么在本地处理,要么发送到地面站或云服务器,具体取决于任务的复杂程度和机载处理单元的能力。无人机上的嵌入式 LLM 处理简单任务的数据过程,以做出实时决策。对于更复杂的决策,数据会被发送到云端,由功能强大的大型语言模型对其进行分析,做出决策或产生见解,然后再传输回无人机。根据这些经过处理的数据和大型语言模型做出的决策,无人机执行各种行动,如优化飞行路径、与环境互动,或执行特定任务,如投递、监视或数据收集。反馈和学习是该系统不可或缺的一部分,任务中的数据被用来重新训练或完善大型语言模型,提高其准确性和决策能力。这种持续的反馈回路有助于模型适应特定的环境,以实现最佳的任务性能。因此,大型语言模型与无人飞行器的集成为无人飞行器的操作提供了重大改进,为提高能力和效率开辟了广阔的前景。
图 2 展示了与 LLM 集成的无人机系统的综合架构,其中无人机从传感器收集数据。这些数据包括文本、音频和视频等各种类型,被输入到集成式 LLM 架构中。LLM 处理这些数据,并将结果输出到决策层,然后由决策层向飞行控制器、传感器系统、能源系统和有效载荷管理系统等运行组件发出指令。
图 2:LLM 集成无人机系统的综合架构。
此外,地面控制和基站是无人机运营基础设施的关键要素,作为指挥和控制中心,它们负责处理从飞行授权和监控到数据处理和部署管理等一切事务。将大型语言模型与地面控制和基站集成在一起,可大大增强无人机的管理和操作。例如,大型语言模型可通过解释和处理自然语言命令或查询,显著改善无人机与其控制站之间的通信。它能让操作员更直观地与无人机互动,使复杂的命令更容易执行,并减少人为错误的可能性。
大型语言模型可以处理地面控制站从无人机接收到的实时数据,就飞行路径、任务调整和应对不断变化的环境条件做出即时决策。大型语言模型还能以比人类快得多的速度分析海量数据,提供重要见解,从而快速做出决策,优化无人机操作,确保任务成功。此外,大型语言模型还能利用历史和实时数据,在机械故障、电池耗尽或恶劣天气条件等潜在问题出现之前进行预测。这种预测能力可确保提前采取预防措施,提高无人机运行的安全性和可靠性。
此外,大型语言模型还能自动执行飞行调度、无人机状态监控和数据收集管理等常规任务,从而提高复杂决策和运营战略的效率。大型语言模型还能自动对数据进行分类、提取相关信息并生成综合报告,从而大大有助于改进数据处理和分析。此外,它们还能分析图像和传感器数据,以识别模式或异常情况,从而为监视、环境监测和基础设施检查等任务提供帮助。大型语言模型可以根据积累的数据创建详细的模拟和训练场景,为操作员提供逼真多样的训练体验,提高无人机操作员的技能,确保他们为复杂的作战场景做好更充分的准备。
此外,集成到地面站和基站的大型语言模型具有先进的模式识别能力,可以加强安全协议。它们可以检测潜在的网络威胁和未经授权的访问尝试,确保无人机操作免受数字入侵。此外,大型语言模型还能根据任务要求预测可用无人机和支持设备的最佳使用情况,从而优化资源分配。大型语言模型还能促进无人机操作中使用的系统和软件之间更好的互操作性,通过充当理解和转换各种数据格式和协议的桥梁,确保不同平台之间的无缝集成和通信。这样,无人机任务就能实现高效管理、卓越的决策支持、更高的安全性和有效性。大型语言模型的这种广泛应用为其有针对性地用于增强频谱传感能力奠定了基础。
此外,鉴于频谱传感在确保无人机有效射频(RF)通信方面的关键作用,尤其是在复杂或拥堵的环境中,大型语言模型的集成证明是非常有益的,可以通过复杂的数据处理技术显著增强无人机的频谱传感能力。这种集成加深了对动态射频条件的理解,这些条件在共享频率或高干扰水平的区域十分普遍,无人机系统能够智能地识别和利用最佳频段。这种能力大大提高了无人机通信网络的可靠性和效率,这对于在射频密集的环境中保持稳健的链路和确保成功执行无人机操作至关重要,而传统方法可能会失败。因此,本调查报告强调了在频谱传感中集成 LLM 的关键需求,并在随后的章节中深入探讨了其机遇和挑战。
无人机依赖射频通信完成各种任务,包括遥控、遥测、数据传输以及与地面站的连接。频谱感知是一项关键技术,可增强无人机的射频通信能力,使无人机能够识别和利用对其任务至关重要的适当频率范围。此外,在无人机共享频段或遇到快速变化的射频条件的环境中,这一点尤为重要[112, 113]。因此,通过准确感知频谱,无人机可动态调整其通信参数,如信道选择和功率控制,以防止干扰主用户并优化其通信性能 [114]。此外,频谱感知还可提高无人机的运行效率,使无人机能够就频段选择做出明智决策,从而确保有效利用可用频谱资源,并将干扰现有无线系统的风险降至最低 [115,116]。
此外,频谱传感在实现认知无线电功能[117, 112]、动态频谱接入[118]、避免干扰[117]和确保无人机通信系统符合法规要求[119]方面也发挥着重要作用。例如,认知无线电允许无人机系统根据实时频谱感知结果自适应地选择和切换不同的频率信道或频段,使无人机能够找到并利用最合适、最不拥堵和无干扰的频段进行可靠高效的通信[120]。动态频谱接入允许无人机访问可用频谱资源,动态确保无人机在优化通信链路的同时避免干扰现有用户。此外,频谱传感还能增强无人机检测附近是否存在其他射频设备或系统的能力,从而促进共存和避免干扰。如果检测到干扰或潜在冲突,无人机可自主或半自主地改变工作频率或调整通信协议以避免干扰[121]。
世界各地的监管机构,如美国联邦通信委员会(FCC),都制定了频谱使用指南,以确保公平使用,并防止包括无人机在内的各种技术和服务之间发生冲突。这些指导方针指定了无人机使用的特定频段,以避免与商业、住宅和应急通信发生冲突,从而在无人机服务日益增长的需求与传统频谱用户的需求之间取得平衡。这些机构制定了动态频谱访问规则,特别是在无人机与其他设备共享频谱的频段。该框架涉及协议和技术,使无人机能够在不干扰现有用户的情况下检测和利用空闲频率。遵守这些框架对于合法、高效地运营无人机至关重要。
为确保合规,无人机运营商必须考虑几个关键方面。例如,无人飞行器必须配备先进的频谱传感技术,能够可靠地识别可用和被占用的信道,防止未经授权使用被占用的频率。无人飞行器在运行时还必须尽量减少对其他频谱用户的干扰,遵守功率限制、频率边界以及旨在降低信号干扰风险的操作协议[122]。此外,有必要实施软件解决方案,帮助管理频谱使用,确保遵守当地和国际法规,实现频谱管理诸多方面的自动化,减轻无人机运营商的负担,降低违规风险。
最近的研究极大地推动了无人机操作中的频谱感知和共享应用,重点关注提高通信效率和减少干扰的几个关键方向。Shen 等人[123]介绍了一种三维时空传感方法,利用无人机的移动性在异构环境中进行动态频谱机会检测。文献[124]和[125, 126]中的作者开发了在认知无线电系统中优化频谱感知和共享的方法,通过管理与地面链路的干扰来提高无人机的通信性能。Chen 等人[127]的研究重点是无人机集群之间的频谱接入管理,以减少干扰;Xu 等人[128]的研究重点是无人机中继系统中的发射功率分配和轨迹规划,以实现设备之间的有效数据中继。
在另一项研究[129]中,Qiu 等人利用区块链技术确保地面和空中系统之间频谱交易的隐私和效率。Hu 等人[130] 重点研究了利用契约理论平衡宏基站和无人机运营商利益的频谱分配策略。Azari 等人[131] 比较了人口稠密城市场景中的底层和叠加频谱共享机制,强调了叠加策略在保持无人机和地面用户服务质量方面的有效性。虽然无人机的频谱感知和共享技术取得了重大进展,但现有研究尚未广泛探讨大型语言模型的集成问题。整合大型语言模型可通过增强频谱感知能力,实现更动态、更高效地使用通信频率,从而彻底改变无人机领域[132]。大型语言模型可以解释和分析无人机上频谱传感器产生的大量数据。凭借先进的自然语言处理能力,它们可以从非结构化数据中提取有意义的见解,促进实时智能决策。大型语言模型还能通过分析历史数据和当前通信模式,预测频谱可用性和潜在干扰。因此,无人机可以主动调整其通信参数,如信道选择和功率水平,以保持最佳性能。
此外,大型语言模型可以处理传感器数据,并识别表明潜在频率冲突或拥堵区域的模式。然后,无人机可自主进行调整以避免这些问题,从而提高运行效率并降低通信故障风险。此外,大型语言模型还可以通过对频谱条件和用户行为进行更深入的分析,协助在频率选择方面做出更明智的选择,从而为认知无线电的增强做出贡献。这种整合增强了无人机选择最不拥堵和最有效信道的能力。LLM 的持续学习和适应能力还能优化无人机的频谱访问策略,确保无人机根据实时数据和复杂算法利用最佳可用频率。大型语言模型还可以通过持续监测合规参数和适应法规变化,确保无人机在合法的频谱分配范围内运行。大型语言模型还可以通过分析通信模式和环境数据,为干扰管理和遵守监管框架做出重大贡献。大型语言模型可以更准确地检测潜在干扰源,并建议立即采取纠正措施加以避免。
大型语言模型具有先进的认知和分析能力,可显著提高无人机监视系统的效率、准确性和有效性[2]。集成 LLM 后,无人机可以更高效地处理和分析大量视觉数据,实现实时图像识别、目标检测和态势感知。大型语言模型在识别视频流或图像中的特定物体、个人、车辆或活动方面表现出色,可提供对军事和民用监控行动至关重要的详细见解。它还能使无人机更加自主地进行操作,在没有人类持续监督的情况下对周围环境进行解读并做出反应,在反应时间紧迫的复杂或敌对环境中大显身手。
此外,配备大型语言模型的无人机可以根据任务目标和不断变化的地面实际情况,实时决定飞行路线、重点区域以及何时捕捉关键镜头。NLP 可让无人机理解和处理人类语言,使其能够接收和解释更复杂的命令和查询。此外,大型语言模型还能通过分析模式和历史数据来预测潜在的安全威胁或兴趣点。这种预测能力允许采取主动监视措施,无人机可以更密切地监视可疑区域,或提醒人类操作员注意根据所学模式检测到的异常活动或异常点。它还可以通过将大量收集到的数据汇总为可操作的情报,在飞行过程中处理和分析数据,从而加强实时决策支持。在条件瞬息万变的监视和侦察任务中,它能做出快速、明智的决策[133]。
大型语言模型与无人机结合用于应急响应和灾害管理,可大大提高应急行动的效率、准确性和有效性。大型语言模型可快速分析无人机收集的图像和传感器数据,在灾害发生后立即评估受损程度,包括识别受阻道路、受损建筑和洪水区域 [134]。由于能够实时了解态势,配备了 LLM 的无人机可帮助应急人员确定需要紧急关注的区域的优先次序,并规划最有效的应对措施 [135]。
在执行搜索和救援任务时,时间至关重要,因此具有 LLM 功能的无人机可以自主扫描大片区域,利用物体识别和模式检测来确定幸存者的位置。它们可以在没有人类直接引导的情况下在具有挑战性的地形中航行,从而加快搜索行动并提高营救遇险人员的机会。此外,由于灾害破坏了通信网络,与大型语言模型集成的无人机可以建立临时通信网络,充当空中中继器,促进救灾人员与受灾群众之间的通信。大型语言模型可优化无人机的位置和路由,以确保最大的覆盖范围和网络效率。
此外,无人机还能通过分析历史数据和当前天气报告,在潜在灾害发生前对其进行预测,从而提高备灾能力。这种预测能力使当局能够主动部署无人机,监测危险区域,并启动先发制人的疏散或其他缓解措施。此外,大型语言模型可以通过分析需求评估和资源可用性来管理后勤方面的问题。他们利用无人机确保食品、水和医疗设备等物资得到最佳分配和运送,尤其是运送到因灾害而难以通过传统方式到达的地区[136]。
此外,无人机还能在损失分析和恢复规划中发挥重要作用,对损失进行详细评估,跟踪恢复进度,并随时间推移分析数据,为重建工作提供指导。大型语言模型可以模拟不同的恢复场景,帮助规划者做出以数据为导向的决策,以更具弹性的方式重建基础设施。鉴于应急响应涉及数据的敏感性,大型语言模型可确保无人机收集和传输的所有信息都经过安全加密,并防止未经授权的访问。它们监控数据流,以发现表明存在威胁的异常情况,从而在混乱情况下保护关键信息。大型语言模型通过将复杂的数据转化为可操作的见解和直观的报告,增强了无人机与人类操作员之间的互动。这样,应急响应人员就能根据无人机以易于理解的格式提供的综合分析结果,快速有效地做出明智决策。
集成了大型语言模型的无人机可以通过优化路线、加强客户互动和提高运营效率来改变送货服务和物流[79]。大型语言模型可以处理复杂的数据集,包括交通模式、天气条件和地理数据,从而动态优化送货路线。这可确保更快的送货时间,并有助于降低运营成本。大型语言模型可以实时调整这些路线,以适应不断变化的条件,确保尽可能高效地送货[137]。
无人机可以使用 LMM 与客户互动,实时更新送货状态、回答询问,甚至处理投诉或特殊指示。互动的增强提高了客户满意度,简化了交付过程,减少了客户服务中对人工干预的需求。大型语言模型能让无人机在执行投递任务时自主决策。例如,当遇到意想不到的障碍或紧急情况时,无人机可以决定最佳行动方案,无论是改变路线、等待许可还是返回基地。即使在不可预测的情况下,这种自主程度也能确保交付服务的可靠性和一致性。此外,他们的主动方法还能防止停机,延长无人机机队的使用寿命,并确保技术问题不会打乱投递计划。
此外,大型语言模型还能在重量分布、包裹大小和交付优先级方面提供协助,确保每架无人机都能高效装载,最大限度地提高交付能力,减少所需的行程次数。大型语言模型可持续分析交通和天气数据,实时调整无人机飞行计划,以维持送货时间表,尤其是在恶劣天气条件或拥堵空域,确保安全准时送货。
大型语言模型可以处理和分析无人机收集的大量环境数据,如图像、温度读数和污染程度。收集到的数据可用于识别环境趋势和异常情况,如植被变化、水质变化或污染物的存在 [138、139、140、141]。LLM 可以快速分析这些数据,并为自然保护主义者和环境科学家提供可行的见解。大型语言模型还可以通过分析无人机捕获的视频和音频记录来帮助跟踪和研究野生动物,从而在没有人类在场的情况下识别动物个体、跟踪其动向并观察其一段时间内的行为,这可以减少人类互动给动物造成的压力和行为变化 [142,143]。
此外,与传统方法相比,与大型语言模型集成的无人机可以更高效地绘制大面积和无法进入的区域的地图。大型语言模型可以分析收集到的地理数据,绘制详细的栖息地地图,包括随时间的变化。这些信息对于管理自然保护区、规划重新造林项目或评估人类活动对自然栖息地的影响至关重要。大型语言模型还可以利用历史和持续监测数据来预测未来的环境状况和野生动物趋势。这些预测可以为保护工作提供信息,例如预测实施物种保护措施的最佳时间和地点,或预测影响生物多样性的生态变化。
大型语言模型可以为参与环境保护项目的利益相关者自动生成报告和演示文稿。大型语言模型可将复杂的数据综合成易于理解的格式,从而促进调查结果和建议的交流更加透明,使决策者更容易理解问题并采取行动。此外,在资源往往有限的保护项目中,大型语言模型可以优化无人机和其他资源,通过在最佳时间安排无人机飞行、规划航线以覆盖关键区域,以及确保以具有成本效益的方式收集数据,从而确保最大的覆盖范围和数据收集效率。
将大型语言模型与无人机集成以增强卫星和高空平台(HAP)通信,需要利用先进的分析和认知能力来改进数据中继、处理和自主决策[25]。由于无人机在卫星和高空平台通信网络中充当移动节点或中继点,特别是在直接通信受到地理障碍阻碍或临时需要额外带宽的地区。大型语言模型可以动态管理这些连接,优化地面站、卫星、HAP 和终端用户之间的数据流。它们可以通过无人机对数据路由进行实时决策,以提高网络弹性并减少延迟。大型语言模型可使无人机自主导航到能最有效地弥合卫星、HAP 和地面网络之间通信差距的位置。这在灾区或需要临时通信增援的大型公共活动期间尤其有用。配备了 LLM 功能的无人机可以分析环境数据、卫星路径和网络需求,从而在无人干预的情况下确定最佳位置 [144]。
大型语言模型可通过分析卫星和 HAP 通信中使用的无人机的遥测和运行数据,在潜在的系统故障或次优性能成为关键问题之前对其进行预测。这种预测性维护能力可确保无人机的正常运行时间更长,可靠性更高,从而发挥这些关键作用。大型语言模型可以实时处理和压缩无人机上的数据,然后再将其转发给卫星或 HAP。这就减少了数据传输所需的带宽,加快了通信速度。大型语言模型可采用先进的算法,根据当前的网络条件和数据优先级确定最有效的数据编码和传输方式。
集成了 LLM 的无人机可根据不断变化的环境条件、干扰或网络负载的变化调整其通信协议,以保持与卫星和 HAP 的有效链接。大型语言模型可以从过去的通信中学习,预测最佳通信窗口,并调整频率或调制方案以提高连接质量。此外,对于在复杂环境中运行的无人机而言,大型语言模型可通过处理来自卫星和 HAP 传感器等多个来源的数据来增强态势感知能力。这有助于对无人机的定位、通信策略,甚至避免冲突或危险的紧急机动做出明智的决策。集成大型语言模型可实现可扩展的灵活通信网络,无需进行大规模重新配置即可适应不同的需求。无人机可以快速部署,以扩大网络能力,应对不断增长的通信需求,或覆盖临时的卫星或 HAP 覆盖缺口。
为无人机通信实施大型语言模型是一个新方向,必须应对一系列挑战和考虑因素,以确保无人机应用的有效性和安全性。本节重点介绍在无人机领域有效采用大型语言模型必须考虑的几个基本挑战。
大型语言模型需要大量的计算能力和能源才能有效运行 [145,146]。然而,无人飞行器的机载计算能力和电源有限,受限于轻量化设计的需要,无法确保更长的飞行时间和运行效率。处理大型模型所需的功耗会迅速耗尽无人机的电池,从而减少执行关键任务的时间 [147,8]。此外,增加额外资源会极大地影响无人机的效率,从而使大型语言模型的集成变得更加复杂。要解决这些问题,关键是要通过修剪不必要的参数和使用量化技术来简化大型语言模型,从而以更少的功耗减小模型大小并提高处理速度[148]。边缘计算可通过在本地处理数据,进一步缓解对高带宽连接的需求 [149]。
此外,先进的人工智能硬件,如图形处理器(GPU)[150]、现场可编程门阵列(FPGA)[151]和模型提炼技术[152],也有助于优化计算需求。实施自适应系统,根据当前需求调整资源使用情况,也有助于有效管理功耗,在不影响性能的情况下确保运行效率。
在使用大型语言模型进行涉及实时数据处理和决策的无人机操作时,通信延迟挑战尤为关键。例如,导航、监视和战术响应要求尽量减少数据处理和决策延迟。然而,当大型语言模型需要大量计算资源时,标准的解决方案是将这一处理过程卸载到基于云的服务器上。虽然这种方法利用了强大的计算能力,但由于从无人机到云服务器再到云服务器之间的通信延迟,它本质上会带来延迟。当关键的即时响应影响到任务的有效性和安全性时,这种延迟可能会造成危害[25]。
为缓解这些问题,无人机可通过集成微处理器、图形处理器或定制专用集成电路(ASIC)等先进计算资源来增强机载处理能力,从而更高效地处理复杂算法。平衡计算能力与延迟需求至关重要,可通过采用混合处理过程进行优化。这包括直接在无人机上处理紧急、实时的处理过程,同时将更复杂、时间敏感性较低的任务委托给云。这种策略有助于平衡计算负荷,并根据特定任务的紧迫性和复杂性调整响应时间。此外,建立强大的近场通信网络和利用边缘计算解决方案可以进一步减少延迟。通过本地服务器或附近配备边缘服务器的其他无人机,将处理能力置于离无人机更近的位置,可显著缩短通信距离和时间,提高无人机操作的整体响应速度[153, 154]。
模型的鲁棒性和可靠性是部署无人机通信的关键,因为基于模型输出的决策会导致重大后果[46]。例如,由于模型依赖于从训练数据中学到的模式,而训练数据可能无法充分涵盖现实世界中所有可能的情况,因此在新情况或边缘情况下,模型可能会产生不可预测或不正确的输出[155]。在必须快速、准确做出决策的动态环境中,这种风险尤其高,无人机的运行往往就是这种情况[64, 103]。利用新数据对模型进行持续更新和再训练,有助于模型从最近的经验中吸取教训,并适应可能遇到的变化或新情况。这种适应包括纳入无人机遇到的新情况的数据,扩大模型的理解和响应范围。例如,建立一个系统,定期将无人机任务的数据反馈到模型的训练程序中,从而完善和更新其算法。
此外,在依赖大型语言模型进行关键操作时,基于模拟的测试和验证至关重要。在各种模拟条件下对这些模型进行测试,对于识别在恶劣天气条件、通信中断或异常任务参数等复杂情况下可能出现的故障或反应弱点至关重要。还可以实施强大的故障安全机制,在模型输出不确定或超出预期参数时,通过设定需要人工干预的阈值或条件,防止因模型输出不正确而采取有害行动。实施冗余系统还可以在执行前对关键决策进行双重检查,增强的错误处理功能可以在不中断无人机运行的情况下处理大型语言模型的意外输出[156]。
先进的大型语言模型需要与无人机现有的硬件和软件模块(如飞行控制、导航系统、通信协议和数据处理单元)无缝互动,每个模块都有其独特的规格和操作要求,以增强无人机操作过程中的决策和通信。将大型语言模型集成到这些不同的框架中既复杂又耗时,有可能导致大量的开发和测试时间,以确保全面的兼容性和功能性。因此,采用模块化方法进行系统设计,可以在不中断系统的情况下集成、移除或更新单个大型语言模型组件,从而极大地简化大型语言模型的集成工作。模块化设计具有灵活性和可扩展性,可满足不同任务或操作调整的特定需求[26]。
此外,确保新的 LLM 组件与现有系统的互操作性也至关重要 [157]。尽管不同的系统和软件应用程序是独立开发的,但互操作性允许它们进行有效的通信和协同工作。通过分阶段测试和部署,将大型语言模型逐步集成到无人机系统中,也可以降低集成的复杂性。它还能发现并解决具体问题,而不会出现系统大面积故障的风险。此外,有必要制定定期更新和维护的系统方法,以确保集成的大型语言模型保持有效,并确保整个系统适应新的技术进步或操作要求的变化[155]。
在无人机操作中集成大型语言模型会引发有关数据安全和隐私的重大问题,主要是因为这些模型经常处理敏感数据,其中可能包括在监视任务中收集的个人信息。这种数据类型非常容易受到破坏,一旦泄露,可能会导致严重的隐私侵犯和其他安全问题。实施强有力的数据安全措施对于降低这些风险至关重要。因此,强大的数据加密是确保数据在传输和存储过程中不被未经授权的用户访问的根本[158]。
此外,还必须建立强大的访问控制机制,限制只有授权人员才能访问数据,从而防止任何未经授权的数据篡改或泄漏。遵守数据保护法规也至关重要。这些法规旨在保护数据的隐私性和完整性,要求企业采取严格措施保护所有个人信息。通过遵守这些准则,无人机运营商可以帮助确保大型语言模型处理的敏感数据的安全,最大限度地降低违规风险,维护信息的保密性和完整性[159]。
本节考虑了之前讨论的挑战和考虑因素,概述了未来的研究方向。它强调了需要立即关注的研究领域,以通过 LLM 集成提高无人机的智能、效率和适应性。这种探索对于克服当前的局限性和释放无人机在各领域应用的全部潜力至关重要。
在无人机操作日益复杂和需求不断增加的推动下,无人机通信 LLM 技术的未来工作方向和机遇是丰富多样的。新方案应侧重于开发 LLM 算法,使无人机能够根据有关天气、地形和电磁干扰的实时数据动态调整通信协议和策略。这种自适应能力可大大提高无人机在灾难响应和军事行动中的效率,因为在这些行动中,条件可能会发生快速且不可预测的变化 [37, 160]。
未来的工作应整合大型语言模型,以增强无人机群的智能,从而实现模仿生物系统的复杂群体行为。此外,未来的研究还需要关注算法,使单个无人机能够根据蜂群的集体输入做出决策,优化飞行路径和任务分配,以提高效率并降低能耗 [155]。这项技术有望应用于从大规模农业监测到搜救任务等领域,在这些领域中,多无人机的协调行动至关重要。
此外,改进纠错和信号处理对于在具有挑战性的环境中保持通信完整性至关重要。未来的研究需要探索深度学习模型,以预测和补偿信号衰减,并开发抗干扰能力更强的新型调制和编码形式。在拥挤的城市地区或恶劣的天气条件下,信号丢失会严重影响无人机的运行,因此这项技术尤其有益[161, 68]。
未来的工作还应将 LLM 增强型无人机通信的应用范围扩展到新的领域,如人道主义援助、环境监测和物流。未来的研究需要探索如何在紧急情况下部署配备先进 LLM 和通信技术的无人机,以提供实时更新和分发援助,在最少人工参与的情况下监测野生动物或环境变化,并通过自主交付服务简化供应链。
将大型语言模型与新兴技术相结合可为无人机通信系统带来巨大的进步。例如,结合可重构智能表面(RIS)可优化信号处理算法,并根据实时环境和交通数据动态配置 RIS,从而显著提高无人机通信的效率和可靠性[162]。它还可以通过优化数据传输来优化远程病人监测和远程医疗,从而改善从智能城市到增强医疗保健机会等各种环境。此外,大型语言模型还能支持对身临其境的体验至关重要的高带宽和低延迟通信,从而提高增强现实(AR)和虚拟现实(VR)应用的性能[163, 164]。
此外,将大型语言模型与 5G/6G 技术集成可显著增强无人机的通信能力,因为这些网络可提供更高的带宽和更低的延迟[165]。它使无人机能够流式传输高清视频以执行监视或检查任务,实时接收更新以进行动态任务调整,并以更好的协调性参与蜂群行动。将配备 LLM 的无人机与物联网设备连接起来,将使无人机在智能城市和工业环境中的操作更具互动性和响应性。无人机可以充当物联网网络中的移动节点,收集和处理各种来源的数据,并在飞行中做出决策。这种集成在灾难响应场景中尤为有用,无人机可以评估损失、检测异常并与其他物联网设备通信,从而有效管理应急服务 [166,167]。
此外,将大型语言模型与边缘计算平台集成可以分散数据处理,减少云计算场景中涉及的延迟,使无人机能够在网络边缘执行实时数据分析。这种能力可使无人机在执行关键任务(如跟踪移动目标或在复杂地形中导航)时更快地做出决策,而无需等待远程处理数据的过程[168]。同样,用可处理视觉和感官数据的专用神经网络来增强大型语言模型,可提高无人机了解环境并与之互动的能力。它能让无人机执行更复杂的识别任务,例如在搜救行动中识别特定的个人,在基础设施检查中检测结构问题,或监测农田的病虫害模式。
此外,量子计算集成还能成倍提高大型语言模型的处理能力,使其能够更高效地处理庞大的数据集。量子增强型大型语言模型可以优化飞行路径和通信协议,远远超出目前的能力,从而降低运营成本,提高数据量大的任务的效率[169]。
为有效实施 LLM 集成无人机操作,新方案应侧重于通过删除对提高无人机通信性能无显著贡献的参数来降低 LLM 的计算复杂度。未来的工作可以采用剪枝方案来减少模型大小和计算负荷,使其更适用于资源有限的设备。未来的方案还应注重采用量化技术,降低模型参数的精度(如从浮点数到整数),从而大幅减少模型大小,加快推理时间,同时降低功耗。此外,无人机还可以受益于边缘计算服务,这种服务可以进行本地数据处理,而无需将数据传回中央服务器。这降低了持续高带宽连接的必要性,并通过在无人机和边缘设备之间分配计算负荷来帮助执行复杂的模型。
此外,未来的硬件设计应明确针对人工智能任务。采用 GPU。针对人工智能干扰进行优化的 FPGA 或 ASIC 可显著提高功耗和计算效率,与通用处理器相比,每瓦性能更优越。模型提炼是未来可以重点研究的另一种有效策略,它包括训练一个较小的 “学生 ”模型来复制较大的 “教师 ”模型的性能。经过提炼的模型可以保持较高的精确度,但只需要很少的计算资源,因此适合部署在功能有限的设备上。根据当前需求和可用电力动态调整计算资源的系统可以优化电力使用。例如,当电池电量较低或无需进行详细处理时,无人机可以部署简化版模型[170]。因此,未来关注这些策略可以大大提高将复杂的大型语言模型集成到无人机系统中的可行性。这些方法有助于平衡模型性能与无人机平台实际限制之间的权衡,确保既能利用先进的 NLP 功能,又不影响无人机的运行效率。
为了解决延迟问题,无人机可以通过利用先进的计算资源(如微处理器、GPU 或定制 ASIC)来增强机载处理能力,从而高效执行复杂的机器学习算法。未来的方案应根据每个无人机任务的具体要求,考虑计算能力和延迟之间的权衡,以有效地应对这些挑战。混合方法可能特别有效,即无人机在机上执行关键的实时处理过程,而将更复杂但时间敏感性较低的任务卸载到云端。因此,它可以平衡计算负载,并根据任务的紧迫性和复杂性优化响应时间。例如,集成智能路由算法可以在考虑当前网络条件、任务复杂性和处理要求紧迫性的情况下,动态确定处理数据的最佳位置。
此外,未来的方案还应探索稳健的近场通信网络和边缘服务器部署的可能性,以便在网络边缘以更快的处理速度和更低的延迟执行计算密集型任务。
将先进的大型语言模型集成到无人机操作中是一项复杂的挑战,因为这些模型必须与现有的各种无人机硬件和软件系统进行无缝交互[23]。无人机的各个组件,包括飞行控制模块、导航系统、通信协议和数据处理单元,都有各自独特的规格和操作需求。这种多样性可能导致开发和测试时间延长,而这是确保完全兼容和功能性所必需的。
未来的工作重点应放在采用模块化系统设计上,以便在不破坏整体系统完整性的情况下轻松添加、移除或更新各个组件[171]。此外,未来的工作必须确保不同的系统和软件应用程序即使是独立开发的,也能进行有效的通信和协同工作。因此,它们可以采用无人机行业广泛接受的标准化数据格式和通信协议。这有助于大型语言模型理解并遵守既定标准,从而使集成过程更加顺畅。
此外,今后的工作重点应是采用分阶段的方法,逐步将大型语言模型集成到无人机系统中,以确保兼容性和性能,并建立一个由专门团队进行定期更新、维护和培训的系统框架,以适应技术进步并保持有效集成。
为了提高集成了 LLM 的无人机通信系统的可靠性,今后的工作应侧重于采用先进的纠错技术和稳健的算法,以确保即使在不利条件下也能保持通信的可靠性。对基于 LLM 的无人机系统进行初步测试时,还应考虑通信信道的冗余性,使用多个通信信道和备份系统来防止任何单一信道出现故障。
未来的工作还应该侧重于人工智能驱动的预测性维护,通过集成人工智能工具来预测和安排维护,以防止故障发生。这有助于最大限度地减少停机时间,延长通信组件的使用寿命[68]。此外,未来的方案应采用动态路由和频谱管理技术,实施人工智能驱动的动态路由算法和频谱管理方法,以优化数据传输的可用频率和路径。这种方法有利于适应不断变化的环境条件和通信流量,提高整个系统的弹性。此外,还必须对集成了 LLM 的无人机系统广泛开展基于人工智能的培训和模拟,以确保它们能够处理各种操作环境和突发情况,从而提高可靠性。
未来的工作还应强调建立实时监控和决策支持系统[29]。这些系统至关重要,因为它们能对无人飞行器的健康和通信状态进行持续评估,并能提出建议或自动采取纠正措施。
基于 LLM 的无人机通信在各个领域都需要干扰缓解方案,从商业快递服务到基本的应急响应行动,不一而足。为了满足这些需求,未来的研究必须开发出能够实时动态识别和缓解干扰的先进信号处理算法 [172]。这涉及采用机器学习模型,特别是基于历史数据和实时输入预测和抵消干扰模式的深度学习技术 [173,174]。
此外,新方案还应探索波束成形技术,以提高信号清晰度和强度。这可以通过实施智能天线技术来实现,该技术可自适应地聚焦和引导波束远离干扰源,或使用多天线发送和接收信号,从而减少干扰影响[175, 176]。加强频谱管理策略对于优化频率使用、避免造成或遭受干扰也至关重要。这包括开发 LLM 驱动模型,根据无人机的任务要求和频谱环境动态分配带宽和调整频率。
未来的工作重点还应放在集成认知无线电功能上,使无人机通信系统能够自动改变频率以避免干扰。探索开发 LLM 算法可使无人机感知其运行环境,并在必要时就跳频或调制调整做出智能决策。
此外,改进无人飞行器之间的网络协调以共同管理和缓解干扰也至关重要。这需要未来对分散决策模型进行研究,通过大型语言模型,无人机能够共享干扰源信息,并协同决定最佳通信路径和协议。此外,加强无人机通信以抵御可能造成干扰或破坏通信的恶意攻击也至关重要。另一个重点领域是利用大型语言模型开发检测和响应系统,以识别和消除复杂的信号干扰和欺骗技术。
随着基于 LLM 的无人机通信系统越来越多地融入各行各业[132],有关这些技术的监管宣传和政策建议的未来方向和研究机会也越来越重要。未来的主要重点应是制定全面的政策,解决安全、隐私和道德标准问题,同时促进无人机操作的创新和集成。这需要与监管机构合作,制定明确的指导方针,以适应 LLM 和无人机技术的快速发展。
未来的工作必须确保数据通信的安全性,因为无人机要处理和传输大量潜在的敏感数据 [177]。因此,必须采取措施保护这些数据免遭破坏和未经授权的访问,同时保障数据的完整性和个人隐私 [178]。此外,今后的工作应继续关注制定空域使用法规,通过确定无人机如何与现有空中交通融合以及定义无人机操作的特定区域或高度来防止冲突和事故。与此同时,随着无人机越来越多地基于人工智能做出自主决策,确定人工智能决策的问责措施至关重要;如果这些决策导致不良后果,确定由谁负责至关重要。因此,制定人工智能行为标准,确保人工智能系统透明,其行为可追溯,并建立法律框架来解决责任和合规问题。此外,随着技术的发展,持续监测和修订这些政策对于维持一个支持技术进步和保护公众利益的环境至关重要[15]。
本文介绍了大型语言模型与无人机集成的变革潜力,开创了自主系统的新时代。我们全面分析了 LLM 架构,评估了它们在增强无人机能力方面的适用性。我们的主要贡献包括详细评估了用于无人机集成的 LLM 架构,并探索了基于 LLM 的前沿无人机架构。这为开发更加精密、智能和反应灵敏的无人机操作铺平了道路。此外,通过 LLM 集成改进光谱传感和共享的重点为数据处理的进步开辟了新的途径,这对无人机系统内的稳健决策至关重要。我们展示了通过集成大型语言模型而扩大的现有无人机应用范围。我们强调了这是如何使无人机在各种应用中具有更强的自主性和更有效的响应能力,并最终提高不同领域的可靠性和功能性。本文最后概述了未来需要研究的关键领域,以充分发挥 LLM-UAV 集成的优势。所讨论的进展为未来奠定了基础,在未来,无人机将超越其传统角色,发展成为复杂集成系统的关键组成部分,释放人工智能的全部潜力。这项工作可以作为持续技术进步的基石,推动我们走向这样一个未来:大型语言模型和无人机技术之间的协同作用可以通过实现前所未有的自动化和高效率水平来彻底改变各个领域。