据总部位于伦敦的帝国战争博物馆研究所称,英国于 1917 年 3 月测试了小型无线电遥控飞机 “空中目标”(Aerial Target),美国的 “凯特林虫”(Kettering Bug)空中鱼雷于 1918 年 10 月首飞。这两种飞行器在试验中都表现出了良好的前景,但在战争期间均未投入实战。
一个多世纪后的今天,无人驾驶飞行器(UAV)或无人机已成为威慑和作战的主要手段,为美国及其盟国和合作伙伴提供情报、侦察、监视、瞄准和有效载荷能力。快速发展的技术使人们将注意力集中在开发灵活、自主的无人机群上,这些无人机群可以相互通信,作为一个有凝聚力的单位运作,提供潜在的战斗力和威慑力。
根据总部位于华盛顿特区的智库 “新美国”(New America)2020 年的估计,全球有 39 个国家拥有武装军用无人机。随着各国投资技术以增强防御能力,这些数字正在发生变化。
2024 年 2 月,澳大利亚表示将斥资 2.6 亿美元制造军用无人机。
印度计划以近 40 亿美元的价格从美国购买 31 架武装无人机。
2024 年 1 月,德国表示将向菲律宾海岸警卫队提供无人机。
美国销售2种无人机给中国台湾。
作为 2022 年底宣布的国防建设计划的一部分,日本要求为其自卫队提供远程无人机和舰载资产,用于情报、监视、侦察和瞄准,并可能使用无人机为偏远基地和部队提供补给。
据在线出版物《Adhadhu》报道,马尔代夫支付了3700万美元,于2024年3月从土耳其购买了侦察无人机,用于巡逻这个岛国广阔的专属经济区。
斯里兰卡国防部下属智库--国家安全研究所的阿米拉-普拉桑加(Amila Prasanga)海军中校在国际海事安全中心于2023年11月发表的一篇文章中写道:"军用无人机在印太地区的扩散所带来的战略影响不容低估。无人机重塑了传统的海军行动,提供了先进的监视、侦察和打击能力。它们能够在有争议的地区开展行动,收集实时情报,并在尽量不危及人类生命的情况下投射力量,这从根本上改变了海上安全的态势。”
美国国防部(DOD)计划在 2023 年 8 月宣布的 “复制者”(Replicator)计划上初步投入 10 亿美元,到 2025 年在多个领域快速部署数千套自主系统。
图:2023 年,韩国浦川,韩国军用无人机在与美国的演习中飞行。
自 2022 年 2 月俄乌行动以来,乌克兰的立场明显体现了战争性质的变化。伊朗支持的胡塞叛军使用无人机袭击红海的船只,使战争性质的变化更加明显。
美国国防部乌克兰安全援助小组指挥官的科技顾问库里-赖特(Curry Wright)在POST会议上说,乌克兰在部署装有摄像头的无人机以无线方式传输视频方面具有创新性。这种无人机 “改变了对战争的认识”。
一名乌克兰无人机操作员告诉《纽约时报》,大量部署的小型视频无人机 “起着至关重要的作用,因为这些玩具本质上是移动火炮,可以弥补火炮弹药的不足”。“工作距离与迫击炮相同,但精度要高得多"。
乌克兰已经部署了这种无人机作为制导射弹,以压制和骚扰俄罗斯的战壕和车辆,显示了将这种低成本、消耗性无人机与更先进的无人机相结合的有效性。例如,用地对空导弹系统打击俄罗斯使用的伊朗设计的无人机 “非常有效”,但考虑到每次射击的成本,这种方法成本高昂。
向(无人机)发射的导弹价值数百万美元。从防御的角度看,有机会将昂贵的高精尖能力与低成本的消耗性能力结合起来。
采购弹药可能很费时间。然而,乌克兰正在用3D打印技术生产视频无人机,然后 “将这些无人机与(美国)提供给他们的爆炸物或弹药配对,他们使用这些无人机取得了很好的效果。
乌克兰总统沃洛德梅尔-泽连斯基(Volodymyr Zelenskyy)说,乌克兰计划在 2024 年生产 100 万架无人机,并在 2024 年初宣布成立一个专门负责无人机的武装部队分支。“这不是一个未来的问题。相反,它必须在不久的将来取得具体成果,"泽连斯基说。
图:一名韩国士兵在演习中操作无人机。
分析人士说,当无人机在人工智能(AI)的指挥下成群使用时,将进一步改变战争。未来的战争将不是由武器系统决定,而是由一系列武器系统决定,而这些系统的成本将更低。耶鲁大学杰克逊全球事务学院高级研究员埃利奥特-阿克曼(Elliot Ackerman)和美国退役海军上将、前北约指挥官詹姆斯-斯塔夫里迪斯(James Stavridis)在《华尔街日报》2024 年 3 月的一篇文章中写道:其中许多系统已经存在。目前尚不存在的是人工智能指挥系统,它将使一个国家能够大规模地开展无人战争。但它们即将到来。
数十或数百架无人机在人工智能的指挥下成群结队,可能会压垮防御系统。那些依赖航母或隐形飞机等大型、昂贵防御系统的国家可能会发现自己在面对部署了各种低成本、易分散和远程无人武器的对手时不堪一击。
2022 年,俄罗斯使用数十架价格低廉、装有炸药的无人机群袭击了乌克兰的目标。
2018 年 12 月,英国第二繁忙的伦敦盖特威克机场在附近发现 100 架无人机后关闭了 30 个小时,让世界提前看到了民用基础设施在无人机群面前的脆弱性。约1000个航班被取消或改道,影响了14万乘客。
在这场被官方称为蓄意、复杂的袭击中,没有人受到指控,但英国机场周围的禁飞区从 1 公里扩大到了 5 公里。
20 多年前,美军在阿富汗行动的早期阶段就采用了无人机群技术。据兰德公司 2024 年 2 月的报告,美国特种作战部队采用了蜂群概念,使用多架无人机,每架无人机由一名操作员控制,对目标进行协调攻击。
美国继续开发蜂群技术。兰德公司的报告称,2022年,美国国防部高级研究计划局(DARPA)展示了由单个操作员控制的150多架无人机组成的蜂群,并预计在五年内,人工智能蜂群可能包括多达1000架无人机。其目的是部署足够数量的无人机,以压垮防空系统。在美国,正如 “复制者”(Replicator)计划所表明的,美国防部正在将其无人系统的部分重点转向蜂群式消耗型无人机,而不是更复杂的传统无人机项目。例如,美国陆军正在评估蜂群式中型无人驾驶航空系统的能力,以提醒人类操作员注意高度优先的威胁。
DARPA 还在开发一种系统,将中程空对空导弹集成到从飞机上投放的无人机上。远程无人机将扩大导弹打击对手资产的范围。美国海军的新型无人机 MQ-4C Triton 于 2023 年 9 月升空,为印度洋-太平洋地区的第七舰队提供情报、监视和侦察。
防卫部队还必须做好应对无人机攻击的准备。东京 2022 年防卫集结计划所述,日本自卫队 “将通过高能激光和高能微波等定向能武器的组合,迅速发展以非动能手段对付小型无人机等的能力”。
高能激光系统通过发射一束狭窄的能量来拦截来袭的威胁,从而击败无人机和导弹。高功率微波可产生锥形电磁干扰,使目标的电子设备失效。美国中央司令部司令迈克尔-库里拉陆军上将 2024 年 3 月在美国国会作证时表示,美国应该对这两种系统进行投资,以提供针对无人机群的分层防御。
根据美国国会研究服务部2023年8月的一份报告,这两种系统都有很强的特性,但也有局限性。潜在的优势包括弹仓深、单发成本低、交战时间快和反应速度快。
激光还能反击急剧机动的导弹,并能执行其他任务,包括监视目标和干扰光电传感器。潜在的缺点包括:仅限于视距交战;遇到大气条件和湍流;以及面对屏蔽目标或高反射材料。
微波武器的潜在优势包括能够产生不同频率和功率水平的波,在破坏目标系统的同时使其他系统不受影响。它们可以产生广泛的影响,摧毁各种电子系统;提供非致命性应用;限制附带损害。
其缺点包括射程限制,因为微波不能像激光那样紧密聚焦。此外,微波还可能对友军系统造成潜在损害,而且对屏蔽等可吸收电磁辐射的反制措施也不太有效。
图:乌克兰部队部署了配备视频设备的无人驾驶飞行器,以压制和骚扰俄罗斯行动。
美国军事学院系统工程系副教授维克拉姆-米塔尔描述了无人机战争的动态。反无人机技术存在固有的挑战。商用无人机市场发展迅速,而反无人机技术往往落后于商用无人机市场。他在 2023 年 10 月发表在《福布斯》杂志上的一篇文章中写道:随着无人机开发出新的能力,它们可以用于反无人机系统无效的任务集。
美国陆军正在试验其定向能移动式短程防空系统的原型,在该系统中,步兵运载车配备了 50 千瓦的激光武器。
澳大利亚正在购买用于击落敌方致命无人机的可移动激光器。承包商 AIM Defence 称,该技术可以烧穿钢铁,追踪并击落时速 100 公里的无人机。
参考来源:FOIP
由于无人机蜂群具有更有效地完成复杂任务的潜力,因此最近引起了广泛关注。无人机蜂群具有更强的智能性、更好的协调性、更高的灵活性、生存能力和可重构性。它是一个多学科系统,需要紧密集成多个子系统,包括最优轨迹规划、定位、任务协调等。本综述涵盖了无人机群的重要方面,包括无人机群编队控制、通信、无人机群路径规划、自主性、协调性和安全性。此外,文章还探讨了无人机蜂群算法的最新技术进展,这些进展使复杂无人机蜂群系统的开发成为可能。本文还深入探讨了无人机群在各种军事、民用和娱乐应用中的伦理问题和使用案例。文章最后强调了无人机群技术未来的潜在方向和挑战,以及为充分挖掘其潜力而进行更多研究和开发的必要性。总之,本文对无人机蜂群技术进行了全面回顾,探讨了该技术在许多领域的变革潜力,并为未来的进步提供了支持。
图1所示。无人机群用例。
表一总结了关于无人机群的最新研究。从表中可以看出,这些调查在某些领域存在空白,如安全性、模式形成、伦理方面、智能决策和自主性。与现有调查相比,本调查也涵盖了这些方面。与现有调查相比,本调查更侧重于无人机蜂群技术的特定方面,因此更具有整体性。此外,为了便于理解,还对无人机群不同方面的算法进行了分类。报告还讨论了无人机群的不同应用领域、研究挑战、未来方向和伦理问题。因此,与之前的研究相比,我们的综述完整而全面地概述了该主题的最新研究趋势和进展,并提出了一些未来方向,使本研究工作有别于现有的研究工作。
本文的贡献概述如下。
将不同方面的最新无人机蜂群算法分为智能和传统两类,对现有工作进行了快速概述,以帮助研究人员找到研究空白。
对无人机蜂群使用案例进行分类和广泛调查,以实现无人机在不同领域的潜力。
探讨了无人机蜂群的伦理问题,以认识其对在全国范围内合法使用无人机蜂群技术的重要性。
强调研究的挑战和差距,以便进一步研究和开发。
图 2 显示了文章的详细结构,包括章节和小节。本文其余部分的结构如下。第二节详细讨论了无人机蜂群的研究方面。第三节讨论了无人机群的应用领域。第四节强调了研究挑战并提供了未来发展方向。第五节为本文的结论。
无人机蜂群技术的开发和实施涉及多个研究方面,包括蜂群编队控制、通信、蜂群路径规划、自主性、协调性和安全性。在这方面已经提出了各种研究。表 II 列出了有关这些研究方面的最新研究摘要。
无人机群的军事用途是最著名的应用之一。一些潜在的军事应用如下。
边境监控: 无人机群因其智能、能力和对大面积区域的实时监控,可为边境监控提供有前途的解决方案。它们有助于提供有关边境活动的图像和实时信息,从而对安全威胁做出更加明智和快速的反应。此外,它们还可根据边境监控需要配备不同的传感器和摄像头,以监控和侦查非法活动。为边境监控开发了一种基于无人机的监控系统,可为电池无线充电。对美国和墨西哥边境进行了案例研究,以评估该监控系统的性能[254]。
部队移动: 无人机群可以在多个方面加强军事力量。它们有助于监控军队。无人机能够收集和传递有关部队行动的重要信息。它们还可用于追踪敌军,以达到攻击目的。
闲逛: 无人机群还可用于巡航弹药部署。用作闲逛弹药的无人机通常被称为自杀式或神风特攻队无人机。用于巡航弹药的无人机群旨在高精度地搜索和攻击特定目标。由于其精确性和快速攻击移动目标的能力,它们在军事应用中越来越常见[255]。它们的协调蜂群行为由人工智能控制。每架无人机的飞行轨迹都是自主确定和修改的,这使它们能够在空中闲逛,以进行精确瞄准,并允许在任务的后期阶段中止攻击。例如,以色列军方利用无人机群有效锁定并摧毁了叙利亚境内的敌方防空设施。土耳其军方利用无人机群瞄准并摧毁了利比亚境内的敌方坦克。同样,2021 年 6 月,印度空军查谟基地也遭到了无人机的攻击[256]。
监视: 无人机群可用于各种情况下的监视任务,包括灾害响应和基础设施检测等工业用途。与传统的驾驶飞机或地面监视系统相比,无人机群具有覆盖范围广、部署快和功能多等多种优势。它们可以提供快速的空中监视和实时数据,提高对态势的感知能力,以便在战场上做出快速反应。它们可以在复杂的环境中航行,以提供关键信息,如关于敌方阵地、移动和防御结构的情报。此外,无人机群还可用于水坝、大型建筑、桥梁等的结构勘测[257]。[257].
在战场上空运送物资: 无人机群可在危险条件下工作,并在不危及人类生命的情况下快速有效地运送物资。无人机可提供各种物资,如食品、药品、弹药等。在战场等高风险场景中,无人机可自主完成任务,无需人类直接参与。然而,确保无人机的可靠性、安全性以及它们之间的协调是一项挑战。
根据《美国法典》第 10 篇第 491 节(第 491 节)的规定,美国防部长代表总统提交本报告,介绍美国的核部署战略。随着总统发布新的核武器使用指南,在通过国防部(DoD)军事指南和更新计划实施该指南之前,本报告满足第 491 节的要求。
《2022 年核态势评估报告》(NPR)确立了拜登政府的核政策和核态势。在《核态势评估报告》的基础上,总统发布了最新的《美国核武器部署规划指南》(《指南》)。该《指南》直接指导美国防部制定在极端情况下供总统考虑的核武器使用方案,并确定了塑造美国核武器能力和态势的要求。更新美国核使用指南对于国家的核力量、核计划和核态势继续适应不断变化的环境至关重要。
由于美国的核战略和核威慑仍具有灵活性和弹性,总统的《指导原则》与前几届政府的做法相比,更多体现的是连续性而非变化。例如,《指导原则》重申,总统仍是指挥美国核武使用的唯一权威,核武器的基本作用是遏制对美国或其盟国和伙伴的核攻击。正如 NPR 所指出的,只有在极端情况下,美国才会考虑使用核武器,以捍卫美国及其盟国和伙伴的重大利益。
《指导原则》的更新内容与之前的迭代版本相比有以下变化
要在动态安全环境中制定和维持有针对性的威慑战略,支持慎重的和适应性的核规划,就必须具备高度灵活的核能力,能够支持广泛的使用选择。
为实现这一量身定制的战略,美国致力于保留由战略系统、适合威慑和应对有限核使用的能力以及现代化和持久的核指挥、控制和通信(NC3)系统组成的核三位一体。三位一体提供了相互支持的属性,这些属性结合在一起,既能最好地维持战略稳定,又能降低计划、技术、地缘政治或作战风险。美国还保留了有助于威慑地区冲突和有限核使用的能力,如具有双重能力的战斗机。
美国现代化、灵活和量身定制的核力量是向盟国和伙伴保证美国致力于并有能力威慑其所面临的一系列战略威胁的关键所在,并通过使盟国和伙伴相信他们不需要追求自己的核能力来促进美国的防扩散目标。要实现这一目标,就必须继续实现美国核力量和第三代核武器能力的现代化,并维持传统的核能力和第三代核武器系统,直至其现代化替代品投入实战。这还需要一个能够管理地缘政治、技术、作战和计划风险的核企业。
除非情况需要改变,否则美国将把核力量保持在当前的战备状态:洲际弹道导弹(ICBM)保持日常战备状态,部分弹道导弹潜艇保持日常出海状态。其他核力量,包括具备核能力的轰炸机,仍处于不同的战备状态。这种戒备状态与能力的结合有助于战略稳定。
美国的所有核系统都受到多层控制,美国保持着严格的程序和技术保障措施,以防止误射、意外发射或未经授权的发射。在任何情况下,美国都将派人 “参与 ”所有对通报和执行总统启动和终止核武器使用决定至关重要的行动。
虽然美国保持在核攻击持续的情况下发射核力量的能力,但并不依赖于 “攻击下发射 ”政策来确保作出可信的反应。《指导原则》指示国防部继续优先减少在受到攻击时发射核力量的任何潜在压力。
在不断变化的安全环境中,潜在对手正将核武器作为其国家安全战略的核心,可能有必要调整当前的部队能力、态势、组成或规模,以便能够履行核武器的三大既定作用。《指导原则》指示国防部持续评估是否应做出调整,同时考虑一系列相关因素,并在适当时向总统提出建议。
《指导原则》强调,仅靠威慑无法解决战略危险。军备控制、降低风险和核不扩散也发挥着不可或缺的作用。这些措施相辅相成,共同维护稳定,提高可预测性,遏制侵略和升级,减少威慑失败的后果,降低核军备竞赛和核战争的风险。
在《新裁武条约》的有效期内,只要美国评估认为俄罗斯继续这样做,美国就将遵守该条约的核心限制。美国还致力于与其有核武器的竞争对手进行未来的军备控制,并认识到取得进展需要有意愿的合作伙伴,这些合作伙伴应致力于降低风险,并认识到通过军备控制来管理竞争比无限制的竞争更可取。
美国在未来谈判中将考虑的限制类型将受到其他有核国家的行动和轨迹的影响。例如,未来与俄罗斯的双边协议或安排将需要考虑到美国的威慑要求和全球范围内的其他战略威胁。
随着人工智能(AI)的出现,基于个人经验和判断进行行动和思考的自主概念为未来的自主决策铺平了道路。这种未来可以解决相互依存的多计算系统这一复杂领域的问题,而这些系统面临的主要挑战是,它们之间的相互作用会产生不可预测且往往不稳定的结果。为相互依存计算系统设想和设计人工智能驱动的自主性至关重要,它涵盖了从物联网(IoT)到网络安全等各种用例。这可以通过克隆人类决策过程来实现,克隆过程要求人类在决定如何行动之前,先感知未知的随机环境,执行行动,最后评估感知到的反馈。每个人都会根据自己的行为特征和推理,主观地评估反馈是否令人满意。上述步骤的重复迭代构成了人类的学习过程。因此,其核心思想是将人类的认知注入到相互依存的计算系统中,使其转变为人工智能决策体,模仿人类的理性行为属性,自主优化其主观标准。
无人驾驶飞行器(UAV)或多接入边缘计算服务器(MEC)等相互依赖的计算系统的快速发展带来了海量数据和严格的服务质量(QoS)要求。当这些系统以自主方式行动时,它们会表现出竞争行为,因为每个系统都想自私地优化自己的主观标准。这就引入了非合作环境中交互决策的概念,即每个系统的反馈都取决于其他系统可能相互冲突的行动。因此,本文利用博弈论来有效捕捉非合作环境中相互依赖的计算系统之间的战略互动,并证明存在解决方案,即稳定的均衡点。均衡点被认为是稳定的解决方案,因为每个系统都没有单方面改变自身行动的战略动机。为了以分布式方式确定这些均衡点,我们采用了强化学习(RL)技术,该技术可使相互依存的自主计算系统在随机环境中利用自身行动和经验的反馈,通过试错进行智能学习。此外,传统的强化学习方法还加入了奖励重塑技术,通过契约理论考虑自主互联计算系统之间类似劳动经济学的安排,并通过贝叶斯信念模型考虑它们的行为特征。同时利用博弈论和强化学习与奖励重塑技术,是向自感知人工智能(SAAI)迈出的一步。本文证明,它极有可能成为构建基于人工智能的自主决策相互依赖计算系统的主要组成部分,并能有效地应用于各种应用领域。
图 1.1: 总体决策框架
本文首先分析了所使用的数学工具的理论基础。此外,除了传统的单智能体环境,还引入了多个非集中式低复杂度框架,根据人工智能原理将相互依存的多智能体计算系统转化为自主决策者。在多智能体应用环境中,提出了以第 1.1 节所述 IDU 约束为特征的非合作博弈,并应对了由此带来的挑战。具体来说,博弈论与强化学习的融合带来了新颖的低复杂度分布式学习框架。此外,通过注入人类认知属性,传统的 RL 框架得到了丰富,从而使决策过程更加有效。证明了纳什均衡点的存在,并表明基于人工智能的自主相互依存计算系统能够接近这些均衡点,而无需集中式闭合解决方案。通过建模和仿真,在各种实际应用案例中对所提出的框架进行了评估。本论文的主要贡献如下。
1.引入了新颖的低复杂度分布式决策框架,将传统的资源有限、相互依赖的计算系统转变为自主、智能的计算系统。我们研究了两种情况: (a) 完整信息情景,即计算系统可以交换所有必要信息,并以分布式方式收敛到均衡点;以及 (b) 不完整信息情景,即利用强化学习让智能相互依赖计算系统以自主方式接近均衡点。对这两种情况下的运行性能进行了实证评估。
2.在处理非合作博弈的应用领域,通过证明博弈是潜在的或子/超模的方式,用数学方法证明纳什均衡点的存在。如果环境是完全可观察的,则采用传统的闭式求解方法,如最佳响应动力学,反之,则采用各种强化学习算法,从经验上接近纳什均衡点。
3.通过利用契约理论和贝叶斯信念,将人类认知和行为特征分别纳入决策框架。此外,当在信息不对称的环境中运用契约理论时,提供了优化问题的闭式激励解的完整证明,这反过来又从一个非凸问题正式转化为一个凸问题。通过适当地将这些人类意识属性纳入奖励重塑的强化学习框架,计算系统可以自主优化其主观目标并做出有效决策。这是向增强型自我意识人工智能迈出的一步。
4.除了多智能体设置,还将强化学习应用于单智能体问题,例如离线深度强化学习,表明基于 RL 的决策智能体比许多替代策略(例如基于机器学习(ML)的方法)能带来更好的结果。
5.通过在广泛的应用领域进行大规模模拟,对所提出的决策方法进行了实证评估,突出了这些方法的主要操作特点。此外,还引用了与其他方法的详细比较评估,强调了所引入框架的优越性。
图 3.7:移动边缘计算中的人工智能无人机数据卸载框架
人工智能技术的飞速发展,影响、制约、引导甚至主导现代作战方式。 尤其在指控领域,人工智能技术通过 指控系统与装备,深刻影响着指控活动各要素、各环节。 然而,受限于人工智能技术新质性和军事系统特殊性,人工 智能对指控的影响在非战争期间不易显性捕捉,难以显性度量。 因此,从人工智能与指控的关系、人工智能对指控 要素的影响方式、人工智能对指控的影响趋势、人工智能与指控协同进化面临的风险与挑战四个方面,系统挖掘人 工智能对指控领域的作用机理。 所得结论可以辅助军事人员更好地把控战场,把控战争,迎接智能化时代战争 挑战。 **1 人工智能和指控的关系 **
从军事上说,指挥控制是一种围绕作战任务提出 的作战需求。 指挥、控制、通信、计算、杀伤、情报、监视 与侦察(C4KISR)业务支撑着指挥控制活动。 指挥、控 制、通信、计算、杀伤、情报、监视与侦察设备和相关服 务,是指挥控制活动的依托。 人工智能技术作用于 C4KISR 的各个领域和各个环节。 不同于指挥控制这种活动,在这里人工智能包括 数据、算法、算力的系统和服务。 人工智能技术所能实 现的功能和所能达到的水平,受数据来源、数据类型、 数据数量、数据特性及算法、算力和服务的影响[1⁃3] 。 指挥控制通过作战需求、作战环境,与人工智能发 生联系,同时,指挥控制在人工智能技术和系统的加持 下,影响作战需求、作战环境。 作战需求和作战环境反映了作战方式、作战对手、 作战地域和作战人员及装备。 指挥员就打什么仗,跟谁打,在什么环境下打,用 什么工具打,打什么目标,打到什么程度等初始作战想 定,对 C4KISR 诸要素全方位地提出初始需求。 面对特 定作战想定牵引所提出的作战需求,军事人员从人工 智能方法工具箱中,寻找恰当的模型、数据与服务进行 匹配,进而形成 C4KISR 诸要素的初步能力。 然后,指挥员依据 C4KISR 诸要素所能提供的能 力,再就打什么仗,跟谁打,在什么环境下打,用什么工 具打,打什么目标,打到什么程度调整想定。 之后,指 挥员对指挥控制领域的 C4KISR 诸要素全方位地提出 需求,如此往复。 人工智能与指控要素影响关系图,如 图 1 所示。其中,人工智能工具箱会随着 C4KISR 诸要素所提 出的需求和时间的推进,出现自我进化。 即它可以通 过不断进行数据采集、算法进化、算力调整、服务改进 等形式,逼近式地满足作战需求并提升其能力水平。 并随需求的不断提出,演进式地拓展出新的功能。 任 务—系统—技术循环影响关系,如图 2 所示。
摘要——本文介绍了通用型虚拟智能体(Generalist Virtual Agent,GVA),这是一种能够在多样化数字平台和环境中运行的自主智能体,旨在通过执行多种任务为用户提供支持。本综述探讨了GVA的发展历程,从早期的智能助手到结合大规模模型的现代实现。我们深入分析了GVA的哲学基础和实践依据,讨论了其开发中的挑战以及当前设计与操作中使用的方法。通过对GVA的环境、任务及能力进行详细的分类,本研究旨在弥合理论与实践之间的差距,并指出那些在与现实世界高度相似的环境中运行的GVA更有可能展现出类人智能。我们还讨论了GVA研究的潜在未来方向,强调需要更加现实的评估指标以及长序列决策能力的增强,以推动该领域向更系统化或具身化的应用迈进。本文不仅对现有文献进行了综合分析,还提出了未来研究的框架,为智能系统的持续发展作出了重要贡献。
关键词——自主智能体、智能助手、智能体实现。
开发接近人类水平智能的通用型虚拟智能体(Generalist Virtual Agent, GVA)是人工智能(AI)发展的重要里程碑。从图灵测试 [1] 开始,AI 的研究目标就是创建能够匹敌甚至超越人类智能的计算模型。现代大规模模型 [2], [3] 拥有诸如组合推理 [4], [5], [6], [7] 和工具使用 [8], [9] 等复杂能力,使其成为 GVA 的理想候选。与传统的计算工具不同,这些目标导向的智能体能够自主使用工具,提供个性化服务和智能响应(图 1)。GVA 的研发旨在创建能够独立导航多种环境 [10], [11], [12], [13],执行任务,并与用户和其他智能体交互的系统,这代表着实现通用人工智能的重要一步。“智能体”这一概念的哲学渊源可以追溯到亚里士多德和休谟等思想家,体现了实体拥有欲望、信念、意图并采取行动的能力。将这一概念引入计算机科学后,智能体表示一种能够与其他智能体协作,代表人类完成任务的过程,通常被称为“智能助手”。随着 AI 的发展,“智能体”一词逐渐成为核心,描述了能够以软件或计算模型形式自主为用户行动的实体。自 20 世纪 50 年代以来,AI 研究不断提升特定能力,例如符号推理 [105] 和围棋、国际象棋等领域的专长 [106]。然而,那一时期的研究将智能体局限于狭窄的任务场景 [39],限制了其在更广泛环境中的应用。尽管推出了 Siri [107] 和 Cortana [108] 等智能虚拟助手,这些以检索驱动和 API 为基础的系统仍未达到人类水平智能。这些系统通过将语音输入匹配到 API 命令工作,但需要随着 API 和系统更新频繁手动调整和修补,缺乏真正的理解能力。理想的智能体应该通过以用户界面(UI)为观察空间,并通过键盘、屏幕交互等通用行为空间进行互动,模仿人类的认知过程和交互行为,从而成为强大的通用型虚拟智能体(GVA)。这样的智能体能够在多个任务和平台之间迁移和泛化,自主处理非标准任务,通过“观察”和“行动”完成复杂操作。这种能力尤其对有行动障碍的个体意义重大,能够帮助他们独立完成复杂任务,而无需依赖预定义的 API。令人鼓舞的是,大规模模型的兴起为智能体模仿人类输入输出方式提供了新的可能性,为 GVA 的发展铺平了道路。基于大语言模型(Large Language Models, LLMs)的智能体能够处理 HTML [81], [94], [39], [96] 等结构化文本或图像描述。而基于视觉语言模型(Visual Language Models, VLMs)的智能体则能够理解和定位图像内容 [92], [11], [82], [89]。例如,AutoDroid [109] 通过动态分析结合常识与应用特定知识;MMNavigator [103] 则通过与智能手机屏幕交互确定后续操作以完成指令。这些进展凸显了智能体研究的快速发展,同时也表明了对综合性综述的需求,以总结现有工作并指导未来研究。针对这一需求,本文对 GVA 进行了全面调查,旨在弥补这一新兴领域的研究空白。我们回顾了先前研究,提出了设计与评估的分类方法和关键原则。具体而言,我们探讨了以下四个核心问题:(1)什么是 GVA?(2)为什么需要 GVA?(3)如何实现 GVA?(4)GVA 的局限性和前景是什么?我们将 GVA 定义为在数字环境中运行、基于多模态输入完成任务的系统,其观察空间和行动空间能够模仿人类逻辑(第二节)。接着,我们从 AI、人机交互(HCI)和应用的角度强调了对 GVA 的迫切需求(第三节)。在文献综述中,我们根据智能体实现的环境、模型架构和学习策略对研究进行了分类,关注任务和数据差异(第四节)。针对当前 GVA 技术缺乏综合评估框架的现状,我们建议根据需求使用粗粒度或细粒度的方法,并探索基于人工和模型的评估方法以进行定性分析(第五节)。最后,我们讨论了 GVA 的局限性、未来方向和推进 GVA 研究的洞见(第六节和第七节)。本文的贡献在于对现有智能体研究的系统性审视,得出结论认为更接近现实环境的 GVA 更有可能展现类人智能。然而,我们也表达了对当前 GVA 过度依赖大规模模型的担忧。如果这些模型的发展停滞,GVA 将需要探索替代途径。因此,本综述提供了新的见解:推动工具向智能体系统的演化,以增强人机交互能力,或实现超越数字领域的具身化智能的突破。
神经网络模型是机器学习中的热点研究方向之一,其模型包括网络架构和 神经元模型两部分。在过去半个多世纪的研究中,出现了各种基于不同网络架 构的学习模型与方法,但对基本的神经元模型研究相对较少。人工神经元模型 的建模通常参考生物神经细胞,当前最流行的模型仍是 1943 年提出的 MP 模 型[145] (第一代神经元模型)。七八十年来,学界对非 MP 的新型神经元模型仅有 一些探索,比如 60 年代提出的脉冲神经元模型 (第二代神经元模型)。脉冲神经 元模型在微观尺度上建模了生物神经系统的短程突触可塑性 (short-term synaptic plasticity),具有良好的神经学性质,但尚未在现实应用中展现出计算优势。 本文首先对第二代脉冲神经元模型进行研究,指出该模型的重大缺陷—— 分岔 (bifurcation) 问题。这可能是制约脉冲神经元模型发展的关键因素之一,对 该问题进行修正将显著提升脉冲神经元的计算潜力。然后,本文对第三代神经元 模型进行探索,通过建模生物神经系统中的长程突触可塑性 (long-term synaptic plasticity),首次实现了中观尺度 (mesoscopic scale) 的神经元建模。该探索将极 大地完善现有神经元模型体系。本文对第二代和第三代人工神经元模型展开了 系统研究,主要取得了如下五方面的创新结果:
关键词:机器学习;神经网络;突触可塑性;MP 神经元模型;脉冲神经元模型; FT 神经元模型;机器学习理论;时间序列分析
本书介绍了共形预测(Conformal Prediction)及其相关推断技术,这些技术建立在置换检验和可交换性基础之上,广泛应用于包括假设检验和为机器学习系统提供不确定性量化保证在内的多种任务。共形预测之所以受到广泛关注,是因为它能够无缝集成到复杂的机器学习工作流中,在不对数据生成分布形式作任何假设的情况下,解决了构建预测集的问题。由于现代机器学习算法通常难以直接分析,共形预测的主要吸引力在于它能够与这些方法配对,为有限样本提供正式的理论保证。
本书的目标是向读者介绍研究共形预测及其相关分布无关推断问题时所涉及的基本技术论证。这些证明策略(尤其是较新的部分)散见于不同的研究论文中,使得研究者难以确定应该参考哪些结果、哪些结论最为重要,以及这些证明具体是如何构造的。本书旨在弥合这一差距,通过整理我们认为文献中最重要的一些结果,并以统一的语言、配有插图的形式呈现这些证明,同时注重教学性。 需要注意的是,本书并不专注于如何在实践中应用共形预测。如果读者对更实用和面向应用的共形预测入门感兴趣,可以参考《共形预测:温和的介绍》(“Conformal Prediction: A Gentle Introduction”,Angelopoulos 等,2022年)。
本书主要面向从事统计理论和方法开发的读者,广义而言,包括对有限样本模型无关界感兴趣的经典统计学家,以及希望找到适用于不断变化的机器学习算法模块化理论的机器学习研究者。读者需要的背景知识一般相当于理论统计学研究生一年级课程的水平;尽管偶尔会涉及一些测度论,但本书的大部分内容并不依赖于它。 我们希望本书能够为读者提供对该领域理论基础的深入理解,从而帮助他们为共形预测及其他分布无关推断领域的持续理论发展做出贡献。
** 本书的范围**
在本章的介绍之后,第 I 部分的其余内容将从数学的角度介绍可交换性,并提供一份术语表,列出对本书后续统计结果有用的性质和事实。我们特别关注置换检验,因为共形预测可以被重新表述为置换检验的反转。这些工具对于本书后续的许多证明和直觉发展至关重要。
第 II 部分深入探讨共形预测框架。具体而言,我们讨论了完全共形预测(Full Conformal Prediction),这是对之前提到的分割共形预测方法的一个推广,揭示了其中的基本统计逻辑。随后,我们描述了比边际覆盖(Marginal Coverage)更强的性质,包括对各种方法的积极结果和一些表明在不做更多假设的情况下所面临限制的难解性结果。
第 III 部分聚焦于共形预测方法的广泛扩展。包括基于交叉验证的共形预测方法、允许超越独立同分布(i.i.d.)假设的加权共形预测方法、为流数据设计的在线共形方法,以及用于加速共形预测的计算捷径。我们还简要介绍了一些额外主题,例如能够处理更广泛风险定义的共形预测变体,以及与选择性推断、多重检验和模型集成的关联。这些主题是该领域近期工作的缩影,暗示了许多可以继续研究的方向。 最后,在第 IV 部分,我们从预测推断的重点中转移,研究分布无关推断在其他问题上的应用。这些问题包括回归函数估计、概率估计的校准,以及条件独立性的检验。
人工智能辅助音乐创作领域已取得显著进展,但现有系统在满足迭代和细致化音乐制作需求方面仍面临诸多挑战。这些挑战包括对生成内容提供足够的控制能力以及支持灵活、精准的编辑。本论文通过一系列递进式改进,提出了针对这些问题的解决方案,显著提升了文本生成音乐模型的可控性和可编辑性。 首先,我提出了 Loop Copilot,一个旨在满足音乐创作迭代优化需求的系统。Loop Copilot 利用大型语言模型(LLM)协调多个专用人工智能模型,使用户能够通过对话界面互动地生成和优化音乐。系统的核心是 全局属性表(Global Attribute Table),该表记录并维护迭代过程中的关键音乐属性,确保各阶段的修改不会破坏音乐整体的连贯性。尽管 Loop Copilot 在音乐创作过程的协调方面表现出色,但其在直接对生成内容进行细致编辑的需求上存在不足。
为克服这一局限,我提出了 MusicMagus,一种面向 AI 生成音乐编辑的解决方案。MusicMagus 引入了零样本文本到音乐编辑(zero-shot text-to-music editing)方法,允许用户修改特定音乐属性,例如流派、情绪和乐器编排,而无需对模型进行重新训练。通过操作预训练扩散模型的潜在空间,MusicMagus 确保了编辑的风格一致性,同时保持非目标属性不受影响。该系统在编辑过程中有效维护了音乐的结构完整性,但在更复杂和真实的音频场景中仍面临一定挑战。
在上述系统进展的基础上,我进一步提出了 Instruct-MusicGen,旨在通过引入指令调优(instruction tuning)解决剩余问题。该方法将指令调优集成到 MusicGen 模型中,使其能够通过文本指令(例如添加、删除或修改特定的音乐轨道)实现精准高效的音乐编辑。Instruct-MusicGen 结合了文本融合模块和音频融合模块,能够同时处理文本指令和音频输入,并生成高质量的编辑音乐。该系统不仅实现了更高的编辑精度,还扩大了音乐语言模型在复杂和动态制作环境中的应用范围,提供了一种可扩展且高效的解决方案。
总体而言,这些贡献构成了一个强大的框架,显著提升了人工智能系统在音乐制作中的可控性和可编辑性。通过逐步解决每种方法的局限性,本论文推动了 AI 辅助音乐创作技术的进步,赋能更加灵活、精准和动态的音乐制作流程。
近年来,大语言模型(Large Language Models, LLMs)已成为广泛人工智能应用的核心工具。随着 LLMs 的使用范围不断扩展,精准评估其预测中的不确定性变得至关重要。然而,当前方法通常难以准确识别、衡量和解决真正的不确定性,许多研究主要集中在估算模型的置信度。这种差异很大程度上源于对不确定性注入模型的方式、时机和来源缺乏完整的理解。本文提出了一个专门设计的综合框架,用于识别和理解不确定性的类型及来源,并与 LLMs 的独特特性相契合。该框架通过系统地分类和定义每种类型的不确定性,增进了对不确定性多样性格局的理解,为开发能够精准量化这些不确定性的方法奠定了坚实基础。 此外,我们详细介绍了关键相关概念,并深入探讨了当前方法在任务关键型和安全敏感应用中的局限性。本文最后展望了未来研究方向,旨在提升这些方法的可靠性及其在真实场景中的实用性,从而促进其广泛应用。
近年来,大语言模型(Large Language Models, LLMs)在复杂推理和问答任务中表现出了显著的能力(Zhao et al., 2023; Wang et al., 2024c; Liang et al., 2022)。然而,尽管展现了巨大的潜力,LLMs 仍然面临生成错误答案的重大挑战(Ji et al., 2023a; Li et al., 2023a; Huang et al., 2023),在对高精度和高可靠性要求较高的领域,这种情况可能产生严重后果。LLM 输出中信任度不足的一个核心问题在于其决策过程缺乏透明性和可解释性(Zhou et al., 2023; Lin et al., 2023; Yin et al., 2023; Xiao & Wang, 2018; Hullermeier & Waegeman, 2021)。在这种背景下,全面理解和评估模型的不确定性至关重要。例如,在医疗领域,当医生诊断如癌症等关键病症时,不仅需要模型提供高预测准确性,还需要明确了解预测中的不确定性(Gawlikowski et al., 2022a; Wang et al., 2022)。 尽管量化 LLMs 不确定性的必要性已被广泛认可,但对于不确定性的定义和解释在这一新背景下仍未达成一致(Gawlikowski et al., 2022a; Mena et al., 2021; Guo et al., 2022; Hullermeier & Waegeman, 2021; Malinin & Gales, 2018),这进一步增加了其估计的复杂性。不确定性、置信度和可靠性等术语常被混用,但它们实际上代表着需要仔细区分的不同概念(Gawlikowski et al., 2021)。例如,LLM 可能对一个本质上不确定且无答案的问题生成高置信度的回应,但这种回应可能在语境上不恰当或在事实层面上不正确,这表明高置信度并不等同于低不确定性(Gawlikowski et al., 2022b)。因此,现有文献中面临的首个挑战是明确 LLMs 背景下的不确定性定义,并探讨这些交织概念之间的细微差别。 传统上,深度神经网络(DNNs)中的不确定性被划分为两类:固有不确定性(aleatoric),由数据随机性(如传感器噪声)引起;以及认知不确定性(epistemic),源于模型知识的局限性,如数据不足或未建模的复杂性(Gawlikowski et al., 2022a; Mena et al., 2021; Guo et al., 2022; Hullermeier & Waegeman, 2021; Malinin & Gales, 2018)。尽管这些分类在深度学习领域广泛使用,但它们无法完全涵盖 LLMs 的独特挑战,包括处理复杂文本数据、管理极其庞大的参数量,以及面对通常不可访问的训练数据。此外,LLM 生命周期的各个阶段——从预训练到推理——都会引入独特的不确定性,而用户与这些模型的交互同样如此。理解这些不确定性来源,特别是从提高 LLMs 可解释性和鲁棒性的角度来看,至关重要。然而,若没有一个包容性和细粒度的框架来系统地识别和分析 LLMs 中的不确定性来源,实现这一目标是不可能的。
近期,已有大量研究尝试估计 LLMs 的不确定性(Manakul et al., 2023; Beigi et al., 2024; Azaria & Mitchell, 2023a; Kadavath et al., 2022; Kuhn et al., 2023),这些方法大致可以根据其基本机制分为四类:基于 logits 的方法(Lin et al., 2022b; Mielke et al., 2022a; Jiang et al., 2021; Kuhn et al., 2023)、自评估方法(Kadavath et al., 2022; Manakul et al., 2023; Lin et al., 2024a)、基于一致性的方法(Portillo Wightman et al., 2023; Wang et al., 2023),以及内部机制驱动的方法(Beigi et al., 2024)。然而,鉴于 LLMs 的独特特性和不确定性的微妙方面,各类方法在 LLMs 背景下捕捉真正的不确定性或相关因素的有效性,以及在 LLM 生命周期不同阶段中检测到的具体不确定性来源,仍然存在关键问题。这些问题的回答对于开发更可靠、更全面的不确定性估计方法至关重要。
为了解决上述挑战和问题,我们对与不确定性及其相关概念相关的研究进行了关键综述和分析,旨在呈现涵盖 LLMs 不确定性全景的综合综述,特别关注不确定性概念、来源、估计方法与文本数据特征之间的相互作用。据我们所知,这一领域尚缺乏类似的系统性研究**。综上所述,本文的贡献体现在以下几个方面,这些贡献具有开创性和多样性**:
在深度学习中,不确定性传统上被划分为三类:(1)模型(认知)不确定性,与模型参数估计中的不确定性相关,反映了模型拟合的能力及其对未见数据的泛化局限性(Der Kiureghian & Ditlevsen, 2009;Lahlou et al., 2023;Hullermeier & Waegeman, 2021;Malinin & Gales, 2018);(2)数据(或固有)不确定性,源于数据本身的复杂性,例如类别重叠和各种噪声(Der Kiureghian & Ditlevsen, 2009;Rahaman & Thiery, 2020;Wang et al., 2019;Malinin & Gales, 2018);(3)分布不确定性,通常由于数据集分布偏移引起,当训练和测试数据分布不同而导致模型在真实场景中面临泛化问题(Malinin & Gales, 2018;Nandy et al., 2021;Gawlikowski et al., 2022a;Chen et al., 2019;Mena et al., 2021)。
尽管这些传统分类在深度学习中应用广泛,但它们无法充分应对 LLMs 所面临的独特挑战。LLMs 的特点包括庞大的参数规模、复杂的文本数据处理,以及通常难以获取的训练数据,这些特性在模型输出中引入了特定的不确定性。此外,与用户在动态环境中的交互,以及数据标注或模型校准中的人为偏差,使不确定性的景观更加复杂。与主要预测数值输出或类别的通用深度学习模型不同,LLMs 生成的是基于知识的输出,这些输出可能包含不一致或过时的信息(Lin et al., 2024b)。这些特性无法通过简单地将不确定性划分为三种传统类型来充分描述。
为了应对这些挑战,我们提出了一个新的框架,用于对 LLMs 中的不确定性进行分类,如图 2 所示。该框架将不确定性区分为两类:操作性不确定性和输出不确定性,分别对应模型和数据处理过程以及生成内容的质量。
操作性不确定性贯穿于从预训练到推理的整个生命周期,涵盖数据获取、模型和架构设计、训练与优化过程、校准以及推理活动。这些不确定性源于以下方面:
输出不确定性与生成文本的分析和解释中的挑战相关,具体涉及信息质量及其在决策过程中的可靠性。例如,在医疗场景中,LLM 需要根据患者症状提供诊断建议。若生成的建议缺乏充分的证据支持或包含矛盾信息,医生需要判断这些建议的可信度,这就带来了显著的不确定性。医生在决定进一步调查哪种诊断时可能面临巨大挑战,这突显了 LLM 提供支持充分、输出一致且可靠内容的重要性,以确保其在决策过程中的实用性。
通过区分操作性不确定性和输出不确定性,该框架带来了以下几个关键优势:
这一框架为更深入地理解 LLMs 的不确定性提供了基础,并为进一步提升其可靠性和实用性指明了方向。