俄乌冲突已成为史上最密集的无人机作战试验场,催生前所未有的军事适应与反适应循环。俄军展现出卓越的战术学习能力——从2022年初的无人机作战落后者蜕变为2025年的成熟实践者。但某些方面却持续落后乌克兰创新周期一步。
2022年行动初期,俄军对乌军无人机作战毫无准备。乌克兰TB2"旗手"无人机对俄装甲纵队造成早期打击,而基辅郊外遗弃的"克拉苏哈-4"电子战系统暴露了根本性部署失误。俄军中央集权指挥体系与"营级战术群"结构最初阻碍了电子战资产有效协同,形成被乌军2022全年系统性利用的战术漏洞。
此阶段揭示俄军对现代战争的关键误判:传统条令强调依托集中式电子战支援的大规模常规作战,但乌军证明商用级小型无人机可通过数量优势、创新战术及快速适应周期突破尖端军事系统。
电子战响应堪称俄军最成功的适应领域。部署"极地-21"(具备25公里以上GNSS干扰能力)等先进系统,快速开发"波浪切割机"战术干扰器,展现惊人技术适应速度。至2024年,俄军通过分层电子防御实现对乌军"沙希德"型无人机约85-90%拦截率。
技术参数显示强大能力:"极地-21"系统通过多天线模块提供300-1000瓦干扰功率;"铠甲-SMD-E"等新型系统配备多达48枚专用反无人机拦截弹。发现车载平台易成乌军优先目标后,俄军系统性转向便携单兵系统。此转变体现战术学习能力,亦暴露战略软肋——俄电子战系统因高效反成打击焦点。
俄电子战存在局限:系统干扰己方通信导航,复杂协同要求制约作战效能;乌军光纤制导无人机使传统干扰失效,迫使俄自主研发同类系统。
在乌军无人机压力下,俄军事条令发生根本变革:放弃集中式防御转向分布式分层防御。从标准化"营级战术群"向功能化分层师级部队转型,折射战场血的教训。俄军发展"战壕级"电子战能力,强调单兵反制措施而非集中系统。
训练体系转向便携电子战设备、反无人机规程及动能/电子反制协同。系统性实施伪装措施(含"龟甲坦克"格栅装甲与伪装网),分散高价值资产部署以降低集中损失。这些适应要求彻底改变机动模式、阵地规程及作战安全程序。
条令演进展现俄军制度学习能力,但揭示被动适应模式——变革滞后乌军创新3-6个月,形成乌军实施"蛛网行动"等高影响作战的窗口期(2025年6月行动中13-41架俄战略战机在协同无人机打击中损毁)。
俄军适应周期呈现剧烈压缩:2022年初的脆弱性(典型如遗弃电子战系统与TB2打击)至年中转向系统性反制部署;2022年8月引进伊朗"沙希德"标志向大规模量产"可消耗系统"的战略转向;2023年建立年产6000架无人机基地并部署尖端电子战系统;2024年光纤制导无人机在库尔斯克等争议区暂时逆转乌军优势;2025年140万架年产量目标彰显工业级无人机战承诺。
时间轴显示适应加速:2023年初需月余应对乌军创新,至2024-2025年压缩至"短短两三天"。此加速反映学习机制与工业响应力提升。
冲突催生敌手间史无前例的相互学习:俄扮演乌军创新的"快速追随者",同时依托工业规模优势实现快速扩张。俄军采用乌军FPV无人机战术,系统性逆向工程缴获装备,展现成熟情报搜集与适应能力。领导人明确支持逆向工程西方技术,俄军系统监控社交媒体获取战术情报。光纤制导无人机领域"俄从FPV追随者变身先行者",证明其在特定技术域的跨越创新能力。
技术转移通过多重渠道:装备缴获分析、开源情报收集、战场影像研究。双方虽加密软件防逆向工程,但硬件设计数周内即可复制。这种技术扩散化加速相互学习,降低无人机战扩散门槛。
美英北约情报评估呈现复杂图景:俄反制措施战术成效显著(对多数无人机达85-90%拦截率),却无法阻止战略效应——10-15%突防无人机造成不成比例损伤,尤其对轰炸机等不可替代战略资产。
俄军表现存在领域差异:战术防御对多数威胁成功率75-85%,战略资产防护仅40-60%;集群攻击成关键软肋,对协同多轴无人机作战成功率仅20-40%。
成本效益分析揭示不利交换比:单价300-5万美元的乌军无人机迫使俄军耗资10-50万美元/架的防空导弹拦截。此经济压力驱动俄开发廉价动能反制与电子战方案。
尽管战术适应亮眼,战略脆弱性持续存在:"蛛网行动"突破重兵防守基地,暴露战略资产防护根本缺陷。不可替代战略轰炸机损失昭示战术防空有效下的战略问题。
冲突影响超越俄乌范畴:北约承认面临类似无人机集群威胁,俄光纤控制与量产创新影响全球军备采购重点。研发周期从数年压缩至数月的根本性转变,将重塑未来全球军事适应模式。
简言之,俄对乌无人机战的适应展现战术灵活性受制于战略制度局限。从早期灾难性脆弱到成熟反制的演进显示强大学习能力,但战略资产防护缺口与被动适应模式使乌军保持高影响作战优势。这场催生全球性技术军备竞赛的冲突证明:快速适应周期对军事效能的决定性作用,或已不亚于原始创新。俄军学习模式暗示——战术能力可快速获取,但战略级制度变革仍是现代军事适应的持久挑战。
参考来源:defense.info
美军联合兵种训练中心(CAC-T)副司令推出《驻地训练手册》——本全面指南旨在协助指挥官与领导者规划、筹备及执行高效驻地训练。该手册提供必要框架与工具,确保士兵训练达至最高标准,使其能在日益复杂动态的作战环境中制胜。手册系统阐述陆军训练管理核心原则与最佳实践,涵盖训练规划、准备、执行及成效评估全流程,同时强调安全管控、风险管理与资源调配的重要性,并就突破常见训练瓶颈提供实用策略。本手册汇聚陆军全领域专家与训练专业人员的协作知识,融合训练条令、技术及最佳实践的最新成果,为指挥官、领导者、教官等驻地训练参与者提供资源。
在瞬息万变且充满不确定性的环境中,高效训练的重要性不言而喻。士兵理应获得最优质的训练,而为其提供制胜所需的技能、知识与信心,正是领导者的责任。
陆军训练是锻造战斗团队、凝聚集体力量、生成作战实力的根基。"训练管理是指挥官用以优先规划训练、识别资源需求的系统性流程。"
各级指挥官须主导训练方向,淬炼战胜近等威胁所需的致命战斗力。指挥官通过"计划-准备-执行-评估"的作战流程传递训练愿景。营级指挥官通过提供明确指导、充足资源、专属训练时间及适度监管(在保障安全高效的同时不扼杀主动性),赋能连级训练;连级指挥官通过保障时间资源、聚焦关键任务训练计划,支撑排级指挥员施训。指挥官需借每次训练提升单兵技能与集体任务效能。
指挥官通过指导教学、落实训练责任制驱动人才培养。青年指挥员与教官未必能充分领悟训练体系价值,故领导者须组织专业发展课程进行系统培养。初级士官(NCO)培养是部队战备核心环节,为未来陆军领导力奠基。因人员流动率高、训练机会不足及大规模作战(LSCO)施训导师匮乏,部队常面临初级士官培养困境。作为资深训练者,指挥官须营造允许无心之失的积极专业环境,倡导在经验中成长;领导者应通过指导犯错下属促进其个人发展。
2025年6月25日,美国土安全部长克里斯蒂·诺姆批准《2028部队设计执行计划》,此举将推动海岸警卫队全领域转型变革。美国正进行海岸警卫队史上最大规模资本投入——2025年7月4日,经国会批准,总统签署总额2453.9亿美元的法案,用于飞机、巡逻舰、快艇、岸基设施及C5I技术装备的现代化更新。
既往研究表明,将量子隧穿(QT)概率模型融入神经网络可有效捕捉人类感知的关键细微特征,尤其在模糊目标识别与情感分析领域。本文采用新型QT神经网络模型,基于专有军事术语库评估其在定制化CIFAR格式军民车辆图像分类及情感分析中的效能。我们认为QT模型可增强战场场景(特别是人控无人机作战环境)中的多模态AI应用,赋予人工智能类人推理特质。
在人工智能(AI)演进格局中,量子认知理论(QCT)[1-4]为理解人类感知与机器辅助决策[5-8]提供新框架。区别于经典模型,QCT运用叠加态、纠缠态及干涉等原理阐释人类推理行为,涵盖思维冲突、情境依赖选择及经典概率偏差[3,4]。研究[2,3]提出量子振荡器(量子物理学基础概念[9])可作为系统,证明QCT描述人类感知的能力超越现有经典模型(如马尔可夫模型[3])。后续工作[10]通过将量子隧穿(QT)物理现象整合至振荡器模型拓展该路径。QT方法采用电子穿越势垒的概率机制,已被证实可合理解释人类心理状态[11-14]及大脑功能的神经机制[15-18]。
图1. QT通过将人类对光学幻象的双稳态感知与认知偏差模型融入神经网络增强机器学习
量子化能级与人类心理状态(头部轮廓线条示意)相契合,能级跃迁实现精细化军民车辆区分。
经典力学中受限于有限区域(如势垒)的粒子可具任意能量,而量子力学中其能级呈量子化[9]。数学上该特性源于薛定谔方程,其解亦构成QT效应基础[9]。哲学层面将量子化能级诠释为人类心理状态(如图1中人头轮廓线条象征离散能级——心理状态),研究证实两个及以上能级间的周期性振荡为视错觉感知[6]提供合理模型。能级框架还揭示社会群体[14]与个体[19]表现出的系列关联心理效应与认知偏差。该框架既可表征离散的计算机比特行为("0"态代表完全确信车辆为军用,"1"态代表民用),亦可呈现量子比特态0⟩与 1⟩的叠加态——即以特定概率区分军民车辆。基于此发现,QCT驱动的AI系统被认为能更好应对不确定性与模糊性,特别适用于无人机操控等高风险场景[8,20]。研究已开发出将QT效应作为神经激活函数的前馈神经网络,并展示其复现人类感知的能力[6,8]。同时提出量化QT模型类人行为的数学框架[8]。本文认为QT模型通过增强实时自适应决策能力,有望提升军事AI应用效能。通过专用测试数据集验证:融合经典概率模型、记忆机制与QT技术的贝叶斯/循环神经网络[21],在军民目标区分(见图1示意)及语音指令解析中展现精度提升,从而推动多模态量子启发式AI发展,并有望通过提升高压复杂环境决策精度最小化平民伤亡。
云计算蓝皮书(2025年)
本蓝皮书由中国信息通信研究院发布,深入分析了云计算在人工智能时代的全球发展态势及我国云计算产业的现状与未来趋势。报告指出,云计算作为人工智能的关键基础设施,已成为推动数字经济发展的核心力量。全球云计算市场持续增长,预计到2030年市场规模将接近2万亿美元。我国云计算市场保持高速增长,2024年市场规模达8288亿元,预计到2030年将突破3万亿元。报告强调,云计算技术与人工智能的深度融合正在重塑全球数字竞争格局。AIIaaS、AIPaaS、MaaS、AISaaS、AIMSP等新兴服务模式不断涌现,推动云计算服务体系向“AI+”演进。我国在云计算政策引领、技术创新、行业应用等方面取得显著进展,形成了中央与地方协同发展的良好局面。展望未来,“十五五”期间,云计算将与人工智能深度融合,加速推动各行业向数智化全面升级,助力我国在全球数字经济领域构建新的竞争优势。
AI 模型正日益被用于面向人类的应用场景,从临床诊断工具到通用型助手不一而足。随着这些模型的普及和能力的提升,我们亟需更深入地理解人类与 AI 的交互方式。在本论文中,我主张:要实现有效的人机交互,必须将人类用户直接纳入 AI 系统的设计与优化过程中。
首先,我介绍了自己开发的一种 AI 机制,它可为皮肤病患者提供实时指导,并显著提升远程医疗中数据采集的质量。接着,我阐述了自己构建的人类行为算法模型,并展示了如何利用该模型来调整 AI 的目标函数,从而优化模型,实现更优的人机协同表现。我还展示了对用户在使用生成式模型过程中的偏好与交互模式的分析工作,以理解其交互策略、量化 AI 的可引导性(steerability),并更好地刻画人类用户特征,这对于实现个性化和模型评估具有关键意义。
贯穿上述研究,我始终强调:要构建更加协作的人机系统,就必须将人类视为模型设计与优化过程中的核心组成部分。
深度学习系统的一大优势在于:只需给出示例输入与期望输出,便可对模型进行端到端的优化。然而,尽管人工智能(AI)模型如今越来越多地应用于面向人类的实际场景,这种端到端的设计方式却很少真正纳入 AI 模型的人类使用者。例如,在医学 AI 领域,已有模型在诊断任务中超越了受过专业训练的医生,部分系统甚至已被部署为辅助诊断工具。然而,这些模型在优化过程中从未考虑到其实际使用者——即医生本身,导致了性能上的次优表现。 随着这些模型的广泛应用与能力的不断提升,我们亟需更深入地理解人机交互的本质。特别是在当下生成式 AI 助手被广泛采用的背景下,理解人类用户并将其融入有效协作的人机系统设计与优化中变得尤为重要。 本论文旨在重新聚焦端到端系统的设计与优化,将人类用户直接纳入其中。考虑经典的经验风险最小化(empirical risk minimization)框架:
我们从两个互补的角度研究这一问题: 1. 将人类适配于 AI 模型:我们将展示,如何通过引导用户调整数据分布,使其集中在模型表现更优的子集上(即 D→Dh\mathcal{D} \rightarrow \mathcal{D}_hD→Dh)。简而言之,我们旨在帮助人类更有效地使用模型。 1. 将 AI 模型适配于人类用户:我们首先对人类用户 HHH 进行建模,随后基于该模型调整损失函数与模型参数(即 f,θ→fh,θhf, \theta \rightarrow f_h, \theta_hf,θ→fh,θh)。在该设定下,我们试图优化模型,以适应用户及其对模型输出的使用与误用。
大语言模型(LLM)的对齐问题仍是强化学习领域中最关键的挑战之一。正如 DeepSeek-R1 等模型的成功所展示的那样,提升对齐效果不仅依赖于更优的模型架构,还需对强化学习(RL)和奖励建模有更深入的理解。本教程将探讨逆向强化学习(Inverse Reinforcement Learning, IRL)与大语言模型对齐之间的关联,为研究人员和实践者提供一条结构化的研究路径。 我们将 LLM 对齐建模为一个逆强化学习问题,对比传统强化学习与从人类数据中推断奖励的逆向方法。教程重点聚焦于奖励模型,探讨其如何从不同类型的数据中构建,包括数学推理、二元反馈、偏好数据以及示范行为等。 在理论之外,我们还将探讨基础设施与实践实现,展示如何在几分钟内高效评估基于 IRL 的 LLM 对齐思路。最后,教程将结合稀疏奖励强化学习的相关经验,介绍奖励塑形(reward shaping)、责任归因(credit assignment)以及自对弈(self-play)中获得的启示。 通过本教程,参与者将从理论和实践两个维度深入理解基于 IRL 的大语言模型对齐方法,并掌握高效构建更好对齐模型的核心工具。
摘要——从视觉观测中重建四维空间智能长期以来一直是计算机视觉领域中的核心难题之一,并具有广泛的现实应用场景。这些应用涵盖从电影等娱乐领域(侧重于基础视觉要素的重建)到具身智能(强调交互建模与物理现实性)。得益于三维表示和深度学习架构的迅猛发展,该研究方向迅速演进,已远超以往综述的覆盖范围。此外,现有综述往往缺乏对四维场景重建中层次结构的系统分析。为填补这一空白,本文提出一种新的视角,将现有方法按照五个逐级递进的四维空间智能层级进行组织: (1) 第一层级:低层三维属性的重建(如深度、姿态和点云图); (2) 第二层级:三维场景组成要素的重建(如物体、人类、结构体); (3) 第三层级:四维动态场景的重建; (4) 第四层级:场景组件之间交互的建模; (5) 第五层级:物理规律与约束的融合建模。 本文最后讨论了各层级所面临的关键挑战,并指出了迈向更高层次四维空间智能的潜在研究方向。为了追踪该领域的最新进展,我们维护了一个实时更新的项目页面: https://github.com/yukangcao/Awesome-4D-Spatial-Intelligence。 关键词——四维空间智能、低层线索、场景重建、动态建模、交互建模、物理建模、视频
利用机器学习或深度学习技术自动重建四维空间智能,长期以来一直是计算机视觉领域中的关键难题。通过同时捕捉静态构型与随时间变化的动态过程,四维空间智能能够提供对空间环境的全面表示与理解,将三维几何结构与其时间演化整合在一起。该研究方向因其广泛的应用场景而受到高度关注,包括视频游戏 [1]、电影 [2] 和沉浸式体验(如 AR/VR)[3], [4],其中高保真度的四维场景是实现真实用户体验的基础。 除了这些侧重于四维空间智能基本组成部分的应用场景——如深度、相机姿态、点云图、三维跟踪等低层线索,以及场景组成要素和动态之外,空间智能还在推动具身智能(Embodied AI)[5], [6], [7] 和世界模型(World Models)[8] 的发展中发挥着核心作用。这些后者的任务更加注重场景中各组成部分之间的交互以及重建环境的物理合理性。 近年来,四维空间智能的重建技术取得了飞速进展。已有若干综述工作 [9], [10] 从不同角度提供了有价值的视角,并总结了该领域中持续存在的挑战。例如,[11]–[13] 综述了通过深度立体匹配获取低层场景信息的最新进展;[14]–[16] 系统梳理了三维场景重建方面的研究,涵盖多种输入模态和多样的三维表示方式;[9], [10] 则从核心架构出发对动态四维场景重建方法进行了分类。 然而,随着新型三维表示方法的提出 [17]–[19]、高质量视频生成技术的发展 [20]–[22]、以及更高效重建模型的出现,该领域已取得显著进展。尽管如此,现有综述尚未系统分析动态四维场景的不同组成层级,也未深入探讨各层级的发展现状与关键挑战,导致人们对四维空间智能的理解仍存在碎片化倾向,容易忽略其中的关键组成部分。因此,亟需一份全面、系统、与时俱进的综述来将四维空间智能划分为不同层级,梳理最新进展,并描绘该研究领域不断演化的全貌。 基于这一紧迫需求,本文将现有的四维空间智能重建方法划分为以下五个层级,并分别对其最新进展进行系统梳理: * 第一层级:低层三维线索的重建。
该层级聚焦于深度、相机姿态、点云图和三维跟踪等基础三维线索的重建,这些要素构成了三维场景的基本结构。传统上,这一任务常被划分为多个子领域,如关键点检测 [23]–[25] 与匹配 [26]–[29]、鲁棒估计 [28], [30]、SfM(结构自运动)[31]–[34]、BA(Bundle Adjustment)[35]–[38]、以及稠密多视图立体重建(MVS)[39]–[43]。近期方法如 DUSt3R [44] 及其系列扩展 [45]–[48] 致力于联合求解上述子任务,实现更协同的一体化推理。而 VGGT [54] 则在 Transformer 架构 [49]–[53] 的基础上,提出了一个端到端系统,能在数秒内高效估计这些低层三维线索。 * 第二层级:三维场景组成要素的重建。
在第一层级的基础上,第二层级进一步重建场景中的独立要素,如人类、物体和建筑等。虽然某些方法涉及要素间的组合与空间布局,但通常不对它们之间的交互进行建模或约束。近期方法结合了 NeRF [55]、3D Gaussians [56] 和 Mesh 表示(如 DMTET [18] 和 FlexiCube [57])等创新型三维表示方式,提升了重建细节的真实性、渲染效率以及整体结构一致性,为照片级真实感场景重建和沉浸式虚拟体验奠定基础。 * 第三层级:四维动态场景的重建。
本层级引入场景动态,是实现“子弹时间”式四维空间体验和沉浸式视觉内容的关键步骤。现有方法主要分为两类:一类方法 [58]–[62] 先重建一个静态的标准辐射场,再通过学习得到的时序变形建模动态过程;另一类方法 [63]–[69] 则将时间作为额外参数直接编码进三维表示,实现连续动态建模。 * 第四层级:场景组件之间交互的建模。
该层级标志着空间智能研究进入更成熟阶段,着眼于不同场景组成部分之间的交互建模。考虑到人类通常是交互的核心主体,早期工作 [70]–[74] 主要聚焦于捕捉人类与可操控物体的动作。随着三维表示的进步,近期方法 [75]–[80] 可更精确地重建人类与物体外观,而人-场景交互建模 [81]–[85] 也逐渐成为研究热点,为构建完整世界模型提供基础支撑。 * 第五层级:物理规律与约束的融合建模。
尽管第四层级能够建模场景组件之间的交互,但通常忽略了如重力、摩擦力、压力等底层物理规律。因此,在如具身智能 [5]–[7] 等任务中,这类方法常难以支持机器人在现实世界中模仿视频中的动作与交互。第五层级的系统旨在通过引入物理可行性约束来弥补上述不足。近期研究 [86]–[88] 借助如 IsaacGym [89] 等平台及强化学习方法 [90]–[92],展示了从视频中直接学习并复现类人技能的能力,标志着向物理一致性空间智能迈出重要一步。此外,对一般三维物体(如变形、碰撞与动力学)和物理场景的建模 [93]–[95] 也成为活跃研究方向,进一步拓展了第五层级的适用范围。
综述范围: 本文主要聚焦于从视频输入中进行四维场景重建的方法,具体围绕上述五个层级梳理关键技术进展与代表性工作。所选论文大多来自计算机视觉与图形学的顶级会议和期刊,并补充了部分 2025 年发布的 arXiv 预印本。我们的选择标准强调与本综述主题的相关性,旨在提供该领域近期快速进展的全面概览。 本综述不涵盖纯三维生成方法 [96]–[98] 及基于生成式视频扩散模型 [20]–[22] 的四维生成方法 [99]–[104],因为它们通常只生成单一类型输入,与四维重建关系较弱。此外,我们也未深入探讨各类三维表示方法,相关读者可参考已有的综述文献 [10], [15], [105]–[110]。 组织结构: 图 1 展示了四维空间智能各层级的整体概览。接下来的章节中,我们按照从视频输入重建五个关键层级的流程,构建一个系统的研究分类体系:第 2 节介绍低层三维线索,第 3 节讨论三维场景要素,第 4 节聚焦动态场景建模,第 5 节涉及场景交互,第 6 节探讨物理规律建模。最后在第 7 节中,我们将对当前方法进行批判性反思,指出各层级仍面临的开放挑战,并展望超越现有五层级的四维空间智能未来发展方向。
模型的Fisher信息矩阵的对角线部分(即“Fisher对角线”)常被用作衡量参数敏感性的一种方式。 通常,Fisher对角线是通过对模型似然函数关于其参数的梯度平方进行采样估计,并在几百到几千个样本上取平均而得到的——这一过程会带来不小的计算开销。与此同时,诸如广泛使用的Adam优化器这类自适应梯度方法,在训练过程中会计算梯度平方的滑动平均。 因此,本文探索了一个问题:是否可以通过“回收”在训练过程中已计算好的平方梯度累加器,从而“免费”获得Fisher对角线的近似值。 通过覆盖Fisher对角线五种应用场景的一系列综合实验证明,这种方法(我们称之为“Squisher”,即以平方梯度累加器近似Fisher)在表现上与Fisher对角线一致,并优于其他基线方法。 此外,我们还阐明了Squisher与Fisher对角线之间的具体差异,并对它们各自的影响进行了实证量化。
在过去十年中,人工智能(AI)取得了显著突破,尤其是在深度学习和基础模型(foundation models)领域——这类模型属于次符号(sub-symbolic)机器学习方法,依赖于拥有数百亿参数的深度神经网络。由于这类模型的可解释性和可理解性非常有限,它们通常被称为“黑箱”模型。这项技术在提升交互能力、感知能力以及自然语言处理方面发挥了关键作用,有时甚至超越了人类的表现。因此,一些研究者开始将AI等同于深度学习和基础模型。然而,我认为这是一个重大的误解。 AI的内涵远不止于次符号机器学习;它还包括符号化(即人类可理解的)建模、搜索算法和推理技术——这些都是超越机器学习、体现人类智能的重要方面,同时也可以结合机器学习,以提升算法性能与模型准确性。 规划(planning)与行动(acting)是人类与生俱来的能力。即使是年幼的儿童,也会自然地进行规划和行动,从环境中学习其行为的后果,并在成长过程中不断精进这些能力。而机器在规划与行动方面尚未达到人类水平,尤其是在将其与学习过程相结合方面仍有很大提升空间,这也为自主智能系统的进步留下了广阔的发展余地。 本书在“规划、行动与学习”研究领域中是一个重要的里程碑,探讨了如何有效地将这些智能特征融合与集成,以提升智能系统的整体性能。作者Malik Ghallab、Dana Nau 和 Paolo Traverso 是三位在国际学术界享有极高声誉的杰出科学家与研究者。本书是他们在该领域撰写的第三本著作:第一本聚焦于规划,第二本则探讨了行动与规划之间的交互,而这第三本则更进一步,系统地涵盖了行动、规划与学习三者的结合。 书中讨论了诸如确定性状态转换(Deterministic State-Transitions)、分层任务网络(Hierarchical Task Networks)、概率模型、不确定性模型、分层细化模型(Hierarchical-Refinement)以及时间建模(Temporal Models)等内容,同时也涉及机器人运动与操作(Robotic Motion and Manipulation)。此外,书中还探讨了大语言模型(Large Language Models)的新兴能力及其在该领域的应用,这一主题正处于次符号AI与符号AI交汇的前沿。 本书不仅是该研究领域科学家的重要参考资料,也可作为研究生课程的教科书,清晰、全面且结构严谨地梳理了领域建模、计划生成与执行,以及如何将学习过程融入上述各个环节的技术与算法。我毫不怀疑,这本书将会被我在课程中推荐,并作为个人的重要参考资料使用。 对于一个智能体而言,实现智能行为依赖于三项基本的认知功能:行动(acting)、规划(planning)和学习(learning)。本书的主题正是如何实现这三种功能的自动化与集成。本书是我们前两本著作《自动规划》[409] 以及《规划与行动的结合》[410] 的延续,涵盖了自这些书出版以来在该领域取得的一系列研究进展。 本书涵盖了多种模型、方法与算法——包括确定性、概率性、分层结构、非确定性、时间性与空间性等类型——并探讨了如何将这些模型应用于行动、规划与学习的过程。关于这些主题的已有文献庞杂且分散于多个相互割裂的研究领域,不可能在一本书中面面俱到。因此,我们在内容选择上坚持以“行动、规划与学习的集成为核心目标”这一主线来组织材料。 全书共包含24章。第1章为引言,其余章节分为八个部分。前七个部分聚焦于不同的表示模型,每一部分均包括关于该模型下的行动、规划与学习的相关章节: * 第一部分 使用“经典的”确定性状态转换模型,基于状态变量进行建模。本章中的若干核心概念贯穿全书始终。 * 第二部分 在第一部分的状态转换模型基础上,引入了分层任务网络(HTN)。 * 第三、四部分 对第一部分的状态转换模型进行扩展,分别引入了概率性和非确定性。 * 第五部分 描述了一种分层细化(hierarchical refinement)方法,它结合了第二部分中的HTN概念与第三部分中的概率模型。 * 第六部分 使用chronicle表示法对时间与并发进行建模。 * 第七部分 引入了机器人运动与操作模型,并探讨了其与更抽象任务的结合。
最后,第八部分包含两章,讨论了一些尽管不属于本书核心关注点但仍非常重要的主题:大语言模型以及感知、监控与目标推理(goal reasoning)。
本书既可作为科学研究与工程实践中的信息参考来源,也可作为研究生层次的教材使用。大多数章节的参考文献被集中放在章节末尾的讨论部分;多数讨论部分后还附有习题。我们将提供配套的幻灯片与其他辅助材料,供读者在线获取[^1]。 在书中的伪代码中,所有变量默认为局部变量,除非明确声明为全局变量。我们假设读者已具备本科阶段计算机科学课程中算法与数据结构的基本知识。附录中补充了一些超出该背景范围的数学与技术内容。 除了对当前技术状态进行系统性的整合外,本书还包含了大量全新的内容,这些内容大多经过详尽的阐述,以便于教学使用。其中部分章节提出的新方法尚未被实现或实证评估,旨在激发未来进一步的研究探索。 读者可以根据自身的需求与背景知识,选择不同的阅读路径来学习本书。图1给出了各章节之间的依赖关系,希望能帮助读者与授课教师合理规划本书的学习路径,获得最大收益。