大语言模型 (LLMs) 在处理各类复杂任务中展现出卓越的能力,然而,前沿模型与数千个具有特定领域需求的下游 AI 应用之间仍存在根本性的脱节 (Decoupling)。这种分化限制了系统性能与效率:模型在训练与推理服务 (Serving) 阶段未能感知下游应用的需求。本论文设计了一系列耦合模型层与应用层的系统与算法,旨在推进应用感知型 (Application-aware) 基础设施与模型的发展。 首先,我们提出了三个旨在优化成本与性能的应用感知型基础设施系统。Agentix 是一款推理引擎,为 AI 智能体引入了应用感知调度机制;通过追踪 LLM 调用间的依赖关系并利用应用层统计信息,Agentix 的端到端响应速度较 vLLM 等最先进 (SOTA) 系统提升了 4 至 15 倍。其次,Stylus 是一种可扩展的模型路由器,能够从超过 10 万个 LoRA 适配器池中检索并组合最优模型,从而提升了基础 Stable Diffusion 模型的性能。最后,Starburst 是一款面向混合云机器学习基础设施的成本感知调度器,通过基于作业特征动态分配等待时间,在保持最短作业完成时间的同时,将云成本降低了高达 91%。 随后,我们证明了通过强化学习 (RL) 实现模型与应用的深度耦合,能够同时解锁更高的性能与更低的成本。通过 Agentica 项目,我们表明经过特定应用强化学习训练的小规模模型,能够以极低的成本达到前沿模型的性能水平。其中,DeepScaleR (1.5B) 仅耗费 3,800 GPU 小时便在数学推理任务上超越了 o1-preview,较此前方法实现成本降低 18 倍;DeepCoder (14B) 在竞赛编程中达到了 o3-mini 级别的表现;DeepSWE (32B) 则构建了最先进的自主编程智能体,其表现优于此前所有开源智能体 12 个百分点以上。
综上所述,这些研究成果为应用开发者及各类组织实现了前沿 AI 能力的“平民化” (Democratization)。
“我们正从规模化时代迈向研究时代。” —— 伊利亚·苏茨克维 (Ilya Sutskever) 在过去十年中,大语言模型 (LLMs) 彻底改变了计算与应用的格局。尽管自 2017 年提出以来,核心 Transformer 架构 [201] 基本保持不变,但 LLMs 通过规模化 (Scaling) 实现了显著的性能提升——模型参数从百万级跃升至万亿级 [23, 29, 195, 44],训练数据集也涵盖了数万亿个 Token [199, 151]。自 2022 年底 ChatGPT 发布以来,这种规模化范式促使垂直领域的应用迅速激增:包括解决 GitHub 问题的编程智能体 [93, 225]、综合全网信息的搜索智能体 [144]、多模态计算机辅助程序 [10]、自主深度研究系统 [152] 等。如今,这些由 LLM 驱动的应用通过延长推理链条、并行动态 LLM 调用以及外部工具调用 [158, 230, 184] 来扩展推理侧计算量 (Inference-time computation),从而应对浏览网页、故障排除及发现新型蛋白质 [146] 等复杂任务。 然而,正如摩尔定律一样,仅靠规模化驱动 LLM 的时代已进入边际收益递减阶段。首先,模型性能显著进入平台期——每一代新 LLM 带来的提升都比前一代更小。例如,从 Claude Sonnet 4 到 4.5,SWE-Bench-Verified 的准确率仅从 72.5% 提升至 77% [100];从 Gemini 2.5 到 3,AIME 准确率从 88% 提升至 95% [9]。对于现有的 AI 应用而言,基准测试中报告的性能可能与端用户的实际感知并不一致——一个在基准测试中高出 5% 的模型,在实践中可能让人感觉并无区别。其次,生产此类模型的成本已变得高不可攀——拥有数千亿至数万亿参数的模型在训练和推理阶段都需要巨大的计算资源,这为必须大规模部署这些模型的下游应用设置了障碍。 这些有限的性能增益源于模型与应用之间的根本性脱节 (Decoupling)。目前,前沿模型由少数实验室开发,并在多个通用基准测试中进行优化;而 AI 应用则由数千家具有特定领域需求的初创公司和企业构建。这种分化导致了错配:模型在训练和提供服务时并未感知到下游应用的需求,从而限制了性能与效率。一个极具说服力的例子是用于对话式 AI 的人类反馈强化学习 (RLHF) [156]。GPT-3 [23] 虽然原始能力强大,但对于聊天机器人而言既不安全也不实用——它会生成有害内容、无法遵循指令,并产生与用户预期不符的输出。通过 RLHF 训练模型来优化源自人类偏好的奖励信号,将模型与其下游应用(聊天)耦合在了一起。由此产生的 ChatGPT 系统在可用性上实现了质的飞跃,而这种飞跃是单纯依靠规模化无法实现的。 在本论文中,我们设计了将模型层与应用层耦合在一起的系统与算法。我们沿着两个互补的方向追求这一目标:首先,使推理服务基础设施感知下游应用需求;其次,通过训练使模型本身专门化,以适配其目标应用。
流行的 LLM 推理引擎(如 vLLM [108] 和 SGLang [250])极大地简化了模型在生产环境中的部署流程。这些引擎主要针对请求级指标进行优化,例如首字延迟 (TTFT)、Token 间延迟以及以每秒 Token 数 (TPS) 衡量的吞吐量——这些指标对于简单的聊天机器人交互至关重要。 然而,随着 LLM 应用从单一的聊天机器人转向复杂的通用 AI 应用,这些请求级的优化无法捕捉到复杂应用的核心诉求。以一个解决 GitHub 问题的自主编程智能体为例:它可能会发起数十次 LLM 调用,包括分析代码库、制定计划、编写代码、运行测试以及根据反馈进行迭代。用户体验到的端到端延迟并不取决于任何单次调用,而是取决于所有调用之间的程序级执行 (Program-level execution)。一个优化单次请求指标的服务系统可能会因为未能考虑调用间的依赖关系,而无意中增加了程序级的延迟。为了解决这一问题,我们开发了 Agentix (第 2 章),这是一款引入应用感知调度的推理引擎,旨在最小化 AI 应用的端到端延迟。通过追踪应用层统计信息和 LLM 调用间的依赖关系,Agentix 减少了队头阻塞 (Head-of-line blocking),并将各类 AI 应用的吞吐量提升了 4-15 倍。这反过来降低了服务 AI 应用所需的成本。 除了调度之外,将请求路由到正确的模型也会影响成本和应用性能。在图像领域,社区驱动的微调适配器贡献——例如 CivitAI [134] 上的 10 万多个 LoRA——为通过模型组合提升生成质量提供了契机。用户可以组合针对不同概念、角色和风格的多个专用适配器,以生成高度符合其要求的图像。然而,从这个庞大的生态系统中手动选择相关适配器在规模化应用中是不切实际的,因为选错适配器会引入偏见,而盲目组合不同适配器则会降低图像质量。为此,我们开发了 Stylus (第 3 章),这是一个可扩展的模型路由系统,能够根据用户提示词自动检索并组合相关适配器。Stylus 采用了三阶段流水线:首先通过视觉语言模型生成准确适配器描述的细化器 (Refiner);其次通过嵌入向量相似度获取候选适配器的检索器 (Retriever);最后是将提示词分割为不同任务并分配适配器,同时过滤无关适配器的组合器 (Composer)。该方法提升了视觉保真度、文本对齐度和图像多样性——在人类偏好评分上比基础 Stable Diffusion 高出多达 2 倍。 最后,专门用于机器学习 (ML) 工作负载的多租户基础设施也必须利用用户作业的信息来优化成本。对于前沿实验室而言,预训练和后训练运行极其昂贵——单次前沿模型运行可能耗资数千万美元,且研究人员会在不同实验中产生数百个检查点 (Checkpoints)。组织通常结合使用预留实例和按需实例来处理这些训练任务,从而形成在需求高峰期向云端资源“冲刷” (Burst) 的混合云基础设施。挑战在于决定何时将作业分流到云端:过早发送会浪费云端计算费用;等待时间过长则会延迟作业完成并阻塞其他作业。这种权衡在 AI 工作负载中尤为显著,因为作业规模差异巨大——从针对小模型的超参数搜索到请求数千个 GPU 的大规模分布式训练任务。为了解决该问题的调度维度,我们开发了 Starburst (第 4 章),这是一款面向混合云环境的成本感知调度器。Starburst 的核心见解是:等待时间应与作业的计算成本成正比——大规模、昂贵的作业应在集群资源中等待更久(因为其云成本极高),而小作业则可以快速分流。Starburst 引入了计算-等待 (Compute-Wait) 机制,根据作业资源请求与预测运行时间的乘积动态分配等待时间;并引入了乱序调度 (Out-of-Order scheduling),允许小作业绕过等待中的大作业以减少队头阻塞。这些技术移动了“成本-作业完成时间 (JCT)”的帕累托前沿,在保持最短作业完成时间的同时,将云成本降低了高达 91%。
虽然基础设施的优化可以大幅降低训练与服务成本,但要实现目标应用下一阶段的能力跃迁,往往需要改变模型本身。推理模型最近取得的成功(以 OpenAI 的 o1 [153] 和 DeepSeek-R1 [41] 为代表)证明了强化学习 (RL) 可以解锁超越纯监督学习的能力。这些模型学会了生成长链思维 (CoT)、探索多种解决方案路径并自我纠正错误,在数学推理和编程基准测试中实现了突破性性能。 在第 5 章中,我们介绍了 Agentica 项目,这是一项旨在推动 LLM 强化学习“平民化”的社区驱动计划。Agentica 在 DeepSeek-R1 发布后不久启动,旨在回答一个根本性问题:通过强化学习训练的小型模型,能否匹配规模大得多的前沿模型的性能?我们的研究结果表明答案是肯定的。通过精细的算法与系统协同设计,我们证明了将 RL 应用于小型 LLM 可以实现与前沿实验室模型相当的性能,而训练和服务成本仅为其一小部分。DeepScaleR 训练的一个 1.5B 模型,仅需 3,800 GPU 小时即可在数学推理上超越 o1-preview,训练成本降低了 18 倍。其核心创新是迭代式上下文扩增 (Iterative context lengthening):与其从一开始就使用长上下文训练,我们从 8K 短上下文开始,随着模型学会更高效地推理,逐步扩展到 16K 和 24K。DeepCoder 将这些技术扩展到了竞赛编程领域,对组相对策略优化 (GRPO) 进行了算法改进,使其在长上下文下训练更加稳定。最终产生的 14B 模型在 LiveCodeBench 上达到了 o3-mini 级别的表现。最后,DeepSWE 应用强化学习训练了用于真实软件工程的自主多步编程智能体,在 SWE-Bench Verified 上达到了 59%,优于此前所有开源智能体 12 个百分点以上。 总之,这些结果带来了一个重要的启示:通过 RL 将模型与其下游应用耦合,不仅能提升性能,还能降低成本。特别地,经过特定应用 RL 训练的小型模型可以匹配或超越大型通用模型,且小型模型的推理服务成本显著更低。这为任何应用开发者实现了前沿级能力的平民化,使研究人员和组织能够构建属于自己的高性能 AI 系统。
摘要 —— 鉴于智能体 AI(Agentic AI)与算法化(Algorithmization)领域近期出现的融合趋势,本文旨在为日益碎片化的学术论述恢复概念清晰度,并提供一个结构化的分析框架。首先,(a) 本文考察了当代技术图景,并对从“智能”到“智能体 AI”等核心概念给出了精确定义。其次,(b) 通过回顾前期研究工作,本文对过去十年间开发的方法论与技术进展进行了语境化梳理,强调了它们之间的相互依赖关系及累进式轨迹。第三,(c) 通过对机器学习(Machine Learning)领域中“机器”(Machine)与“学习”(Learning)属性的辨析,(d) 本文引入了机器学习中的“第一台机器”(M1)概念,即支持当今基于大语言模型(LLM)的智能体 AI 的底层平台;该平台被构想为 B2C 信息检索用户体验的延伸,目前正被重新应用于 B2B 转型。基于此区分,(e) 本白皮书提出了“第二台机器”(M2)的概念,将其视为实现全面、生产级 B2B 转型的架构前提,并将其特征描述为“基于策略的智能体 AI”(Strategies-based Agentic AI),其定义基于此类系统在实现业务运作时必须克服的结构性准入门槛。此外,(f) 本文对首个完全实现的 M2 架构提供了理论与技术洞察。最后,凭借过去二十年间在开发算法化底层架构方面所积累的专业与学术经验,(g) 本文勾勒了未来二十年的前瞻性研究与转型议程。
智能体 AI(Agentic AI)已成为全球技术论述的主导主题。截至 2025 年初,它已渗透进企业董事会、咨询框架、国家数字化战略以及公众想象中。然而,尽管其地位迅速攀升,该术语的使用仍存在不一致且往往不够精确的问题——通常被机械地挂钩于大语言模型(LLMs)方法论。这种普遍的误解掩盖了智能体系统真实的架构与战略影响,导致企业、政府和学术机构将其预期锚定在从未设计用于“生产级转型”的技术之上。 这种鸿沟在 2025 年 9 月变得尤为明显,当时文献 [21] 揭示了一个关键洞察:通常被称为“幻觉”的现象并非偶然缺陷,而是 LLM 的结构性特征。这些模型产生的错误直接源于其统计估计过程,而非检索失败。因此,许多准备将基于 LLM 的智能体 AI 集成到其运营基础设施中的企业——通常采用肤浅的或“氛围驱动型”(vibe-driven)开发方法——实际上是在其生产系统中嵌入了结构性噪声。这在现有的运营脆弱性和网络安全风险之上增加了一类新的风险,使得对这些战略计划进行彻底重新评估变得刻不容缓。 重要的是,这一结论对我们的读者来说并不新鲜。在我们 2023 年 9 月的出版物 [9] 中,我们明确指出“大语言模型中不存在幻觉……只有设计使然的错误”,因为 LLM 并不检索信息,而是对其进行估计和组合。因此,LLM 错误的结构性本质在近期机构承认此观点的前几年就是可预测的,并且已经得到了阐明。 这些问题仅反映了更深层次的误解和方法论错位的冰山一角。为什么这些持久的误判会持续出现在如此有影响力的机构中?虽然本文后续部分将剖析我们认为真正的“房间里的大象”(隐蔽的重大问题),但核心解释可简要概括为:当前的技术格局处于一种经济失衡状态,这是由供应侧(技术销售方)和需求侧(企业购买方)普遍缺乏判断力所驱动的。这种失衡不仅可以理解,而且在结构上嵌入在该领域的激励机制和知识约束中。 鉴于涉及的社会利害关系——从大规模投资的错误分配到不必要的大规模裁员——对概念精确性和架构清晰度的需求极其迫切。因此,我们的目标有两个:第一,阐明当前围绕智能体 AI 的误解起源及其驱动因素;第二,指明前行之路,以便科学家、高管、政策制定者和从业者能够更有效、更负责任地参与并塑造这一技术转型。
本文认为,混乱源于未能区分机器学习的两个底层组件:学习(Learning, L)与机器(Machine, M)。 * 学习(L):由计算统计学和传统统计学定义,本质上是一项科学事业。由于学术创新的全球性和开放性,其输出(模型 $f(\cdot)$)已成为一种商品。竞争优势无法在模型层面(L)持续产生。 * 机器(M):竞争优势必须源于“机器”,即管理模型部署、编排、启发式结合以及适配现实运营的架构与算法基础设施。这就是为什么作为一种软件架构新范式的“智能体 AI”已成为“获胜权”(right-to-win)计划基石的原因。
为使这一区分形式化,我们引入了智能体 AI 的机器理论,进一步区分了两类“机器”: * M1:指估计算力密集型模型(如校准 LLM 所需模型)所需的科学与数据工程的融合。 * M2:在 M1 能力之上,增加了创建联邦化、模块化算法生态系统所需的特性。M2 明显比 M1 更复杂(它可以为不同目的创建多个 M1),且我们认为,这才是企业最终追求的技术。
在 M2 内部,我们区分了两种路径: 1. 基于 LLM 的 M2:当前智能体 AI 的主流。即试图在 LLM 的“氛围编码”(vibe coding)之上构建 M2,使软件由非程序员创建并自动部署。这受限于 LLM 供应商从 B2C(零售服务)转向 B2B(企业服务)的枢纽战略。然而,其结构性属性(幻觉、不透明、有限的确定性)对其支撑生产级 M2 架构的能力构成了内在约束。 1. 基于策略的 M2 (Strategies-based M2):源自 [10] 的原始智能体 AI。它将 M2 构想为一种自顶向下的架构学科,立足于目前存在的最复杂的数字业务:算法交易。该观点认为,组织无法通过从最简单的用例向上进阶来扩展技术能力;相反,正确的轨迹是:从最严苛的运营和算法语境出发,将这些能力向下推广到所有业务职能。
本文的范畴刻意聚焦于我们过去十年在应用科学(Applied Science)领域的演进。应用科学本质上是颠覆性的:它将科学理论与专家启发式方法、战略推理与运营部署、多种统计模型与特定领域的判断相结合。 本文在空间上具有特殊性:它既不符合学术研究的风格标准,也不遵循行业白皮书的惯例。它旨在阐述一门跨越两界但又不完全受限于任何一界的学科。此外,本文有意整合了比以往更多的商业洞察。这种系统的专有性和高度定制化特性,排除了进行标准化定量性能比较的可能性。 算法化的可扩展性本质上受限于顾问在 M2 平台之上提供的专业服务(战略咨询和数据科学)的强度。因此,本工作刻意限制在 M2 层本身,这是使算法化能够独立于人力瓶颈、在全球范围内实现扩展的主要机制。
富有意义、可扩展且具韧性的转型是一个“机器”问题,而非“学习”问题。 正确理解下的智能体 AI 不是 LLM 动态的延伸,而是跨组织、跨行业、跨国家实现智能(人类与机器)运营化所需的架构学科。只有掌握基于策略的 M2,机构才能从肤浅的数字化转型走向真正的竞争力和结构效率。换言之,在组织完成自我转型之前,没有任何机构能有效处理 AI。
本文主张军队必须采取审慎而系统化的方法将生成式人工智能整合到军事决策流程中。通过类比历史上坦克和飞机的引入,警示既要避免技术利用不足,也要防止被过度宣传的能力所误导。以生成式人工智能系统“多诺万”(Donovan)作为案例研究,本评论重点指出了当前系统的关键缺陷,例如缺乏计算和地理空间推理能力,并指出了阻碍改进的采购挑战。本文认为,仅仅使用生成式人工智能来加速旧有流程将浪费其潜力。相反,主张利用专业军事教育中的兵棋推演和实验作为压力测试,以正确定义需求、管理人员的认知负荷,并引导私营部门开发真正符合作战人员需求的解决方案,最终提升军事决策水平。
在开始将人工智能采纳到几乎全部作战领域之际,值得思考从整合以往颠覆性技术中汲取的一些经验教训。坦克和飞机在最初投入使用时,其扮演的角色都未能充分发挥其潜力。例如,坦克无法发挥其卓越的机动性,因为它们最初被配属给步兵,而在战斗中,步兵的行进速度仅如士兵步行一般。飞机被降格用于侦察角色,因为指挥官们对其进攻能力持怀疑态度。甚至军事航空先驱比利·米切尔准将最初也认为航空兵应隶属于通信兵。
另一方面,这两种技术也都曾被过度吹捧。在两次世界大战之间的年代,英国理论家巴兹尔·亨利·利德尔·哈特爵士和J.F.C.富勒认为坦克将使步兵在很大程度上过时。意大利空军元帅朱利奥·杜黑著名地论证,轰炸机能够迫使敌人投降,而无需进行代价高昂的地面战斗。最终,这些技术以某种方式找到了自己的道路,因为军队进行了实验、创新,并且最重要的是,制定了关于如何最佳使用它们的条令。
在这两种情况下,倡导者从创新的新颖性中过度推断,而没有充分考虑充分利用它所需的条令、组织和后勤资源。他们的过度宣传也反映了一个事实,即倡导者常常将创新视为解决战争迷雾和摩擦的方案,却没有考虑它自身可能如何制造新的迷雾和摩擦。随着军队在使用这些武器系统方面积累经验,他们认识到坦克和飞机需要庞大的支援体系,这增加了摩擦的可能性,并催生了新的条令——其目的与其说是减少战争迷雾,不如说是为对方制造迷雾。对于生成式人工智能,可汲取的教训是,早期关于其具有颠覆性、能赢得战争效应的说法很可能误导实践者,除非配以对数据性质、模型如何使用数据及其对条令和资源分配的影响进行审慎、系统化的理解。
生成式人工智能的整合正处于与装甲战和空战早期阶段相似的节点。近期报告指出,即使在该技术已被采纳的地方,美军也尚未完全优化其使用。根据乔治城大学安全与新兴技术中心的报告,美军第十八空降军整合人工智能后实现的目标定位流程,在“伊拉克自由行动”期间大幅减少了所需人员数量。尽管存在这一事实,这些组织效率尚未反映在条令或该军火力支援分队在全陆军的调整中。在另一案例中,正如美智库战略与国际研究中心近期报告所观察到的,未能对计算基础设施进行投资和培养懂人工智能的人员,有可能导致传统流程碎片化,并增加遭受对手攻击的脆弱性。
与此同时,人工智能技术常常被过度宣传。例如,生成式人工智能系统“多诺万”(Donovan)宣称能够“在作战人员最需要的时候和地点,将强大的作战能力交付其手中”。然而,当美陆军战争学院战略领导力中心的兵棋推演人员于2025年5月下旬将其整合到一场为期一周、秘密层级、作战级别的兵棋推演中时,他们发现了该系统功能上的三项关键缺陷,这些缺陷限制了其执行某些关键计划功能的能力,包括对军事计划至关重要的计算和地理空间能力缺失,以及一个使得供应商难以根据观察到的缺陷进行适应的采购系统。
与大多数生成式人工智能系统一样,“多诺万”(Donovan)返回的是概率性结果,并且缺乏执行计算的内在能力。因此,如果被要求计算移动时间或其他关键计划信息,它会利用其数据库来猜测答案,而不是自行执行计算。它还缺乏地理空间推理能力,这使得它在计算(例如)机动表格时更加不可靠。此外,由于它缺乏在无定向管理情况下回忆先前迭代所需的记忆能力,其从用户交互中学习的能力有限。
然而,采购体系限制了供应商为解决任何关切所能采取的行动。在2025年9月于华盛顿特区举行的首席数据与人工智能办公室国防会议上,供应商和行业领袖们都认识到,获取有效的、作战层级的反馈来改进其产品存在困难。在本案例中,为“多诺万”(Donovan)及其他供应商许可证提供资金的“全球整合主导实验”项目,并未能使政府获得资金以进行进一步开发来解决已发现的问题。其结果是,“多诺万”(Donovan)的性能未能得到改善。这里的问题在于,需要制定一种采购策略,既能通过奖励能力创建来激励实验,又能通过提供足够资金以避免供应商遭受财务损失来鼓励参与。在这样的采购环境中,像美军第十八空降军这样的作战单位,被迫继续试用那些不足以完成所需任务的系统,并发布结果,以期吸引声称拥有有效解决方案的供应商。目前,美陆军战争学院战略领导力中心正在探索通过合作研发协议、小企业创新研究计划以及陆军现有合同载体等创新性资金途径,以促进与美陆军能力相匹配的实验和开发。
整合颠覆性技术的困难在于找到使其可持续的方法。遗憾的是,维持性创新是指那些提升传统上受重视的作战职能绩效的创新。然而,颠覆性创新则是指那些提升先前未被重视的作战职能绩效的创新。生成式人工智能显然属于后一种情况。如果生成式人工智能仅用于加速旧有流程,那么它将始终未被充分利用。要发现生成式人工智能能为哪些其他职能带来价值,例如取代旧有的记录软件程序,将需要在较低层级进行实验和创新——很大程度上就像比利·米切尔为空中力量所做的那样——从而为体制改革提供信息。
要达到这一点,将需要高级领导人和采办专业人士改善与私营部门的互动,使其技术与陆军需求保持一致。像“FUZE”这样的项目,能够使各军种更快速地整合现有技术以适应陆军需求,或许是一个良好的开端。然而,正如“多诺万”(Donovan)的例子所示,参与采购和获取流程的人员必须理解技术需要具备哪些能力才能达成期望的结果:例如,如果你想生成机动表格,你的人工智能助手必须能够执行必要的计算。
此外,他们必须理解商业激励机制如何影响人工智能的设计。这样做需要在炫目的技术优越感之中,始终保持对人工智能整合战略概念的关注。商业激励优先考虑最广泛的应用以控制成本,其结果是军方接收到的是与高中生用来写学校报告相同的生成式人工智能模型。此类“军民两用”方式,即军方将民用应用适配于自身需求,可能无法满足所有军事要求。为了获得更好的结果,还必须理解一家公司是如何根据其潜力而非收入进行估值的,这是衡量其是否愿意迭代直至成功交付能力的一个指标。潜力越高且收入损失越低,政府与供应商的关系就越有可能取得丰硕成果。
这一点并非是说军方不应利用民用应用。通常,它们足够有能力,是军方获取技术最经济的路径。然而,负责其获取、采购和整合的人员需要充分理解该技术将如何被使用,以便评估其适用性和可持续性。例如,军方需要高度训练的模型,这对于提升指挥和参谋机构在管理暴力行动中的认知表现至关重要。为了优化这些流程,陆军领导人需要理解人工智能技术如何重新分配认知负荷,进而理解承担该负荷所需的能力。从需要许多大脑到仅需少数大脑,若不改变这些大脑的思考方式和组织方式,是无法实现的。参与人工智能实验和应用的第十八空降军人员将这种重新分配称为“用数据作战”,而非以传统做法为特征的“用武器作战”。
因此,陆军和联合部队须建立并利用采购体系,激励私营部门的专业知识,为各指挥层级的作战人员生产所需之物。实现此目标的一种途径是在专业军事教育中投资于兵棋推演的研究与开发。在认知领域,这些环境使系统接受人类层级的作战评估。人工智能系统在陆军参谋机构内部的演进将需要个体定制化,以防止认知启发式错误。模型必须通过接受不确定性、对数据来源保持透明以及管理认知负荷,来促进人类对计划和流程的主导权,从而优化人与机器的贡献。需要进行这种“压力测试”,以确保人工智能解决方案满足作战人员的需求,而不是相反。德怀特·D·艾森豪威尔曾指出的:“在准备战斗时,我总是发现计划是无用的,但计划工作不可或缺。”这对人工智能系统的启示在于,如果计划工作的过程对人类是有价值的,那么将人类从该过程的关键环节中移除将会降低其效益。
为了促进这些效益,美陆军战争学院战略领导力中心继续在战区级兵棋推演中测试现有解决方案,首要目的是评估其在作战环境中的表现;其次是为了更好地界定军在军级以上层级需要什么来促进决策。2026年春季,美陆军战争学院战略领导力中心将为新成立的西半球司令部领导一场战略级兵棋推演。这场推演将使一个新成立的司令部能够演练保卫本土,并确立评估生成式人工智能系统的标准。
在专业军事教育中赋能持续实验是采购领域的一项重要调整。在战争的认知维度,专业军事教育在理解如何为提升陆军和联合计划流程中的认知能力进行正确的概念整合以推动技术解决方案方面,保持着优势。迄今为止,美陆军过度关注技术的展示,而非与陆军作战方式相一致的、经过验证的性能。生成式人工智能具有潜力,但就其目前形式而言,并不适合在战略层级增强高级领导人的认知能力。
美军认为,美国工业基地已准备好做出响应,陆军也在赋能硅谷,以推进作战人员在战争的认知维度保持优势。生成式人工智能的整合将在军事中找到自己的道路,就像坦克和飞机曾经那样。然而,与坦克和飞机不同的是,这次的赌注可能更高,因为这些新系统几乎与军队的每个系统都相互作用,并影响着最大的优势——领导人如何思考和决策。现在的责任在于要重新掌握话语权,通过兵棋推演赋能商业部门,以增强决策能力和杀伤力。
参考来源:美陆军战争学院
美国防部战略指导文件明确了在全企业范围内采用人工智能的紧迫性和目的。在军事医疗领域,人工智能不仅有望简化医疗服务的复杂性,还能提高效率、改善疗效、提升安全性及战备状态。虽然战略指导可能暗示人工智能是一种可以随时添加到军事医疗系统中的工具,但在数据、人员、隐私、官僚体制和成本方面存在着重大的实施障碍。本文讨论了人工智能在医疗保健领域的应用,并探讨了其在军事医学中的使用。文章将重点介绍几个展示人工智能在医疗领域前景的应用案例,随后在军事医疗的背景下逐一审视各项障碍,并着重指出为帮助克服这些障碍而已采取的行动。本文提供了帮助克服各项障碍的建议,以期引发正考虑实施人工智能的高级领导者的讨论。希望本文能成为一个资源,协助领导者制定一个全面、集体的战略,以对患者、人员和国家最有益的方式,在整个军事医疗系统中部署人工智能。
进行持久大规模区域冲突,需要现代空军(澳大利亚)具备三项其目前尚不具备的重要属性。对于解决已发现的不足之处存在一些替代方案,但首选途径是采用异质空中力量模型。该模型以协调、同步和协同的方式运用有人驾驶飞机、火箭、导弹和无人机,以高效达成作战目标。打造这样一支新型空军,将需要对“能力基础要素”进行变革。
澳大利亚2024年《国防战略》警示了爆发一场持久大规模区域冲突的危险。在此类冲突中,该战略预见空战将至关重要。空中力量可能发挥重要作用,但战斗损耗可能意味着其仅能在短得令人不安的时间内维持作用。现代空军其设计和建设是围绕高度复杂、技术精湛的有人驾驶战斗机展开的。正是这种同质性——即大部分重要组成部分属于同类——成为了这些空军的阿喀琉斯之踵。此类飞机需要数年时间建造,一旦损失无法迅速补充。在一场大规模战争中,有人驾驶飞机的损失几乎是不可避免的。其结果是,一支和平时期的空军若投入一场大规模冲突,其规模和效能很可能会逐渐衰退。这一广为人知的缺点如今已有解决方案,尽管它对空军的建设具有重大影响。
本文旨在为像澳大利亚皇家空军这样的中等强国空军阐述一种适合作战持久大规模冲突的新型模式。首先,将概述持久大规模战争的特征,以及空军为进行此类作战所需具备、但目前尚不拥有的三项重要属性。其次,在确定一个可行的新模式之前,将考虑解决这些不足之处替代方案。第三,将解释这一新模式如何解决最初指出的缺点。最后,将简要勾勒如何利用澳大利亚国防军的“能力基础要素”框架来建设这样一支空军。借鉴近期的国际法声明,本文将空战定义为:武装冲突中涉及使用各类飞机或导弹的军事行动;无论是进攻还是防御;也无论是否在交战任一方的领土上空进行。重要的是,本文不探讨新型空军可能采用的作战概念。尽管后续讨论中或可汲取一些见解,但这一重大课题仍有待另文探讨。
无人机在现代冲突中的运用因其战略与战术优势而备受关注。本研究旨在批判性地考察无人机在两个当代冲突区域——俄乌战争与以色列-加沙冲突——的部署所产生的影响与挑战。本研究认为,无人机影响了战场,特别是在监视、精确打击和后勤支援方面,同时探讨了与其使用相关的作战与伦理挑战。所采用的方法包括定性研究法,利用案例分析和来自教科书与学术文章的二手数据。对数据进行了三角验证,以全面理解无人机的作用及其相关挑战,包括与技术局限性、国际法以及自动化战争引发的道德关切相关的问题。本研究通过现实主义理论的视角构建框架,该理论强调权力、安全和国家利益在国际关系中的首要地位。在俄乌战争与以色列-加沙冲突的背景下,无人机的使用被视为推进国家安全目标和增强军事能力的工具。现实主义有助于理解采用无人机背后的战略动机,同时也突显了与技术优势、主权以及武装冲突法相关的固有挑战。最终,本研究旨在促进对无人机如何塑造现代战争格局及其融入军事战略所伴随挑战的细致理解。
技术在现代战争中的进步改变了部队在战场上的直接参与程度,尤其是随着无人机的发展。如今,由于无人机的开发与部署,现代战争已发生显著变化。无人机的发展通过确保持续监视、精确打击和作战分散化,重塑了现代战争。
自2022年2月俄罗斯乌克兰全面战争以来,无人机在侦察与作战任务中均发挥了关键作用。乌克兰利用不对称战争理论,尽管其传统资源与俄罗斯联邦相比有限,但仍成功利用了市售无人机,如“巴伊拉克塔尔”TB2,以及为战争改装的低成本消费级无人机。这些无人机已被证明能有效摧毁高价值俄罗斯资产,包括装甲坦克和指挥中心,破坏供应链,并提升乌克兰士气。作为回应,俄罗斯使用了伊朗制造的“见证者”-136无人机对乌克兰基础设施,特别是电网和民用建筑,进行自杀式特攻式攻击。这些无人机成本低廉且难以拦截,使俄罗斯能够以最小成本在乌克兰维持心理压力和作战干扰。
如今,无人机的使用在俄乌战争中引入了一种新的不对称性,使得被认为较弱的乌克兰能够通过战术创新来挑战像俄罗斯这样的优势力量。然而,商用无人机和如GIS平台等开源测绘工具的普及,使得战场情报民主化。此外,在持续的俄乌战争中,无人机已被俄罗斯和乌克兰双方广泛用于监视、瞄准和作战行动。乌克兰部队将无人机用于侦察和火炮瞄准至关重要,乌军利用无人机监测俄军部队调动以及榴弹炮或炮兵阵地。一方面,乌克兰也从西方盟友那里获得了先进无人机,特别是土耳其制造的“巴伊拉克塔尔”TB2无人机,这些无人机被用于以高精度打击俄罗斯军事设施。另一方面,俄罗斯则使用无人机监视乌克兰阵地和补给线,包括进行侦察和瞄准,主要针对关键基础设施和军事资产。必须注意的是,俄罗斯开始部署其由伊朗提供的“见证者”-136无人机,以打击乌克兰城市和关键基础设施。然而,俄罗斯和乌克兰都日益将对方的无人机基地作为攻击目标。
然而,以色列与加沙的长期冲突也因无人机在战争中的部署而受到影响。以色列国防军使用无人机不仅用于监视和精确打击,还将其作为信息战的媒介。如今,无人机提供了所需的情报,便于在冲突地区有针对性地刺杀激进组织领导人并摧毁火箭发射场。另一方面,像哈马斯和巴勒斯坦伊斯兰圣战组织这样的巴勒斯坦团体已发展出初级的无人机能力,包括能够携带炸药或进行监视的小型无人机。尽管其技术先进程度远不及以色列的系统,但这些发展标志着无人机技术即使对非国家行为体也日益普及。运用建构主义理论分析框架,以色列为人群控制和区域拒止而部署无人机,目前正引发政策制定者及国际关系与战略研究学者们对国际人道法中的相称性和区分原则产生重大的人道主义和法律关切。
同样重要的是要注意到,在以色列-加沙冲突中,无人机已被以色列广泛用于情报、监视和侦察行动。以色列国防军使用一系列无人机,包括“赫尔墨斯”450和“苍鹭”无人机,来收集加沙地带哈马斯活动的情报。这些无人机也被用于对哈马斯军事目标进行精确打击,包括加沙的武器储存设施、火箭发射器和指挥中心。相比之下,哈马斯和加沙的其他激进组织也使用无人机对以色列的军事阵地和民用基础设施发动攻击。例如,2019年,哈马斯使用携带爆炸载荷的无人机对以色列发动攻击,目标是以色列军事设施,这标志着无人机在中东的使用显著升级。
必须注意的是,在俄乌和以色列-加沙这两场冲突中,无人机通过提供实时情报、监视能力和精确打击能力,彻底改变了现代战争。这些冲突表明,国家和非国家行为体都将无人机用于从侦察到针对性打击的各种目的。因此,无人机日益增强的可获得性和有效性改变了俄乌战争和以色列-加沙冲突中现代战争的动态。正在进行的俄乌战争和以色列-加沙冲突这两场冲突显示了无人机在当代军事战略和人道考量中扮演着变革性角色。有鉴于此,在这两场战争中,技术先进的国家(俄罗斯和以色列)部署先进的无人机,而较弱的行为体(乌克兰和加沙的激进组织)则创新性地适应低成本无人机。然而,有效性并不仅仅取决于技术的先进程度,还取决于战略整合。因此,无人机的使用持续模糊了战斗人员与平民之间的界限,并引发了关于问责制的关切,特别是在无人机袭击在城市战环境中造成平民伤亡的情况下。关于主权和《联合国宪章》第五十一条下的自卫权的法律灰色地带,也在现代战争中无人机的使用背景下成为焦点。
国际关系与战略研究专家极为关切且对本研究至关重要的一个领域是无人机对平民人口造成的心理创伤,这在俄罗斯、乌克兰、以色列和加沙,每当发生无人机袭击时,持续助长了恐惧氛围。可以认为,虽然无人机在当代军事行动中具有成本效益,但它同样带来高昂的平民代价。因此,无人机操作员对其行动后果的脱敏,尤其体现在战场上,使我们面临伦理困境。 因此,将无人机引入当代战争,特别是在俄乌和以色列-加沙冲突的背景下,显示了现代战术的转变,同时带来了法律和人道主义方面的挑战。例如,随着无人机技术变得越来越普遍和易得,未来的冲突可能会日益孤立、由数据驱动且在伦理上更加复杂。因此,迫切需要强有力的国际框架来规范无人机战争,以确保冲突地区平民人口的责任制、透明度和保护。
此外,无人机提供了显著的战略优势,它允许进行监视、情报收集和针对性打击,同时将军事人员的风险降至最低。俄罗斯和乌克兰,以及以色列和加沙的团体,都利用无人机来实现这些目的,从而增强了其军事能力。无人机在这些冲突中的战术优势不容小觑,它们提供了实时情报和精确瞄准,塑造了战场结果。再次,无人机通过实现远程作战和减少对大型地面部队的需求,颠覆了传统战争。在这两场冲突中,无人机改变了作战模式,使得不对称战争成为可能,即规模较小或技术较弱的部队能够对优势部队造成重大损伤。这种转变使军事规划和应对复杂化,特别是对于面临非常规无人机威胁的传统军队而言。最后,无人机,特别是当用于监视或针对性打击时,对战斗人员和平民都有深远的心理影响。无人机袭击的持续威胁可能挫伤民众士气,如在加沙,平民生活在无人机监视的阴影之下。对于军事人员而言,无人机构成了持续的侦测与攻击威胁,影响了冲突双方的战术决策。
机器学习(ML)作为人工智能(AI)的基础课题,为其令人振奋的进展提供了理论基石与实践工具。从用于视觉识别的 ResNet 到实现视觉-语言对齐的 Transformer,AI 模型已展现出超越人类的卓越能力。此外,扩展定律(Scaling Law)使 AI 初步具备了通用智能,大语言模型(LLMs)便是其有力证明。至此,AI 已对社会产生巨大影响,并持续塑造人类的未来。 然而,分布偏移(Distribution Shift)始终是机器学习系统的“阿喀勒斯之踵”,从根本上限制了其可靠性与普适价值。随着 AI 深度融入现实世界的决策流程与社会基础设施,我们要求其解决的问题复杂度也在不断增加。这些复杂环境自然会引入多样且不可预测的分布偏移,从而导致模型性能严重下降。 此外,分布偏移下的泛化能力缺失也会引发 AI 的信任危机。例如,当跨地区部署医疗 AI 时,其表现可能差强人意甚至造成危害。因此,我们亦需关注 AI 的责任属性,即机器学习的可信度(Trustworthiness),旨在提升系统的可靠性而非仅仅关注准确率。 受此启发,我的研究聚焦于分布偏移下的可信机器学习,目标是扩展 AI 的鲁棒性、通用性、责任感与可靠性。我们深入研究了三种常见的分布偏移:(1) 扰动偏移(Perturbation Shift)、(2) 领域偏移(Domain Shift) 以及 (3) 模态偏移(Modality Shift)。针对所有场景,我们从 (1) 鲁棒性、(2) 可解释性 和 (3) 自适应性 三个维度对可信度进行了严谨调查。基于这些维度,我们提出了有效的解决方案与基础性见解,旨在强化效率、自适应性及安全性等关键机器学习问题。
核心技术术语:
Large Language Models (LLMs) -> 大语言模型 * Foundation models -> 基座模型/基础模型 * Retrieval-augmented generation (RAG) -> 检索增强生成 * Multimodal training -> 多模态训练 * Reasoning models -> 推理模型 * AI agents -> AI 智能体 * Vibe coding -> 氛围编程(新兴术语,指通过高层描述而非严谨逻辑进行的辅助编程) * Adversarial attacks -> 对抗性攻击 * 逻辑结构:文本分为促销信息、书籍定位(反抗虚假宣传)、核心内容大纲、目标读者(零门槛)、作者背景以及详细的目录结构。
(略,直接进入第三步精修润色)
凡购买纸质版书籍,均可免费获取 Manning 出版社提供的电子书(PDF 或 ePub 格式),并获得 liveBook 在线平台的访问权限(包含支持多语言问答的 AI 助教)。 如今,ChatGPT、Gemini 等 AI 工具,Cursor、Copilot 等自动化编程工具,以及无数基于大语言模型(LLM)的智能体已深度融入日常生活。然而,这些技术也引发了充斥着误导信息、过度炒作与末世论的舆论风暴,使得公众难以准确理解生成式人工智能(Generative AI)的本质及其真实能力。本书对生成式 AI 的基础原理进行了清晰且严谨的综述,并提供了安全、高效使用 AI 所需的技术手段与应用策略。 本书将引领读者从初次体验 ChatGPT 的震撼,逐步深入到如何安全、负责任地利用 AI 工具重塑个人生活与职业生涯。鉴于 AI 领域的快速更迭,第二版进行了全面修订,以反映该领域的最新进展。 在这本通俗易懂的入门指南中,您将学习到:
大语言模型(LLMs)的工作原理 * 如何将 AI 应用于个人及职业工作流 * 围绕生成式 AI 的社会、法律与政策图景 * 推理模型与“氛围编程”(Vibe coding)等新兴趋势
以 ChatGPT、Gemini 和 Claude 为代表的生成式 AI 工具能够撰写邮件、生成营销文案并进行产品设计建模。它们还能创作诗歌、生成写实的图像或视频,甚至编写代码。本书通过简明易懂的语言揭示了生成式 AI 背后的运作机制,旨在帮助读者在确保安全与效率的前提下使用这些技术。
《生成式人工智能导论(第二版)》是一本针对生成式 AI 能力、风险与局限性进行全面修订和更新的指南。您将了解到 AI 领域的最新创新成果,包括 AI 智能体、多模态训练、推理模型、检索增强生成(RAG)等。同时,本书还将从专家视角审视 AI 在工业、教育和社会领域的深远影响。 核心内容:
AI 与基座模型(Foundation models)的运作机制 * 日常生活与工作中的应用场景 * 如何在创新与责任之间取得平衡
**目标读者:**无需任何技术背景。 **关于作者:**Numa Dhamani 是自然语言处理(NLP)领域的专家,长期致力于技术与社会交叉领域的研究。Maggie Engler 是一位研究员兼工程师,专注于生成式 AI 系统的安全性研究。
大语言模型:生成式人工智能的基石
训练大语言模型:大规模学习机制
数据隐私与安全:技术与法律层面的管控
AI 与创意经济:创新与知识产权
滥用与对抗性攻击:挑战与负责任测试
机器增强型工作:生产力、教育与经济
提示工程:引导与评估 LLM 的策略
AI 智能体:自治 AI 系统的崛起
人类连接:聊天机器人的社会角色
负责任 AI 的未来:风险、实践与政策规制
AI 前沿:开放性问题与全球趋势
**
**
**
**
本综述全面梳理了生成式 AI(Generative AI)与智能体 AI(Agentic AI)在数字电子设计自动化(EDA)领域的深度融合。论文首先回顾了 EDA 领域的范式演进:从传统的计算机辅助设计(CAD)过渡到 AI 辅助 EDA(AI4EDA),并最终迈向新兴的 AI 原生(AI-Native)及智能体(Agentic)设计范式。 我们详述了这些范式在数字芯片设计全流程中的应用,具体包括:基于多模态基础模型构建智能体认知架构、前端 RTL 代码生成与智能验证,以及融合算法创新与工具编排(Tool Orchestration)的后端物理设计。通过综合案例研究,我们验证了上述方法论,展示了从微架构定义到 GDSII 的全流程实际可行性。本文特别强调了“跨阶段反馈回路”的潜力,即智能体能够利用后端的 PPA(功耗、性能、面积)指标自主优化前端逻辑。
此外,本综述深入探讨了该技术对安全性的双重影响,涵盖新型对抗性风险、自动化漏洞修复以及隐私保护基础设施。最后,文章批判性地总结了当前面临的幻觉(Hallucinations)、数据稀缺及“黑盒”工具等挑战,并勾勒了迈向 L4 级自主芯片设计的未来趋势。本工作旨在定义新兴的智能体 EDA(Agentic EDA)领域,并为从 AI 辅助工具向全自主“设计工程师”的转型提供战略路线图。
集成电路(IC)设计行业正处于一个历史性的转折点。几十年来,电子设计自动化(EDA)经历了从手动布局到计算机辅助设计(CAD),再到针对特定逻辑综合与物理设计任务的算法驱动自动化的线性演进。尽管近年来机器学习已被引入以增强特定的点工具(Point Tools),但大语言模型(LLMs)与智能体 AI(Agentic AI)的爆发式出现,标志着从“自动化辅助”向“自主设计”的深刻转变 [1]。如图 1 所示,这一演进路径预示着设计系统将超越静态优化算法,向具备推理、规划和工具编排(Tool Orchestration)能力的认知系统跨越。
摩尔定律下的复杂度爆炸。 尽管摩尔定律的边际效益面临物理缩放挑战,但现代片上系统(SoC)的规模已攀升至数千亿个晶体管。然而,人类的设计生产力未能跟上这种复杂度的增长,从而产生了关键的“生产力差距”。经验数据表明,仅验证任务就往往消耗整个开发周期的 60% 到 70%,而设计成本随工艺节点的进步而剧增 [2]。传统的基于脚本的自动化已日益不足以弥合这一差距,这使得我们在演进时间轴后期所示的范式转变成为必然。 从 AI4EDA 到 AI 原生 EDA(AI-Native EDA)。 近年来,学术界和工业界广泛探索了“AI 赋能 EDA”(AI4EDA)。然而,Chen 等人 [3] 认为,目前的 AI4EDA 方法大多只是将计算机视觉(CV)或自然语言处理(NLP)的模型迁移至电路任务。如图 1 中的阶段 2 所示(通常对应 L2 级 Copilot 系统),这些方法往往只是现有软件接口上的“补丁”,而非底层的重构。这与张等人 [4] 提出的“第三代 AI”愿景相契合,即强调知识、数据与推理的融合——这是本综述所探讨的自主智能体的前提条件。 术语与自主等级。 为了保持各章节术语的一致性,我们参照表 6 总结的分类法,将自主等级分为 L0-L5。简言之,L2 对应“Copilot”式辅助,而 L3+ 则指代具备多步执行回路、可在减少人工干预的情况下运行的智能体系统。 相比之下,“AI 原生 EDA”(图 1 中的阶段 3,支持 L3 级智能体工作流)已成为必然的演进方向。它倡导将 AI 置于设计流程的核心,依托于能够同时理解网表、寄存器传输级(RTL)代码和物理布局的多模态电路基础模型(CFMs) [3, 5]。 与前序工作的关系。 本综述直接建立在 Chen 等人 [3] 确立的“AI 原生 EDA”愿景之上。尽管其工作奠定了基础设施基础——提出将电路基础模型(CFMs)作为统一表示——但本文重点关注认知执行层。我们探讨了智能体工作流如何超越这一基础,从静态感知转向动态自主行动,有效地实现从“大脑”(模型)到“工程师”(智能体)的进化。
智能设计 4.0:从工具到智能体。 必须在传统自动化与新兴的自主性之间划出明确的界限。早期的 EDA 工具,即使是经过机器学习增强的工具(阶段 2),其功能本质上仍属于自动化(Automation):它们是确定性的点解决方案,本质上需要“人机耦合”(human-in-the-loop)来桥接断开的任务。相比之下,智能设计 4.0 代表了自主性(Autonomy):智能体能够感知全局流程语境、规划多步策略并进行自我修正,将人类的角色转变为监督性的“人机监护”(on-the-loop)。 更尖锐地讲:传统的 AI 优化的是“扳手”(工具),而智能体 AI 旨在实现使用扳手的“工程师”的自动化。如图 1 最终阶段所示,这些配备了“推理-行动-反思”回路(Reasoning-Acting-Reflecting loop)的自主智能体可以解析模糊的意图,编排复杂的工具链,并从执行日志中学习以迭代优化设计。
革命还是炒作? 尽管愿景宏大,但大模型在硬件设计中的应用仍面临严峻挑战,包括幻觉(Hallucinations)、数据稀缺以及 EDA 工具作为黑盒的不透明性。He 等人 [6] 对 LLM 在代码生成、验证和优化方面的表现进行了批判性评估,指出虽然进展令人振奋,但距离实现愿景中真正的工业级“自动驾驶”仍有显著差距。此外,Xu 等人 [2] 强调,业界必须超越表面的指标,建立专注于端到端 PPA(功耗、性能、面积)的严谨基准测试,以确定这一技术转变是否代表了一场真正的革命。
本综述的范围。 鉴于数字电路与模拟电路在设计范式上的根本差异——前者严重依赖逻辑综合和离散优化,而后者依赖连续的物理方程——本综述明确聚焦于数字芯片设计。我们探讨了智能体工作流如何改变标准的 RTL-to-GDSII 流程,而将模拟电路自动化的独特挑战留给未来的专门综述。
本文针对《2025财年美陆军转型倡议(ATI)部队结构与组织提案》文件进行解读分析,该文件是美国国会研究服务局(CRS)为国会议员撰写的一份背景与分析报告,旨在系统阐述美国陆军于2025年提出的“陆军转型倡议”(ATI)的核心内容、背景以及国会可能面临的监督问题。以下是该文件主要内容的分析解读:
ATI并非孤立的改革,而是美国陆军为适应“大国竞争”时代、特别是应对其所谓的“步调威胁”而进行的深度转型。其战略驱动主要来源于2025年4月30日国防部长(使用“战争部长”作为副职头衔)的备忘录,该备忘录要求陆军实施全面转型战略,旨在:
ATI的核心理念是推动陆军从过去二十多年以反恐/反叛乱为中心的体制,转向一支更精干、更致命、更具适应性,并能在多域环境中与同级别对手抗衡的力量。
这是ATI最核心的变革领域,涉及美陆军的内核重塑。
ATI明确指出了未来投资的优先领域,反映了其未来的作战设想。
该文件作为国会背景报告,重点梳理了立法机构对ATI存在的疑虑和潜在的监督切入点。
综上所述,这份文件揭示的ATI是一项宏大且极具争议的全面改革计划。其核心是通过结构精简、能力聚焦和技术赋能,将美国陆军重塑为一支专注于高端军事竞争的力量。然而,该计划也因缺乏详细论证、伴随显著能力风险以及引发国会强烈质疑而充满不确定性。该文件的价值在于为外界提供了一个理解美国陆军未来十年发展方向、内部辩论与挑战的权威窗口。