现代语言模型(Language Models,LMs)能够通过上下文学习(In-Context Learning,ICL)完成复杂任务——即在不进行任何参数更新的情况下,仅通过输入中提供的示例即可适应新任务。然而,关于这种适应机制何时有效、其背后的算法基础是什么,以及如何进一步提升其效果,仍然存在诸多根本性问题。本文系统研究了上下文学习的作用机制与局限性,并在语言建模与推理等多样化基准任务上,提出了更有效的推理时自适应方法。 本文首先评估了预训练语言模型的上下文学习能力。实验表明,在提供少量示例的情况下,语言模型能够实现较强的组合泛化能力。然而,在另一项分析中,我们发现,当模型面对其原本表现良好的任务的反事实变体时,其性能会显著下降。随后,本文构建了一系列用于研究 ICL 的“模型问题”,用于测试语言模型在上下文中学习全新数学结构的能力,例如线性函数概率形式语言。 在此基础上,本文深入分析了上下文学习的算法层面基础。首先,我们证明了具有足够容量的 Transformer 模型可以执行线性回归问题的迭代式解法闭式解法,并进一步表明,这些理论解在模型内部体现为可解释的中间变量。其次,我们揭示了语言模型如何形成专门化的计算回路,用以实现针对概率语言的近似 n-gram 学习算法。 基于上述洞见,本文提出了两种提升语言模型能力的方法。其一,通过在模型架构中显式引入 n-gram 计算机制,可以在多个任务领域中显著提升模型性能。其二,本文提出了一种推理时训练(test-time training)方法,该方法通过对输入数据进行梯度更新,实现快速自适应,在抽象推理任务上相较于标准的小样本学习取得了显著性能提升。 总体而言,本文的研究加深了我们对语言模型如何适应新任务的理解,并为提升其推理时学习能力提供了切实可行的技术路径。

成为VIP会员查看完整内容
10

因果推断(Causal Inference,CI)与强化学习(Reinforcement Learning,RL)相结合,已成为应对传统强化学习若干关键局限性的一个有前景的范式,这些局限性包括可解释性不足、鲁棒性欠缺以及泛化能力失效等问题。传统的强化学习方法通常依赖相关性驱动的决策机制,在面对分布偏移、混杂变量以及动态环境时往往表现不佳。因果强化学习(Causal Reinforcement Learning,CRL)通过显式建模因果关系,利用因果推断的基本原理,为上述挑战提供了有力的解决思路。 在本文综述中,我们系统性地回顾了因果推断与强化学习交叉领域的最新研究进展,并将现有方法划分为以下几类:因果表征学习、反事实策略优化、离线因果强化学习、因果迁移学习以及因果可解释性。通过这一结构化分析,我们总结了该领域面临的主要挑战,梳理了在实际应用中的经验性成功案例,并讨论了若干尚待解决的开放问题。最后,本文展望了未来的研究方向,强调了因果强化学习在构建鲁棒、具备良好泛化能力且可解释的人工智能系统方面的巨大潜力。

I. 引言(INTRODUCTION)

强化学习(Reinforcement Learning,RL)方法正在深刻地改变医疗、机器人、金融等众多领域,已成为推动传统机器学习模型性能迈向新高度的核心动力。然而,强化学习方法在实际应用中的落地仍然受到鲁棒性不足、可解释性欠缺以及泛化能力不可靠等问题的严重制约。 本文通过系统整合并分析因果推断强化学习这一快速发展的交叉领域,为该方向做出了重要贡献。通过阐明因果思维如何缓解甚至克服传统强化学习的根本性挑战,本文为希望构建更加鲁棒、可解释且可信赖的人工智能系统的研究人员和实践者提供了重要的基础性资源。 除理论贡献外,本文还提供了丰富的实践资源,以加速因果强化学习研究的发展。我们引入了 11 个基准环境,专门用于隔离和评估多种因果挑战,包括混杂观测、伪相关、分布偏移以及隐藏的共同原因等问题,为社区提供了此前尚不存在的标准化测试平台。我们提出了 4 种因果强化学习算法(CausalPPO、CAE-PPO、PACE 和 ExplainableSCM),并给出了完整实现与代码,便于研究者在此基础上进一步拓展。此外,我们还设计了全面的评估协议,不仅衡量任务性能,还系统评估因果鲁棒性、迁移能力以及解释质量。 这些贡献共同构成了一个完整的实验框架,将理论概念与经验验证紧密结合,显著降低了新进入该领域研究者的入门门槛。 本文综述所凝练的洞见有望指导未来 AI 系统的理论发展与实际部署,推动自动化决策系统在可靠性、质量、可信度及社会接受度等方面的持续提升。


II. 背景与贡献(BACKGROUND AND CONTRIBUTIONS)

因果推理被广泛认为是人类智能与人工智能的核心组成部分,使智能体能够超越简单的关联模式,对世界进行解释、预测与干预。认知科学研究表明,人类在生命早期便开始形成对因果关系的理解,并利用这种理解在不确定条件下进行解释和决策 [1]–[4]。这种对因果结构进行表征与操控的能力,不仅使我们能够预测未来结果,还支持反事实推理——即思考在不同条件下“本可以发生什么”。 近年来,因果性在人工智能中的重要性愈发凸显,被视为实现泛化性强、鲁棒且可解释的决策机制的关键。“因果革命” [4] 明确指出,因果性是从统计模式识别迈向真正理解与推理的核心要素。近期的一项综述 [5] 进一步强调,因果推理为解决强化学习中的长期难题提供了有前景的路径,包括样本效率低、泛化能力不足以及可解释性差等问题。

A. 传统强化学习的局限性

尽管强化学习在游戏等模拟环境中取得了显著成功 [6], [7],其在真实世界环境中的广泛应用仍受到若干根本性挑战的制约。虽然在控制、机器人、金融和医疗等领域已出现一定成功案例 [8],但强化学习尚未在现实生产级应用中得到普遍部署。 传统强化学习算法高度依赖大规模交互数据,并且在脱离训练环境后往往难以泛化,其原因在于奖励函数通常受到训练过程中未被充分学习的外部因素影响。这些局限的根源在于:标准 RL 方法主要依赖经验中学习到的关联模式,而未能理解驱动环境动态变化的潜在因果机制 [9]。 在医疗、机器人和金融等高风险应用中,这种数据饥渴且脆弱的学习方式往往不可行甚至不安全 [10],同时由于缺乏可解释性,所得到的模型也难以被信任。例如,使用离策略数据训练的智能体可能会遭遇分布偏移或未观测混杂因素,从而导致性能退化或不安全行为。此外,传统深度强化学习策略通常呈现“黑箱”特性,给行为调试与系统信任建立带来极大困难 [11]。在缺乏环境因果模型的情况下,智能体极易学习到伪相关关系,进而导致泛化性能差,甚至产生不公平或不安全的决策结果 [12], [13]。

B. 因果性为何对强化学习至关重要

因果推断为解决传统强化学习内在局限性提供了一种系统而严谨的理论框架。通过建模环境中的因果结构,智能体能够识别哪些变量真正影响结果,并据此构建对分布偏移更具鲁棒性的策略 [14], [3]。例如,相较于将所有观测到的相关性视为同等重要,具备因果意识的智能体可以优先关注对奖励或状态转移具有真实因果影响的变量。 引入因果推理使强化学习智能体能够从被动观测走向主动干预,在 Pearl 提出的“因果阶梯”上,从关联层次跃迁至干预与反事实推理层次 [15], [4]。这使得智能体能够回答诸如“如果采取了不同的动作,会发生什么?”这样的反事实问题,从而显著提升信用分配与探索效率 [16]。此外,因果模型还能通过引导信息性干预和利用因果不变性支持跨任务迁移,从而提升样本效率 [17], [18];同时,基于因果依赖关系而非黑箱相关性的解释,也显著增强了系统的可解释性 [11]。

C. 综述目标与范围

本文综述的核心目标是对因果推断与强化学习交叉领域的最新研究进展进行系统性整合与批判性分析,具体包括以下五个方面: 澄清概念联系:系统梳理因果推断中的核心概念(如结构因果模型、反事实推理、干预与混杂)与强化学习基本要素(如状态表示、策略、价值估计与决策过程)之间的对应关系。 方法分类:提出一个全面而结构化的分类体系,清晰区分因果表征学习、因果策略优化、反事实强化学习、离线因果强化学习、因果迁移学习以及因果可解释性方法。 关键技术挑战:突出因果推断与强化学习融合过程中面临的主要理论、方法与经验挑战,重点关注可扩展性、分布偏移鲁棒性、因果结构识别以及计算可行性。 经验证据与应用:总结并评估因果强化学习在机器人、医疗、自动驾驶、教育与金融等领域中的实证研究成果,讨论其成功经验、局限性与实践意义。 未来研究方向:识别开放研究问题,并为未来研究提供指导性建议,指出在方法创新与实际应用方面可能产生重大突破的方向。 为保持讨论的聚焦性,本文主要涵盖近五年来明确将因果推断与强化学习相结合的研究工作;仅泛泛提及因果性、但未引入具体因果建模或因果推理机制的方法不在本文讨论范围之内。此外,本文假设读者已具备强化学习与因果推断的基础知识,仅对相关背景作简要回顾,重点聚焦二者的交叉融合。

D. 综述贡献

随着因果强化学习(CRL)逐渐成为一个关键研究方向,亟需对该领域进行系统、前沿的综合梳理。本文致力于弥合因果理论与强化学习实践之间的鸿沟,通过以下贡献推动该领域发展: * 全面的分类体系:将因果强化学习研究划分为五个核心方向:(i)因果表征学习,(ii)反事实策略学习,(iii)离线因果强化学习,(iv)迁移学习与泛化,以及(v)可解释性。该分类覆盖了 CRL 中最活跃、最具影响力的研究子领域。 * 实践相关性分析:系统阐述上述各方向为何对构建鲁棒、可泛化且可信赖的强化学习系统至关重要:因果表征学习应对伪相关问题;反事实策略学习支持“假设性”推理与更优信用分配;离线因果 RL 实现从混杂数据中安全学习;迁移学习利用因果不变性;可解释性提供透明的因果解释。 * 基准环境:提出 11 个因果强化学习评测环境,均基于 Gymnasium 封装 [19],用于系统评估因果挑战,包括: – Study A(第 VII 节):SpuriousFeatureWrapper,包含 3 种 CartPole 物理变体; – Study B(第 VII 节):4 个混杂环境——ConfoundedBandit、BanditHard、ConfoundedFrozenLake、ConfoundedBlackjack; – Study C(第 VII 节):3 个混杂上下文 bandit——ConfoundedDosage、ConfoundedPricing、ConfoundedTargeting; – Study D(第 VII 节):用于视觉分布偏移的 VisualDistractionWrapper。 * 因果强化学习算法及实证验证:提出并验证了 4 种 CRL 算法: – CausalPPO(算法 2):通过结构性忽略伪特征,使 PPO 对伪相关具备鲁棒性,实现 99.8%–100% 的性能差距缩减; – CAE-PPO(算法 3):基于轨迹的混杂因子推断进行反事实优势估计,弥合 101% 的 Standard-Oracle 差距; – PACE(算法 4):代理变量校正的离线因果估计,在混杂条件下实现 65% 的奖励提升; – ExplainableSCM(算法 5):基于结构因果模型的因果解释方法,在接近完美的动态预测下,提供稳定性提升 82% 的解释结果。 * 前沿覆盖性:系统纳入最新研究进展,重点突出离线因果 RL 与因果迁移学习中的新方法、新算法、新环境及其应用实证,区别于以往综述。 * 可复现研究:所有代码、环境、算法与实验配置均已开源,支持完整复现实验结果,为未来 CRL 研究提供坚实基础。

成为VIP会员查看完整内容
13

美国中央司令部已正式启动“天蝎座打击”特遣队,这是美军在中东首支专用的单向“自杀式”无人机中队。这一里程碑事件在12月16日得到突显,当日美国海军在阿拉伯湾的“圣巴巴拉”号战舰飞行甲板上成功发射了一架“低成本无人作战攻击系统(LUCAS)”。LUCAS是为解决一个明显的战略差距而构建的,是一种对伊朗“沙希德”-136进行逆向工程开发的巡飞弹。其部署标志着美军不再依赖像MQ-9“死神”这样价值数百万美元的平台,后者在消耗巨大、以蜂群作战为基础的冲突中越来越难以为继。

时间线

LUCAS的研发在整个2025年以惊人速度推进。继年初成功完成逆向工程和飞行测试后,该系统于9月被整合到“快速部署联合特遣部队”中。到11月,“天蝎座打击”特遣队的组建巩固了五角大楼对列装大规模生产、可消耗无人机技术的承诺。

LUCAS 对比 “沙希德”:规格与集成

虽然两个平台有许多物理相似之处,但五角大楼意图使美国制造系统的区别在于其内在。尽管“沙希德”-136在原始有效载荷容量和基础单价上保持微弱优势,但五角大楼将LUCAS设计为优先考虑模块化和复杂组网能力。与其伊朗版本不同,LUCAS被构建为支持卫星数据链,用于自主目标搜寻和网状网络集群作战。这可能使美国通过先进的自主性和未来潜在的人工智能集成来保持作战优势,寻求找到一个精密软件提升仍然可负担平台效能的平衡点。

为取得无人机优势而扩大生产

LUCAS最终取决于五角大楼将生产规模扩大到前所未有的水平的能力。为确保美国能够竞争,LUCAS项目涉及多达20家供应商,其设计允许多个制造商同时生产机身和战斗部。这是五角大楼更广泛的“无人机优势”计划的基础部分,该计划旨在从2026年初开始采购30万架低成本无人机。通过分四个阶段向该行业注入10亿美元资金,军方希望最终将单机成本降至低至5000美元,从而创建一个有韧性的供应链,能够通过常规预算持续提供大量的无人机。

前进中的挑战

美军尽管有这种技术和工业势头,但关于将这些系统长期整合到作战中的重大问题仍然存在。列装30万架无人机是一个装备解决方案,但需要条令的转变。部队必须接受培训以管理大规模无人机部署,并且必须建立新的维护保障基础设施来处理大量的可消耗技术。LUCAS能否“赢得”无人机战争,不仅仅取决于生产线,还取决于军队如何有效地发展其战术以适应战场上廉价、无处不在且自主飞行的现实。

成为VIP会员查看完整内容
19

本文件旨在为无人机系统的探测、跟踪与识别系统开发一种标准化的测试方法。其是在由欧盟"内部安全基金-警察"根据赠款协议101034655资助的COURAGEOUS项目框架内制定的。此标准化测试方法基于一系列代表广泛用例的标准用户定义场景。目前,这些标准场景主要面向民事安全最终用户。然而,鉴于反无人机系统领域具有高度的军民两用特性,更多军事场景无疑也高度相关。因此,本标准提供了一个开放架构,其中标准场景以模块化方式在附录中作为示例提供,使标准用户能够轻松添加新场景。针对每个场景,都提供了作战需求与功能性能要求。利用这些信息,提出了一种完整的测试方法,允许在不同反无人机系统之间进行公平的定性和定量比较。此测试方法在三次用户脚本验证试验中得到了验证。

其目标是,该标准化测试方法将使欧盟执法机构网络内的成员更好地理解反无人机系统的能力。这迫切需要,因为成员国正面临无人机威胁的增加,而整个地区尚未制定统一政策来尝试和管理该威胁。然而,应强调的是,大多数欧盟执法机构并没有一个完整且详细的无人机应对策略。

需要强调的是,此标准测试方法完全侧重于反无人机系统"杀伤链"中的探测、跟踪与识别方面,不涵盖压制/处置方面。该标准测试方法也集中于对DTI系统进行定性和定量评估,评估对象是呈现给最终用户的、配置为集成解决方案的系统。虽然测试方法包含了对反无人机解决方案界面的最终用户主导的定性评估,但对指挥与控制界面的全面可用性分析不在此标准测试方法的范围内。

本文件可分为四个主要部分:

  • 第一部分,提供总体介绍
  • 第二部分,侧重于标准场景
  • 第三部分,侧重于性能要求
  • 第四部分,侧重于实际的标准测试方法

本文件范围广泛,旨在为反无人机行业、执法机构和政策制定者等不同利益相关方提供可操作的见解。

对反无人机行业的主要启示:

  • 深入了解最终用户的作战需求和性能要求,以指导反无人机解决方案的设计
  • 一种用于测试和传达其产品性能规格与能力的标准化方法

对最终用户的主要启示:

  • 深入了解反无人机领域态势
  • 一种用于开发和验证需求规格的方法,以便做出更好的采购决策
  • 一种性能测量的标准化方法,以便更好地将选定的反无人机解决方案与作战需求相匹配

对政策制定者的主要启示:

  • 深入了解反无人机领域态势
  • 通过标准化测试方法,更好地理解反无人机系统的能力

成为VIP会员查看完整内容
21

一位学者写道:“两次世界大战之间航母的建造,作为‘军事事务革命’的典范案例而备受关注,即通过引入创新的军事技术和/条令,军事效能将得到显著提升。”与从宙斯脑中全副武装一跃而出的希腊战略女神雅典娜不同,航空母舰的概念并非完全成型地从海军领导层的集体思维中迸发出来。它也不是当时测试并(在一定程度上)发展起来的、作为海军航空力量手段的唯一创新技术。

如今,学者和防务分析人士通常将两次世界大战之间航空母舰的发展,视为一场从根本上改变了海战及联合作战“性质”的军事事务革命的终极范例。20世纪90年代及21世纪头几年,在安德鲁·马歇尔领导的美国防部净评估办公室以及安德鲁·克雷皮内维奇、罗伯特·沃克等学者型实践者的推动下,军事事务革命的概念获得了特别的关注。尽管此后该术语在美国防部已不再流行,并且很大程度上已被关于“颠覆性技术”的讨论所取代,但有观点认为——为了把握技术与创新学说相结合的本质——军事事务革命的概念值得回归。

在关于军事事务革命的文献中,对于海军最终如何以及为何主导了航母军事革命,存在多种理论和解释。然而,这些解释大多只专注于航母发展本身——例如关于设计、舰队实验、英勇的海军飞行员、支持创新的高级军官,以及侦察与打击的替代任务等方面的争论。第一次世界大战后的航母发展,常常(在很大程度上是错误地)被描绘成一出“英雄与反派”的传奇故事,将创新的年轻飞行员与“火炮俱乐部”中因循守旧、固守传统的战列舰将领对立起来。

很少被指出或讨论(且常被遗忘)的是,航空母舰并非海军将航空力量带入海上的唯一方法。海军曾同时试验了四条不同的技术路径——借用航海术语,可称其为“竞争航线”——直到最终确定航空母舰是为新兴的打击作战任务集结海上航空力量的最有效武器。在整个过程中,航空母舰从来都不是预先注定或默认的解决方案。海军只是在领导层确信其他竞争航线无法实现其获得有效海上航空力量的目标之后,才完全致力于建造一支大规模的航空母舰部队。

成为VIP会员查看完整内容
11

本研究探讨了应用先进机器学习技术——包括强化学习、图神经网络和多智能体仿真——来预测无人机蜂群轨迹并优化防御拦截策略。无人机蜂群是对美国空军基地、海军舰队和前沿作战设施构成的最快速演进且具有重要战略意义的威胁之一。本研究通过对已验证的中国、美国、俄罗斯和伊朗现实世界演示的蜂群机动进行建模,证明了预测性人工智能系统能够可靠地预测蜂群行为,并显著提高拦截成功率。该研究引入了一种集成架构,该架构结合了多传感器融合、分布式蜂群预测、强化学习决策引擎,以及涉及电子战、定向能武器和动能拦截器的分层防御策略。结果表明,在预测涌现的蜂群行为以及在资源和时间限制下确定最优防御响应方面,基于强化学习的模型优于传统的长短期记忆网络和图神经网络方法。这项工作为人工智能赋能的"反蜂群"系统提供了一个技术严谨且与作战相关的基础,符合包括"联合全域指挥与控制"、自主系统整合和"反无人机系统"韧性在内的多项国防部门现代化倡议。

成为VIP会员查看完整内容
17

本论文通过发挥语言的多重角色——作为监督信号、先验知识与交流媒介——来推进医学影像理解。我们提出了三项主要贡献:(1) 一个弱监督框架,利用临床报告中的语言指导图像区域与文本描述之间的细粒度对齐;(2) 一种自适应去偏方法,使用语言先验提升学习算法在噪声监督下的鲁棒性;(3) 一种新颖的校准诊断确定性语言表达的方法,以实现临床发现更可靠的沟通。这些方法共同构建了更准确、更稳健、更可靠的机器学习系统,最终优化临床工作流程并改善患者诊疗。

机器学习正在变革医疗健康领域[3],推动着诊断技术[4,5]、个性化医疗[6]以及治疗计划[7-9]的进步。自动化系统既提升了医疗服务提供者的工作效率,也改善了患者护理质量。例如,数字化记录员已开始帮助减轻临床文档撰写的负担[10]。电子健康记录和图像归档与通信系统的广泛采用[11,12],使得捕获和存储丰富多样的多模态临床数据成为可能,而这些数据对于开发机器学习解决方案至关重要。 在这些数据源中,医学影像(如X光片和CT扫描)与专家生成的报告相结合,提供了患者健康状况的全面视图。影像提供了解剖结构和病理过程的详细可视化信息,而伴随的报告则提供了专家解读、定量评估以及诊断置信度的表达。这种结合对于追踪疾病进展和指导临床决策至关重要。例如,胸部X光片常规用于急诊科以确认诸如肺水肿等诊断[13,14],而一份提示有肺炎相符表现的放射学报告,可以促使临床医生开始使用抗生素或安排进一步的影像学检查以确定根本原因。 本论文专注于开发能够解读医学影像并使用自然语言交流结果的机器学习模型。通过将医学影像中丰富的视觉信息与临床报告中细致、描述性的语言相结合,此类模型有望解锁一系列有价值的临床应用,包括基于特定关注区域的视觉相似病例检索、病变的准确检测与定位,以及向临床医生和其他利益相关者可靠地传达结果。尽管近期取得了进展,但重大挑战仍然存在。当前系统常常受限于标注数据的匮乏以及医学信息固有的复杂性,例如临床表现的长尾分布和语言的微妙语义。 医学视觉-语言理解的一个核心挑战是实现视觉特征与其语言描述之间的细粒度对齐,例如将X光片中的局部肺部阴影与"右下叶局灶性实变"这一短语联系起来。早期的图像-文本对齐方法[15-17]虽然证明了自然语言监督可以指导表示学习,但在具有临床价值的任务(如基于影像的病变检测)上仍存在困难。这一不足主要源于将特定图像区域映射到精确文本描述的详细标注数据稀缺,该过程既耗费人力又依赖专家输入,难以大规模实施。 除了标注稀缺之外,这些模型的有效性还受到临床数据固有复杂性的进一步挑战。临床数据集通常呈现长尾分布:常见病症有充分的代表性,而许多高风险或罕见发现则出现频率很低。这种不平衡往往直接反映在临床报告所使用的语言中,给模型的泛化能力和稳健性能带来了重大障碍[18]。 同样重要的是对诊断发现进行可靠沟通的需求。临床医生经常使用诸如"可能为肺炎"等微妙的语言来表达因医学影像不明确而产生的不确定性[19,20]。这些确定性表达在临床决策中发挥着直接作用,影响着从安排进一步检查到开始治疗等一系列行动。然而,当前的机器学习系统通常无法以一种与临床沟通一致的方式来表达诊断置信度,从而存在误解和次优护理的风险。这凸显了对定量工具的需求,以评估和改进这些系统在报告不确定性时所使用语言的可靠性。

成为VIP会员查看完整内容
9

摘要—大语言模型(LLMs)及多模态大语言模型正在改变事件抽取(EE):提示与生成往往能在零样本或少样本设置中产生结构化输出。然而,基于LLM的流程面临实际部署的差距,包括在弱约束下的幻觉、长上下文及跨文档中脆弱的时间与因果关联,以及有限上下文窗口内受限的长程知识管理。我们认为,事件抽取应被视为一个系统组件,为以LLM为中心的解决方案提供认知支架。事件模式与槽位约束为知识落地与验证创建了接口;以事件为中心的结构可作为分步推理的受控中间表示;事件链接支持基于图谱的检索增强生成(RAG)实现关系感知检索;事件存储则提供了超越上下文窗口的可更新事件记忆与智能体记忆。本综述涵盖文本与多模态场景下的事件抽取,梳理了任务与分类体系,追溯了从基于规则与神经模型到指令驱动与生成框架的方法演进,并总结了形式化定义、解码策略、架构、表示、数据集与评估方法。同时,我们回顾了跨语言、低资源及特定领域场景,并强调了构建可靠事件中心系统的开放挑战与未来方向。最后,我们概述了LLM时代核心的开放挑战与未来路径,旨在推动事件抽取从静态抽取演变为面向开放世界系统的结构可靠、即插即用的感知与记忆层。

I. 引言

事件抽取(EE)是自然语言处理中的一项核心任务,旨在从非结构化文本中识别事件触发词、事件类型及参与者角色,并将其组织成可计算的结构化表示[27]。与实体或关系层面上的静态事实不同,事件捕捉发生了什么、谁参与其中、何时何地发生、如何展开以及随之产生何种结果。这种能力在需要追踪和解读现实世界动态的应用场景中至关重要,包括金融风控与舆情监控、临床病程追踪、态势感知以及公共安全与应急预警。过去二十年间,研究界开发了许多数据集和基准,并推动了方法从基于规则和特征工程向基于神经与图模型的演进[12],[16],[27]。这些努力也支撑了事件知识库和事件图谱的构建与应用,使得事件抽取成为更广泛信息抽取领域中的一个关键支柱。 大语言模型(LLMs)的兴起正在重塑信息抽取的实践。以往需要针对特定任务进行训练的模型,现在通常可以通过提示通用大语言模型来直接产生类似于结构化记录的输出,有时甚至在零样本或少样本设置下也能实现[50],[51]。这一转变引发了一个不可避免的问题:在大语言模型能够端到端处理文本并生成结构化输出的时代,事件抽取是否仍然作为一个独立的研究方向存在必要? 在许多实际部署中,主流做法正日益趋向于将原始文本直接输入大语言模型,而不是先抽取结构化事件,再基于这些结构进行下游推理和决策。因此,事件抽取可能看起来不如从前核心,甚至可能被误认为端到端生成技术可以轻易替代。 本文认为,大语言模型并未削弱事件抽取的价值。相反,它们将事件抽取从一个以任务或模型为中心的问题,推向一个系统级的结构化接口与约束层。关键在于,实际部署不仅关心生成答案,还关心满足可靠性、可追溯性和长程知识管理等系统要求。在这些要求下,仅依赖无约束的端到端生成会暴露出巨大的认知差距。首先,生成输出具有概率性。没有明确的结构约束,模型可能产生幻觉,且错误可能在多步骤流程中累积[52]。其次,当证据分散在长上下文或多个文档中时,模型往往难以维持时间顺序、因果链和角色共指之间的稳定链接。这使得推理过程脆弱且难以审计。第三,基于相似性的检索无法保证获取精确的时间或因果关系,而有限的上下文窗口无法容纳开放环境中持续的经验流。因此,仅仅堆叠更多文本通常不足以支撑长期规划和一致的行为。 事件抽取提供了一种结构化的补充,直接针对这些系统级的差距。因为事件抽取的输出是显式、受限且可计算的,它们可以在以大语言模型为中心的系统中充当中间表示和外部记忆。从这个意义上讲,事件抽取从一个静态的预测任务演变为一个认知支架。首先,对于可靠性,事件模式与槽位约束为知识落地和验证提供了具体接口,缩小了自由形式生成的空间,并为检查和纠正提供了锚点。其次,对于推理,事件链将叙事分解为离散的步骤,可以作为类似思维链推理的受控中间结构,提高可控性和可复现性[53]。第三,对于知识访问和记忆,事件及其时间、因果和角色链接使得检索能够超越简单的相似性匹配,迈向基于图的关系可导航的检索增强生成[54],[55]。这种组织形式进一步支持可更新的事件记忆,这对于需要长程规划且不受上下文溢出约束的智能体非常有用[56]。因此,在大语言模型时代,事件抽取的价值不仅在于它是获取结构化输出的一条路径,更在于它为验证、推理、检索和智能体记忆提供了结构化的骨干支撑。 基于这一视角,本文沿着任务、数据集与评估以及方法范式的轴线重新审视事件抽取。我们从文本事件抽取的经典定义和分解开始,回顾代表性数据集、评估协议和指标,然后总结建模方法从基于规则和传统学习方法到神经、生成及指令驱动框架的演进。我们进一步讨论多模态和跨文档设置如何扩展事件抽取的边界。在此基础上,我们探讨新兴的生成模型和智能体系统如何在实践中重塑事件抽取的功能角色,重点阐述其与大语言模型的常见协作模式,包括结构化约束、可验证的工作流、基于图的检索和外部记忆。最后,我们基于应用需求提炼出开放挑战和未来方向,旨在为设计可靠、可控和可部署的以事件为中心的智能系统提供参考。 本综述其余部分结构如下。第II节介绍事件抽取的任务定义和分类体系,统一文本事件抽取的核心子任务,并将讨论扩展到视觉、视频和语音等多模态场景。第III至第VI节回顾方法与建模路径,涵盖基于规则和传统学习方法、深度学习方法,以及大语言模型和多模态大语言模型时代的指令驱动与生成范式,同时介绍常见的任务形式化、解码策略、系统架构和表示设计。第VII节总结数据集、评估指标和工具链。第VIII节讨论多样化的应用场景,如跨语言和低资源场景、不同粒度以及垂直领域。第IX节概述开放挑战和未来方向。第X节为全文总结。

成为VIP会员查看完整内容
11

作为乌克兰战争中俄罗斯最知名的武器之一,伊朗的“沙希德”-136是一种远程攻击无人机。其通常被大量发射,往往一夜之间就达数百架,正在塑造战争进程和公众舆论。

俄罗斯转而使用伊朗的系统,并未装备本国设计的同类无人机。与许多同等的乌克兰型号相比,其略显陈旧的设计建造起来更为复杂。然而,它已被证明具备足够经济性,其大型三角翼平台也允许进行多种改装。

上面的视觉指南展示了主要可观察到的变体。在通信和导航方面还有更多变体,包括使用乌克兰移动电话网络和美国“星链”卫星通信。俄罗斯还开发了额外的战斗部,这些只有在打开机体残骸时才可见。

图:原始伊朗“沙希德”-136

“天竺葵”主要用于远程打击,既可作为主要系统,也可作为对更为复杂的巡航导弹和弹道导弹的低成本补充。

规格

重量:200 公斤
长度:3.5 米
翼展:2.5 米
战斗部重量:50 公斤,可通过减少燃料载荷增加至 90 公斤。
发动机:MD-550 50马力二冲程四缸活塞发动机。
作战航程:2,500 公里
最大速度:约 185 公里/小时,喷气动力版本约为 300 公里/小时。
发射方式:火箭助推起飞,或从移动车辆上发射。

阿拉布加——俄罗斯的无人机巨型工厂

俄罗斯生产“天竺葵”无人机的主要工厂是阿拉布加股份公司。该地点在一个商业园区内,附近有几家国际公司。随着“天竺葵”产量的增加,该地点已扩建了大量额外的住房。

增强生存能力

一项主要改进是为了应对乌克兰的拦截无人机:加装了后向摄像头,通常是一个球形摄像头。这可用于在拦截无人机接近时触发规避机动。机翼下也曾出现向后发射的PTM-3反坦克地雷。起初这似乎是计划沿无人机航路投放到农田中,但现在的真实目的似乎是作为一种主动防护形式。当拦截无人机从后方接近时,这些地雷会射向它。目前尚不清楚其效果如何。

图:机翼下挂载两枚PTM-3反坦克地雷的“天竺葵”-II,照片取自一架拦截无人机。

猎物变为猎手

至少还有一架“天竺葵”-II被改装以携带一枚AA-8“蚜虫”-B空对空导弹。在其原始角色中已被广泛认为过时的“蚜虫”-B,对无人机、直升机和轻型飞机仍构成威胁。其相对较轻的重量和紧凑的尺寸也有利于从无人机上发射。俄罗斯可能拥有大量该型导弹库存。推测携带导弹的目的是伏击派来拦截该无人机的乌克兰飞机。

图:机身顶部携带AA-8“蚜虫”-B空对空导弹的“天竺葵”-II,照片取自一架“黄蜂”拦截无人机。注意增大的端板式稳定翼。

喷气动力版本

一个主要变体是喷气涡轮动力的“天竺葵”-III。这些型号以航程换取速度,更像巡航导弹。然而,俄罗斯型号更为粗糙,与活塞发动机版本更相似,仅以涡轮发动机作为区别。涡轮发动机安装时没有外罩,可能是为了便于使用不同的发动机。

图:上方是一架坠毁的“天竺葵”-III,下方是“沙希德”-238。除了涡轮机缺少外壳,无人机的进气管道空气动力学设计较差,且机翼控制面与活塞动力的“天竺葵”-II相比未作修改。

成为VIP会员查看完整内容
10

二十年来,美海军水面战中心达尔格伦分部的作战管理系统一直作为数字骨干,将武器、传感器、操作员和数据整合为一个统一的系统。这使得各平台能在日益复杂的战场空间中看得更清、决策更快、行动更迅捷。

始于2005年,由达尔格伦分部一小队工程师负责将精确制导武器集成到AC-130U“幽灵”炮艇上的项目,现已发展成为全球作战整合的关键组成部分。多年来,作战管理系统不断适应现代战争——增强了协调性和适应性。如今,它强化了威慑力,提升了作战效能,并为实现完全一体化的多域作战环境铺平了道路。

“自早期以来已经取得了长足的进步,”作战管理系统的首席工程师、最初的软件开发人员之一阿什顿·恩格尔多说。“从一个专注于单一平台的小团队起步,现已发展成为一个支持跨空、海、陆平台的企业。”

从其卑微的开端起,作战管理系统始终如一地履行其使命:快速设计、集成解决方案和获取战术优势。

作战管理系统的演进

初始项目始于一次演示,旨在通过为炮艇机翼加装精确制导武器来增强其能力,这在当时是一种新颖的方法。传统上,炮艇会环绕目标并依靠火炮射击,这种方法常常使敌人在首次射击后四散,导致目标锁定困难且耗时。其目标是确定导弹能否在其常规飞行路径之外精确射向目标,确保首次尝试即能成功命中。

这次作战管理系统演示被证明是有效的,引发了其他平台的更广泛兴趣,并为该系统集成到各种飞机上铺平了道路,最初的重点是武器部署与控制。

从一开始,作战管理系统就采用了快速开发流程,这与当时国防部(现为战争部)的常规框架不同。

“我认为,快速开发是真正让我们崭露头角的特点之一,”恩格尔多说。

通过将国防部严格的流程调整为可在数月而非数年内执行,作战管理系统能够提供及时有效的解决方案。这种方法赢得了项目发起方的信任,并为国防系统开发的敏捷性树立了先例。

这一成功为作战管理系统的快速增长奠定了基础。到2008年,该项目已实现首次战术部署,交付的系统在战区得到积极使用。

2011年,美国特种作战司令部致力于使其AC-130炮艇机队现代化,重点是解决系统过时问题,将标准的C-130货机改装为炮艇。尽管面临最初的挑战,包括对集成30毫米机炮可行性的质疑,但作战管理系统团队成功安装了该武器,达到了作战就绪状态。

“作战管理系统在不到18个月内就完成了,”恩格尔多回忆道。“那是当时AC-130炮艇上最精确的侧射机炮。”

2013年首飞的AC-130J“幽灵骑士”,将一架机动飞机转变为打击平台。此次升级的关键是一个由特种作战司令部和作战管理系统联合开发的精确打击套件,包含先进传感器、一门30毫米机炮、“格里芬”导弹、全天候雷达和精确制导炸弹。结合网络化作战管理系统,这些升级增强了通信、态势感知和协同火力支援能力。

作战管理系统对战场空间最重大的贡献之一是其模块化、开放的系统架构。这种设计允许跨多个平台适配通用的硬件和软件,从而能够快速响应新的需求。组件可以轻松堆叠和插接在一起,便于在不同系统中使用。此架构已成功部署在AC-130飞机、巡逻艇、MQ-9无人机以及安装在多功能全地形车上的反无人机系统上。

“我们构建的一切都是即插即用的,”恩格尔多解释道。“无论是‘地狱火’导弹还是小直径炸弹,都没有关系。系统只知道它是一种武器,并能找出使用它的方法。”

这一理念一直是作战管理系统适应和扩展其解决方案、降低开发成本能力的驱动力。它在无人系统方面尤其有价值。

“我们已经通过武器集成成功地证明了我们的理念,”恩格尔多说。“我们可以作为中央枢纽,通过消除供应商锁定和减少训练负担来增强能力。这使得操作员能够专注于任务成功,而不是管理各种系统。”

在2012年至2018年的六年时间里,作战管理系统被集成到濒海战斗舰和巡逻艇等水面平台中。作战管理系统成功地为第三类无人机配备了武器,为其支持无人机奠定了基础。它开始为专为特种作战设计的中型作战艇开发海上精确打击套件,使其在低至中等威胁环境中发挥作用。

2019年,作战管理系统开始着手开发虚拟现实系统,以改进战术可视化和态势感知。

“我们想为操作员提供超越传统屏幕的工具,”恩格尔多说。“通过虚拟现实,他们可以与虚拟沙盘互动,点击资产获取定制信息,甚至与全球的队友在同一虚拟环境中协作。”

如今,作战管理系统作为一个综合性项目运行,由大约350名人员组成的团队支持多个平台。

前进之路:投资未来

战争已经发生了根本性转变——从更可预测的、以平台为中心的冲突,演变为跨越所有领域的快节奏、技术驱动的竞争。网络行动、自主系统以及商用两用技术的快速传播,模糊了传统边界,压缩了决策时间线。虽然对手正在利用这些进步来挑战传统的军事优势,但他们并非孤军奋战——战争部及其盟友正在适应这种新环境,随时准备作为一支凝聚力强、网络化的力量投入战斗。

作战整合是创建一个统一作战环境的概念,其中所有资产——无论是在空中、陆地、海上还是网络空间——都能共享数据、协调行动,并精准、快速地执行任务。

“现在的关键是整合的战场空间,”恩格尔多解释道。“我们不仅仅关心我的炮艇有什么;我们关注的是整个战场层面。”

分布式效应能力的开发使操作员能够在互连资产网络中做出明智决策并实时协作。例如,一架配备作战管理系统技术的AC-130炮艇可以与一架MQ-9“死神”无人机或一艘濒海战斗舰协调,以更有效地攻击目标。这种集成水平提高了作战效率,并确保资源得到审慎使用。

“我们不仅仅是在构建工具,”恩格尔多说。“我们是在构建使整个战场空间更智能的决策辅助工具。”

杀伤网自动化不仅提高了任务成功率,还减轻了操作员的认知负荷,使他们能够专注于更高层次的决策。

“我们正在构建一个每个平台、每个传感器、每件武器都能相互通信的世界,”恩格尔多说。“这就是战争的未来。”

作战管理系统还在探索人工智能和机器学习的潜力,以进一步增强战术可视化和决策制定。

“我们现在正尝试制造这样的工具:我可以登上AC-130炮艇,看着一个目标,让计算机识别出那是什么目标,然后让它给我一个建议,”恩格尔多说。

这种能力已经被成功演示,并有望成为战术现实。

对于那些将把火炬传递到未来20年的人,恩格尔多提供了这样的建议:“准备好接受挑战,也准备好获得回报。这需要付出很多努力,但当你看到你所构建的东西产生的影响时——当你知道它正在拯救生命时——一切都是值得的。”

作战管理系统:时间线

2007年:在AC-130炮艇上成功演示精确制导武器,标志着该平台作战能力的转折点。

2008年:作战管理系统首次在战区部署,为作战人员提供了关键的精确打击能力,并在实战行动中证明了该项目的价值。

2011年:AC-130J“幽灵骑士”作为炮艇完成首飞,这是一个里程碑,因为它集成了作战管理系统的精确打击套件和增强型作战管理系统,以提升精度和态势感知。

2014年:将作战管理系统集成到濒海战斗舰和巡逻艇上,是扩大该项目范围、超越空中平台的重要一步。

2015年:作战管理系统成功为第三类无人机配备武器,展示了其系统适应小型无人平台的能力,并标志着该项目新时代的开始,该项目现已支持十多种无人机平台。

2017年:作战管理系统开始为中型作战艇开发海上精确打击套件,包括巡飞弹药。中型作战艇是一种低可观测、可重构、多任务水面战术机动艇,主要用于在低至中等威胁环境中投送和撤出特种作战部队。

2018年:作战管理系统利用人工智能和机器学习来增强战术可视化和态势感知。这包括开发虚拟现实系统,允许操作员与虚拟战场空间互动,实现实时协作和决策。

2020年代:作战管理系统开发了分布式效应和杀伤链自动化能力,实现了跨战场更快、更有效的决策,并建立了一个连接跨域平台的共享生态系统,以实现通信和协作。

参考来源:美国海军海洋系统司令部

成为VIP会员查看完整内容
12
登陆后查看更多精品内容
VIP会员
本周荟萃主题
区块链
区块链(Blockchain)是由节点参与的分布式数据库系统,它的特点是不可更改,不可伪造,也可以将其理解为账簿系统(ledger)。它是比特币的一个重要概念,完整比特币区块链的副本,记录了其代币(token)的每一笔交易。通过这些信息,我们可以找到每一个地址,在历史上任何一点所拥有的价值。
深度学习
机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。
机器学习
“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。”

——中文维基百科
强化学习
强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。
推荐系统
推荐系统,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。推荐推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。推荐系统利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
卷积神经网络
在深度学习中,卷积神经网络(CNN或ConvNet)是一类深度神经网络,最常用于分析视觉图像。基于它们的共享权重架构和平移不变性特征,它们也被称为位移不变或空间不变的人工神经网络(SIANN)。它们在图像和视频识别,推荐系统,图像分类,医学图像分析,自然语言处理,和财务时间序列中都有应用。
计算机网络
计算机网络( Computer Networks )指将地理位置不同的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。
命名实体识别
命名实体识别(NER)(也称为实体标识,实体组块和实体提取)是信息抽取的子任务,旨在将非结构化文本中提到的命名实体定位和分类为预定义类别,例如人员姓名、地名、机构名、专有名词等。
机器翻译
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。
计算机视觉
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。
微信扫码咨询专知VIP会员