及时全面理解新兴事件对有效决策至关重要;自动化态势报告生成能显著减少情报分析师的时间、精力与成本。本工作识别了情报分析师在态势报告生成中对AI辅助的实践与偏好,以指导设计符合其思维过程与需求的有效、建立信任的界面策略。继而,本文介绍智能书(SmartBook)——一个从海量新闻数据自动生成态势报告的框架,通过自动发现事件相关战略问题构建结构化报告。这些报告包含多个假设(主张),均基于来源进行摘要并辅以事实证据,以促进深度态势理解。本文对智能书进行的综合评估(含用户研究及结合编辑研究的内容评审)揭示了其在生成准确相关态势报告方面的有效性。定性评估表明超过80%的问题探查战略信息,超过90%的摘要产出战术实用内容,其表现持续优于结合网络搜索的大语言模型生成摘要。编辑研究显示生成文本的信息删除量极低(低于2.5%),表明智能书为分析师提供了有价值的态势报告基础。

在当今快速变化的世界中,情报分析师面临持续挑战:需在新闻、谣言与演变叙事的海量涌入中保持信息同步。为理解动态事件,必须从异构数据源提取共同真相。目前,情报分析师编写态势报告以提供事务概述、潜在风险或威胁及视角,并附指导行动规划与战略发展的建议措施(Organization等人,2020年,2022年)。态势报告需以清晰逻辑结构呈现关键事件与趋势的突出信息,便于理解、跟踪及便捷获取。这些报告的下游消费者(公众、决策者与利益相关方)不仅寻求原始信息,更追求清晰度、背景与可行动见解。然这些手动编制的报告存在局限:耗时产生(National Academies of Sciences等人,2019年)、可能呈现偏见(Castonguay,2013年;Belton与Dhami,2020年)、事实错误(Sun等人,2024年),且因需处理信息量巨大而受限(Doggette等人,2020年;Young,2019年)。情报分析师花费大量时间筛选庞大复杂数据源(Golson与Ferraro,2018年;Council等人,2011年)(如社交媒体谣言传播、新闻爆发、背景统计数据、领域专家意见等),读者常苦于信息过密或不够全面。鉴于信息量巨大,分析师难以进行深度分析与批判性思考以制定战略问题并生成见解。我们假设自动态势报告生成可弥合阅读与撰写情报信息间的差距。然现有摘要方法(Fabbri等人,2019年;Abdi等人,2017年;Li等人,2014年)生成纯文本,未提供细节、结构及高层战略信息以支持下游消费者决策。尤其当前基于大语言模型的方法(如GPT-4/ChatGPT(OpenAI,2021年))可能因未实时更新信息且缺乏事实核查机制而无法回答或错误回答用户问题(例如表1)。

表1:基于GPT-4的ChatGPT无法生成态势报告,因其对实时事件的认知存在局限。相较之下,SmartBook能够生成及时、多源且可信的应答。

为建立自动生成态势报告的基础,开展形成性研究(见§2.1.1)以把握情报分析师对AI驱动系统的期望。研究发现表明分析师对AI辅助持开放态度,寻求AI操作透明性,且对控制系统欲望各异。为理解态势报告编制过程,通过协作设计会话(见§2.1.2)增强初始研究结果,旨在确定实用设计策略与建议,尤其关注人类情报分析师如何导航、研究与撰写报告。高层级上,我们推断系统界面须在视觉上对齐分析师顺序思维过程,提供信息流透明度以建立信任,并使分析师对AI工具流程拥有一定控制权。这些结论由此指导了自动化态势报告生成的设计策略。

基于形成性研究与协作设计所奠定的基础,提出智能书(SmartBook)——一个旨在辅助编写态势报告的人类分析师的框架。智能书从多源摄取数据以生成信息定期更新的综合报告。人类分析师通常基于自身对态势的理解提出问题以获取信息。然这些问题可能静态或过于模糊,并随态势快速演变而过时。相较之下,智能书自动发现对态势分析重要的问题并收集突出信息以生成报告。针对重大事件的所有问题,报告包含源自相关主张的战术信息摘要,并附局部背景及源新闻文章链接。智能书以映射当前情报分析师工作流的方式构建数据——将事件分解为时间线、章节及基于问题的部分。每部分含基于查询的接地气摘要及其相关主张。此直观结构便于阅读与写作时更易吸收信息。采用以人为本的设计方法,我们的目标是增强而非取代人类分析师能力。图1展示智能书针对乌俄危机的示例,呈现时间跨度、章节及对应部分的结构化层级。

图1. 智能书针对乌俄危机的示例图。智能书按时间线组织,以两周为时间跨度包含章节与对应部分。部分标题为战略问题,每部分内容由摘要及相关主张链接组成,其中事实证据与知识要素均被高亮。斜体实体与事件(构成关联知识要素)分别以红色与蓝色高亮。

在对智能书的综合评估中,我们开展两项互补研究:效用研究(§3.1)评估可用性与交互,内容评审(§3.2)检验文本摘要质量。涉及情报分析师与决策者的用户研究聚焦关键研究问题,探索智能书在态势报告生成中的可用性、直观性与有效性。参与者参与半结构化访谈与研究后问卷,反思系统使用体验。内容评审通过评估智能书生成报告的可读性、连贯性与相关性予以补充,包括由专家分析师修订摘要以符合其可接受标准的编辑研究。此过程主要目标为评估将智能书用作创建态势报告初步草稿工具的可行性。结果表明智能书生成内容大多准确,仅需少量编辑修正部分事实错误。然编辑过程大部分精力集中于添加证据支持摘要。编辑研究结果提示,尽管智能书提供坚实基础,其显著受益于人工优化。本工作贡献如下:

• 一项综合形成性研究与协作设计过程,用于识别指导自动生成态势报告的设计策略。
• 智能书(SmartBook):一个从多源生成全面最新态势报告并以直观用户友好方式呈现的自动化框架。其识别关键战略问题,确保下游读者获得针对性、相关且证据扎实的信息以辅助决策过程。
• 一项涉及情报分析师与决策者的全面效用评估,探究系统可用性。
• 一项内容评审用于评定生成信息质量,辅以编辑研究理解智能书生产态势报告初步草稿的可行性。

SmartBook框架

2.1 系统设计

SmartBook(一种用于生成态势报告的AI驱动系统)的开发遵循迭代式以人为本的设计方法。初始阶段侧重于设计和开发后端工作流程以及初步前端界面,并包含多个评估阶段。在此过程中,向政府和私营部门的利益相关者进行了多次演示,获得了宝贵的反馈。第二阶段通过形成性研究和协作设计研究让情报分析师和决策者参与进来,以更好地了解他们的需求和期望。形成性研究阶段(§2.1.1)涉及半结构化访谈,以收集用户的见解,包括对AI系统期望的详细分析。随后,协作设计阶段(§2.1.2)将用户和开发者聚集在一起,以完善和验证初始设计概念。通过互动环节,参与者对原型功能提供了实时反馈,以获取AI辅助报告生成的精确需求。这些努力的成果是一套设计策略,确保SmartBook采用以用户为中心的设计,服务于情报分析师的实际需求。

2.1.1 形成性研究

形成性研究旨在收集情报分析师对AI驱动系统的普遍需求和期望。该研究针对十名具有政府和军事角色经验的情报分析师进行(招募细节见补充材料§4.1)。在两周的时间内,对这些分析师进行了半结构化访谈,以考察他们对AI在专业环境中使用的理解、观点和建议。该研究突出了与分析师对AI辅助创作工具的看法和期望相关的新兴主题,简要描述如下:

• 将技术视为增强人类能力的手段:绝大多数(10人中的9人)强调AI在增强其能力方面的关键作用,这些工具不仅被视为流程加速器,而且是通过提高研究效率、激发想法和提升信息清晰度来丰富其工作的基本要素。这种观点与媒体将这些技术简单描述为人类努力的替代品形成对比。

• 像信任和依赖人类一样信任和依赖机器:大多数参与者(10人中的8人)表现出将类似人类的信任和可靠性品质赋予AI系统的倾向。信任AI的标准与人类互动的标准非常相似:提供可靠信息的能力、推理的透明度以及基于可验证事实的基础。有趣的是,分析师并未对AI设定比人类同事更高的标准。这种信任和可靠性标准的对等性表明,参与者将AI视为平等的协作伙伴,依据与人类团队成员相同的理由评估其能力和可信度。

• 训练和指导AI:我们的研究发现情报分析师在他们在培训和指导AI系统方面的角色观点上存在分歧。十名参与者中有四人主张对AI拥有实质性控制权,强调需要一个交互式系统,允许他们影响从信息源选择到报告叙事塑造的一切。相反,大多数人(十人中的六人)倾向于更放手的方法,强调态势报告的创建遵循适合AI实施的完善、标准化程序。他们将AI参与视为日常监督的延伸,类似于审阅初级同事的工作。

2.1.2 协作设计

为了获得对情报分析过程和生成态势报告的操作性理解,我们通过与十名分析师的后续协作设计会议,扩展了形成性研究(§2.1.1)中确定的设计机会。目标是获取用户关于他们作为情报分析师如何导航、研究和撰写态势报告的具体设计策略和建议。

我们与分析师进行了研究会议,每次会议包括使用故事板进行工作流程审查和通过模拟报告练习进行动手培训。在我们的研究中,参与者使用一个低保真故事板(如图2所示)进行互动,每个面板描绘了态势报告创建的不同阶段。参与者的任务是详细描述每个故事板面板,以确保对所描绘场景和工作流程的理解。参与者使用样本情境模拟每个故事板步骤以获得实际工作流程经验,并被建议利用多样化的资源,包括如Google和Bing等网络搜索引擎,以及如ChatGPT(Achiam等人,2023年)等大语言模型(LLM)来完成任务。 协作设计会议的数据分析显示了三个主题:提升分析效率、AI系统透明度和定制灵活性。参与者强调需要反映其心智模型的界面,以减轻认知负荷,使他们能够专注于战略方面。他们非常重视理解AI系统的底层逻辑以建立信任,倾向于采用透明的方法和可追溯的数据源来验证自动化输出的可信度。此外,用户表达了对支持不同分析风格和复杂性、并能整合来自不同来源的信息以提供全面分析的工具的渴望。

图2. 与情报分析师进行协作设计会议时使用的故事板。

根据上述形成性研究和协作设计的发现,我们确定了以下设计策略:

• DS1:鉴于对减轻认知负荷和提升分析效率的重视,系统将设计一个能反映情报分析师数据分析和报告生成自然过程的界面。

• DS2:为了提高效率,系统将集成功能以自动化耗时任务,如问题策划和初步研究,从而减少分析师的手动工作量,使其更能专注于战略分析和决策。

• DS3:设计将满足对信任和可靠性的需求,清晰解释系统的数据处理算法和标准。这包括透明的数据溯源、在报告中提供参考文献,以及使用户能够轻松理解和验证系统结论的工具。该设计还将通过随时间推移一致且经过验证的性能来促进渐进式信任建立。

• DS4:针对定制化和灵活性的主题,系统将提供高度的适应性,以适应各种分析风格和报告详细程度。它将包括调整分析深度、关注特定数据集以及无缝集成各种数据源的功能。

2.2 系统架构

图3. SmartBook前端界面截图。在给定情境下,用户可以导航时间线(F1)、探索与事件相关的战略问题(F2)、阅读给定战略问题的总体摘要(F3)、控制信息的深度和长度(F4)、调查摘要中的所有主张(F5)、追踪每个主张到相应的摘要片段(F6)、调查源元数据(F7)以及阅读提取主张的上下文(F8)。

图4. 构建SmartBook的后端工作流程。给定对应特定时间线的文章,该图展示了获取章节、其章节标题及相应章节内容的过程。

上述四项设计策略助力塑造了SmartBook——一个为态势报告生成提供人工智能辅助的系统,旨在为分析师在处理新兴事件的时效性信息需求时提供可基于其开展工作的初版报告。SmartBook包含:1) 一个直观的用户界面(如图3所示),其设计策略源自§2.1.2;2) 一个后端框架(如图4所示),当给定来自各类新闻源的文件集合时,它能自动生成态势报告。

自动态势报告被组织成连贯的、按时间顺序排列的时间线,每条时间线跨度两周,以增强对事件发展的跟踪与理解。在这些时间线内,通过聚类新闻文章识别主要事件,形成后续章节的基础(见§2.2.1)。为引导详细的章节分析,我们采用了一种逻辑结构,以战略问题的形式自动生成章节标题,涵盖每个主要事件的各个方面(细节见§2.2.2)。SmartBook通过精准定位新闻文章中的相关主张(见§2.2.3),从战略视角生成内容以回应这些问题。每个章节包含聚焦查询的摘要以回答战略问题,提供事件背景与影响的全面视图(见§2.2.4)。这些摘要包含引文链接,便于专家进行事实核查与交叉验证。

SmartBook为效率而设计,对已有训练数据的任务(如事件标题生成、重复问题检测和主张提取)利用较小模型(Liu等人,2019年;Lewis等人,2020年)。相反,对于更复杂的任务——例如生成带引用的长文本摘要或识别战略问题,我们采用大语言模型(OpenAI,2021年;Achiam等人,2023年)。本节描述SmartBook内的各个组件,并强调SmartBook设计各个方面对用户(即情报分析师)和最终SmartBook报告接收者(即决策者,他们既是信息需求的发起者也是下游读者)的优势。

2.2.1 时间跨度内的主要事件作为章节

态势报告覆盖相当长时期的事件进展。因此,以时间线形式(图3中的F1)组织此类报告是有益的,这支持无缝更新报告(Ma等人,2023年)以纳入新事件,并有助于促进(Singh等人,2016年)用户跟踪和理解情境背景(基于DS1)。时间线通过按时间顺序组织事件并突出因果关系,辅助情报分析师理解事件进展并预测未来趋势。对于读者,尤其是不太熟悉该主题的读者,时间线提供了视觉指南,便于掌握场景中事件的顺序和重要性。我们的自动态势报告采用时间线以提供事件发展的连贯、时序化表征(DS1, DS2)。

在每个时间跨度内,首先使用基于词频-逆文档频率(TF-IDF)得分(Sparck Jones,1972年)的凝聚层次聚类算法(Jain和Dubes,1988年),将期间内的每日新闻摘要聚类成主要事件组,从而识别主要事件。最终,我们得到新闻片段簇,每个簇提供对一个主要事件的聚焦视图。然而,由于新闻摘要片段细节凝练,我们通过扩展新闻语料库来提升每个事件簇的全面性,如下所述。首先,为创建SmartBook的章节名称并将其用于额外新闻文章检索,为每个事件簇生成一个简洁标题。为此,我们利用一个基于序列到序列转换器(Vaswani等人,2017年)的语言模型BART(Lewis等人,2020年),该模型将事件簇内所有新闻片段的标题和文本拼接作为输入,并生成一个简短的事件标题。我们使用了在NewsHead数据集(Gu等人,2020年)上训练的模型来生成多文档标题。该数据集中,每个簇包含最多五篇新闻文章,一个人群源标题(最多35个字符)描述了该簇的主要信息。然后,我们使用这些章节名称作为查询,通过谷歌新闻检索额外的相关新闻文章。

2.2.2 战略问题作为章节标题

态势报告应具有逻辑结构和描述性的章节标题(图3中的F2),以便情报分析师清晰且便捷地获取信息(DS2)。SmartBook不仅描述每个章节的事件细节,还旨在呈现支持决策和政策规划的战略见解。为引导此类详细分析,我们通过自动生成与每个主要事件相关的战略问题形式的章节标题来纳入逻辑结构。这些问题涵盖有深度的细节,如事件中行动背后的动机及其潜在的未来后果。

近期工作(Sharma,2021年;Wang等人,2022a年)表明,与主要生成设计用于简短具体答案的问题的现有方法(Murakhovs’ka等人,2022年;Du等人,2017年)相比,大语言模型(LLM)能够生成全面的、自然的问题,这些问题需要长文本且信息丰富的答案。本工作中,我们指导大语言模型(GPT-4)生成关于特定事件的战略问题,使用来自事件簇的新闻文章来锚定上下文并减少模型产生的幻觉(Ji等人,[n.d.];Maynez等人,2020年)。为确保生成问题的多样性,我们使用核采样(Holtzman等人,2019年)对多组问题进行采样。我们的分析显示,问题可能偶尔在不同集合间重复,如图4所示(重复项以蓝色高亮)。为解决此问题,使用在Quora重复问题对数据集上训练的RoBERTa-large模型(Liu等人,2019年)执行问题去重,从而将集合合并为与事件相关的单一且多样化的战略问题集合。

2.2.3 主张与假设的提取

鉴于情报分析师工作的高风险性质及时间有限,他们需要能快速识别文档中关键信息的系统(DS2)。这使他们能专注于紧急事务,而无需筛选无关数据。因此,自动态势报告生成应能识别和提取跨多个文档中最与场景相关且至关重要的信息(图3中的F5)。态势报告读者受益于信息显著性,因为他们能获得简洁、相关的态势概览。需要突出要点,以增强可读性和清晰度。此外,我们还呈现每个新闻源的偏见(取自AllSides),以帮助分析师从不同角度考量所呈现的信息。

为向读者提供对事件背景的全面理解,需要从源文档(即新闻文章)中搜寻不同的主张和假设,以帮助解释情境(Toniolo等人,2023年)。我们采用问答(QA)方式来识别与给定战略问题相关的主张,这得益于定向查询能够系统地从新闻文章中提取相关主张的能力,如近期研究所示(Reddy等人,2022b年,a年)。我们的QA流水线使用一个基于转换器的RoBERTa-large编码器模型(Liu等人,2019年),该模型已在SQuAD 2.0(Rajpurkar等人,2018年)和自然问题(Kwiatkowski等人,2019年)上训练。该模型将分割成片段的新闻语料库连同战略问题作为输入,并输出对这些问题的答案提取。包含这些答案的相应句子被视为提取的主张。然而,高置信度误报的风险(Chakravarti和Sil,2021年)使得有必要对这些答案进行验证(Reddy等人,2020年;Zhang等人,2021年)。为此,利用一个答案句子选择模型(Garg等人,2020年)来根据战略问题验证每个上下文。该模型是一个以RoBERTa-large为骨干的二元分类器,在自然问题(Kwiatkowski等人,2019年)和WikiQA(Yang等人,2015年)等数据集上训练,并输出范围从0(不正确)到1(正确)的验证分数,用于选择前5个最相关的上下文进行摘要生成。

2.2.4 基于事实的摘要作为章节内容

考虑到基于大语言模型(LLM)的摘要中的幻觉问题(Ji等人,2023年;Li等人,2023a年;Bang等人,2023年),对于态势报告生成而言,事实性远重于创造性。可靠的态势报告必须基于可验证的来源以确保可信度(DS3)。这支持分析师得出稳健、基于证据的结论,而嵌入式链接为希望深入研究的读者提供了跳板(图3中的F6、F7、F8)。此外,我们提供不同详细程度的摘要——简版(2-3句)、标准版(4-6句)和扩展版(2段)——以满足不同读者偏好(图3中的F4)(DS4)。

使用为每个章节获取的战略问题作为章节标题,我们纳入聚焦查询的摘要生成来生成每个章节的内容。基于相关主张上下文(图3中的F3)为SmartBook中的每个章节生成一个简洁摘要。近期工作(Goyal等人,2022年;Bhaskar等人,2022年;Reddy等人,2022c年)表明,人类偏好基于提示的大语言模型(Brown等人,2020年;Chowdhery等人,2022年)生成的摘要,胜过在文章-摘要对上微调的模型(Lewis等人,2020年;Zhang等人,2020年;Liu等人,2022年),原因在于更好的可控性和更容易扩展到新场景。对于摘要生成,将前5个最相关的上下文(来自§2.2.3)和指令输入大语言模型(GPT-4),指令要求其根据给定的战略问题进行摘要并包含引用。这种方法不仅通过基于主张上下文有助于保持准确性,还通过允许对照引用来验证而增强了摘要的可信度。

成为VIP会员查看完整内容
37

本文提出一种将基于模型工程中的马可夫“故障诊断”应用于揭示复杂概率性任务级仿真中因果关系的细微差别的方法。该方案旨在应对“马赛克战争”(Mosaic Warfare)场景分析所引入的挑战。马赛克战争指将众多作战平台集成为更庞大的力量包,以利用复杂性并将其转化为非对称优势。随着力量与技术的层级叠加形成复杂的系统之系统,马赛克战争对任务级虚拟实验的分析提出了挑战。随着复杂性增长,个体贡献的重要性在宏观尺度上愈发难以辨识。研究提出一种提炼该复杂性的方法,其通过数学方式将平台网络与相关数据向量相链接,超越了单平台分析范畴。每个向量描述任务中的一种状态或情境。借此,随着状态间连接与转换揭示场景内杀伤网脆弱性出现的具体时刻,新的分析方法变得可行。在任务范畴内,脆弱性指负面事件,例如:资产损失、传感器探测失败、消息未接收、或任何导致场景转向失败的事件。在当今计算机上对任务级研究直接应用马可夫分析虽不可行,但本文通过开发一种新颖可扩展的任务级数据提取、组织与聚类技术使其成为可能。本文概述了对简单虚拟任务运用这些方法进行评估的初步结果。展望未来,该方法通过直接凸显任务中的脆弱性,有助于将技术与战略研发资源聚焦于所需之处。

图6. 平台合并与分组策略。a) 位置与功能。b) 位置与通信。c) 通信与功能。

图7. 三个平台上的分组示例。可根据分析目标及对杀伤网的预期观察指标,按特征指定合并策略。

“马赛克战争”概念指将众多独立作战平台集成为更庞大的力量包,以利用复杂性并将其转化为非对称优势(DARPA,2018年)。太空通过支持并增强地面力量设计,使其能以革新能力的新方式连接与协作,在该战略中扮演关键角色。在任务级仿真尺度上,这些连接创造了复杂的交互网络,难以解析为特定平台、技术或时刻的可行动性能信息。当前方法通常利用任务结束时记录的高度平均化的性能指标(Bernal,2020年)。这能捕捉总体性能趋势,但无法解释平台交互网络中的因果关系,而该关系有助于聚焦技术与战略研发努力。例如,一项新技术可能在杀伤网某区域提升20%性能,却在另一区域降低20%性能。最终性能指标几乎无变化,但更精细地剖析结果能更好理解该技术对任务的影响,并为针对性能退化区域开展额外研发提供依据。

AFSIM作为虚拟试验场

在兵棋推演仿真领域,AFSIM软件作为虚拟试验场,用于模拟大量交互协作智能体的任务(West & Birkmire,2019年)。这些智能体以其物理实体的“数字孪生”形式呈现,具有不同保真度(如机载预警与控制(AWACS)系统、防空导弹(SAM)阵地、无人机及卫星)。在软件内,分析人员通过集结并控制这些智能体来模拟更宏大的目标场景(可包含对抗性交战)。这些系统常被用于模拟从始至终的杀伤网及其中断,以消除某些威胁。可添加太空层直接测试并比较其对任务性能的影响。然尽管该软件能执行极度复杂的任务,美国国防部(DoD)、工业界与学术界正积极研究对这些任务进行更全面分析的方法。场景结果常被简化为带误差线的柱状图,因为海量可用数据难以打包呈现以供分析人员理解或决策。尽管如此,AFSIM作为任务级研究和技术测试的常用测试平台,因属政府所有、开源且非专利,便于防务界共享成果与结论。

任务级仿真中的概率化结果

在AFSIM等任务级建模框架内,仿真尺度常要求模型降低复杂度以实时生成结果。在一项模型简化示例中,许多物理复杂交互(如武器命中目标)通过概率判定(图1)。该概率细节源自外部实验或高保真仿真(West & Birkmire,2019年)。例如,对平台X重复进行武器A的物理测试,以确定武器A针对平台X在各种独立设计变量下的杀伤概率。测试完成后,结果被汇入任务级仿真所用的杀伤概率表。或者,概率可能来自无实体或数字原型的概念技术的项目需求。此种情况下,概率将根据所考量技术的所需能力设定。这使得在详细工程开发前,能测试理论技术对任务结果的影响。

图1. 通过概率建模的任务级物理交互样本,基于结果生成分支化未来。

这种由任务级复杂性所需的概率驱动格式,为探索技术变革影响提供了新途径。每次概率抽取均在仿真路径中形成一个分叉。更优的技术或战略可能在更关键时刻影响该分叉转向更佳路径。在分析中利用此特性,将对技术影响产生更细致的洞察,尤其在任务复杂性增加、个体贡献重要性在宏观尺度难以辨识时。仿真路径的偏差亦可能源于任务参与者做出不同决策或行动,而非仅限物理近似概率抽取。AFSIM软件具备表征此类结果多样性的数学基础,但常被视为需克服的障碍甚或被忽略。通过利用基于模型的工程(MBE)、机器学习与统计学概念,有机会更好利用AFSIM的分支特性以开展更具洞察力的分析。该分析源于能阐明特定行动在何时、何地、如何、为何及以何种概率导致特定结果的技术。

基于任务级马尔可夫链的杀伤网比较

通过对任务进行充分采样,所有合理可能的状态序列均被识别。将状态转移矩阵打包为马尔可夫链,可将信息呈现为描述任何给定时刻所有可能未来的状态连接网络。若对两种技术或策略进行仿真,则会生成两个不同的马尔可夫链并可进行比较。只要状态定义保持统一,这便提供了详细探索新技术影响之处的机会。请参见图3中对两个杀伤网系统的比较。为简化起见,马尔可夫链的起始状态及成功与失败的终止状态均被清晰标识。在此比较中,改进后的系统改变了状态2的结果概率,这直接影响了任务轨迹并确保了更高的成功几率。在此简化示例中,状态2代表一个关键脆弱点,若出现错误结果将导致杀伤网失效。此项比较系2027年二期阶段计划的目标产出。在此,Infinity实验室提出了若干与用状态向量表示任务级仿真相关的挑战,并提出了在实现马尔可夫有向图最终比较的进程中克服这些挑战的方法。

图3. 通过马尔可夫链比较两种技术。此二期阶段目标产出凸显了技术提升成功几率的具体时刻。

成为VIP会员查看完整内容
32

空中威胁的快速演进与扩散——包括无人驾驶航空系统(UAS)、高超音速武器及其他新兴平台——对现代战争构成重大挑战。对手部署这些系统进行侦察、目标定位与直接打击,常以摧毁防空反导(AMD)传感器以夺取制空权为目标。尽管整体威胁数据丰富,但具体型号的细节信息仍有限且快速过时。依赖全面数据集与有限领域专家(SME)资源的传统建模与仿真(M&S)技术难以跟上这些动态威胁的步伐。因此,美国必须开发敏捷解决方案,在不完整数据条件下分析大量演进中的威胁。本文探索将先进M&S的自动数据生成与稀疏真实样本相结合的方法,以训练人工智能(AI)评估复杂威胁空间中的选项。本文研究AI技术如何推断缺失特征并构建反映流动战术的自适应作战模型。本文方法的核心是“分配、韧性及生存性传感器试验台”(STARS),该开放架构平台专为仿真与评估新策略而创建。通过使AI能够在零散观测间“串联线索”并与STARS交互,本文方法可增强实时决策能力,使指挥官能优化传感器部署、优先保障关键区域并有效部署对抗措施。此外,该方法面向“美国金穹计划”(GDA)等倡议,这些倡议旨在通过AI驱动集成加强分层防御,为适应快速演变的空中威胁提供可扩展解决方案,同时保留必要的人工监督。

现代战争日益由无人驾驶航空系统(UAS)、高超音速武器等空中威胁主导,这些平台通过其速度、复杂性与适应性挑战传统防御策略。对手利用这些系统进行侦察、瞄准关键资产,并通过摧毁或致盲传感器削弱防空反导(AMD)能力。虽然威胁数据总量持续增长,但在理解特定威胁型号、其演进特性及可能由AI控制器实时决策驱动的动态作战战术方面仍存在关键空白(邦达尔,2025年)。现有情报的快速过时加剧了这些空白,使传统建模与仿真(M&S)方法显得不足。M&S平台能探索假设性防御场景与传感器交互,但通常依赖大量输入模型库与专家时间。尽管传感器网络如今每日产生太字节数据——从高分辨率雷达回波到红外图像及电子战截获信息——但新威胁型号的关键细节仍然隐藏。数据量造成了饱和问题:重要信号湮没于噪声中,领域专家(SME)团队无法手动筛选每个字节,对手的创新由此漏检。因此,情报中心难以在数据分析工作量与快速更新威胁模型的需求间取得平衡。矛盾的是,在这座数据大山中,分析师也因对每个独立威胁的认知匮乏而受阻。由于UAS配置众多且瞬变,无法为每个型号建立精确定义模型。当攻击者能在数周内部署改装UAS或新型高超音速方案时,标准M&S流程产生的模型在定稿前即已过时。

本文研究先进M&S与AI的集成如何增强不完整或稀疏数据环境下的威胁分析与决策。方法将AI直接嵌入高保真M&S框架,以实现数据分类与推断的自动化。提出的“分配、韧性及生存性传感器试验台”(STARS)作为本研究的代表性仿真环境。通过利用AI驱动数据压缩,将过载的传感器输出数据提炼为简明特征集,在保留潜在威胁指标的同时突出异常。在后续章节中,详述四大核心AI应用——数据压缩、合成空白填充、资源优化及对抗场景生成——并演示AI增强的M&S如何将数据饱和转化为战略优势。该工作面向“美国金穹计划”(GDA)及“关岛防御任务”等,这些构想旨在建立能利用AI实现比对手创新更快适应的分层全域防御网络(美国国防部,2025年)。本文提出的方法为防御系统适应快速演变威胁提供了一条可扩展路径,确保能有效响应而不过度依赖过时或不完整数据。通过结合自动化模拟和机器学习的优势,本文有助于开发灵活、数据高效的解决方案,使战术指挥官能够在有争议的空域保持态势感知和作战弹性。

成为VIP会员查看完整内容
33

现代大规模作战行动(LSCO)的实施方式特点在于,日益频繁和多样化地使用集成到指挥、控制、计算机、通信、情报、监视与侦察(C4IRS)系统中的无人驾驶航空器(UAV)。这些航空器是现代大规模作战行动中最重要的武器类型之一。任何掌握该技术的一方,若能处理来自战场的最新信息并将其安全传递至指挥中心,便拥有巨大优势,并有机会对旨在阻止其进一步作战行动的部队造成重大杀伤。关键在于,无人机必须通过侦察与撤退路线的选址行动具备一定程度的自我防护能力。本文阐述了在LSCO中使用无人机执行各种任务的可能性,并提供了其在以往现代武装冲突中应用的案例研究。

科学技术的强劲发展,特别是第四次工业革命的显著成就,为社会生活各领域带来了诸多变革。这一点在防务与安全领域尤为突出,该领域的作战活动效能显著提升,科技成果的应用极大地提高了部队的作战效率。现代作战行动需要使用最复杂的作战资产,以高效执行受领的任务。无人驾驶航空器的使用是现代作战行动不可或缺的环节。由于其用途广泛且具有不同的结构与作战特性,它为配备此类作战装备的部队提供了广泛的可能性。通过使用集成到C5ISR系统中的无人驾驶航空器,可在网络防护下实时掌握战场态势,这为决策者在作战行动中及时有效地指挥部队提供了可能。C5ISR是指挥、控制、计算机、通信、网络、情报、监视与侦察的缩写,是未包含网络要素的C4ISR系统的升级版(图1)。现代作战行动中使用了各类无人机,从商用无人机到向指挥中心传输数据的武装作战无人机。无人驾驶航空器在现代作战行动中的使用日益增多,尤其用于对地面目标的侦察、监视与瞄准。为使无人驾驶航空器在战斗中有效并满足现代战争的要求,必须具备某些特定特性。

图1:C5ISR系统

大规模作战行动中的C5ISR系统

现代军队已日益依赖信息技术来支持任务规划与执行。随着对多域作战(MDO)研究的深入调查,常规任务行动预计将涉及网络与物理资产之间的众多交互。在未来作战空间,这些网络-物理交互预计将由作战环境的特点以及用于完成C5ISR(指挥、控制、计算机、通信、网络、情报、监视与侦察)任务的工具和技术所引入。

美国陆军C5ISR中心网络安全服务提供商(CSSP)是一个全天候运行的防御性网络行动(DCO)组织,负责保护美国国防部和美国陆军网络免受敌对网络活动侵害,并为国防部内的DCO操作员开发技术与能力。近年来,C5ISR中心CSSP一直在研究各种先进的数据可视化概念与策略,以提升网络安全分析师工作流程的速度与效率。为实现这些目标,已采用虚拟与混合现实(VR/MR)工具进行研究,探究这些媒介是否能实现DCO操作员有效的远程协作,以及立体可感知的3D数据可视化是否能使DCO操作员对其数据集获得更深入的后见之明。利用联合勤务C5I-ISR与C2(指挥与控制)集成,实现全域作战的新联合作战概念。

要成功在传统战争域中取胜,必须理解信息环境,该环境包括频谱、太空、网络域以及在其间流动的数据。信息时代的战争特征在于基于精确数据做出决策并由此取得成功。快速分析环境与对手以加速决策的能力是成功的关键。有效沟通的能力对任何现代军事行动的成功都至关重要。这适用于各军种、任务和训练计划。作战力量现在与有效的跨防务频谱的情报收集与分发协同使用,以决定任何冲突的结果。C5ISR技术有助于识别并响应事件。由人工智能与云技术驱动的现代C5ISR系统,有助于为前线人员提供关键数据。

武装部队希望在复杂、对抗性强、人口密集的城市环境以及无固定平民人口和基础设施的开放环境冲突中,获得相对于对手的决策优势。因此,C5ISR系统拥有提供必要信息的工具,以在复杂作战场景(包括空中、陆地、海上和网络空间)中实现指挥与控制行动。

图4:包括海、空、陆、网络在内的不同环境中的C5ISR

C5ISR系统集成在作战层级接收的信息,生成作战态势,管理计划、命令、报告并在各级指挥机构间分发信息。战斗态势感知是所有现代大规模作战行动的基石。C5ISR系统无缝集成来自多源多传感器的大量信息,并基于这些信息生成战场态势的总体概览,从而实现及时正确的决策。

图5:各种战斗场景中的C5ISR界面示例

C5ISR在战场上提供多种能力,可对正在进行的行动的结果产生积极影响。

C5ISR系统除其多种能力外,还具有一系列在战场上有用的功能。通过其工具,C5ISR在整个行动期间持续收集并分类数据以支持决策。它还包含用于战略决策过程的工具,以生成“战斗序列”(作战序列/命令)并产生定义要采取的行动、所有行动的时间及其活动地理区域的命令。除这些功能外,它还具有模拟和预测敌方部队可能反应的功能,并提供如何应对的建议。

图6:C5ISR无人机向地面单位提供实时反馈

成为VIP会员查看完整内容
33

兵棋推演是多层面、多参与者的冲突模拟,其中参与者的决策会影响未来事件发展。兵棋推演常被用于探索决策的战略影响。然而,它也涵盖面向娱乐的模拟,从国际象棋到《龙与地下城》(D&D)等桌面角色扮演游戏。在兵棋推演谱系中更为开放的一端,玩家使用自然语言传达其行动,由裁决员判定结果。语言模型(LM)正日益被考虑用于为现实世界的关键决策提供洞察。我们对精选的100篇近期关于兵棋推演中人工智能的文献进行了范围界定审查,据此构建了一个基于玩家或裁决员所获创造力的兵棋推演本体论。聚焦于为玩家和裁决员提供最大开放度的兵棋推演空间,我们提炼出一套关于何时及如何在不同应用领域使用语言模型的考量因素。我们还提出了一套安全考量、在开放式兵棋推演中部署语言模型的最佳实践,并以一系列高影响力的开放性研究挑战作为总结。

数千年来,启动群体间暴力冲突的决定始终是严格由人类掌控的事务。尽管常言道“战争从未改变”,但若没有后半句“唯有武器是新的”,这句话就不完整。现实是,人工智能(AI)正在彻底改变人类关于战争的决策方式。AI在高风险场景中的使用意味着,机器错误将以人类生命的损失来衡量,而非损失函数或基准分数。

在过去五年中,AI作为现实世界决策流程一部分的采用速度加快,这主要得益于语言模型(LM)在研究和工程上的进步(Kwa等人,2025年)。由语言模型驱动的AI系统正日益用于帮助分析和规划困难任务。AI提供通用人类水平智能的隐含承诺,意味着这些系统现在受到各国政府、军事安全组织和跨国公司的极大关注,将其作为实现运营自动化、以期达到更高效能或降低失败率的一种手段。然而,兵棋推演并不仅限于战争。该术语泛指任何多层面描绘冲突、且参与者决策会影响事件未来结果的游戏。因此,“兵棋推演”被用于辅助商业、外交、法律、医疗保健、网络安全和军事领域的战略决策。这些领域的主题专家(SME)寻求在以语言为中心、因而具有开放性的兵棋推演中利用AI,从而赋予玩家高度创造性的构思能力(Hogan和Brennen,2024年)。历史上,这类推演只能作为纯人工演练进行,资源密集且难以大规模分析(Mood,1954年;Perla,1987年;Davis,2017年)。

这与分析性兵棋推演形成对比,后者具有受限的行动空间和有限的可能结果,这与我们所处混乱不确定的世界形成鲜明对比。因此,分析性兵棋推演在适用于依赖叙事理解或社会人为因素的场景方面存在局限性(Geist等人,2022年)。那些具有界限分明行动空间和明确定义评估标准的游戏,适合作为计算模拟来实现,并且可以有效地应用搜索、蒙特卡洛树搜索(MCTS)和强化学习(RL)等AI系统。

语言模型为基于语言的开放式游戏的各方面自动化开辟了众多新的可能性。与此同时,这些机会由于此类游戏的开放性本质所赋予的更大自由度而带来了严重的部署风险(Rivera等人,2024年)。早期的语言模型实验使用现成的模型来玩脚本化事件的分析性兵棋推演,结果发现其导致脆弱的推理、幻觉和不遵守规则(Lamparth等人,2024年)。

本文呢提出了一份全面的范围界定文献综述,为在复杂兵棋推演场景中部署AI确立了关键的、以讨论为导向的需求。本文通过为研究人员提供深入领域分析和高影响力研究方向战略路线图,填补了文献中的重大空白。本文的关键贡献包括: ● 一个关于开放式兵棋推演的精选参考目录,用以指导AI研究人员。 ● 一种新颖的分类法,帮助研究人员识别兵棋推演的关键特征。 ● 语言模型在兵棋推演中应用的特定领域需求,概述关键设计原则与挑战。 ● 一套供从业者使用的降低风险并确保语言模型在兵棋推演应用中可靠性的最佳实践框架。 ● 对在兵棋推演中使用语言模型的安全考量进行的审视。 ● 一组开放性研究问题及未来工作的明确方向。

兵棋推演中的人工智能

当前关于兵棋推演中人工智能的研究主要针对分析性游戏,这类游戏的世界状态及其通过行动改变的方式由严格的规则和一个离散的(尽管有时组合数量巨大)游戏状态空间所定义。常见的例子包括国际象棋、围棋和《星际争霸》(Silver等人,2017年;Vinyals等人,2019年;Goodman等人,2020年;Ma等人,2025年)。这些游戏没有提供融入模糊性、创造性或多方互动的机会,而这些正是开放式游戏的核心。以范围严格的动能或后勤模拟形式提供的计算支持要可行得多,通常能提供真实无误的游戏状态和转换。因此,分析性游戏适合使用状态空间搜索、MCTS和RL(Wan等人,2023年;Black和Darken,2024年)等技术的人工智能游戏代理。这些AI技术可以成为强大的求解器,但代价是难以推广到新场景(Balloch等人,2022年)。

兵棋推演相关文献

成为VIP会员查看完整内容
26

本文提出一种创新性复合人工智能方法,整合了美国国防高级研究计划局(DARPA)的“人类数字孪生智能体编队评估与建模”(EMHAT)和“构建弹性信息生态系统”(BRIES)项目,实现对军事行动场景中智能体人工智能工作流动态的精细化建模与严谨评估。现有系统缺乏同步建模具有丰富心理人口属性与记忆表征的人类数字孪生,并评估多维性能指标的能力。复合人工智能解决方案通过专业化多智能体架构填补这一空白,为编队效能与群体层级信息弹性提供前所未有的洞察力。在多场景中部署专用认知语言智能体:EMHAT支持基于多样化人类数字孪生智能体的搜救模拟,严格测量编队流程与状态指标以提升协同效能;EMHAT实验结果表明人类数字孪生个体能力与团队导向如何影响任务绩效。BRIES技术采用多智能体架构,配备“扭曲者”(对抗场景生成)、“探测者”与“防御者”(战术评估响应)及“评估者”(因果分析)智能体以支持内容生成,随后使群体数字孪生智能体接触生成内容,测试模拟人群中的信息作战策略。BRIES系统成功建模了群体层级对不同信息策略的响应差异,揭示认知扭曲等特定群体因素如何影响内容传播行为与信息生态系统弹性。本研究提出可直接应用的复合人工智能建模与仿真框架,使指挥员与训练人员能在高风险环境部署前量化评估军事编队绩效、检验信息作战效能并优化训练方案。

现代军事行动在关键领域面临前所未有的挑战:优化人机智能体编队以提升战术效能(瓦卡罗等人,2024年;沃尔科娃等人,2025年),构建抵御对抗性信息活动的弹性防御体系。正如北约“认知战”概念所强调,未来冲突将日益把人类认知作为作战域(北约盟军转型司令部,2023年)。现有人机编队绩效建模方法难以捕捉人格特质(阿卜杜勒拉赫曼等人,2024年)、信任动态(阮等人,2025年;涂等人,2025年;麦克达夫等人,2025年)与作战效能间复杂相互作用——这些因素从决策支持到争议环境中的协同行动均决定任务成败。本文提出复合人工智能方法——整合前沿模型、智能体与工具的框架(扎哈里亚等人,2024年;沃尔科娃等人,2024年),通过两个互补用例应对这些挑战。该方法的核心是人类数字孪生智能体——整合人格特质、认知过程与行为模式的个体计算表征,能模拟虚拟环境中人类决策、情绪响应与社会互动(美国国家科学、工程与医学院,2024年)。EMHAT实现人类数字孪生智能体的搜救模拟,严格测量编队流程与状态指标以提升协同效能;BRIES技术则通过多智能体架构支持信息活动生成,并建模群体人类数字孪生行为、态度与脆弱性。通过将具有心理人口属性与记忆表征的编队及群体层级人类数字孪生整合,建模仿真框架配备严谨因果验证工具,使指挥员能在高风险环境部署前量化评估编队绩效、检验信息作战效能并优化训练方案。

相关研究现状

当前基于前沿模型与大型语言模型驱动智能体的人类社会行为仿真方法在规模、保真度与真实验证方面存在根本局限(帕克等人,2024年;阿卜杜勒拉赫曼等人,2024年)。传统态度与观点动态建模严重依赖社交媒体数据,将分析局限特定线上群体,且缺乏社会经济与健康指标的多模态背景(沃尔科娃等人,2021年)。这些局限在满足“动态人机编队系统中人工智能作战化”(卡萨尼等人,2025年)的军事需求及开发可扩展主动解决方案时尤为突出。大型语言模型驱动智能体的最新进展显现在人类行为仿真领域的重大突破。帕克等人(2023年)开创性提出“生成式智能体”实现逼真仿真,通过记忆流与反思机制涌现社会行为。在此基础上,SOTOPIA(周等人,2024年)通过目标驱动交互评估社会智能,其最新扩展SOTOPIA-S4(周等人,2025年)提供用户友好系统支持灵活可定制的大规模社会仿真。这些进展的关键在于塑造智能体人格的能力——BIG5-CHAT(李等人,2025年)证明基于人类基础数据训练可创建与心理学框架一致且具稳定人格特质的大型语言模型。CAMEL(李等人,2023年)等附加框架展现在角色化场景中涌现的协同行为。包括AI小镇(2023年)、OASIS(汤等人,2024年)及谷歌DeepMind的Concordia(韦日涅夫采夫等人,2023年)在内的群体级系统支持数百智能体的观点动态与社会影响建模。AgentClinic(2024年)与CharacterEval(2024年)等专业框架通过社会真实性与目标达成度的复杂评估指标推进领域特异性行为建模。然而,现有军事认知安全框架(北约盟军转型司令部,2023年;北约战略传播卓越中心,2021年;菲茨帕特里克等人,2022年)仅提供战略指导却缺乏可扩展技术实现,而产业界聚焦人工智能助手而非防御关键的群体行为仿真工具(沃尔科娃等人,2024年)。当前系统无法在评估多维性能指标的同时建模具有丰富心理人口属性与记忆表征的人类数字孪生(美国国家科学、工程与医学院,2024年),这一关键空白由复合人工智能方法通过集成建模、仿真与因果评估能力予以填补。

方法

图1. 人类数字孪生架构将智能体档案(生物特征、目标)与行为决策循环相结合,该循环通过提示与防护栏处理情境以生成行动与工具调用。记忆系统整合了语义记忆(事实)、程序性记忆(技能)与情景记忆(经历)及双向学习路径。基于外部检索增强生成的知识检索与世界状态同步实现了情境感知、人格一致的行为。

图2. 编队与群体仿真。具有核心信念、思想、通信历史与情绪反应的人类数字孪生智能体,在接触Reddit或团队通信时从其检索增强生成记忆库中检索相关条目。仿真引擎协调智能体互动(评论、思想),同时捕获测量内容信任度与分享意图的帖后调查响应,用于评估信息弹性与编队效能策略。

  • 个体与群体数字孪生开发与仿真

该方法采用多阶段流程构建人类数字孪生,以精确模拟操作环境中人类的认知、情绪与行为响应。图1所示的人类数字孪生架构整合了多个互连组件,旨在捕捉人格特质、认知过程与情境动态间的微妙相互作用。档案生成系统实施分层构建流程,综合多维度心理人口属性。采用OCEAN大五人格框架(巴里克与芒特,1991年;保诺宁与阿什顿,2021年)作为基础人格模型,生成符合正态分布的特质分数。为保持真实的特质间关系,实施了源自人格研究大规模元分析的相关矩阵。例如,高外向性分数与高开放性分数相关,而高宜人性与低神经质相关。BRIES场景中的认知扭曲分配(尤里卡与迪托马索,2005年)基于OCEAN分数加权,创建心理一致的人类数字孪生档案。采用GPT-4o(开放人工智能,2024年)作为档案生成的主要语言模型,提供包含核心人口统计与人格属性的种子数据。该模型接收包含基础OCEAN分数与衍生认知模式、含年龄职业教育水平的人口统计锚点、校准至群体分布的社会经济指标、及基于人格行为相关性(林奇等人,2025年)的行为倾向的结构化提示。

EMHAT仿真框架实例化三个专用人类数字孪生,配置作战搜救任务必备的 distinct 操作角色:医疗专家、战斗工兵与撤离运输员,每个智能体体现对任务成功至关重要的角色专属能力(黄等人,2022年)。这些角色不对称性创建了依赖关系——例如工兵独有的废墟清理能力形成了需要协同编队努力的天然瓶颈。EMHAT智能体通过集成数据流(含编队通信、可操作导航指令集与动态状态信息)保持环境感知。EMHAT智能体执行的行为包括战术信息交换、空间导航规划、任务目标优先级排序与情境数据分析——所有决策均受其配置的人格档案与动态演化的智能体间信任关系(阮等人,2025年)影响。

图2所示的BRIES群体仿真将人类数字孪生智能体部署于Reddit风格讨论帖中,使其基于配置身份自主进行社交媒体互动。当遭遇帖子与评论时,智能体使用检索增强生成从其个体向量数据库检索相关记忆,实现基于过往互动、存储思想与情绪反应的情境感知响应。智能体随后执行决策协议以点赞、点踩或撰写回复,系统实施通知机制在贡献获回应时提醒智能体,为其基于人格档案选择持续互动或战略静默提供机会。在整个互动过程中,智能体持续生成并存储校准至其身份规格的思想与情绪反应,构建影响未来行为模式的丰富记忆库。帖子互动结束后,每个智能体接受结构化帖后访谈评估其内容认知立场,包括对帖子真实性的信任度、与他人分享帖子的可能性、与亲友讨论话题的倾向及在其他社交媒体平台放大内容的意愿,从而捕获即时行为响应与反映不同人格配置如何影响信息生态动态的下游传播意图。

  • 个体与群体数字孪生评估

从仿真通信中提取社会-情绪-认知构念

BRIES与EMHAT实验均采用一套综合性人工智能驱动分析工具,自动从编队与群体通信中提取并分析社会-情绪-认知构念。这些(沃尔科娃等人,2021年)总结的分析包括:通过赞同、建议与希望表达等特定策略识别意图与情绪的同理心检测模型(西等人,2019年);评估内涵、观点、态度(拉什金等人,2016年)、跨伤害、公平、纯洁、权威与内群体五维度道德价值(格雷厄姆等人,2013年)及主观性模式(拉什金等人,2017年)的社会认知分析;以及使用基于DistilBERT的情感分析模型(桑等人,2020年)、Detoxify毒性检测(哈努与统一团队,2020年)与情绪识别(萨瓦尼,2024年)的情绪分析。

数字孪生仿真的因果研究

针对群体层级信息弹性(BRIES)与个体人类数字孪生编队(EMHAT)的数字孪生仿真因果评估采用因果分析方法评估并解释仿真结果。遵循珀尔的因果框架(珀尔,2009年;珀尔与麦肯齐,2018年),通过NOTEARS算法与CausalNex包(量子黑实验室,2020年;郑等人,2018年)利用结构方程模型发现因果结构,聚焦处理(如接种策略或编队干预)与结果(如团队绩效指标、社会-情绪-认知构念)的同时阻断处理间传入边以避免混淆效应。此外,使用EconML的因果森林进行平均处理效应估计(巴托基等人,2019年;切尔诺茹科夫等人,2016年;瓦格与阿西,2018年),从智能体流水线分析处理、结果与协变量以隔离个体处理效应。该双重方法价值显著:结构方程模型捕获心理与编队维度的复杂相互关系与级联效应——揭示说服技巧或团队动态如何在网络化响应中运作——而平均处理效应在受控情境中精确隔离直接因果影响。对BRIES群体仿真,此法可量化不同接种策略如何影响群体对抗信息攻击的弹性;对EMHAT编队仿真,则可测量特定干预(如个体能力与团队导向)如何影响人类数字孪生编队协调、通信模式与任务成功,最终规模化优化认知安全与操作层级编队绩效(沃尔科娃等人,2021年)。

成为VIP会员查看完整内容
25

未来的空战胜负不仅取决于谁的飞行器最快或最隐蔽,更取决于谁能在遭受攻击时思考、感知和行动最快,以及谁能保持其算法的可靠性。人工智能与无人机系统的结合正在重塑制空权的逻辑。二十世纪的空中优势取决于平台性能、飞行员技能和出动架次,而二十一世纪正迅速演变为一场认知节奏的竞赛——当人类与机器作为一个整体在对抗环境中运作时,“观察-调整-决策-行动”循环的速度与可靠性成为关键。边缘人工智能、传感器融合、巡飞弹和协同蜂群技术能以机器速度将原始传感器数据转化为战斗效果。这种速度能否转化为作战优势而非战略负担,取决于在对抗性电磁环境中的韧性、安全的模型保障流程以及能保持态势理解与问责性的人机交互设计。决定性资源正从飞机与弹药转向可信数据生态系统和快速、可审计的软件更新周期,这一转变重新配置了采购优先级、训练和盟国互操作性。

人工智能与无人机整合将如何重塑制空权:

人工智能与无人机融合对制空权的三重变革:

  1. 软件成为核心战斗力:未来战争中,最具决定性的资产往往是算法模型、用于训练模型的标注战场数据,以及向前线节点推送更新的安全传输流程。模型的持续集成与持续部署能力,即快速迭代部署改进算法的效率,其重要性将与战机发动机和弹药储备等同。

  2. 韧性工程纳入作战条令:作战体系必须设计具备在卫星导航受阻、电子对抗和网络攻击环境下保持基本运行的能力。网状通信、降级自主模式、数据与模型的可靠溯源机制、明确定义的性能渐进衰减方案,都将从工程技术指标升级为作战刚性需求。

  3. 评估标准根本性转变:各国军队将日益采用作战效能指标衡量实力,包括:对抗环境下的平均目标识别耗时、算法模型从训练到部署的周期、误判引发的作战代价等,而非单纯统计战机架次与装备数量。对认知节奏与系统韧性的量化评估,将直接驱动装备采购与训练决策。

俄乌冲突实证

乌克兰战场已成为无人机创新的动态实验场:作战双方将大规模低成本无人机、巡飞弹药与商用技术改装整合成分布式作战体系,生成海量作战数据并实现战术快速迭代,显著提升杀伤链效率。基辅方面的实践表明,能在数周而非数年内完成实战数据重训、战术更新与后勤优化的部队,可突破传统装备采购周期限制,即便面对强敌也能夺取局部制空权。与此同时,俄军混合使用国产与进口无人系统的实践,既验证了此类装备的战术价值(如低成本饱和打击),也暴露出其替代体系化作战能力的局限性。军事学者从双方差异化的适应路径与力量结构调整中得出关键结论:真正的战略控制权,仍取决于能否将侦察监视、电子对抗、一体化防空与后勤保障熔铸为有机的作战体系。

印巴较量

2025年5月的印巴冲突首次展示了南亚地区大规模跨境无人机作战图景,两个核邻国间爆发了协同无人机突击与体系化反制行动。双方加速构建自主能力(印度推出数亿美元产业激励计划,巴基斯坦引进土耳其等技术),攻防两端的需求在实战中充分显现。这一区域性案例凸显了:当战略竞争对手获得对等技术扩散时,危机演进速度将急剧提升,冲突升级管控难度呈指数级增加。

成为VIP会员查看完整内容
24

使用人工智能驱动的机器智能体来增强人类认知活动展现出广阔的潜力,新的云服务也在定期发布。然而,在传统应用中快速使用这些服务需要超出普通用户技术水平的技术技能。开发者需构建或扩展应用程序以利用这些服务,这常常延迟了这些服务向用户提供的可用性。聊天机器人式的对话界面试图解决这一问题,但更倾向于简单的交互。为支持更丰富的解决方案,提出通过人与机器智能体共同构建任务相关信息来实现知识共享。具体来说,是支持多种模态和一系列具体程度的共享知识——从快速获取的流动信息到更正式定义的知识。此外,用户应能调用相关的云服务,并快速建立与这些服务相称的信任水平。通过共同构建来融合知识,可以超越当前机器智能体集成中常见的简单对话交互或定制应用程序,实现更快、更丰富的协作机制。

本文引入“人-智能体知识融合”(HAKF)作为一个概念框架,以支持多模态知识的共同构建,并支持人-智能体团队在特定任务和时间受限的问题解决活动中进行协作。具体而言,HAKF 强调了可解释人工智能对于快速建立信任的必要性,以及可讲述人工智能对于流畅知识交换的必要性。论文定义了一个名为“认知速写”(Cogni-sketch)的 HAKF 开源实例化平台,该平台支持以下实验:(1)由人类主导的、针对开源情报分析的信息觅食、意义建构和故事讲述;(2)来自机器智能体和数据源的信息融合,并与人类分析师协同工作。(1)的结果表明,用户成功完成了任务,并同时推进了多项意义建构活动。(2)的结果,重点展示了机器视觉和物体识别的融合,证明了机器智能体共同构建的知识可供人类用户使用。

通过 HAKF 和“认知速写”,展示了强大而灵活的解决方案的潜力,使得人与机器智能体之间能够开展与任务相关的问题解决活动,范围涵盖从信息收集与组织到意义建构与故事讲述。

第 2 章以文献综述的形式提供了与 HAKF 及其在意义建构中应用相关研究的背景材料,考虑了对人类用户和机器智能体都重要的一般性通信因素。第 3 章引入了 HAKF 的概念,以支持人-智能体团队集体解决问题,并指出了在任何实施中都必须支持的具体方面。同时描述了与军事利益相关者举行的一次设计思考研讨会,以及这如何帮助明确 HAKF 所需的能力。第 4 章概述了作为 HAKF 实例化的实验性“认知速写”平台。本章首先简要评估了现有的相关工具和技术,然后定义了“认知速写”的范围、它如何支持 HAKF 所需的能力以及用于定制和集成机器智能体的各种扩展点。第 5 章重点关注机器智能体及其基于自身处理或分析能力做出与任务相关贡献的能力。这些贡献大体上与可解释性流程的示例相一致,并通过试点评估和一些对话解释来表达,以展示多种行为。第 6 章将重点转向人类用户通过可讲述性流程成功进行意义建构的能力,以及以对人类用户在视觉和认知上有用的形式创建相关材料。与一名情报分析师进行的试点练习为后续正式实验的设计和执行提供了信息,该实验旨在测量 12 名人类参与者的意义建构行为和结果。对试点和实验的结果进行了分析和报告。最后,第 7 章总结了各项贡献,呈现了 HAKF 研究活动的简要时间线,总结了一些额外的示例用例,并提出了未来潜在的扩展和进一步的研究领域。它还强调了大型语言模型技术的最新进展,这些进展高度相关但未在本论文中涵盖,因为它们是在所报告的研究完成之后出现的。论文还有三个附录:附录 A 包含了关于“认知速写”平台的额外细节以及代码、文档和视频演示等资源的链接。附录 B 包含了从第 6.4 章描述的人类意义建构实验中获得的完整数据集,以及对 12 名参与者在实验期间创建的制品的定性评估。附录 C 包含了一些与第 3 章第 3.2 节报告的设计思考研讨会相关的额外有用信息。

成为VIP会员查看完整内容
27

摘要—— 大语言模型(LLM)与智能体(Agent)在数据分析中的应用(即 LLM/Agent-as-Data-Analyst)已在学术界与工业界展现出显著影响。与传统的基于规则或小模型的方法相比,(具备智能体特性的)LLM 能够支持复杂数据理解、自然语言交互、语义分析功能,以及自主的数据管道编排。技术演进进一步提炼出智能数据分析智能体的五大关键设计目标,即语义感知设计、模态融合集成、自主管道、工具增强工作流,以及开放世界任务支持。从模态视角来看,我们回顾了基于 LLM 的技术在以下方面的应用:(i)结构化数据(如关系数据的表格问答与图数据的 NL2GQL),(ii)半结构化数据(如标记语言理解与半结构化表格建模),(iii)非结构化数据(如图表理解、文档理解、编程语言漏洞检测),以及(iv)异构数据(如数据湖的数据检索与模态对齐)。最后,我们总结了尚存的挑战,并提出若干见解与实践方向,以推动基于 LLM/智能体的数据分析发展。 关键词—— LLM,智能体,数据分析,结构化数据,半结构化数据,非结构化数据,异构数据

1 引言

数据分析(广义地定义为对数据进行检查、转换与建模,以发现有用信息并支持决策的过程)是现代科学研究与商业智能的基石之一 [70, 13, 113, 282]。它覆盖从结构化数据库、半结构化表格到非结构化文档与视频等多种数据模态,并支撑着金融、医疗、工程、社会科学等领域的关键应用 [162, 23, 27]。

1.1 传统数据分析的局限

传统的数据分析流水线虽能有效提取信息与统计模式,但往往需要大量领域知识、繁重的人工特征工程,以及多种专用工具的集成 [244]。随着数据规模、复杂度与异质性不断增长 [130],这些限制愈发凸显,构成了传统数据分析的内在薄弱环节。 L1:人工式开发。 最耗力的挑战在于传统工作流依赖僵硬的、手工设计的流水线,要求领域专家事先明确各个建模步骤 [286, 287, 280]。在大型企业数据库中,客户、订单、支付、发货、商品等分别以独立数据表存储且各含数十个属性,即便是回答诸如“上个季度高级会员的平均配送时长是多少?”这样看似简单的业务查询,也可能迫使分析人员选择关联表、定位对应属性、处理复杂的多表连接、施加领域约束并统一时间戳字段。对于文档问答,在包含多样元素(如文本块、表格、图表、图像)的长文档中检索相关信息通常需要分析师逐页审阅并概括内容,这一过程高度依赖人力。此类手工流水线不仅构建耗时,而且当数据特性或分析目标变化时难以适配。 L2:硬编码的工具依赖。 现有数据分析系统通常内置一组与特定工作流紧耦合的工具(如可视化看板、统计包或机器学习模块 [5]),这与底层数据类型的复杂性相关。例如,从知识图谱中抽取统计信息并进一步做线性回归建模时,分析人员需先撰写 GQL 查询并调用图数据库内置 API 获取数据,随后再借助机器学习库(如 scikit-learn、PyTorch)开展分析。相对地,3D 模型分析则更依赖领域特定知识与专用系统(如 AutoCAD、PyMOL [4])。这类分析常受限于这些系统内嵌的功能,要求缺乏编程能力的分析师跨系统集成多个工具才能完成单一任务。异构系统的耦合不仅提高了分析流程的复杂度与开销,也妨碍了可扩展性并使其难以融入更广泛的分析工作流。 L3:同质化的模态支持。 现有系统通常针对特定数据类型进行了优化,其体系结构与查询引擎也面向特定格式而定制。例如,关系型数据库适于结构化数据 [95],而 MongoDB 等系统则面向 JSON 等半结构化格式 [6]。在分析附带时间戳描述的视频时,分析人员常需手动将帧与相应文档对齐以实现跨模态分析 [158]。这种“专才化”削弱了跨模态异构数据的分析能力,进而提升了分析复杂度、引入错误并限制了洞察的广度与效率。 L4:基于表层格式的分析。 传统方法虽擅长过滤、聚合等操作,但缺乏对数据中语义信息的推理能力。比如在表格分析中,若单元格包含较长文本,SQL 往往只能检索或匹配关键词,而无法理解其语义(如情感、意图、因果关系)[280]。同样地,对于图表或文档等非结构化数据,分析师仍需手动解读与总结以满足分析需求 [69]。缺乏语义理解限制了当前系统的分析深度,也难以支撑超越表层模式、需要复杂知识推理的任务。

1.2 LLM/智能体赋能的数据分析机遇

近来的大语言模型(LLM)与基于 LLM 的智能体带来了缓解上述挑战的新机遇。如图 1 所示,通过自设计的分析流水线自适应的工具辅助工作流自然语言交互,LLM 有潜力降低技术门槛、增强可解释性,并加速从多样数据形式中发现可执行洞见。 O1:复杂数据理解。 得益于对潜在模式与上下文依赖的表征能力 [196, 200],LLM 能够处理并推理关系数据、半结构化表格与非结构化文本等复杂数据。以图数据为例,模型不仅能理解结点与边所承载的语义内容,还能就其底层结构属性(如连通性、社群模式、层级组织)进行推理。这种深度而整体的理解使分析师能够产出融合定量度量与定性细节的更丰富洞见 [18]。 O2:自然语言接口(NL-based)。 基于 LLM 的分析智能体以自然语言为主要交互接口,使用户无需掌握 SQL 等专用查询语言或高级编程技能即可表达分析需求 [130, 115]。这种接口形式既提升了分析便捷性、加快了整体流程,也拓宽了不同用户群体参与数据驱动决策的范围 [202, 69]。 O3:语义算子。 LLM 使能结构解读、内容摘要等语义层操作,尤其适用于结构关系丰富或文本信息密集的数据 [219]。例如,在医疗记录数据库检索中,传统查询可能只返回包含“fever(发热)”一词的文档,而 LLM 驱动的算子还能识别“high temperature(高体温)”“febrile condition(发热状态)”等语义相关表述,从而增强查询的表达力,帮助分析师获得更准确、具备上下文意识的结果 [94, 232]。 O4:自主进化。 LLM 智能体并非静态工具,而是能够通过持续交互与学习来改进表现的自适应系统。鉴于分析需求与数据环境必然随时间演化 [76],这一能力尤为关键。例如,一个金融分析智能体最初或许专注趋势预测,但在迭代反馈中会扩展到实时检测异常或纳入新兴风险因子。此类自主演化有助于保持系统的先进性,减少对人工重配置的依赖,并持续提供更个性化与高效的分析支持 [19]。

1.3 LLM 赋能数据分析的技术脉络

如图 1 与图 2 所示,鉴于数据格式与应用场景的多样性,我们从两条维度对 LLM 赋能的数据分析进行分类:(1)所支持的数据模态范围(x 轴):结构化、半结构化、非结构化与异构;(2)交互范式的演进(y 轴):基于代码(code-based)、基于领域特定语言(DSL-based)与基于自然语言(NL-based)。

LLM/智能体用于结构化数据分析

结构化数据(如关系数据库 [42] 与图数据 [16])因其标准化模式与明确定义语义而在工业实践中居于核心。传统路径依赖 SQL 等代码式查询语言,随后发展出面向特定领域任务的 DSL [2]。在 LLM 的推动下,用户可通过自然语言接口进行交互,进一步经代码生成DSL 映射LLM 问答来操作结构化数据 [139, 188],而智能体还能编排多步分析工作流 [292]。其核心在于利用 LLM 驱动流水线或端到端处理。 * 关系数据。 常见做法是将自然语言分析任务通过 LLM 转为 SQL 或代码,进而对数据库进行操作以获得结果。为更好对齐自然语言与专用语言,常在流水线中引入模式链接 [271]、信息检索 [174] 与任务分解 [76];或在特定任务上对模型进行微调 [265] 以提升端到端生成质量。另一方向是跳过数据库操作,直接使用 LLM 做语义分析,这要求模型更好理解分析意图与结构化数据内在关系,因而在流水线中常采用 RAG [170]、提示工程 [290] 与任务分解 [283],并通过 MLLM/LLM [285, 196] 在文本或可视化表格表示上进行推理。作为关系数据的一种特化形态,时间序列同样受益于类似技术:将自然语言转代码、检索与变换序列,或直接进行时序推理 [14, 96]。 * 图数据。 图以实体及其依赖关系刻画复杂网络语义,但也带来巨大的搜索空间与路径推理挑战。已有图数据库与专用查询语言 [1, 3],因此可将 LLM 作为自然语言与图查询语言的接口。为促进模型对图结构与语法的理解,常引入智能体 [130]、微调提示工程 [129]。而面向图上的语义分析,主流思路体现为 RAG [276]、智能体 [146] 与微调 [264] 的结合。

LLM/智能体用于半结构化数据分析

半结构化数据介于非结构化文本与完全结构化的关系数据库之间,通常具备一定组织结构但不遵循严格模式。 * 标记语言。 XML、JSON 与 HTML 是常见形式。由于其同时包含标签与内容并天然具备结构属性,其技术演进与半结构化表格关系紧密,也推动了结构感知的预训练语言模型(PLM)发展 [18, 221]。 * 半结构化表格。 这是一类更灵活的表格数据。传统基于 PLM 的方法(如 [73][140])受限于对复杂版式、不规则表头与层级结构的表征能力。随着 LLM 的出现,新范式包括将半结构化表格转换为类关系型形式(SemiStru2Stru) [54, 117],以及利用 DSL 显式编码结构与操作的DSL 建模 [202]。

LLM/智能体用于非结构化数据分析

非结构化数据涵盖图表、视频、文档、程序代码与 3D 模型等,因缺乏固定模式而对传统流水线提出挑战。 * 图表(Chart)。 传统方法多依赖手工特征、模板匹配或规则解析 [99, 157, 180],易受设计与版式变化影响。LLM 出现后,可借助多模态理解解释图表的视觉与结构元素 [154],执行语义数据抽取,并支持基于自然语言的推理描述生成 [135, 164, 193] 与 QA [243, 46, 256] 等任务。 * 视频(Video)。 视频包含随时间演化的空间内容,需要语义与动态的联合建模。传统视觉骨干结合时间池化/注意力的方法面临标注成本与长序列效率问题 [33][210]。近期工作将视频重构为结构化 token 序列,以便 LLM 推理;智能体进一步将查询分解为时间定位、模态融合与摘要等子任务,从而实现更丰富的时序理解与高效计算 [33][49]。基于此,LLM 也扩展到视频情感分析(融合视觉、声学、文本线索进行情绪推断),并结合姿态/3D 网格重建,支持互动建模与关系情感预测 [90, 159]。在目标检测方面,将高精度检测器与多模态推理结合,能够在视频中进行以对象为中心的摘要与参照定位 [48, 269]。此外,手势与行为检测可利用 LLM 驱动的流水线提取细粒度运动与手势特征,支持交互分析与具身行为推理,常借助 3D 重建以提升保真度 [236, 235]。 * 文档(Document)。 PDF、网页与扫描报告是商业与学术信息的主要载体。传统文档分析依赖 OCR 与规则模板 [277, 67],在复杂/多变版式与深层语义理解上乏力。多模态 LLM 通过统一处理文本—版面—视觉信息带来了变革: (1) 架构创新(如 LayoutLM 系列到 DocLLM)协同理解结构与内容 [253, 254, 86, 209];(2) RAG 适配长文档或多文档的问答与摘要 [110, 108];(3) 合成数据生成缓解标注数据稀缺 [184, 187]。这些技术推动文档处理从信息抽取迈向深度推理与综合。 * 程序(Program)。 程序分析旨在理解、验证与优化源代码,是软件工程的基石。传统静态/动态分析严谨但需要大量专业知识,且难以扩展至语义复杂的大型代码库。LLM 通过大规模代码学习获得了强大的生成与理解能力,催生新的分析范式。其核心在于构建与利用代码—任务对(如带漏洞标签、功能描述的代码片段)。借助迭代改写、自我校正等高级数据合成技术 [148, 34],可生成高质量训练数据,支持自动定理证明(ATP)漏洞检测仓库级补全等前沿应用 [247, 142, 272]。值得注意的是,代码领域 RAG 的深化显著增强了模型利用整个代码仓上下文的能力 [128, 239, 63]。 * 3D 模型(3D Model)。 3D 模型以点云、网格或体素表示欧氏空间中的物体/场景,广泛用于场景理解与科学分析。传统流程依赖几何处理(如网格简化、点云配准)[78, 59, 37] 与专业建模软件(如 Blender、Maya [25, 204]),既需要人工标注又缺乏语义理解。近期方法通过 3D–语言对齐 [77] 将几何转换为结构化嵌入或文本描述以便推理;智能体编排专用 3D 编码器与工具链,支持描述生成、导航、科学问答等任务 [77, 250]。进一步地,3D–语言融合框架将点云/网格映射到与自然语言对齐的嵌入,促进3D-LLM、3UR-LLM 等任务 [77, 250];面向领域的扩展将分子与蛋白结构纳入多模态推理(如 3D-MoLM、ProteinChat、ProtChatGPT)[119, 61, 208]。此外,跨模态细化通过特征增强与域自适应来桥接 2D/3D(如视觉定位、2D–3D 对齐或联合预训练),增强多模态 LLM 的泛化 [77, 119, 250]。

LLM/智能体用于异构数据分析

异构数据指多种类型数据的集成(如关系数据、半结构化表格、文档图像)[217]。早期研究聚焦异构数据管理 [7],通过类 SQL 语言实现数据检索。结合 LLM 的最新进展主要体现在三方面:(i)跨模态对齐 [205, 38](如利用自然语言描述计算跨模态相似度);(ii)面向异构数据检索的自然语言接口 [169, 218](将用户查询翻译为预定义 API 序列);(iii)异构数据分析智能体 [162, 219](为 LLM 配备适配不同模态的语义操作工具)。

LLM/智能体在数据分析中的演进

如图 1 所示,LLM 赋能的数据分析智能体可沿五个关键维度概括,每一维对应通用数据分析智能体的设计目标: * 从字面到语义。 早期更多是生成可执行代码或 DSL 来辅助分析;现在正转向基于语义理解直接产出分析结果,减少中间过程。 * 从单一模态到模态融合。 由仅支持单模态转向可在多模态之间进行协同分析的模态混合能力。 * 从人工开发到自主设计。 由人工分解工作流(任务拆解、代码生成、操作执行)转向更广泛的自主工作流设计,降低人为介入。 * 从工具耦合到工具辅助。 由紧耦合、框架特定的工具体系,转向可调用任意工具集的解耦架构,提升灵活性与适应性。 * 从封闭世界到开放世界。 由面向特定领域任务的定制智能体,演进到可分析多样真实世界数据(文档、视频等)的通用型智能体,降低用户门槛。

1.4 对比与贡献

相较于现有关于数据分析 LLM 的综述 [139, 188, 292, 185, 181, 97, 242, 53, 22, 58, 12, 201],我们的工作更全面、细致地覆盖了不同数据类型上的关键技术,并强调这些类型之间的内在联系。我们独特地从数据模态接口语言两个视角审视技术发展趋势,并进一步提出构建通用 LLM 数据分析智能体的关键设计维度。 * 典型数据分析任务的全景式综述。 不同于聚焦于单一模态或单一任务(如 NL2SQL [139, 188, 292]、图理解 [185, 181]、表格问答 [97, 242]、文档理解 [53, 22]、图表理解 [58, 12]、视频理解 [201])的综述,我们按结构化—半结构化—非结构化—异构数据系统化梳理技术版图,追踪 LLM 赋能数据分析的技术演进,并识别面向通用数据分析智能体的五个关键设计维度。 * 数据分析技术的细粒度回顾。 超越高层概述,我们深入讨论具有代表性的技术路线,阐释其基本原理、技术设计与应用场景。区别于以往综述,我们进一步强调面向下游任务的数据构建/整理的重要作用,并给出相应的分析洞见。 * LLM/智能体作为数据分析师的最新进展。 除既有技术外,我们着重梳理了利用 LLM 推动数据分析的前沿发展(如智能体式设计、多模态对齐、交互技术),为研究者与实践者提供最新的参考。 * 开放挑战与未来方向。 我们识别了尚未解决的关键技术与实践挑战(如可扩展性、评测、真实系统集成),并在此基础上提出有前景的研究方向,以引导通用型 LLM 数据分析智能体的发展。

1.5 文章结构

第 2 节讨论面向结构化数据的 LLM 方法,涵盖关系数据(第 2.1 节)与图数据(第 2.2 节)。第 3 节回顾半结构化数据分析,包括标记语言(第 3.1 节)与半结构化表格(第 3.2 节)。第 4 节考察非结构化数据分析,覆盖图表(第 4.1 节)、视频(第 4.2 节)、文档(第 4.3 节)、编程语言(第 4.4 节)与 3D 模型(第 4.5 节)。第 5 节面向异构数据分析。对每类数据,我们先介绍数据分析技术,再给出数据构建/整理的小节。第 6 节讨论各数据类型面临的挑战与未来方向,第 7 节总结全文。

成为VIP会员查看完整内容
25

在大语言模型(LLMs)的快速发展推动下,基于LLM的智能体已经成为强大的智能系统,具备类人的认知、推理与交互能力。这类智能体正日益广泛应用于多种现实场景,包括学生教育、科学研究与金融分析等。然而,尽管其潜力巨大,基于LLM的智能体仍易受到幻觉问题的影响,导致任务执行错误,进而削弱整体系统设计的可靠性。

应对这一关键挑战,需要对近年来关于基于LLM的智能体的研究进展进行深入理解与系统整合。为此,我们提出首个关于智能体幻觉的全面综述。通过仔细分析智能体的完整工作流程,我们提出了一种新的分类体系,用以识别在不同阶段可能出现的不同类型幻觉。此外,我们还深入探讨了十八类导致智能体幻觉产生的触发因素。

在对大量现有研究的详细回顾基础上,我们总结了幻觉的缓解与检测方法,并强调了未来研究中值得探索的方向。我们希望本综述能够激发更多学术界与工业界在解决智能体幻觉问题上的努力,最终推动更加稳健、可靠的智能体系统的发展。

1 引言

大语言模型(LLMs)[3, 96, 100, 261, 262, 373] 近年来在广泛的任务中展现出了卓越的能力,包括语言生成 [69, 273]、意图理解 [32, 88] 和知识推理 [120, 197]。这些能力主要得益于大规模训练数据 [345]、模型架构创新 [267] 以及在指令微调 [189] 和上下文学习 [70] 过程中涌现出的新兴能力 [296]。在这些突破的基础上,基于LLM的智能体 [45, 241, 282, 306, 332, 384] 在跨领域的任务自动化中表现得日益熟练,标志着迈向通用人工智能(AGI)[91] 之路上的关键里程碑。此外,这些智能体可以被编排为基于LLM的多智能体系统(MAS)[29, 102, 113, 153, 192, 215],其中不同专长的智能体通过协作与交互,共同解决任何单一智能体都无法独立完成的复杂现实问题,例如知识共享 [9, 107] 与协同协调 [354, 381]。 尽管基于LLM的智能体在性能上取得了令人瞩目的成就,其快速发展也带来了新的安全挑战 [260, 348, 369]。在这些挑战中,智能体幻觉(Agent Hallucinations) 问题构成了尤为严重的威胁 [66, 174, 363]。先前关于幻觉的研究主要集中在自然语言生成(NLG)[70, 86, 230] 领域,在该领域中,幻觉通常指NLG模型生成不真实或无意义的文本。Ji 等人 [131] 对不同NLG任务中解决幻觉问题的最新进展进行了综述;Huang 等人 [123] 则专门探讨了LLM幻觉的成因。在这一背景下,LLM幻觉可分为事实性幻觉和忠实性幻觉。前者强调生成内容与可验证的真实世界事实之间的不一致 [204];后者则指输出偏离用户原始输入 [76]。此外,相关研究还讨论了若干有效的幻觉检测与缓解技术 [179]。 与上述场景不同,基于LLM的智能体是一类更加复杂的智能系统,具备目标导向的推理与行动能力。此类智能体通常包含三个核心模块:大脑(brain)、感知(perception)和行动(action) [66, 307]。其中,大脑模块主要负责存储记忆和知识,支持任务执行所需的推理与决策;感知模块拓展了智能体的感知空间,使其能够处理多模态环境输入;行动模块则扩展了智能体的行动空间,使其不仅能够生成文本输出,还能调用工具以完成更复杂的任务。因此,在基于LLM的智能体中,幻觉并非单纯的“语言错误”,而是可能在智能体流水线任意阶段出现的广义的虚构或误判的“类人行为”。由此可见,智能体幻觉的表现形式与成因要复杂得多,具体体现在以下三方面: 1. 类型更加多样化:智能体幻觉并非单模型的简单响应错误,而是由多个模块相互作用引发的复合行为,导致幻觉类型更广泛、更复杂。 1. 传播链条更长:传统幻觉多为局部的、单步的错误,而智能体幻觉往往跨越多个步骤,涉及多状态的转变。这类幻觉不仅可能出现在最终输出,还可能在感知与推理等中间环节产生,并随着时间推移不断传播与累积。 1. 后果更为严重:智能体幻觉涉及“具身后果”的错误,即错误的具身行动可能直接影响任务执行、系统设备以及现实中的用户体验。因此,智能体幻觉的代价和风险显著更高。

然而,现有关于基于LLM智能体的综述主要关注架构设计与实际应用,对于智能体幻觉的重要性与紧迫性则远远缺乏重视。 为此,我们对智能体幻觉进行了系统性的综述,以填补这一重要空白并推动智能体研究的进一步发展。本文将LLM智能体的交互动态建模为部分可观测马尔可夫决策过程(POMDP),其中智能体与学习环境交互、做出决策、接收反馈并在多个时间步中更新其状态。在此通用POMDP设定下,我们的主要贡献总结如下: * 首个综述:据我们所知,这是首个专门回顾基于LLM智能体幻觉问题的综述。我们涵盖了关于幻觉缓解与检测的最新研究,提供了一个全面的视角。 * 创新分类体系:我们提出了一种新的智能体组件分解方式,将其划分为 内部状态(Internal State)外部行为(External Behaviors)。前者由智能体维持的信念状态表征,作为智能体认知策略的最基本单元;后者则是由信念状态驱动的一系列主动行为。基于这种内外部的区分,我们对智能体幻觉进行了分类,涵盖了 五类智能体幻觉。 * 全面回顾:针对每一类智能体幻觉,我们给出了形式化定义、示例说明,并深入讨论了代表性研究。在此基础上,我们识别了 十八类触发因素,并总结了 十类通用的幻觉缓解方法,同时结合相应的检测手段,为读者提供清晰、前沿的研究全景。 * 未来展望:通过回顾与总结现有解决方案及其局限性,我们提出了若干未来值得探索的研究方向,这对于推动学术研究与现实部署都具有重要意义。 * 开放资源:我们整理并公开了超过 300 篇相关文献 的资源集合,并在 GitHub 上开放,以促进学术社区的交流与合作。

论文组织结构:本文余下部分安排如下:第2节介绍基于LLM智能体的形式化定义;第3节提出新的智能体幻觉分类体系;第4节回顾现有解决方案,重点关注幻觉缓解方法;第5节讨论未来研究方向;第6节对全文进行总结。

成为VIP会员查看完整内容
26

前沿的人工智能(AI)技术不断重塑我们对世界的认知。例如,基于大语言模型(LLMs)的应用(如 ChatGPT)已经展现出在广泛主题上生成类人对话的能力。由于其在多种语言相关任务(如开放域问答、翻译和文档摘要)上取得的卓越表现,人们可以预见 LLMs 在更广泛的现实应用中(如客户服务、教育与无障碍支持以及科学发现)将带来的深远影响。受到这些成功的启发,本文将对最新的大语言模型及其在各学术学科中的融合进行综述,涵盖:(1) 人文、文学与法律(如历史、哲学、政治学、艺术与建筑、法律),(2) 经济与商业(如金融、经济学、会计、市场营销),以及 (3) 科学与工程(如数学、物理与机械工程、化学与化学工程、生命科学与生物工程、地球科学与土木工程、计算机科学与电子工程)。通过融汇人文与技术,本文将探讨 LLMs 如何塑造这些领域的研究与实践,并进一步讨论在生成式 AI 时代所面临的关键局限、开放挑战与未来方向。对 LLMs 在不同学科中的应用综述——以及由此得出的关键观察与洞见——能够为有意利用 LLMs 推动其工作在多样化现实场景中发展的研究人员和实践者提供参考。

1 引言

当今,前沿的人工智能(AI)技术正在不断重塑我们对世界的认知。例如,基于生成式预训练 Transformer(GPT)架构的基础语言模型 ChatGPT [1],已经展现出在广泛主题上生成类人对话的能力,使其成为增长最快的应用程序(即在上线后的前两个月内用户数突破 1 亿)[2]。尽管其在鲁棒性与真实性方面仍存在局限,但凭借在多种语言相关任务(如开放域问答、翻译和文档摘要)上的卓越表现,ChatGPT 展示出在客户服务、个人助理以及医学诊断等多样化场景中的潜在应用价值。除了自然语言处理(NLP)领域的 ChatGPT 等模型外,计算机视觉(CV)中的预训练基础模型(如 Florence/Florence-2 [3] 与 Qwen2.5-VL)也在目标检测、图像分割、视频推理等多项视觉任务上取得了最先进水平,使其在面部识别、医学图像分析以及自动驾驶等应用中展现出显著价值。这种跨模态的融合进一步凸显了大语言模型(LLMs)的关键作用——它们不仅为表征学习和推理提供了统一框架,也成为嵌入其他模态的核心支柱,从而在 AI 驱动的科研与应用生态系统中居于中心地位。 受这些最新进展的启发,本文将综述前沿的大语言模型及其在多个学术学科中的应用整合,涵盖:(1) 人文、文学与法律(历史、哲学、政治学、艺术与建筑、法律),(2) 经济与商业(金融、经济学、会计、市场营销),以及 (3) 科学与工程(数学、物理与机械工程、化学与化学工程、生命科学与生物工程、地球科学与土木工程、计算机科学与电子工程)。作为人文探索与技术发展的交汇点,本文旨在探讨 LLMs 如何重塑各领域的研究工作流与专业实践,并进一步梳理其所面临的主要局限、未解挑战以及在生成式 AI 时代的未来发展方向。通过综合跨学科的应用并提炼关键洞见,本综述期望为希望利用 LLMs 推动现实应用研究与实践的学者与从业者提供指导。 基于近期突破,本文在第 2 章中首先介绍 LLM 的基本概念与评估方法。我们从精确定义与简要发展历史入手,进而通过概览和重点剖析主流模型家族——包括 GPT 系列、OpenAI 推理模型、Claude 3、Gemini 2、Grok、Llama 3、Qwen 2 和 DeepSeek——来绘制前沿图谱,突出其设计选择与功能特点。随后,我们讨论评估维度:涵盖核心任务类型、代表性基准数据集与常用方法,并给出性能综述,以期为理解模型表现与方法选择提供背景、比较图景与实践指南。 在三个学科群组(人文、文学与法律;经济与商业;科学与工程)中,我们首先通过综述其主要研究任务与传统方法来引入学科背景,强调其关键贡献与重要影响。接着,我们识别可由 AI 尤其是 LLMs 辅助解决的共性研究挑战,并提出一个任务分类体系,将学科研究与 LLMs 相结合:既保持学科相关性,又在算法层面确保一致性,以支持模型开发、基准评测与比较分析。在每个类别中,我们回顾现有的 LLM 驱动的研究与应用,探讨其局限,并展望未来研究方向。最后,我们总结代表性基准与关键讨论。 在第 3 章中,我们调研 LLMs 如何正在改变人文学科与法律领域,从证据到实践展开。在历史学中,我们涵盖叙事生成与分析、定量与科学方法(如历史心理反应的模拟),以及跨学科研究,并结合基准讨论。在哲学中,我们回顾规范与解释性应用(如辩论/对话生成)、分析与逻辑应用(如符号落地诊断),以及跨学科研究。政治学部分,我们考察政策洞察的文本分析、意见模拟与预测、政治信息生成与框架化,并附带基准与反思。艺术与建筑部分,我们综述模型辅助的视觉、文学、表演艺术创作,以及基于 LLM 的建筑设计与分析,并总结评估与经验。最后,在法律部分,我们覆盖法律问答、合同与文书撰写、法律文档理解与案例分析、判决预测,并附以基准与讨论。 在第 4 章中,我们综述 LLMs 在经济与商业中的应用。在金融领域,我们涵盖交易与投资研究、公司金融、市场分析、金融中介与风险管理、可持续金融、金融科技及相关基准。在经济学中,我们涉及行为与实验研究、宏观经济模拟与基于智能体的建模、博弈论与战略互动、经济推理与知识表征,并配套评估。在会计部分,我们审视审计、财务与管理会计、税务,并总结基准。在市场营销部分,我们涵盖消费者洞察与行为分析、内容生成与活动设计、市场情报与趋势分析,同样附带性能基准。 在第 5 章中,我们系统回顾 LLMs 在科学与工程中的应用。数学部分包括定理证明辅助、理论探索与模式识别、数学教育与相关基准。物理与机械工程部分涵盖文档任务、设计构思与参数化制图、仿真支持与建模接口、多模态实验解读、交互式推理,并附以评估与讨论。化学与化学工程部分包括分子结构与反应推理、性质预测、材料优化、实验映射、分子设计、反应数据组织,并比较不同基准。生命科学与生物工程部分涵盖基因组序列分析、临床结构化数据整合、生物医学推理与理解、混合结果预测,并特别关注验证标准。地球科学与土木工程部分包括地理空间与环境数据任务、仿真与物理建模、文档处理、监测与预测性维护、设计与规划,并总结基准。最后,在计算机科学与电子工程部分,我们综述代码生成与调试、大规模代码库分析、硬件描述语言生成、功能验证、高层综合,并附以专用基准与挑战讨论。 在第 6 章中,我们以“把握当下,塑造未来”为题进行总结,综合跨领域证据,概述新兴前沿,归纳人文学科与法律、经济与商业、科学与工程三个领域的共性机遇、局限与范式,并提出未来路线:包括基于模式对齐的多模态融合与可溯源归因、受限条件下的工具增强计算、规则约束的可复现智能体仿真、时间—因果适应、带不确定性控制的决策支持、人机协作监督与治理、以及面向教育的能力建设与安全嵌入——从而提供一个可实践、可审计、可扩展的跨学科应用蓝图。 综上,本文从基础与评估到跨学科应用,系统勾勒出 LLM 研究与应用的全景,展示了当下的有效方法、尚存的脆弱环节以及进展的衡量方式。读者可以获得通用的任务分类体系、模型与工具选择的指导、严谨评估与基准构建的方法,以及在效用、安全、合规与人类监督之间取得平衡的实践模式。尽管本文不可能穷尽所有视角,且某些观点仍有待讨论,但随着 AI 技术尤其是生成式 AI 的快速发展,相关学科必将持续演进。作为初步努力,本综述希望帮助读者识别有前景的问题表述、设计合理的评估方案、预估潜在影响、并预判可能的失败模式。我们期望该综合性工作能够为研究人员、从业者与政策制定者提供借鉴,以负责任地把握当下,并塑造一个 LLMs 能够在广泛学科中实现可靠、可审计与真正有用能力的未来。

成为VIP会员查看完整内容
24

当今的空域环境日益复杂。防空系统、巡航导弹、无人机系统(UAS)、巡飞弹药及远程火力的技术进步塑造了此种复杂性。空域的垂直维度,以及部队在其中机动的速度与自由度,对寻求在空域行使控制的指挥官构成了独特挑战。此外,飞机性能、空域特征、空域使用及各种控制程序等广泛变量增添了额外的复杂层。因此,空域控制的目标是使军事行动能最有效、高效且安全地利用空域,以实现联合部队指挥官(JFC)的目标与优先事项。

空域控制极具动态性与情境性。它需要灵活且响应迅速,以容纳具有不同技术能力的用户,并缓解技术故障或敌方行动的影响,从而优化空域使用。因此,空军人员应具备空域专业知识并结合联合视角,以确保空域控制系统与程序促进空域的安全、高效和灵活使用,同时提升作战效能并赋能新兴联合部队能力(如小型UAS、讯飞弹药)。经验证的空域控制程序具有持久效用,但新技术与新平台将迫使持续调整以适应不断变化的作战环境。空军人员必须创新思维,以预见并解决未来挑战。此外,至关重要的是,空军人员须接受训练,以分布式方式周密规划全域效应,并在分布式环境中与决策者隔离时执行任务。空军人员必须习惯于依据指挥官意图与任务式指挥原则进行决策和行动。

在建设更具能力的未来部队时,条令必须演进以适应新技术。现有的指挥控制(C2)架构,结合经验证的最佳实践,为应对不断演变的空域挑战的创新解决方案奠定了基础。

空域控制定义为“通过控制程序与协调措施(CM)对指定空域及用户行使被授予的权限,以最大化作战效能。” 联合作战中的空域控制是一个术语,用于描述空域控制权(ACA)所执行的活动与行使的权限。空域控制权是指被授予空域控制总体责任的指挥官。空域控制权制定空域控制计划(ACP)并通过空域控制系统(ACS)实施空域控制。空域控制系统是空域控制权对组成部队和东道国空域控制要素(即空域控制组织、人员、政策、程序与设施)的安排。 为保障空中任务指令(ATO)的执行,空域控制要素扮演包括空战管理(如C2联合空中作战)、防空(战斗识别、预警、武器控制状态、目标跟踪、防御性防空[DCA])或监视与侦察等角色。

依据(IAW)联合部队指挥官指南,空域控制要素管理空域申请、指挥机动飞机并整合火力。有效的空域控制需要计划与持续评估。计划在作战行动开始前启动,并通常在竞争连续体中经历不同程度的民用与军用控制过渡。联合部队指挥官批准联合作战区域(JOA)内的空域控制程序。空域控制旨在最大化作战效能,同时不过度限制任何军种或职能组成部队的能力。

飞机性能、空域特征、空域使用及各种控制程序等广泛变量为空域控制操作增添了层层复杂性与难度。此类挑战在多国空中行动期间尤为突出。东道国关系、系统互操作性以及跨组成部队与伙伴部队的不同规划流程也引发了额外关切。同样,其他政府机构、民用用户、非政府组织及救援机构可能需要使用战区空域。总之,这些用户需求需要一个集成的空域控制系统,以实现空域的安全高效使用,并降低误伤事件及对民用和中立力量意外交战的风险。

​​制空权​​

制空权不同于空域控制,但与之密切相关。无论联合部队在空域行使的控制程度如何,一定程度的空域控制对于空中作战是必要的。联合部队在特定时间地点相对于敌方在空域行使的控制程度可描述为空中均势、优势或绝对优势。空中均势描述了一个对抗环境中没有任何一方掌握制空权的状态。空中优势描述了一种控制程度,使一方能在给定时间地点实施作战而无须承受来自空中与导弹威胁的压倒性干扰。空中绝对优势描述了一种控制程度,使敌方无法在作战区域内使用空中与导弹威胁进行有效干扰。

虽然空中绝对优势最为理想,但在作战中可能不可行。在此类情况下,空中优势,即使是局部或暂时的,也可提供足够的行动自由以创造预期效果。局部空中优势作战的空域控制程序应反映联合部队指挥官可接受的风险水平与作战目标之间的平衡。这确保投入适当水平的空域控制资源以保障作战。联合部队空中组成部队指挥官,为实现防空目标,将空域控制程序与规划(一项空域控制权职能)与进攻性防空、防御性防空(一项区域防空指挥官职能)及其他组成部队作战相整合。空域控制计划可能对友方及民用空域用户实施更严格的限制,特别是当某些平台缺乏便于识别的通信设备与技术时。随着联合部队对空域控制力的增强,空域控制计划能容纳更多样化的空域用户。

​​任务式指挥​​

纵向与横向集成的指挥与控制能够在“集中指挥—分布式控制—分散执行”的任务式指挥框架内实现空域控制。此架构融合组成部队联络官、空域控制要素与空域用户,以增强域感知能力并满足指挥官意图。提升的空域感知能力有助于增强对空域控制系统与空域控制权的信任,同时缓解空域冲突并保障联合部队作战。空域控制要素与用户依据指挥官意图行动,从而在对抗、降级及作战受限环境中实现行动统一,此类环境中与上级总部的通信可能中断或无法进行。

空域控制权(空域控制的集中指挥官)被联合作战指挥官或联合部队指挥官授予空域控制权限。空域控制权应整合联合部队指挥官要求、能力与指挥控制结构,以构建一个连贯、韧性且可互操作的空域控制系统。空域控制系统架构应适应联合作战区域内的分布式控制与分散执行。空域控制权可进一步将空域控制权限下放给有能力有资源为更广战区或联合作战区域内特定空域范围进行空域控制作战(即实施指挥与控制流程:计划、准备、执行与评估)的指挥官。空域控制权的执行权限被授予各种空域控制要素(例如,控制与报告中心、空中支援作战中心、海军战术空中控制中心、机载指挥与控制),以根据计划、指令与命令分散执行空域控制与作战管理职能。下图描述了与任务式指挥框架对齐的概念性空域控制系统。

​​联合全域作战​​

空域控制本质上是联合的,并影响每个作战域。所有联合部队组成部队都有空域任务需求,这些需求应在空域控制系统内进行集成、协调、优先排序与冲突消解。空域控制系统的安排与运用应旨在:

  • 最大化在空中、从空中及穿越空中实施的作战效能。
  • 防止误伤事件,降低附带损伤风险,并防止对友方、中立及民用航空器的意外交战。
  • 促进联合火力并增强防空反导。
  • 增强并支持地面组成部队的机动、机动与运用。
  • 促进海军水面部队的舰队防御与力量投送。
  • 集成与同步全域作战以创造协同效应并实现联合部队指挥官目标。

此外,空域控制系统通过利用太空、网络空间与电磁频谱能力支持全域协同效应。天基系统为空域用户提供定位、导航与授时。当用户在偏远地区穿越或行动时,地基定位能力减弱。在此类情况下,太空系统的重要性增加。

空域的上限对应太空域的下限。太空域是指大气对空中物体的影响可忽略不计的高度以上的区域。空域控制权应通过联合部队太空组成部队指挥官或联合综合太空小组(若已建立)与美国太空司令部协调空域以上的任何行动或规划。

网络空间能力对于空域控制系统内的协调与空域控制功能至关重要。网络化系统使各种空域控制要素能持续接收准确及时的空域控制系统信息更新。除网络空间外,频谱管理对有效的空域控制系统至关重要。电磁频谱支撑空域控制系统的诸多方面,用于飞机与控制要素之间各种目的的传输。

目录

  • 前言
  • 第一章:空域控制导论
    • 基本原则
  • 第二章:空域控制基础
  • 第三章:指挥与控制
    • 空域控制系统 (ACS)
    • 战区空中控制系统
    • 其他美国空军空域控制要素
    • 战区空地系统 (TAGS)
  • 第四章:空域控制规划
    • 通信规划
    • 应急规划
    • 危机规划
  • 第五章:空域控制执行
    • 合作
    • 竞争
    • 武装冲突/战争
    • 战后作战行动
  • 第六章:本土行动与法律
    • 附录 A:空域控制计划示例
    • 附录 B:概念性风险评估矩阵
    • 附录 C:区域空中机动控制/协调中心
  • 参考文献
成为VIP会员查看完整内容
24

在大国竞争和近期战场部署的推动下,人工智能与军事行动的整合正在加速。这些系统有望实现跨域更快、更协调的决策,但也带来了技术、组织、条令和政治方面的挑战,必须谨慎权衡其与作战优势之间的关系。

日益激烈的战略竞争已使人工智能成为国家安全政策的核心支柱之一。主要大国正大力投资于人工智能赋能的军事能力,加速了将人工智能融入国防架构的全球竞赛。近期的冲突进一步凸显了人工智能在战场上日益增长的重要性,促使军队加速现代化。这一转变的核心是人工智能赋能的决策支持系统的兴起——这些工具旨在帮助指挥官处理海量数据,以做出更快速、更明智的战场决策。

这一发展势头是在更广泛的人工智能革命背景下展开的。机器学习、大数据分析和计算能力的进步,如今使得大规模实时处理和预测建模成为可能。主要由商业行为体开发的民用人工智能平台,为军队向以数据为中心、算法支持的指挥系统转变提供了技术基础和数据生态。

这种转变在多域作战中最为明显,此类作战涵盖陆、海、空、天和网络空间。这些复杂的作战空间产生大量实时数据流。人工智能决策支持系统正被集成以融合这些信息,加速决策周期,并支持分布式、去中心化的指挥,尤其是在战术边缘。

然而,在这些系统压缩传统的“观察-调整-决策-行动”循环的同时,它们也引发了关于在时间敏感、高后果决策中的透明度、控制和人类监督削弱的新担忧。随着应用的加速,核心挑战不再是要不要采用人工智能决策支持系统,也不是如何实施它们。相反,关键在于如何以一种能够带来真正作战优势的方式来实现,同时又能保持问责制,遵守武装冲突法,并在关键时刻维持有意义的人类判断——这些挑战对于民主国家而言尤为息息相关。

当今的人工智能革命

人工智能的发展长期处于周期循环之中——热情和投资的高潮之后往往伴随着失望和停滞的阶段。尽管未来的“人工智能寒冬”无法排除,但当前的浪潮似乎有所不同——其驱动力在于技术成熟度、广泛的商业整合和加剧的地缘政治竞争的汇聚。

首先,当前的人工智能革命是由深度学习架构、大型语言模型的进步,新兴的智能体形式人工智能,以及数据和计算能力的指数级增长所驱动的,这些因素使得可扩展和自主的人工智能应用成为可能。人工智能系统能够检测海量数据集中的模式,实时处理多源传感器输入,并生成可行动的建议。

其次,当前的人工智能浪潮主要由全球科技生态系统内的创新所塑造。大型科技公司开发的通用模型正被集成到每个民用领域,包括物流、金融、媒体和消费技术。这种商业势头通过庞大、多样的数据流推动模型的持续改进,并创造了军队寻求适应国防背景的双重用途能力。

第三,人工智能已成为地缘政治和战略竞争以及军事创新的核心轴心,尤其在大国之间,将人工智能定位为未来战争的兵力倍增器。美国及其盟友正在推进依赖人工智能的作战条令,如“联合全域指挥与控制”和“马赛克战争”,旨在通过速度、数据整合和跨所有作战域的分布式指挥来获得决策优势。

军事与人工智能决策支持系统(AI DSS)

尽管由商业驱动,人工智能的发展正在重塑军事优先事项,其最直接的影响体现在战场决策层面。现代战争受到实施多域作战(MDO)愿景的塑造,这带来了前所未有的复杂性,要求具备能够管理跨多个重叠域的分散资产和高速交战的新型指挥与控制能力。

这一变革的主要催化剂是无人机和巡飞弹的迅速普及,它们从根本上改变了冲突的节奏和地理特征。当代作战现在需要更快的决策、更灵活的部署以及战术边缘更大的主动性——在战术边缘,单位在有限的中央监督下行动,但面临较高的作战风险。比对手更快速地感知、决策和行动的能力正成为战场优势的决定性特征。

与此同时,现代冲突从战场上的无人机、卫星和其他传感器产生海量实时数据。这些信息的体量、速度和多样性超出了人类认知能力。因此,军事决策者肩负的任务是以越来越高的速度将复杂、不确定且通常不完整的数据转化为可行动的决策。人工智能决策支持系统(AI DSS)已成为应对这些挑战的关键解决方案。这些系统旨在融合跨域数据,增强态势感知,并支持更快速、更连贯的决策,尤其是在“传感器到射手”循环和分布式作战内部。通过这种方式,人工智能决策支持系统(AI DSS)能够为前线单位提供量身定制的评估和建议,从而实现分散决策,使它们即使在通信降级和时间紧迫的条件下也能更自主地行动。

然而,人工智能决策支持系统(AI DSS)的日益使用并非没有争议。关于其风险和益处的积极辩论正在进行中。支持者认为,这些系统对于维持作战节奏、提高韧性以及适应多域作战(MDO)的需求是不可或缺的。批评者则警告不要过度依赖不透明的算法,指出这可能会削弱人类判断力、模糊问责制并增加战术失败的风险。

人工智能与OODA循环

OODA循环有助于理解人工智能对现代战争中决策的影响。它由美国空军上校约翰·博伊德于20世纪70年代提出,此后一直影响着美军的战术层面思维。其核心思想是决策的速度和质量决定军事成功。那些能更快、更准确地完成OODA循环四个连续阶段的一方将在作战中占据上风。

循环始于观察阶段。人工智能决策支持系统(AI DSS)可以通过收集和分析来自战场内外大量传感器(包括无人机、卫星、雷达及其他来源)的数据来助力此阶段。在调整阶段,这些数据流可由人工智能系统处理,例如通过计算机视觉模型,来探测、识别和分类战场上的军事目标。调整阶段还包括利用预测模型来识别战术变化和预测可能的敌方部署。

在决策阶段,人工智能决策支持系统(AI DSS)可以通过权衡潜在结果与既定任务目标、可用资源和作战约束,来评估和推荐可能的行动方案。人工智能系统还能评估和优先排序军事选项,突出相关风险,并建议最有效的行动方案。在行动阶段,人工智能决策支持系统(AI DSS)可以通过计算武器轨迹、协调射击方案以及同步多个单位的机动来支持所选策略的实施。人工智能决策支持系统(AI DSS)也可用于进行战后行动和战场毁伤评估。其结果随后可用于改进底层模型,优化未来的战术建议,并更准确地预测敌方行动。

虽然人工智能决策支持系统(AI DSS)被视为加速和增强OODA循环每个阶段的关键赋能因素,但它们也带来风险。在某些情况下,OODA各阶段可能被人工智能决策支持系统(AI DSS)如此紧密地连接在一起,以至于它们实际上变成了一个单一的连续处理流。因此,在高速度环境下,这种流式处理使得理解人工智能决策支持系统(AI DSS)为何产生特定输出变得更加困难,而非按顺序展开。

除了“为何”的问题,“何人”负责在人工智能决策支持系统(AI DSS)的决策过程中也可能存在不足。OODA循环越紧凑,人类越无法对决策和行动实施有意义的控制的风险就越大。“人在回路”的角色可能被削弱为仅仅是一种象征性的安全预防措施。人类的监督在形式上可能仍然存在,但在功能上受到限制,因为系统的速度和复杂性超过了操作员实时判断和干预的能力。对于致力于遵守武装冲突法和民主监督的军事机构而言,核心挑战在于如何利用自动化的速度和规模,同时不在关键环节放弃人类责任。这一挑战在对手可能愿意优先考虑速度而非控制的战略环境中会变得更加复杂。

挑战

采用人工智能决策支持系统(AI DSS)至少会引发四大挑战。首先,从技术角度看,人工智能决策支持系统(AI DSS)必须在战斗条件下可靠、可解释且具有韧性。战场现实,如数据降级、不完整或低分辨率,可能削弱这些系统的性能。因此,在人工智能决策支持系统(AI DSS)上建立并维持作战信任至关重要,尤其是在高风险和对抗性环境中。一个密切相关的挑战在于确保军事人员具备足够的技术素养。操作员必须能够解读、质询并自信地根据系统建议采取行动,而不是简单地接受表面输出或完全忽略它们。

其次,从组织视角看,日益依赖商业供应商为人工智能决策支持系统(AI DSS)提供数据,长期来看可能带来互操作性和数据控制风险。云基础设施易受网络攻击、服务中断以及物理中断的影响,这可能破坏人工智能决策支持系统(AI DSS)的正常运行。其他问题包括数据法规和对敏感数据的主权控制。在作战层面,军方可能需要短时间内扩展计算能力,以应对情报处理或实时战场分析的高峰需求。与此同时,持续的人才缺口加剧了这些挑战:人工智能专家在民用和国防部门仍然稀缺,而私营部门在招聘和留用方面往往保持竞争优势。

第三,使用人工智能决策支持系统(AI DSS)也在条令层面带来挑战。日益复杂且可能自主的人工智能决策支持系统(AI DSS)的整合,面临着可能模糊责任与问责界限的传统指挥结构和决策流程。使用条令概念发展缓慢,导致不确定如何在动态作战环境中使用此类系统,以及人类操作员应如何与人工智能生成的输出交互。没有充分的培训和指南,操作员可能要么过于轻易地遵从人工智能系统导致过度依赖,要么因缺乏理解或信心而未能充分利用它们。

第四,人工智能赋能的决策在政治层面提出了根本性问题。人工智能决策支持系统(AI DSS)必须按照国际人道法(IHL)运作,包括区分、比例性和军事必要性等核心原则。在联盟作战中,政治领导人将面临关于互操作性的艰难决策——尤其是在人工智能系统的交战逻辑、数据来源、条令假设或国际人道法(IHL)合规水平存在差异时。最后,对商业系统的日益依赖引入了可能削弱国家自主权的战略依赖性。虽然采用商业平台可能更快、更便宜,但这会带来对核心能力的控制减弱以及来自专有系统和私营部门决策的漏洞风险。

展望

确保负责任地采用人工智能决策支持系统(AI DSS)需要在技术、组织、条令和政治维度上采取协调行动。在技术上,人工智能决策支持系统(AI DSS)需要投资进行稳健的测试、验证和在逼真条件下的红队测试工作,以优化系统输出。应优先发展可解释人工智能和建立清晰的性能基准,以建立作战信任。

在组织上,政府和军方必须与工业界建立结构化的合作伙伴关系,围绕透明度、问责制和国家主权控制来构建。联合测试平台、开放标准和强有力的监督机制有助于弥合商业创新与军事需求之间的差距。这些伙伴关系必须建立在清晰的数据治理、生命周期管理和安全框架内。鉴于作战中对激增能力的需求,还必须保证能够获得可扩展且安全的计算基础设施。此外,在广泛作战环境中集成、维护和持续更新人工智能决策支持系统(AI DSS)将需要开发者和国防机构之间持续且结构化的协作。

在条令上,军方需要重新思考在人机编队中如何行使指挥与控制。传统的角色和决策层级必须演进,以适应新形式的人机交互,包括明确界定的角色、升级规程和监督机制。专业军事教育必须融入人工智能素养、批判性思维和伦理培训,以确保操作员既能理解系统输出,又能保持自信,而不会过度依赖自动化。

在政治上,负责任地使用人工智能决策支持系统(AI DSS)必须基于法律、规范和战略原则。联合国“致命性自主武器系统”政府专家组(GGE)、国际论坛提供了现有平台来建立共享规范和治理结构——即使全球共识仍遥不可及。同样重要的是与私营部门技术提供商的接触,其中许多公司总部设在国家管辖范围之外,且受商业而非地缘政治优先事项的指导。跨越这种军民界限来协调激励、访问权限和问责制,对于维护战略自主性和民主监督至关重要。

总之,仅凭技术能力并不能保证战略优势。随着创新加速,人工智能决策支持系统(AI DSS)被开发和部署的速度很可能超过人们对其充分理解、治理或有效融入军事行动的速度,这种风险日益增长。挑战不仅仅在于加速决策,更在于确保决策保持知情、可问责且在作战上合理——即使是在不确定性、复杂性和时间压力的条件下。能否把握这种平衡,不仅将决定未来战争的有效性,也将决定人工智能在武装冲突中更广泛的合法性。

成为VIP会员查看完整内容
23

自主无人机已成为一项令人振奋的新兴技术,有望彻底改变基础设施检测、军事侦察与警用监控领域。然而当前绝大多数平台存在重量大、成本高、操作难度大的问题,这限制了它们在许多任务场景中的应用——例如在人口稠密环境中,政府法规禁止重型无人机在人群附近进行自主操作。这些重量主要来自机载计算资源,这些资源是运行提供态势感知的关键计算机视觉算法所必需的。本论文阐述如何通过边缘计算在轻型无人机上实现自主性,将高计算量任务卸载至网络近端服务器。我将论证该技术如何使自主飞行器在可接受的性能成本下更接近美国联邦航空管理局的监管限值运行,同时揭示一种新型操作系统的设计,该系统旨在通过统一且易于编程的应用程序接口整合碎片化的无人机生态。我还将展示如何利用此技术在商用现成硬件上创建异构协同无人机集群。

无人驾驶航空器(通常称为无人机)是一项颠覆性技术,近年来已获得广泛应用。在民用领域,它们可低成本安全地完成基础设施检测、农业监测、森林火灾防控及警用监控等任务;在军事领域,它们则是前沿侦察的重要工具。当前大多数应用场景中,无人机仍由人工飞行员全程操控。近年来研究趋势正向全自主飞行无人机推进。美国国家标准与技术研究院将“全自主飞行”定义为“无需远程人工飞行员干预的预编程飞行,包含响应运行时观测数据的任务特定行动”[68]。该方法具有两大优势:其一可降低成本并释放人力注意力,其二能实现无人机集群的实用化操作——即大量飞行器协同执行任务。无人机集群为诸多任务开启新可能,有望在多个民用与军事领域引发变革[22]。全自主无人机的关键驱动因素在于完成主动视觉任务[6, 93]。这类任务要求无人机根据实时场景理解做出响应,例如在场景变化前无需人工干预即下降至低空“近距离观察”,随后返回原高度继续监测。此类限定范围的任务构成了目标跟踪与障碍规避等无人机基础操作的特性。

重量是制约全自主无人机应用的根本障碍。更高的智能水平意味着需要更强大(因而更重)的机载计算资源与更丰富的传感设备。以机载图形处理器为例,其需配套散热器、冷却风扇与大容量电池等冗长后勤链条。重量增加还带来民用区域上空的监管挑战:自2021年起,美国联邦航空管理局已预授权总重低于250克的无人机在人与车辆上空飞行[50]。更重的无人机需获得该局特批,且须满足碰撞与自由坠落缓解措施条件。即便超过此重量限值,轻量化无人机在城市环境中获取超视距自主飞行监管批准也比重型无人机更容易。该法规已被证明是多个民用项目的主要障碍。在军事场景中,重量同样是关键考量因素——重型飞行器会增加后勤复杂度,常需专用运输工具[73]。

自主无人机应用的其他主要限制包括软件可移植性、可操作性、任务多样性与单位成本。尽管已有尝试将无人机纳入统一编程生态,但目前行业常态仍是各公司为自身平台开发专属软件开发工具包,这导致跨生态代码移植困难并割裂开发者社区。现有全自主无人机还要求用户具备丰富飞行经验以确保安全,形成显著的操作门槛。许多产品缺乏多功能性,无法在制造商预设的小范围任务集外进行配置。最后,当前自主无人机单位成本是手动操控型号的数倍,这种定价损害了集群操作的经济可行性——在集群中单机损失不仅可能发生甚至可预期。本研究的核心贡献是SteelEagle系统:一种硬件无关的自主无人机系统,通过边缘计算与新型模块化自主架构突破上述障碍。边缘计算使无人机能通过低延迟高带宽无线网络,将计算密集型实时操作卸载至通常位于通信基站附近的强大地面服务器(边缘云),从而减少对重型机载计算硬件的需求。同步推出的SteelEagle操作系统设计为无人机无关、开发者友好且以任务为中心。

该系统的关键考量是采用商用现成[49]无人机与计算/通信载荷。该方法避免硬件定制(如无人机改装)与特权软件修改(如设备“越狱”),既降低成本又显著提升可操作性,还免去重新认证需求(如美国联邦航空管理局或联邦通信委员会认证)。但商用现成方案也带来新挑战:轻型商用现成通信设备的热限制会引发延迟、帧率与质量问题,迫使系统智能管理通信、计算与预测资源。

论文核心论点

本论文论证SteelEagle作为现有自主无人机系统的可行替代方案,尽管卸载存在固有延迟与带宽限制。我将展示其在以下设计维度的优势:

  1. 重量:飞行器总重(含电池与载荷)
  2. 可操作性:飞行器的操作入门门槛
  3. 多功能性:系统可执行任务的多样性
  4. 可移植性:系统适配新硬件的便捷度
  5. 成本:飞行器总成本(含电池与载荷)

基于纯商用现成无人机与商用现成计算/通信载荷构建超轻型飞行平台,用于超视距场景下的自主主动视觉任务是可行的。实现该目标的最大障碍(即实现自主性所需计算硬件的重量)可通过边缘计算克服。我认为此类飞行平台能模拟重型自主无人机在主动视觉任务上的性能表现,尽管面临带宽、延迟与连接性挑战。

该论点的重要性在于:若成立,则此类支持边缘计算的无人机将在城市环境超视距任务中获得广泛应用,相比传统自主无人机具有更低运营成本与更高安全性。建筑检测、警用监控与交通监测等任务将直接受益,公共基础设施上空的无人机集群也将更安全。

其非平凡性在于:该领域现有研究有限,因当前工作多聚焦提升无人机能力而非减轻重量。目前尚无低于美国联邦航空管理局250克限重、具备自主执行任务机载智能的商用无人机。现有支持边缘计算的无人机数量有限,且均重量过大(超500克)价格昂贵(超3000美元)。虽有学术研究探索无人机与边缘计算结合(详见3.2节),但这些研究针对大型重型无人机,其在使用边缘卸载的同时仍依赖机载硬件,且未将重量作为主导设计考量。相比之下,SteelEagle主要围绕不减损性能的重量削减进行设计,我相信这对推动自主无人机大规模应用至关重要。

本文主要贡献如下:

  1. 阐述基于边缘计算在轻型商用现成无人机上执行主动视觉任务的全自主飞行平台,论证其在重量、可操作性、多功能性、可移植性与成本方面对先前工作的改进。
  2. 通过新型基准测试套件量化该平台性能的测量研究。
  3. 展示该平台如何扩展至异构无人机集群生态。

论文结构概览

本论文后续章节安排如下: • 第二章提供自主无人机发展史背景并综述相关研究,说明SteelEagle如何基于现有研究构建。 • 第三章讨论如何将轻型商用现成无人机连接至边缘,阐述设计挑战并制定机载边缘通信载荷的选型标准。 • 第四章提供SteelEagle整体设计,包括其相对于现有系统的优势与不足,演示SteelEagle无人机执行多项自主任务并进行性能分析。 • 第五章介绍改进早期原型的新型边缘通信载荷,展示该载荷如何缩短系统“观察-判断-决策-行动”循环周期,从而显著提升自主性能。 • 第六章描述用于测量基于边缘与全机载自主无人机关键任务性能的基准测试系列,这些测试聚焦给定平台的“观察-判断-决策-行动”循环,有助于理解高延迟与低吞吐量对边缘卸载的影响。 • 第七章通过基于驱动的方法展示SteelEagle如何部署于多样化的无人机硬件与控制方案,说明系统适配新无人机的过程并为断联操作奠定基础。 • 第八章总结论文贡献并展望未来工作方向。

成为VIP会员查看完整内容
26

当前,人工智能正朝着AGI的方向迈进。伴随技术突破与产业应用的深度融合,人工智能进入全新发展阶段。2025年被视为“智能体元年”,AIAgent已成为驱动产业变革的核心力量。智能体通过自主任务规划、动态决策与闭环执行,实现从被动响应指令到主动解决复杂问题的跨越。与此同时,各类AI硬件迎来新一轮迭代升级,从轻量化AI眼镜到便携AI录音卡片,硬件设备在便携性与场景适配性方面不断突破。“多模态模型”进一步打破技术边界,实现语言理解、视觉识别、音频处理等核心能力的深度融合。“世界模型”扮演更为重要的角色,基于内在模拟理解现实世界的物理与因果结构,通过预设未来场景指导决策。   在此背景下,天津市人工智能学会、中关村科学城公司、深圳市人工智能行业协会、至顶科技、至顶智库、与非网联合发布《通向AGI之路—2025年全球人工智能展望报告》。报告从AGI特征出发,全面总结全球人工智能产业的主要参与者、典型产品和应用,对AGI发展的关键领域、核心技术进行分析解读,并呈现当前关注度较高的智能体、AI硬件及应用进展。最后,报告对AGI的未来发展方向进行展望。报告为政府部门、行业从业者、教育工作者以及社会公众更好了解2025年全球人工智能的发展进程,以及探索通向AGI的前进路径提供参考。  

成为VIP会员查看完整内容
23

摘要——大型语言模型(Large Language Models, LLMs)已经彻底变革了自然语言处理领域,在多种任务上取得了显著性能。然而,这种令人印象深刻的流畅性往往以生成虚假或捏造的信息为代价,这一现象被称为幻觉(hallucination)。所谓幻觉,是指LLM生成的内容虽然流畅且语法正确,但在事实层面上不准确或缺乏外部证据支撑。幻觉削弱了LLM的可靠性与可信度,尤其在那些对事实准确性要求较高的应用领域中影响尤为严重。 本综述系统梳理了LLM幻觉相关研究,重点关注其成因、检测与缓解。我们首先提出了幻觉类型的分类体系,并从数据收集、模型架构设计到推理阶段,分析了幻觉在LLM全生命周期中的根本成因。接着,我们探讨了幻觉在关键自然语言生成任务中的表现机制。在此基础上,我们分别构建了幻觉检测方法幻觉缓解策略的系统分类框架,并分析了现有方法的优势与局限。同时,我们回顾了用于量化LLM幻觉的评测基准与指标体系。最后,我们总结了当前研究的主要挑战,并展望了未来可能的研究方向,为构建更加真实、可信的大语言模型提供理论与方法基础。 关键词——大语言模型;幻觉;幻觉成因;幻觉检测;幻觉缓解;幻觉基准;幻觉指标

1 引言

近年来,得益于基于 Transformer 的语言模型(Language Models, LMs)的快速发展,自然语言生成(Natural Language Generation, NLG)取得了显著进步。诸如 ChatGPT [1]、Claude [2] 和 Bard [3] 等大型语言模型(Large Language Models, LLMs)已经彻底变革了自然语言处理(NLP)领域,使得智能体在多样化应用场景中展现出强大的能力。这些模型在提高效率与生产力方面表现突出,推动了下游任务的发展,包括问答(QA)、抽象摘要、对话生成以及数据到文本生成等。 尽管取得了突破性进展,LLM 仍面临一个关键挑战——幻觉(hallucination)。幻觉指的是 LLM 生成的内容虽然流畅且语法正确,但在事实层面上不准确或缺乏外部证据支撑 [4], [5]。这种现象可能导致严重后果,包括虚假信息的传播和隐私泄露。与传统人工智能(AI)系统通常针对特定任务数据进行训练不同,LLMs 使用了大规模的在线文本语料进行训练 [6]。这种广泛覆盖虽然带来了出色的连贯性与流畅性,但同时也增加了事实错误的风险。LLMs 可能反映训练数据中潜在的偏见,误解含糊的提示,或为了迎合输入的潜在意图而改变信息 [7]。当用户在医疗数据摘要、客户服务对话、金融分析报告或法律咨询等敏感场景中依赖语言生成时,这种问题尤其令人担忧。 要理解幻觉的根本成因,需要从 LLM 的开发生命周期各阶段进行系统分析——从预训练到生成路径的整个过程。这种分析不仅有助于揭示幻觉的来源,也为幻觉检测与缓解技术的开发提供了指导。基于 LLMs 的标准开发流程,我们将其划分为六个阶段:数据收集与准备、模型架构、预训练、微调、评估与推理,并在每一阶段分析导致幻觉的潜在因素,从而全面理解幻觉的产生机制。 此外,我们提出了一个系统的幻觉检测技术分类体系,将现有检测方法分为五类:基于检索、基于不确定性、基于嵌入、基于学习、基于自一致性。研究发现,单一检测方法难以在所有场景中表现优异。例如,基于检索的方法在处理事实性幻觉时表现出色,但高度依赖外部知识的质量;基于学习的方法精度较高,但需要高质量的标注数据;基于不确定性的方法通过模型置信度来减轻数据依赖性,但效果受阈值校准影响较大,且当模型对错误答案信心很高时常无法检测幻觉;基于自一致性的方法能捕捉逻辑与语境矛盾,但对事实性细微错误敏感度不足,且受提示多样性与采样策略影响显著;而基于嵌入的方法在捕获语义差异方面较为稳健,但在跨领域或低资源语言环境中性能可能下降。因此,多方法互补的混合检测方案(如学习结合不确定性,或检索结合学习)是提升检测稳健性与准确性的有前景方向。 同时,我们扩展了现有研究中的幻觉缓解方法分类体系 [8], [9], [10],将其划分为四大类:基于提示(prompt-based)基于检索(retrieval-based)基于推理(reasoning-based)以及基于模型中心的训练与自适应(model-centric training and adaptation-based) 方法。 * 提示式缓解方法通过结构化提示策略引导模型生成更具事实性的内容; * 检索式方法依赖外部知识以提供事实支撑; * 推理式方法(如思维链提示 Chain-of-Thought prompting, CoT 与自一致性方法)增强生成内容的逻辑连贯性与内在一致性; * 模型中心方法通过调整模型架构、修改训练目标或采用特定微调策略以提升模型的固有真实性与可靠性。

研究表明,单一方法难以彻底缓解幻觉,因此结合多种互补策略的混合方法更为有效,尤其是将提示或推理方法与检索式及模型中心式策略相结合的方案。 此外,我们探讨了当前幻觉检测与缓解研究中面临的挑战,并提出未来研究方向。本综述在前人工作的基础上,进一步系统分析了幻觉的成因及针对幻觉检测与缓解的前沿技术。 本综述的主要贡献如下: * 幻觉成因分析:系统分析了从数据收集、架构设计到推理阶段,LLM 全生命周期中的幻觉成因。 * LLM 幻觉分类体系:提出了涵盖幻觉成因、检测与缓解的综合分类框架,并总结了当前最先进(SOTA)研究成果。 * 幻觉检测方法综述:构建了五大类幻觉检测方法的结构化分类,并深入讨论了各类方法的潜力与局限。 * 幻觉缓解方法综述:将幻觉缓解方法分为四大类(提示、检索、推理、模型中心训练与自适应),并详细分析其效果与适用性。 * 数据集与评测指标:系统回顾了用于幻觉检测与缓解的基准数据集与评价指标,并指出其局限性。 * 基于推理的缓解分析:深入分析了包括 CoT、迭代优化、验证链(Chain-of-Verification)等推理增强方法在复杂任务中降低幻觉的作用。 * 多语言与低资源场景研究:探讨了低资源语言下幻觉问题的特殊挑战,并总结了跨语言迁移、多语言微调与提示自适应等缓解策略。

本文其余部分的组织结构如下: 第2节回顾相关综述;第3节介绍幻觉的定义、类型及其在不同自然语言生成任务中的表现;第4节系统分析 LLM 各阶段的幻觉成因;第5节与第6节分别讨论幻觉检测与缓解技术;第7节与第8节介绍用于训练与评估的基准数据集与指标体系;第9节总结当前的开放问题与未来研究方向;第10节给出全文结论。![]

成为VIP会员查看完整内容
25

人工智能(AI)技术近年发展迅猛,其中大型语言模型(LLM)成为关键突破口。LLM 正在各行各业产生深远影响,而医学领域尤为突出。本文系统梳理了医学领域 LLM 的最新研究进展,深入分析了医学大模型的训练技术、其在医疗场景中的适配与落地、相关应用,以及由此显现的优势与局限。 此外,本文基于训练方法对医学 LLM 创新性地划分为三种类型,并将其评估范式归纳为两大类。最后,围绕当前医学 LLM 领域面临的关键问题,提出相应解决思路并展望未来研究方向。通过对既有与前沿研究成果的系统回顾,我们旨在强调发展医学 LLM 的必要性,深化对其当前发展状态的理解,并为后续研究提供明确指引。

1. 引言

人工智能(AI)技术的快速演进与大型语言模型(LLM)[1](如前沿的生成式预训练变换模型(GPT)[2] 系列)的突破,正以前所未有的深度与广度重塑医疗行业。凭借在文本生成、深层理解与复杂推理方面的卓越性能,这些模型正推动医疗走向更高效、更智能的形态(模型即服务,Model-as-a-Service,MaaS [3])。在医疗领域,信息的获取与处理尤为关键:处理海量医疗信息不仅是支撑临床医务人员进行日常诊疗决策的基础,也是患者获取健康指导与研究者探索疾病机理的必要条件。此类诊疗信息跨越多维度,涵盖详尽的病例数据、丰厚的医学知识库、权威治疗方案、药物研发最新进展、疾病预防策略[4],以及健康促进研究成果。信息处理能力直接影响患者诊断与治疗效果以及医疗服务总体质量,是推动医学进步不可或缺的支柱。然而在实践中,面对浩繁的医学文献[5]与复杂的诊疗记录,传统方案往往难以应对。

这些能力也不可避免地引出一个问题:LLM 是否会很快取代医生?为此,我们咨询了 ChatGPT。其回答是:尽管 LLM 在医学领域取得了历史性进展,但在演进过程中仍面临三大挑战。其一,AI 技术仍不成熟。尽管 LLM 具备诸多突出特性,AI 仍在持续发展中,尚不足以在运用专业知识与技能以解决患者问题方面完全取代医生。其二,数据偏置问题:训练数据的质量与准确性决定 LLM 的性能,若训练数据存在偏差,模型能力亦将受到影响。其三,隐私与安全问题:医疗数据属于患者隐私,一旦泄露或被滥用,后果不堪设想。因此,在 LLM 的应用中必须优先考虑隐私与安全。

生成式 LLM 指能自动生成自然语言文本的深度学习模型[6]。它们以大规模文本数据进行训练,通过对语言内部规律的深度理解,自动生成符合语法与语义规则的自然语言文本。这类模型不仅能生成连贯、合逻辑的内容,还展现出强大的创造力与泛化能力,可在不同领域与任务中保持优异表现。与此同时,也存在一类判别式 LLM[7],其旨在区分不同类别或识别数据中的模式,常用于分类、回归与检测等任务,学习如何根据输入数据区分不同的输出或结果。二者差异见表 1。考虑到医学领域的具体情境,多数医学 LLM 为生成式,故下文中“LLM”与“生成式 LLM”可互换使用。LLM 的技术原理主要基于深度学习与自然语言处理(NLP)。通过对海量数据的收集与训练,LLM 能够深入学习并掌握语言的内部结构与普遍模式。模型通常采用端到端训练范式,建立输入文本与输出文本之间的映射关系。以 Transformer 模型[8] 为代表的关键技术采用自注意力框架,使序列内各元素之间实现复杂交互,有效缓解长文本生成中的信息丢失与梯度消失问题,显著提升模型性能。此外,LLM 将语言建模与生成算法相结合:前者估计语言中句子的概率,后者基于该概率分布生成具体文本;二者共同构成生成式 LLM 的核心技术框架。

在节奏快速的医疗领域,LLM 为临床实践、医学教育与科研带来变革性潜力[9]。医学领域对 LLM 的早期使用主要基于通用预训练语言模型进行领域自适应;随着技术持续演进,LLM 发展为诸如 GPT-4[10] 等前沿模型。这些模型突破了传统方法的限制,能够处理更复杂的语言理解与处理任务。通过分析医学数据并为医生与其他卫生专业人员制定更精准的诊断与个性化治疗方案,LLM 有望重塑医疗行业[11]。该技术不仅为临床与公共卫生工作者提供前所未有的强大工具,也深刻改写了我们对疾病诊断与治疗路径的理解与实践。借助先进的深度学习架构与经精调的机器学习模型,对海量医学数据进行深度挖掘与分析,LLM 能够模拟并生成与原始信息高度相似、甚至更为准确的新内容,从而确保有效的知识传递与创新。 具体而言,LLM 在医疗行业的潜在变革性影响主要体现在三方面:其一,为医学数据评估提供新维度,使以往难以捕捉的细微变化与趋势显性化,为疾病的早期发现与干预提供有力支持;其二,在诊断层面,AI 算法可基于复杂数据分析给出更为准确的诊断意见——有时甚至超过人类经验——显著提升诊断准确率与效率[12];其三,在治疗方案制定方面,LLM 可依据个体特征、疾病进程与治疗反应,帮助确保每位患者获得个性化治疗,真正实现精准医学的愿景[13]。这些以数据为驱动并经多轮训练迭代的医学 LLM,不仅具备强大的诊断判断力,也能在罕见病例诊断与治疗策略制定中快速响应临床需求;它们通过检索相关医学文献、病例分析与专家建议为医生提供有价值的参考[14, 15]。与此同时,医学 LLM 在口腔医学[16]、放射学[17]、核医学[18]与临床实践[19]等众多领域展现出潜在能力。目前,关于医学 LLM 的研究如火如荼,相关论文的发表与引用呈上升趋势(见图 1),应用前景广阔。

因此,系统探索 LLM 在医学领域的实际应用、优势、不足与潜在发展路径至关重要。本次最新综述旨在梳理大规模语言模型在医学领域的广泛应用场景,深入探讨其带来的诸多益处与当前主要挑战,并展望其新兴发展趋势。通过系统回顾既有研究成果,我们希望阐明发展医学 LLM 的必要性,深刻把握医学 LLM 的当前发展状态,并为后续研究提供方向性建议。为明确本文贡献并支持进一步研究,我们与同类综述进行了对比分析(见表 2),以凸显本工作的独特视角与贡献。具体贡献概括如下: * 全面覆盖:系统、最新且最为全面地回顾医学 LLM,从理论基础与方法进展到其多元医疗应用进行深入剖析。 * 阶段化综述:回顾 LLM 的发展历程,突出其各阶段的特征、成果与局限。 * 创新分类:基于训练方法将医学 LLM 创新性地划分为三大类型,并将其评估方法归纳为机器评估与以人为中心的评估两类,为医学 LLM 的研究与分类提供新视角。 * 趋势分析与策略建议:深入分析医学 LLM 领域的当前趋势,包括技术进展与既有挑战,并提出针对性的机遇识别与未来发展策略,期望为相关领域研究者与实践者提供有效指导。

文献回顾方法学:为确保对医学领域 LLM 的全面、专业考察,我们采用系统综述的方法。具体而言,在 Web of Science、DBLP、IEEE Xplore 与 Google Scholar 等主要学术数据库中,以“LLM medicine”“medical LLM”为核心关键词进行检索。在优先考虑 2020–2025 年间的出版物的同时,也纳入了 2020 年以前对该领域有重要推动作用的奠基性研究。首先基于题目与摘要对检索文献进行相关性筛选;在初筛之后,依照预设步骤进一步遴选,确保入选研究兼具相关性与高质量。(1)纳入标准:提出创新方法论、理论分析或对其观点进行实验验证的综述;考察一个或多个医学 LLM 从训练到部署过程的文献;经过正式同行评审的英文出版物。(2)排除标准:仅汇编他人成果而缺乏原创见解的文章;未经过正式同行评审的出版物;虽匹配关键词但与医学领域 LLM 直接相关性较低的研究。

如图 2 所示,本综述拟回答以下问题:第 2 节——LLM 如何发展?医学 LLM 如何训练?第 3 节——现代医学的局限何在?医学 LLM 能提供哪些超越现代医学的能力?第 4 节——当前医学 LLM 如何评估?第 5 节——应用医学 LLM 的优势与不足是什么?第 6 节——医学 LLM 的未来发展方向为何?第 7 节给出结论。![]

成为VIP会员查看完整内容
21

从图像与文本生成到音乐与艺术创作,生成建模一直是人工智能的重要挑战之一。本课程将探讨机器学习与人工智能中推动生成建模和基础模型(foundation models)最新进展的核心技术。学生将理解、开发并应用最前沿的算法,使机器能够生成真实而富有创造力的内容。 核心内容包括:学习的基本机制;如何构建生成模型和其他大型基础模型(如用于视觉和语言的 Transformer、扩散模型);如何训练这些模型(预训练、微调)以及如何高效地适配它们(适配器、上下文学习);如何扩展到超大规模数据集(多 GPU/分布式优化);以及如何将现有模型应用于日常使用场景(如代码生成、生成模型辅助编程)。学生还将探索这些模型的理论基础与实证研究,理解其内部机制,并学习可能出现的问题(偏见、幻觉、对抗攻击、数据污染)以及应对方法。课程强调通过实现来掌握现代技术,同时也引导学生使用现有库和模型来探索生成能力与局限性。本课程适合已完成机器学习或深度学习入门课程的学生。

学习成果

完成本课程后,学生应能够: * 区分不同的学习机制,如参数调优与上下文学习。 * 实现现代生成建模方法所依赖的基础模型,如 Transformer 和扩散模型。 * 将现有模型应用于文本、代码、图像、音频和视频等现实生成问题。 * 掌握基础模型的适配方法,如微调、适配器和上下文学习。 * 使生成建模方法能够扩展至大规模文本、代码或图像数据集。 * 使用现有生成模型解决现实中的判别问题及其他日常应用场景。 * 分析大规模基础模型的理论属性。 * 识别不同模态下生成建模的潜在风险。 * 描述大规模生成式人工智能系统的社会影响。

成为VIP会员查看完整内容
22

深度神经网络(Deep Neural Networks, DNNs)在众多任务上取得了显著成功,然而我们对其学习机制的理解仍然有限。这些模型能够学习高维任务,而从统计学角度来看,这类任务通常因“维度灾难”(curse of dimensionality)而难以求解。这一表面上的悖论暗示:可学习的数据必然存在某种潜在的结构。那么,这种结构的本质是什么?神经网络如何对其进行编码与利用?它又如何以定量方式影响性能——例如,随着训练样本数量的增加,泛化能力如何提升?本论文围绕这些核心问题,系统研究了局部性(locality)组合性(compositionality)在数据、任务及深度学习表征中的作用机制。 我们首先分析了在无限宽度极限下的卷积神经网络(Convolutional Neural Networks, CNNs),在这一极限下,学习动力学被极大简化并可进行解析刻画。借助统计物理与学习理论的工具,我们刻画了模型的泛化能力,并证明:当目标函数具有局部性时,网络能够自适应其空间尺度,从而突破维度灾难的限制

接着,我们研究了更复杂的层级结构——其特征以层次化方式组合,即大尺度元素由小尺度子特征构成。我们使用简单的概率上下文无关文法(Probabilistic Context-Free Grammars, PCFGs)来建模这类数据。这类树状图模型常用于描述语言与图像等层次性数据。在该框架下,我们研究了基于扩散的生成模型(Diffusion-based Generative Models)如何通过组装从样本中学习到的特征来生成新数据。这一组合理论预测了生成过程中的相变现象(phase transition),并在图像与语言模态中得到了实证验证,为自然数据的组合结构提供了理论支持。进一步地,我们证明:学习这类文法的样本复杂度随数据维度多项式级增长,从而揭示了扩散模型通过学习层次化组合机制以避免维度灾难的理论依据。这些结果为生成模型如何学习泛化、乃至如何获得创造力提供了理论基础。

最后,我们将分析视角从输入空间中的数据结构转向参数空间中的任务结构。在这一部分,我们探讨了一种新的任务可组合性形式,即任务与技能本身可以进行组合。实证结果表明:在大规模预训练模型的权重空间中,不同方向对应着功能空间中局部化、语义特定的任务区域;这种模块化结构使得**任务算术(task arithmetic)模型编辑(model editing)**在大规模上成为可能。 关键词:深度学习;泛化;缩放定律;数据结构;局部性;组合性;概率图模型;卷积网络;扩散模型。

成为VIP会员查看完整内容
21

大语言模型(LLM)构成了自然语言处理与人工智能领域的范式转变。本文探索将创造力整合到人工智能系统中,以增强其与人类的交互。论述了使人工智能具备理解和生成超越字面意义、捕捉人类艺术与对话微妙之处的内容能力的必要性。为解决当前最先进人工智能模型在创造力方面的局限,本论文首先提出了一种开发无监督或弱监督机器学习模型的方法,该模型融入了隐性/常识知识。此方法通过利用外部常识知识源,实现创造性文本内容(如讽刺与隐喻)的生成。此外,讨论了为创造性任务训练人工智能而收集大规模高质量数据集的挑战,并提出了人类专家与最先进模型之间的协作努力以克服这些障碍。最后,倡导以人为中心的稳健评估方案,并展示了如何设计和开发此类方案,以便能在独立和交互式两种设置中更好地评估模型输出的创造力质量。强调现有模型的当前局限以及构建更优模型以实现高效可信的人机协作系统的未来方向作为本论文的结束。

人类交流的很大部分涉及语言或视觉的创造性运用。要开发能与人类无缝交互的人工智能系统,需要为这些系统配备创造能力。这意味着要将理解和生成超越字面意义的内容、拥抱人类艺术和对话所特有的细微差别和微妙之处的能力融入人工智能。为人工智能配备此类能力将使这些系统能更好地理解人类情感、意图及交流背后的语境。

将创造力融入人工智能系统能为众多领域带来积极变革(Anantrasirichai and Bull 2022; Amato et al. 2019)。人工智能驱动的创意助手可以教学生更擅长批判性思维(Ibna Seraj, Oteir, et al. 2022)并发展更好的写作技能(Fitria 2021; Gayed et al. 2022; Zhao 2023)。研究人员展示了科学作家如何常用延伸的隐喻和明喻,以更易于理解的方式向更广泛的受众传达陌生概念(Kim et al. 2023)。因此,通过使人工智能模型更具创造性,可以改进科学传播(Biyela et al. 2024)。生成式人工智能有潜力通过为设计师和艺术家提供新工具、灵感和能力,显著增强设计与创造力(Chung and Adar 2023; Chang et al. 2023; Tseng, Cheng, and Nichols 2024; Liu et al. 2023c; Liu et al. 2023b)。最后,人工智能驱动的创意技术能推动娱乐业的重大创新,尤其是在电影和叙事领域(Smith et al. 2017; Fu and Houlette 2002; Mirowski et al. 2023)。诸如幽默、明喻、讽刺、隐喻或习语等创造性文本常带有文化内涵。通过推进能够理解或创作此类创造性文本的计算模型,增强了社会技术系统促进更细致、具有文化意识的交流的能力,从而塑造和引导社会互动与体验。

近年来,在生成类人文本(使用大语言模型或LLM)和逼真图像(使用基于文本到图像的扩散模型)方面取得了实质性进展。由于其训练目标是最大化互联网上人类书写文本的概率或使图像与其标题匹配,而其中大部分是字面意义的——它们在生成创造性内容方面能力有限。

当今的人工智能系统令人印象深刻,但往往缺乏对世界和日常概念的推理能力,这使得创造力变得困难。特别是对于创造力而言,常识知识是一个基础支架,真正具有发明性和影响力的偏离可以从中产生。要生成讽刺或幽默(例如,“我的邻居在深夜争吵对我的耳朵来说是舒缓的”),常常颠覆常识预期,即深夜争吵是破坏性和令人不快的,因此不可能对耳朵是舒缓的。我们需要常识知识来生成高质量的隐喻(文本或视觉)。例如,要生成一个明喻“有时命运就像一场小沙尘暴”,我们需要理解沙尘暴的常识属性(不断改变方向),以确保输出是有意义或能引起共鸣的,而非完全随意。为解决上述挑战,在论文的第一章,我们讨论了如何通过为模型配备隐性/常识知识来构建用于创造力的无监督/弱监督机器学习模型。特别地,我们展示了如何将来自外部源的常识知识注入预训练语言模型,以生成比喻性语言,如讽刺、明喻和隐喻。

当前的文本/图像生成方法需要大量训练数据进行监督。然而,由于招募熟练标注员的时间和成本,为创造性任务收集大规模语料库通常很困难。为应对上述挑战,在第二章,我们展示了人类专家如何与最先进模型协作,以扩展高质量数据集,而仅依靠众包工作者或专家收集这些数据集将变得具有挑战性。特别地,我们展示了专家如何与最先进模型协作,以扩展用于比喻性语言理解和可解释性的高质量基准。我们还利用当前大语言模型和文本到图像模型的能力,展示了专家如何与它们协作创建高质量视觉隐喻,这些隐喻常用于概念插图或平面设计。

LLM研究界提出了元基准,如BigBench(Srivastava et al. 2022)、GMMSK(Cobbe et al. 2021)、MMLU(Hendrycks et al. 2020)以标准化评估和基准测试。LLM的多方面潜力及其在这些基准测试上的表现令人兴奋,然而,它们倾向于通过用一个通常称为“通用”模型为各种应用提供动力来推动标准化。这些基准测试未能捕捉模型在现实的、以用户为中心的环境中的行为。为了衡量当前模型在以人为中心的环境中的进展,我们需要更好的评估方案来判断模型输出的质量以及模型作为评估者的质量。因此,开发支持模型与人类交互的创造性系统对其成功至关重要。创造力的一个基本挑战在于,没有标准的评估方案来评估生成模型输出的质量。这引发了对当前最先进模型对领域专家在创造力方面的有用性的质疑和进一步审视。为应对这一挑战,论文第三章侧重于通过结合计算机科学和设计的技术技能以及包括人文学科在内的其他学科,为独立或交互式设置下的创意写作构建稳健的、以人为中心的评估框架。在引言剩余部分,我将概述本论文,然后总结关键贡献。

图1.1:论文贡献

第二章通过总结自然语言处理的相关工作(该领域提出了各种创造性文本生成模型)和人机交互的相关工作(该领域展示了人类专家如何评估当前模型在独立和现实协作环境中的创造能力),为这项工作提供了相应的背景。

第三章介绍了通过利用无监督和弱监督的知识增强方法来应对自然发生的训练数据缺乏的问题,以生成比喻性语言,如讽刺、明喻和隐喻。这些方法的核心在于,用知识模型生成的常识知识来增强LLM。本章从讽刺生成的无监督方法开始,接着是生成明喻和隐喻的弱监督方法。本章最后对抗测试了最先进的语言模型如何在以比喻性表达(如习语或明喻)结尾的叙事上下文中自回归地生成文本。

第四章描述了人类专家和人工智能可以协作创建创造力基准的方式,否则仅依靠专家或更糟的是依靠众包工作者来扩展这些基准将变得繁重。本章首先描述了专家如何与LLM协作,为比喻性语言理解创建高质量数据,该任务被框定为识别文本蕴含任务(Dagan, Glickman, and Magnini 2005)。随后,我们讨论了专家如何与LLM和最先进的文本到图像模型协作生成高质量视觉隐喻。本章最后展示了我们如何通过基于人类反馈编辑这些模型生成的视觉隐喻来进一步改进它们。

第五章描述了如何在与专家参与的独立和协作环境中评估大语言模型的创造力。首先,我们描述了设计一个名为“托伦斯创意写作测试”的创意写作评估标准的过程。该评估方案稳健、有理论基础,可供领域专家用于区分优秀和平庸的创意写作。然后,我们讨论在一项与新晋作家进行的纵向研究中评估LLM创造能力的过程,其中他们使用基于写作认知过程模型(Flower and Hayes 1981)的界面,在AI辅助下编写故事。

第六章描述了新的研究方向未来走向,包括融入领域特定知识和社会文化规范的知识增强模型、通过使模型适应专家偏好来改进对齐、更好地理解人类如何在日常任务中使用LLM,以及设计稳健的评估方案来测试LLM的推理、稳健性和泛化能力。

成为VIP会员查看完整内容
24
Top
微信扫码咨询专知VIP会员