开发值得决策者信任的机器学习模型对于在实践中使用这些模型至关重要。算法透明性工具,如可解释性和不确定性估计,能够向决策者展示模型的可信度。在本论文中,我们首先探讨了从业者在工业界如何使用可解释性。通过一项访谈研究,我们发现,尽管工程师们越来越多地使用可解释性方法来测试开发过程中的模型行为,但这些方法在外部利益相关者中采用的情况却有限。为此,我们为特定决策环境开发了新颖的算法透明性方法,并通过人类主体实验与真实决策者一起测试这些方法。

我们首先提出DIVINE,一种基于示例的解释方法,它不仅找到对模型参数有影响的训练点,而且这些点在输入空间中具有多样性。我们展示了我们的解释如何提高决策者模拟模型决策边界的能力。接下来,我们讨论反事实潜在不确定性解释(CLUE),这是一种特征重要性解释方法,识别出如果扰动输入特征,将会减少模型在给定输入上的不确定性。我们展示了决策者如何使用我们的解释来识别模型在未见输入上的不确定性。 尽管每种方法本身都是成功的,我们更感兴趣的是,了解在决策者利用某种形式的决策支持后,结果在何种环境下会有所改善,无论是算法透明性还是模型预测。我们提出了学习决策支持策略的问题,该策略针对给定的输入,选择为没有先验信息的决策者提供何种形式的支持。利用随机上下文多臂强盗问题的技术,我们引入THREAD,一种在线算法,用于个性化每个决策者的决策支持策略。我们与真实用户一起部署THREAD,展示了在线学习个性化策略的过程,并说明了在实践中学习决策支持策略的细微差别。 我们以个性化决策支持的前景作为本论文的结论,这种支持形式可以包括基于决策者需求的算法透明性。

成为VIP会员查看完整内容
10

近年来,云计算技术快速发展,容器、微服务、边缘云、多云、分布式云等概念和模式不断出现,但已发布的云计算参考架构标准都未能体现。 同时已发布的标准中已有用户视图和功能视图较为抽象,未能体现新技术在云计算产业实现过程的特点和效果,对云计算新产品和解决方案研发的指引效果越来越弱,云计算相关行业用户、厂商以及第三方在使用该标准时,不利于厂商依据标准来实现云计算产品和解决方案,也不利于用户依据标准识别和选择云计算产品及解决方案。 结合云计算技术最新发展情况和我国云计算产业发展对标准的需求,对云计算参考架构标准进行修订,更新标准中的相关技术内容,同时增加能够指导技术开发的云计算实现视图,在实现视图中明确云计算产品和解决方案的实现技术路线和技术指标,可以更好地规范云计算产品及解决方案的开发、以及云计算服务的提供,引导下一代云计算高质量发展,满足新基建和企业数字化转型等对云计算基础设施的需求,支撑我国数字经济战略的落地。

本文件提出了云计算参考架构(CCRA),包括云计算角色、云计算活动、云计算功能实现、云计算功能组件、云计算实现能力、云计算部署实现以及它们之间的关系。 本文件适用于云计算相关产品的设计、开发以及测试。

成为VIP会员查看完整内容
12

文 / 孙凌云,潘越

摘 要:

本文介绍了大模型在设计领域带来的变革。首先探讨了大模型如何开启大知识,并分析了由此产生的新趋势;然后,从设计对象多样化和设计方法与模式变革两个角度,探讨了大模型带来的设计机遇与挑战,并分析了大模型时代下个体所需的新能力。 关键词:

人工智能;大模型;GPT 技术;设计

0 引言

2022 年 11 月,ChatGPT 将人工智能(AI)大模型带入了公众视野。其中,Chat 代表该产品采用聊天对话的交互形式,允许任何用户使用自然语言提出问题或表达需求;GPT 是 Generative Pre-trained Transformer的缩写,Transformer 技术作为大模型的标志性底层技术,由 Google 在 2017 年推出。ChatGPT 发布时基于 GPT-3.5 模型。2023 年 3 月,GPT-4 模型发布;同年 11 月,OpenAI 开放了 GPTs,使用户能够通过自然语言指令构建 GPT 应用。2024 年 1 月,GPT Store 正式上线。目前,OpenAI 已开放了 GPT-4V(视觉)、 Code Interpreter(代码)、DALLE-3(图像)、TTS(文本到语音)的 API(应用程序接口)。

2024 年,大模型的发展呈现出百家争鸣的局面,一方面,不同公司推出的通用基础大模型和行业大模型不断实现技术突破和能力更新;另一方面,将大模型技术转化为创新应用的探索,在不同产业和垂直领域中仍然热度不减。

随着大模型技术和生成式人工智能的爆发式发展,设计领域也经历了深刻的变革。设计对象变得更加多样化,设计方法和模式的变化推动了设计范式的结构性转变。这为设计领域带来了前所未有的机遇,使设计的角色和重要性更加突出,同时也产生了伴随转型的种种挑战。

在大模型的发展背景下,本文首先阐述了大模型技术如何开启大知识,带来了人机协作的新工作模式、智能物种的大爆发和科技进步加速的新趋势;接着,从设计对象和设计方法两个维度,介绍了大模型对设计领域带来的宏观变化;最后探讨了大模型时代对个体能力提出的新要求。

1 大模型开启大知识

1.1 大模型背后的大数据

ChatGPT 成为互联网历史上最快突破 1 亿月活跃用户的应用之一,这归功于其在上线之初就展现出的超越大众当时认知的自然语言理解、生成和交互能力。通过聊天机器人的界面,ChatGPT 展示了多种能力,包括建模历史对话、保持对话语境的连续对话能力;从复杂内容中提取关键信息、归纳总结主题和意义的抽象概括能力;理解人类指令意图、模拟相应角色的语言模式及潜在知识来生成回复、执行任务的角色扮演能力;拆解问题、逐步求解的逻辑推理能力;根据用户反馈优化答案的更正错误能力;以及根据用户指令与问题描述生成程序代码的代码生成能力等。与 ChatGPT 相比,升级版GPT-4 不仅在各项能力上取得了显著进步,还支持输入图像和文本,表现出强大的图像理解能力,实现了从单模态大模型到多模态大模型的突破。

ChatGPT 所展现的强大综合能力离不开其前所未有的训练数据规模。这是因为预训练的本质可认为是由大规模数据集驱动的规律发现与学习过程。从 GPT-1 到 GPT-3,训练数据量从 4.6 GB 增长到了753 GB。主要模型数据集中的维基百科数据集、书籍、杂志期刊、Github 代码等为大模型带来了丰富的客观知识、故事讲述与反应能力,以及语言生成的严谨性和逻辑推理能力。同时,从 GPT-1 到 GPT-3,模型参数量也从 1.17 亿增加到 1 750 亿。OpenAI 并未公布训练 ChatGPT 和 GPT-4 的数据集来源和规模,但我们不难想象它们在数据模态和量级上的进一步突破。

在生成式人工智能领域,另一个代表性模型是由 Stability AI 于 2022 年 8 月发布的文本生成图像模型 Stable Diffusion。Stable Diffusion 能够根据用户提供的文本生成高质量的图像,其能力突破同样得益于背后数十亿训练图像数据的支持。

1.2 大模型开启大知识

海量训练数据使得大模型实现“读书破万卷,下笔如有神”。除了前文提及的能力突破之外,我们认为大模型的另一大贡献还在于大模型开启了大知识。本文将大模型开启大知识的主要特征归纳为三点——庞大的知识空间、知识表示和调用方式的更新,以及知识空间的可扩展性与大模型能力的可延伸性。

(1)庞大的知识空间 通过学习大量的人类知识,大模型形成的知识空间在规模上超越了任何单一个体。例如,以ChatGPT 为代表的大语言模型(large language model,LLM)通过对人类自然语言知识空间的大量语料进行学习,发展出了近似人类水平的自然语言理解与生成能力,并积累了丰富的世界知识。自然语言一直是记录和传递人类知识的主要方式之一,大量的人类知识通过自然语言这种形式化的手段得到了传承和发扬。然而,自然语言并非承载和表达知识的唯一手段,通过语言和文字传递的知识只是人类集体知识的一部分,还有人类心智模型、经验知识等难以用特定形式精确表述的隐性知识。对于语音、视觉、红外、3D 点云等多模态信息,现有的视觉大模型和多模态大模型已展现出一定的处理能力。随着全体人类知识的扩展和人工智能技术的发展,大模型的知识空间将愈发庞大。

2)知识表示和调用方式的更新 ChatGPT 等大模型的能力突破,使得自然语言成为新的“知识表示和调用方式”,允许任何用户使用自然语言来提出问题和表达需求。与互联网中通过搜索引擎使用关键词进行信息检索的方式相比,这种获取知识的方式更加自然。通过使用自然语言与大模型进行交互,每个个体的智慧得以与大模型的知识空间相互碰撞和激发。这种知识表示和调用方式的更新,为人类文明积累的海量知识打开了新的窗口。另一方面,在多模态大模型中,自然语言也将成为通用接口,使用户能够更直观、易用地控制和编辑大模型的内容生成。

(3)知识空间的可扩展性和大模型能力的可延伸性 一方面,大模型内部的知识空间会随着版本的更新得到扩充和更新。另一方面,可以将现有的各类基础大模型作为基座,通过引入和融合外部知识库,实现大模型知识空间与外部知识库的协同。在特定领域的模型应用方面,利用专业知识库对通用领域的预训练大模型进行相应领域的知识微调适配,将催生出越来越多适用于不同场景和领域的大模型创新应用。

1.3 通用人工智能的火花

2023 年 3 月,GPT-4 发布,其在多个领域的表 现接近人类水平,被视为通用人工智能(artificial general intelligence,AGI)的早期(但是仍不完整的)版本。同年 4 月,中共中央政治局会议首次提出重视通用人工智能的发展。2023 年 11 月,Google DeepMind 团队提出评估通用人工智能的六个关键原则,并进一步得到了 人工智能的系统分类方法,包括: ●Level 0(无人工智能) ●Level 1(涌现,相当于或略优于未受专门训练的普通人) ● Level 2 (胜任,至少达到熟练成年人的 50%水平) ● Level 3(专家,至少达到熟练成年人的 90%水平) ● Level 4(大师,至少达到熟练成年人的 99%水平) ● Level 5(超人,超越所有人类的表现)

在此基础上,研究人员对现有人工智能系统进行了评估。其中,ChatGPT、Llama 2、Gemini 尚处于 Level 1(涌现)阶段。

2024 年 2 月,OpenAI 推出了文生视频大模型Sora。其在视频生成领域的能力突破,再次引发了外界的广泛讨论。同年 3 月,Anthropic 发布了 Claude 3系列大模型,性能超越 GPT-4。随着大模型不断发展,其对包括设计领域在内的各领域影响日益增大。

2 大知识带来的新趋势

大模型开启“大知识”。以此为特征的大模型能力突破将在各个领域引发新的变化,本文将主要趋势概括如下。

2.1 人机协作的新工作模式

过去在讨论人机关系多元化时,人们常常根据计算机人工智能技术的局限性来界定人与计算机的关系。例如,在设计领域,设计师与人工智能的关系可能被分类为主仆关系、助理角色、师生关系或合伙人角色等。然而,随着大模型的兴起,人工智能在人机协作中的角色和作用变得更加显著,催生了人机协作的新工作模式。这种模式有望大幅提升生产效率,并降低运营成本。

举例而言,设计师可以利用文生图大模型来优化涉及图像生成的工作流程。一些设计师在 Stable Diffusion 的用户界面 ComfyUI 中结合 LCM 模型(latent consistency models)来完成故事板的绘制任务,通过简单操作就能让人工智能快速生成分辨率达标、符合故事板需求的图像。在建筑设计方面,设计师绘制线稿草图后,大模型可以基于这些线稿实时生成多组潜在的建筑效果图,使设计师能够更动态及时地对设计进行调整。此外,设计师还可以利用大模型的庞大知识库来获取知识支持、灵感启发和技术支持,以逐步完成涉及大量知识的设计任务。例如,有团队通过与大型模型逐步对话,一步步明确设计概念和设计空间,并最终细化到包括软件、材料选择、结构设计和制造方法在内的技术设计规范,从而完成了番茄采摘机器人的设计。

2.2 智能物种大爆发

如前文所述,经过特定领域的知识微调适配后,大模型将催生越来越多的垂直领域创新应用。这已经在教育、科研、编程、商业、设计等领域带来了许多更新、更智能的应用与服务,并且将带来更多可能性,迎来智能物种的大爆发。 一方面,由人工智能驱动的新形态产品、应用和服务将不断出现,更好地满足不同用户的需求。例如,智能代理(AI Agent)近来愈发受到关注,它能理解用户的指令,并在多变的环境中自主有效地完成任务。在人工智能硬件新物种方面,2023 年11 月发布的 AI pin 和 2024 年 1 月发布的 Rabbit R1 展示了人工智能实体化的初步形态。

另一方面,现有(成熟)产品或物种在大模型的驱动下,将展现全新的面貌。例如,“智能手机” 开始向“AI 手机”转型,“个人计算机”向“AI PC”转型。各大厂商正意欲通过人工智能重新设计手机和 PC 的体验。在稍远离日常生活的领域,人形机器人也在经历变革。2023 年 11 月,工信部印发《人形机器人创新发展指导意见》,提出人形机器人集成人工智能、高端制造、新材料等先进技术,有望成为继计算机、智能手机、新能源汽车后的颠覆性产品,将深刻变革人类生产生活方式,重塑全球产业发展格局。人形机器人的研发是一个软硬件一体的过程,大模型相当于为机器人提供了“大脑”,提升了机器人的通用能力、学习能力,进而增强了其环境感知、行为控制、人机交互等能力。随着人形机器人技术的加速发展,它们能更好地在与真实世界的交互中收集人类数据,利用大模型处理数据,并利用数据继续训练人工智能。这被认为是推动通用人工智能研究的一种可能途径。图 1 示出了大模型垂直领域创新的一些应用。

图 1 大模型垂直领域创新应用举例

2.3 科技进步加速

AI for Science,即“人工智能驱动的科学研究”,是由鄂维南院士在 2018 年提出的科学研究新范式。

这一范式强调利用人工智能技术解决科学研究中的数据分析等难题,借助机器学习在高维问题上的表示能力,刻画复杂系统的机理,创造科学模型,从而更高效、更具实用性地解决实际问题。结合以大模型为代表的新一代人工智能技术的能力飞跃,这一范式将进一步加速科技进步。具体而言,在大模型出现之前,从理论研究到产品的落地转换通常需要 20 余年。而在 AI for Science 的驱动下,这一周期可以缩短至 5 年左右。

未来学家 Peter Diamandis 曾在 2020 年预测,未来 10 年人们经历的科技进步将超过过去 100 年的总和,每个行业都将得到重塑。麦肯锡在 2021 年的技术趋势报告中指出,包括应用人工智能在内多个领域的技术储备已处于爆发的前夜,它们将重塑健康与材料科学、能源、交通等众多行业和领域。在2024 年,人们已经切身体会到过去几年科技飞速发展带来的效应,尤其是在人工智能应用广泛的领域。

设计的核心任务之一是将各种前沿科技进展转化为实际产品。如果未来 10 年的科技进步将超越过去 100 年的总和,那么未来 10 年甚至更短时间内的设计创新也将超过之前 100 年的总和。这将为设计领域带来巨大的空间和机会。

3 设计领域变革

随着人工智能技术的飞速发展,设计的边界不断拓宽,成为与人工智能、大数据、云计算等前沿技术深度融合的领域及跨学科实践载体。在ChatGPT 推出前,关于智能时代的设计的讨论已经呈现出日益广泛的趋势。2022 年 8 月,浙江大学与阿里巴巴联合发布的《产业数智化设计白皮书》指出,我国创新设计正在全面从以“计算机辅助设计” 为代表的“数字化”时代,迈入“数智化”时代。数智化技术已渗入设计活动各个阶段,在设计资产逐步数智化的同时,数智化设计已展现出比传统设计更卓越的能力。白皮书将洞察力、敏捷力、协同力视为数智化设计的特征能力。随着大模型开启“大知识”,设计领域正在经历新的变化。本文将从设计对象和设计方法这两个宏观层面出发,介绍大模型带来的设计领域变革。

3.1 设计对象多样化

下面将从人工智能技术作为设计对象的能力变化、大模型带来的交互逻辑更新,以及智能物种的爆发趋势三个方面来探讨大模型带来的设计对象多样化。

(1)人工智能作为设计对象和材料的能力突破与多样发展 人工智能的能力从低于人类逐渐向接近人类、高于人类发展。ChatGPT 发布后,人工智能领域的相关进展似乎也被按下了加速键。2023 年 3 月, Google 发布了具身化多模态语言大模型 PalM-E,它将机器人任务和视觉语言任务通过一个共同的表示形式组合在一起,实现了对不同模态(状态和 / 或图像)的多模态语言建模处理。同年 4 月,Meta 发布了 Segment Anything Model(SAM),能够自动分割图像中的所有物体,或是根据提示词分割相应物体,是计算机视觉和图像领域的重大突破。人工智能技术的能力突破与多样发展,丰富了设计对象的种类,将在不同领域催生设计创新,进而推动行业重塑。

(2)大模型交互方式和交互界面成为新设计对象 目前,数字产品普遍配备图形用户界面(graphical user interface,GUI)。用户通过鼠标、键盘、屏幕等与图形界面进行交互。ChatGPT 以对话机器人的形式,发展为生产力工具,显示出对话式用户界面(conversational user interface,CUI)和语言用户界面(Language user interface,LUI)在大模型赋能下的巨大潜力。一方面,大模型本身,以及由大模型驱动的创新数字应用的交互方式和交互界面成为新设计对象。另一方面,在大模型驱动下,数字空间、物理世界、人类空间的三元空间将更加融合。各行各业的产品的交互逻辑迎来了优化重塑的巨大空间。在包括虚拟现实、增强现实、混合现实、空间计算在内的虚实融合的用户体验中,自然用户界面(natural user interface,NUI)的交互逻辑、交互方式和界面设计也成为设计领域的新方向和设计对象。

(3)智能物种大爆发带来设计机会大爆发 如前文所述,大模型将带来智能物种爆发与科技进步加速。这为设计领域带来了巨大的空间和机遇,因为设计既承担着将各种前沿科技进展转化为实际产品的重要任务,也扮演着为新技术带来的新挑战提供新方案的关键角色。智能物种在丰富人们的体验,拓宽人们的想象边界的同时,也不可避免地会引发用户在接受新习惯与保持固有习惯之间的矛盾、技术适应等摩擦,这也将成为未来设计的新议题和新对象。

3.2 设计方法与模式变革

大模型将重塑所有设计方法与工具,在降低设计行业门槛的同时,也提升了设计的天花板。本文将这背后的设计方法与模式变化归纳为以下三点。

(1)大模型开启大知识,为设计过程提供系统化的知识支持 一方面,从头脑风暴、需求挖掘、文案处理到用户调研,大模型的知识空间、自然语言能力和多模态信息处理能力将为设计中的各环节提供支持。例如,用户画像常应用于用户需求分析。近年来,使用人工智能处理用户数据的自动化用户画像生成(automatic persona generation,APG)方法,已经在产品市场营销和企业推广等活动中得到应用。在大模型的支持下,APG 方法将更高效地从大量的用户数据中提取、融合有效信息,更精准地生成用户画像。另外,在概念创新设计的早期阶段,人类设计师可以利用大模型能力驱动的智能设计工具,通过引入外部知识,获得灵感激发,防止设计固化现象。此外,在前文曾提及的番茄采摘机器人的设计中,大模型则为从产品意义梳理、设计空间定义到原型设计的全流程提供了全面的知识支持和技术指导。

另一方面,以往设计师需要特定的设计工具来支持特定的设计任务,而随着 OpenAI 推出 GPTs,用户可以根据当下的需求和偏好来定制服务于特定任务的智能代理。在定制页面里,用简单的自然语言,比如“我要生成用于产品趋势分析的 GPT”,在系统的引导下逐步明确需求和风格,就可以生成胜任特定任务的 GPT。在 GPTs 刚发布时,就有人用不到 1 min 的时间创建了一个名为 Trend Analyzer的 GPT,它可以在 90 s 内为用户联网查找目标产品类别的最新趋势,并为其创建原型图片。这种形式为融合大模型知识空间、用户需求与外部知识提供了一条低门槛的路径,也能更便捷地为设计师在设计过程中提供支持。

(2)图像生成能力的提高,加速创意内容生产文生图大模型产品在图像生成方面取得了显著进步,能够用于素材生成、灵感激发和直接出图。这些产品的图像生成能力飞跃,重塑了设计过程中对专业技能要求最高、常常最为繁琐且耗时最长的环节,如画图、建模、渲染和效果图加工等。此外,图生图、图片融合等功能对于现有图片的创意加工、创意设计的灵感激发,以及组合创新的效果探索也作出了重要贡献。

目前,文生图大模型产品在可控性方面存在不足。例如,该领域的代表性产品 Midjourney 通过特定关键词、垫图、seed 值来调控固定模型,其可控性相对较弱。而另一代表性模型 Stable Diffusion,由于其开源属性,拥有更多的插件和模型,图片生成的可控性更强。2023 年初,ControlNet 技术作为Stable Diffusion 的一个重要控制组件问世,它赋予了文生图工具根据多种条件对单张图片进行细粒度受控变换的能力,从而提高了人工智能出图的可控性。

(3)设计范式将发生结构性变化 大模型赋能的设计工具不仅具备洞察力、敏捷力和协同力,而且还发展出了想象力和创造力。以 Adobe Sensei 和 Adobe Firefly 为 例,Adobe Sensei于 2016 年发布,提供了数据洞察、自动化任务和个性化体验等功能,以增强和简化工作流程。而Adobe Firefly 于 2023 年 3 月发布,并于同年 9 月正式商用。它专注于通过生成式人工智能释放创造力,提供包括设计元素生成、布局创建和风格应用等功能,支持设计师的创意探索,加速设计工作流程。在新智能工具成为主流的同时,设计师常用的主流工具也正在变得更加智能。

随着人与智能工具进行人机协作的工作模式成为主流,设计团队与设计价值链的变化将被催化。行业的门槛降低和生产效率的提高将导致设计团队的构成变化和角色调整。设计流程的各个环节效率的提升,以及壁垒环节的消除,使设计价值链的逻辑发生改变。以 2023 年春季在小红书上走红的“小绿裙”为例,相关博主在小红书上使用人工智能绘画制作女生头像,她的专业背景与服装设计并无直接关联。“小绿裙”并非博主生成图像时的意图,却意外在小红书上获得了极高的人气。在用户驱动下,这款裙子被商家打版生产并销售。这种由用户利用工具生成设计图,再由用户推动生产制造的C2M(customer-to-manufacturer)模式,正在迅速改变传统的电商逻辑。

智能时代的设计范式的特征之一是难以框定清晰的边界,这是因为随着技术的发展,设计方法与模式的变化时刻在发生,使得人们难以捕捉到精确的时间点来标记、描述和锁定特定的范式。然而,可以肯定的是,我们正在见证设计领域前所未有的变革。数智化设计在洞察力、敏捷力和协同力得到提升的同时,正表现出强大的想象力和创造力。这种不断变化的设计将在未来扮演更加重要的角色。

4 结语:大模型时代的个人能力重塑

本文介绍了在大模型背景下,大模型如何开启 “大知识”,以及由此产生的新趋势。在设计领域变革方面,从设计对象和设计方法两个层面出发,探讨了人工智能技术能力的演变、大模型的交互逻辑、智能物种的爆发趋势如何带来设计对象的多样化,大知识和知识智能载体如何为设计提供知识支持,多模态大模型如何加速内容创意生产,以及设计价值链的调整等设计方法与范式的变化。

大模型正不可阻挡地重塑设计领域的各个方面,这对所有利益相关者的个体能力提出了新的要求。首先,设计师、设计研究者、设计专业学生等群体需要从观念和行动上突破惯性思维,从建立基本的人工智能意识开始,积极拥抱和使用前沿智能工具,将这些工具融入个人或组织的工作流程中。在积极应用这些工具的过程中,与人工智能共同成长,实现自身能力的重构和提升。然而,在发挥技术优势的同时,也要认识到技术的边界和局限性。例如,大模型可能会产生“幻觉”,即看似正确的生成结果中可能包含虚假信息和错误信息。其次,个体应当掌握如何有效调用知识的能力,重视围绕知识的方法论和系统论。随着自然语言成为一种有效调用知识的新方式,个体应更加关注并理解知识的产生过程和原理,并在此基础上,通过深入学习提示词工程等方法,更好地利用 GPT 来调用知识。最后,学会在模糊和不确定性中找到方向。在快速变化的世界中,不仅要学会驾驭模糊的能力,还要具备正确的价值观和积极的人格特质,坚定地为推动领域进步和人类文明的发展做出贡献。

(参考文献略)

孙凌云

CAAI 智能创意与数字艺术专委会主任,浙江大学国际设计研究院院长、计算机科学与技术学院副院长,教授。研究利用人工智能赋能设计行业,提出人工智能时代下的设计范式,应用于数字创意、智能硬件设计等领域。

潘越

浙江大学计算机科学与技术学院设计学博士后。主要研究方向为设计科学与创新工程。

选自《中国人工智能学会通讯》 2024年第14卷第4期 智能创意与数字艺术专题

扫描加入我们 获取更多学会资源

成为VIP会员查看完整内容
9

[北邮浙大南洋理工四川电信CVPR 2024论文] 视频异常事件因果关系理解数据集、评价基准和多模态大模型 基本信息 标题:Uncovering What, Why and How: A Comprehensive Benchmark for Causation Understanding of Video Anomaly 作者:Hang Du, Sicheng Zhang, Binzhu Xie, Guoshun Nan*, Hehe Fan, Sicong Leng, Daqiu Huang, Jing Feng, Linli Chen, Qimei Cui, Xiaofen Tao et al. 作者所在机构:北邮、浙大、四川电信、南洋理工 发表会议:计算机视觉国际顶级会议CVPR 简介:该论文构建了面向多模态大语言模型的视频异常事件检测及因果描述的数据集和测试基准,提出一种基于提示词的视频多模态大模型微调方法,该成果为首个面向视频大语言模型异常事件理解的测试基准,所设计的微调方法可以在几乎所有多模态开源大模型中应用,如Video-ChatGPT、Video-LLaMA等,可以将这些开源视频模型的异常事件理解性能指标平均提升15%以上,论文、代码以及测试基准已开源。 论文链接:https://arxiv.org/pdf/2405.00181 代码及数据集:https://github.com/fesvhtr/CUVA 研究背景 异常代表了偏离规范、违背预期和偏离常规条件的事件或情景,其典型特征表现为独特性、突发性或罕见性,因此往往需要对其进行特殊的关注或干预。现有的UAV基准和方法主要集中于上述异常检测和异常定位任务,但这些异常事件发生的根本原因和可能造成的相应后果,在很大程度上仍然有待我们探索,它们对我们感知异常并基于人类感知解释做出相关决定发挥着至关重要的作用。如图1展示了一个涉及多车辆的交通事故场景——“事故的发生是因为一辆白色轿车停在路边,而一辆深灰色轿车高速行驶时突然转向与旁边的黑色轿车发生了追尾。”

图 1 视频异常的因果关系解释

要理解这场事故发生的原因,有以下两个挑战:1)捕捉长视频中的关键线索:事故发生在视频第7秒的帧D时刻,而模型需要识别出事故发生前帧B时刻的白色轿车。捕捉此类远距离相关性对于模型来说是一个挑战。2)建立因果关系的逻辑链:为了建立异常因果关系的逻辑链,模型还需要进一步学习帧B、C、D中包含的丰富相互作用,以便生成解释和结果。上述两种挑战促使我们设计一种专门针对视频异常以上特点的因果关系理解方法。

那么对于这两种挑战,以往的VAU基准存在哪些局限性呢?我们发现,虽然以往的VAU基准利用大规模、高质量、挑战性基准可以较好地发展和评估最先进的深度学习VAU方法,但在更加实际的现实应用场景,它们普遍存在以下三种局限性:1)缺乏因果关系解释:现有的注释方法只包含异常发生的时期,而不包括对原因和后果的解释,也不包括对目标异常对描述。2)缺乏合适的评估指标:BLEU和ROUGE分数通常被用来评估视频异常的文本解释/描述,但它们是专门针对文本模态的,并不适合用于评估涉及多种模态的VAU任务。3)对视频长度的限制:在现实世界场景中,很多视频超过了1.5分钟,然而现在的VAU方法通常只针对少于30秒的视频,大大简化了VAU存在的现实挑战。

针对以上局限性,我们提出了一个全面的视频异常因果理解基准CUVA,包含1000个对真实世界视频的高质量注释,其中涵盖10个主要异常类型和42个子类型,每个类型平均包含一个117秒的视频以及覆盖4.3个句子的65.7个token。具体来说,我们手动编写自由文本注释来详细说明异常发生的原因和相应效果、对这些事件的描述以及它们之间对关系。此外,我们还提出了一种全新的评估指标MMEval来评估CUVA基准上各种方法的性能,并进一步提出了一种全新的基于prompt的多模态大模型VLM。实验结果表明我们提出的评估指标和相应方法的先进性。综上所述,此工作的主要贡献可以概括为以下几点:

l我们提出了CUVA,一个全新的因果关系理解基准。据我们所致,CUVA是第一个专注于视频异常因果关系的大规模基准。与以往的数据集相比,我们提出的数据集对于更高质量的注释表现得更加全面并更具挑战性。 l我们提出了一个全新的性能指标,以人类感知角度评估CUVA;还介绍了一个基于prompt的方法来捕捉异常关键线索并建立因果关系逻辑链。 l我们对所提出的CUVA进行了广泛的实验,实验结果表明CUVA能够帮助我们开发和评估各种VLM方法,用于理解现实世界场景中各种视频异常的因果关系。 CUVA基准 下面我们将介绍一些CUVA子任务,并展示我们是如何收集和注释数据的。我们也会给出一些对于基准的定量分析。CUVA基准的概览图如图2所示,与现有数据集的对比如表1所示。

图 2 CUVA基准概览图

表 1 所提出的CUVA与现有数据集的对比

(一)任务定义 发生了什么异常:这个任务包含两个目标,分别是异常分类和异常描述。异常分类包含视频中发生的各种异常类型,类型取自于我们数据库中预先定义的异常种类;异常时刻描述包括异常发生的时间戳以及一段对于异常事件的详细描述。 为什么发生这个异常:这个任务旨在描述视频中包含的异常因果关系。异常原因描述的是视频中各种异常现象发生的原因,这就需要模型基于视频内容对异常原因进行推理并用自然语言进行描述,考验模型对理解和推理能力;异常结果描述了视频中异常事件早场对后果,主要考验模型对于异常事件细节的处理能力。 这个异常的严重程度:这个任务的目的是反应视频中异常严重程度的变化趋势,因此我们提出了一个叫做重要性曲线的注释方法,细节如图3所示。这个方法包含以下三个优势:1)提供了视频中异常严重程度的时间变化的直观表示;2)提供了视频各异常事件之间存在的内在因果关系更加直观的描述;3)这种方法使我们能够在同一个框架下统一各种视频时间基础标记和任务(如时刻检索、亮点检测、视频摘要)。

图 3 重要性曲线生成方法

注释者同时考虑之前的任务(如逻辑描述、时刻描述)和视频内容,生成3~6句对视频中所有事件的简短描述。我们通过ChatGPT对这些句子所描述的异常严重性进行排名并获得异常分数。同时我们采样视频帧并使用CLIP来测量句子和帧之间的相似性,由此产生的相似性分数与每个句子的异常分数相乘,即获得每帧的重要性数值。 (二)数据集收集 我们从Bilibili和YouTube等知名视频平台抓取数据,并从中去掉了涉及色情、政治等敏感主题的视频。在整个数据收集过程中,我们对每个类别视频的数量和质量进行了全面分析,最终筛选出了11个类别的异常视频。这些视频被分为11个主要类别,如抢劫、交通事故和火灾。而每个主要类别又进一步细分为子类别,例如我们将火灾类别划分为商业建筑火灾、森林火灾、工厂火灾和住宅火灾这些子类别。按照这种方式,我们总共得到了42个子类别。CUVA数据集的相关统计数据如图4所示。 (三)注释生成方法 我们的注释生成方法包括三个阶段:预处理、人工注释和重要性曲线处理。整个过程需要超过20个注释者花费约150个小时。 预处理:我们首先从Bilibili和YouTube爬取视频数据,然后对收集到的视频进行分割来保证视频内容的质量,并通过人工筛选去掉违背道德的内容以及敏感信息。在整个数据集收集和注释过程中,我们严格遵守网站道德要求,最终得到1000个异常视频片段。 人工注释:我们根据设计的注释文档对视频进行英文注释,注释分为两轮。我们采用了类似kappa的机制对注释者进行筛选和培训,以确保注释内容的一致性。在第一轮中,我们要求注释者根据任务定义对所有视频进行注释,在第二轮中我们要求这些注释者对第一轮的注释结果进行回顾和补充。 重要性曲线后处理:由于CLIP模型能力和采样间隔的局限性,初始曲线可能无法准确地反映异常的时间周期,从而显著影响下游任务的有效性。因此,我们通过以下三个任务来优化重要曲线——视频字幕、视频附件和视频基准。基于这些任务,我们采用了投票机制来精确确定与给定关键句对应的视频时间段。

图 4 CUVA数据集的统计数据 我们的CUVA数据集包含1000个视频片段和6000个问答对,视频的总长度为32.46小时,平均帧数为3345,我们以60 FPS的速度从原始视频中提取帧。这些视频涵盖了广泛的领域。然后我们将异常事件归类为11种场景,从而得出总共42种异常类型,如图4 (a)所示。视频类别的分布如图4 (b)和4 (c) 所示,视频长度的分布如图4 (d) 所示,图4 (e)则展示了随着视频异常时间段的时间分布。 提出的方法:Anomaly Guardian 下面我们将介绍一种基于prompy的多模态大模型A-Guardian,这种方法可以解决我们的CUVA数据集提出两个挑战。我们利用VLM的逻辑推理能力来建立因果关系逻辑链。为了有效地捕获长视频的关键线索,我们提出了一种prompt机制来引导VLM更加专注于视频中与问题相关的关键线索。 (一)Hard Prompt设计 我们使用ChatGPT协助确认和补充用户提示,使VLM更好地理解用户的意图。具体而言,我们首先利用一个包含例子的指令提示来纠正错误指导并规范输出格式。由于长视频中包含了大量事件,我们采用了一种多轮对话机制来帮助VLM识别视频中与异常相关的事件。经过多轮对话,VLM可以更加专注于与异常有关的片段,进而给出更加准确的答案。 (二)Soft Prompt设计 我们使用MIST中的选择器来捕捉与问题相关的时空特征,原理如下。我们首先将视频划分为K个片段来统一长度,每个片段又由T帧组成。为了更好地捕捉不同视觉粒度下的关系,我们将每帧又划分为N个块。划分好后,我们利用[CLS] token来代表每个片段和帧。 l我们使用CLIP模型来提取块级别的特征

,其中

为块级别的特征。 l对块级别的特征进行空间池化来获得帧级别特征 ,其中 表示第k个片段中第t帧的第n块。 l对帧级别的特征进行时间池化来获得段级别特征 。 l相似地,我们也通过池化单词特征来获得问题特征 。 经过以上处理后,我们通过MIST的跨模态的时间注意力机制和top-k选择器选出top k个段特征 。 (三)答案预测 最后,我们将hard prompt和soft prompt连接起来送到VLM中进行推理。在训练阶段,我们采用GPT生成候选答案和数据增强。我们仅通过优化softmax交叉熵损失来微调选择器,将预测的相似性得分与基本事实对齐。

图 5 基于prompt的多模态大模型A-Guardian架构图 实验结果 (一)我们提出的MMEval评估指标 考虑到我们的数据集广泛采用自然语言来描述异常事件及其因果关系,以及CUVA是一个多模态数据集(包含视频、文本和附加的评论),这就需要我们从仅针对自然语言的度量转换为对多模态输入信息的度量。因此,我们引入一个全新的评估指标MMEval,原理如图6所示。

图 6 MMEval评价指标概览图 为了从多模态和人类理解角度评估模型性能,我们选择Video-ChatGPT作为我们的基础模型,并利用自然语言prompt来引导MMEval指定评估任务类型。为了强化模型的鲁棒性,我们还使用曲线标签来帮助VLM更加专注与异常相关的片段,即通过设置阈值来提取曲线中的重要事件周期并对对应的视频段进行密集采样。我们的MMEval评价指标可用于评分、排名和提供原理解释。 (二)MMEval一致性评估 我们的MMEval指标可以更好地与人类对视频异常因果理解的偏好进行对齐。为了验证MMEval与人类判断的一致性,我们实施了人类一致性实验。使用来自第一轮注释、第二轮注释和GPT生成的答案作为基本事实。我们使用各种评估指标和人类感知对这些答案进行排名,结果如表1所示。

表 2 人类一致性评估

(三)对Anomaly Guardian的定量评估 我们提出对A-Guardian模型可以在描述和原因任务上都达到最先进的表现。我们在我们数据集包含的所有任务上实施了实验,实验结果如表2所示。对于自由文本任务(如原因、后果、描述),我们利用不同评估指标对多种VLM模型和我们的模型进行评估,A-Guardian的性能始终优于大多数模型。

表 3 在CUVA上的主要实验结果

对于其他任务(如检测、分类、时间戳),我们设置统一的prompt并使用字符串匹配从VLM推理结果中提取与问题相关的答案。如表3所示为这些任务上的实验结果。

表 4 在CUVA上其他任务的实验结果

(四)消融实验 Hard prompt和soft prompt都显著提高了VLM对视频因果关系的理解。如表4所示,hard prompt的设计比soft prompt的设计实现了更大的改进,表明hard promot在揭示VLM的推理能力方面比soft prompt更直观有效。

表 5 消融实验

(五)实例分析 如图7所示,我们展示了Otter、Video-ChatGPT和加入A-Guardian的Video-ChatGPT模型对异常现象提供的不同答案。可以看到,Video-ChatGPT提供的描述一般是正确的,但并没有着重描述异常事件部分。而A-Guardian的加入使得模型的描述更加准确——特别强调盗窃是一个异常事件,并对其提供了更详细的描述。 另外,Otter和Video-ChatGPT明明提供了完全不同的描述,但传统的度量标准却对它们给出了相似的评估结果。而MMEval具有多模态评估能力,能够识别出视频中与异常事件相关的片段,进而给出与人类理解高度一致的评估结论。

图 7 实例分析

(六)结果讨论 通过实验,我们得出了以下结论:1)对于自由文本任务,大多数VLM模型在异常描述方面表现出色,但在因果分析方面表现不佳。这是因为描述任务只需要VLM对视频内容进行理解,而因果分析需要VLM对视频内容进行处理,考验VLM的因果逻辑推理能力。2)时间戳定位任务是挑战最大的。由于视频帧之间的时间和空间关系相对简单,VLM在时间戳定位等细粒度任务中表现较差,而在异常检测和分类等粗粒度任务中表现较好。3)传统的评估指标对视频异常相关任务的评估效果较差,而MMEval则能够产生更准确的评估结果。 结论 本文介绍了CUVA,一个对于视频异常因果理解的全新基准,据我们所知为该领域的第一个基准。与现有的数据集相比,CUVA更能满足用户需求,提供更加全面、高质量的注释。我们相信CUVA将促进各种下游任务如异常检测、异常预测、异常推理等的发展。我们还提出了MMEval评估指标,更好地实现与人类理解的对齐。此外,我们还提出了一种基于prompt的多模态大模型A-Guardian,可以作为CUVA上的基线方法来捕捉异常关键线索并建立因果关系逻辑链。实验结果表明,CUVA能够帮助我们发展和评估各种VLM方法。在未来,我们计划将CUVA应用到更实际的场景中,用于异常理解和其他基于VLM的任务。

成为VIP会员查看完整内容
7

深度学习在许多领域中表现出了显著的成功,包括计算机视觉、自然语言处理和强化学习。这些领域中的代表性人工神经网络包括卷积神经网络、Transformers 和深度 Q 网络。在单模态神经网络的基础上,引入了许多多模态模型以解决视觉问答、图像描述和语音识别等一系列任务。具身智能中遵循指令的机器人策略的兴起推动了被称为视觉-语言-动作模型(VLA)的新型多模态模型的发展。它们的多模态能力已经成为机器人学习中的基础要素。为了增强多样性、灵活性和泛化性等特性,提出了各种方法。一些模型通过预训练来优化特定组件,另一些则旨在开发能够预测低级动作的控制策略。某些VLA模型作为高级任务规划器,能够将长远任务分解为可执行的子任务。在过去几年中,出现了大量的VLA模型,反映了具身智能的快速进展。因此,通过一篇全面的综述来捕捉这一不断发展的领域是至关重要的。

视觉-语言-动作模型(VLA)代表了一类旨在处理多模态输入的模型,结合了视觉、语言和动作模态的信息。该术语最近由RT-2 [36]提出。VLA模型被开发用于解决具身智能中的指令跟随任务。与以ChatGPT [62]为代表的对话式AI等其他形式的AI不同,具身智能需要控制物理实体并与环境互动。机器人是具身智能最突出的领域。在语言条件的机器人任务中,策略必须具备理解语言指令、视觉感知环境并生成适当动作的能力,这就需要VLA的多模态能力。相比于早期的深度强化学习方法,基于VLA的策略在复杂环境中表现出更优越的多样性、灵活性和泛化性。这使得VLA不仅适用于像工厂这样的受控环境,还适用于日常任务,如烹饪和房间清洁 [33]。 深度学习的早期发展主要由单模态模型组成。在计算机视觉(CV)领域,AlexNet [63]展示了人工神经网络(ANNs) [64]的潜力。循环神经网络(RNNs) [65]为许多自然语言处理(NLP)模型奠定了基础,但近年来,Transformers [66]逐渐占据了主导地位。深度Q网络证明了ANNs能够成功解决强化学习问题。借助于各个机器学习领域单模态模型的进步,多模态模型已经演变得足够强大,可以应对各种任务 [67],如视觉问答、图像描述和语音识别等。 基于强化学习的传统机器人策略主要集中在受控环境中的有限任务集,如工厂和实验室。例如,[68]训练了一个专门用于抓取物品的策略。然而,对于更具多样性的多任务策略的需求正在增长,类似于最近在大型语言模型(LLMs) [62], [69]和视觉-语言模型(VLMs) [70]中的发展。开发多任务策略更具挑战性,因为它需要学习更广泛的技能并适应动态和不确定的环境。此外,任务规范增加了另一个层次的复杂性。一些方法使用单热向量来选择任务 [71],但它们受限于训练集中任务的数量。 基于预训练视觉基础模型、大型语言模型(LLMs)和视觉-语言模型(VLMs)的成功,视觉-语言-动作模型已经证明其在应对这些挑战方面的能力。来自最新视觉编码器的预训练视觉表示帮助VLA在感知复杂环境时提供更精确的估计,如物体类别、物体姿态和物体几何形状。随着语言模型 [36], [69]能力的增强,基于语言指令的任务规范成为可能。基础VLMs探索了将视觉模型和语言模型整合的多种方式,包括BLIP-2 [72], Flamingo [70]等。这些不同领域的创新赋予了VLA解决具身智能挑战的能力。 不同的VLA在重点方面有所不同,如图1所示的分类法所描述。一些VLA通过为机器人任务专门设计的预训练任务来增强其预训练的视觉表示,主要集中在获取改进的视觉编码器。同时,大量工作致力于机器人控制策略。在这一类别中,语言指令被输入到控制策略中,策略根据环境生成动作。这些动作随后被传送到运动规划器以执行。相反,另一类VLA作为高级任务规划器,抽象掉了低级控制。这些模型专注于将长远的机器人任务分解为可执行的子任务。这些子任务然后由控制策略逐一完成,最终完成整个任务。 相关工作。尽管目前缺乏针对VLA的综述,但相关领域的现有综述为VLA研究提供了宝贵的见解。在计算机视觉领域,综述涵盖了从卷积神经网络 [73]到Transformers [74]的各种视觉模型。自然语言处理模型在综述 [75], [76]中得到了全面总结。强化学习的深入综述可在综述 [77]–[79]中找到。图神经网络的综述也有相关文献 [80]。此外,现有的视觉-语言模型综述为VLA提供了灵感 [67], [81]–[83]。另外,也有一篇关于早期具身智能工作的综述 [84]。 贡献。这篇综述是具身智能领域首篇深入的视觉-语言-动作模型综述。

  • 综合评述。我们对具身智能中新兴的VLA模型进行了全面评述,涵盖了各种方面,包括架构、训练目标和机器人任务。
  • 分类法。我们引入了当前机器人系统中层次结构的分类法,包括三个主要组成部分:预训练、控制策略和任务规划器。预训练技术旨在增强VLA的特定方面,如视觉编码器或动力学模型。低级控制策略根据指定的语言命令和感知的环境执行低级动作。高级任务规划器将长远任务分解为由控制策略执行的子任务。 -** 丰富的资源**。我们提供了训练和评估VLA模型所需资源的概述,通过比较其关键特性来调查最近引入的数据集和模拟器。此外,我们还包括了广泛采用的机器人控制和具身推理任务的基准。
  • 未来方向。我们概述了该领域当前的挑战和未来的机会,如解决数据稀缺性、增强机器人灵活性、实现不同任务、环境和具身的泛化以及提高机器人安全性。 论文组织。§ II-A概述了单模态模型的代表性发展和里程碑。由于视觉-语言模型与视觉-语言-动作模型密切相关,§ II-B对视觉-语言模型的最新进展进行了比较。§ III探讨了各种类型的视觉-语言-动作模型。§ IV总结了具身智能的最新数据集、环境和基准。挑战和未来方向包含在§ V中。

视觉-语言-动作模型(VLA)是处理视觉和语言的多模态输入并输出机器人动作以完成具身任务的模型。它们作为具身智能领域中指令跟随机器人策略的基石。这些模型依赖于强大的视觉编码器、语言编码器和动作解码器。为了提升在各种机器人任务中的表现,一些VLA优先获取卓越的预训练视觉表示(见III-A节);另一些则专注于优化低级控制策略,能够接收短期任务指令并生成通过机器人运动规划可执行的动作(见III-B节);此外,还有一些VLA从低级控制中抽象出来,专注于将长远任务分解为由低级控制策略可执行的子任务(见III-C节)。因此,低级控制策略和高级任务规划器的结合可以视为层次化策略,如图3所示。本节内容组织涵盖了这三个主要方面。

成为VIP会员查看完整内容
13

美国空军和太空部队正整装待发,直面新的全球威胁,但在战备状态方面遇到了隐患。与上世纪 90 年代相比,美空军战斗力减少了一半,战斗飞行员的飞行时数大幅减少,战备检查已经过时。

解决办法是什么?空军部长弗兰克-肯德尔于 2022 年 3 月在美国空军作战研讨会上公布了七项作战要务。它们是空军获取新技术、开展研究和战胜潜在对手的支柱。

在此,本文将透过复杂的情况,基于七项作战要务分析如何塑造未来的空天防御。

如何制定作战要务

这些作战要务是在美国防部内部合作制定的,肯德尔部长与国会和五角大楼成本评估和项目评价办公室(PEO)密切合作。

这些要务旨在应对空军部确定的具体作战挑战,包括对弹性空间能力以及部署和作战准备的需求。它们旨在使美国能够有效应对现代威胁,并在不断变化的全球安全环境中保持作战优势。

美国空军和太空部队的 7 项作战要务

1 确定弹性和有效的太空作战秩序和架构

定义弹性和有效的太空作战秩序和架构是为了适应不断变化的太空威胁。它能确保天基服务和能力即使在受到攻击时也能保持正常运行。

敌人正在积极发展反太空能力和 A2/AD 战略,以破坏美军指挥系统。为确保国家的优势,美国自 2010 年以来一直在提高太空架构的弹性。

为此,太空作战总指挥约翰-W-雷蒙德将军优先考虑转向更具弹性的架构。这些优先事项加强了高空系统和 JADC2 框架等跨领域能力。

太空部队的解决方案旨在将低地球轨道上的卫星数量增加六倍。其中一个解决方案是将区域军事保护能力纳入全球定位系统(GPS)Block IIIF 卫星,这是 2023 财年预算申请的一部分。

2 实现作战优化的先进作战管理系统(ABMS)/空军联合全域指挥与控制(AF JADC2)

美国空军的作战优化先进作战管理系统(ABMS)/空军联合全域指挥与控制(AF JADC2)是一项旨在改进空、陆、海、空和网络战中的控制与作战的计划。

ABMS/AF JADC2 使系统更加灵活,能更好地处理复杂情况。这需要利用人工智能、机器学习和云计算等先进技术来快速决策和实时响应。

美空军投入了很大一部分预算用于开发和实施 ABMS/AF JADC2。2024 年,其预算申请中包括 18 亿美元用于人工智能和机器学习,14 亿美元用于 JADC2。

此外,该机构还命名了 50 个未确定的计划项目,计划作为其对 JADC2 核心贡献的一部分,称为 "DAF 战斗网络"。空军还计划在2025年将AMBS经费增加到8.15亿美元,2026年增加到9.51亿美元,2027年增加到7.21亿美元,2028年增加到7.11亿美元。

3 定义下一代空中优势系统(NGAD)

美国空军的 "定义下一代空中优势(NGAD)系统"(Defining Next Generation Air Dominance (NGAD) System-of-Systems )以战斗机、有人驾驶和无人驾驶飞机系统以及网络和电子组件的形式开发新一代空中优势技术。

NGAD 系统将为美国空军提供先进技术,以便在 2030 年代及以后保持空中优势。这些技术包括新的隐形战斗机设计,在与无人驾驶飞机配合使用时将更加强大,用途更加广泛。

事实上,美国空军已经在 NGAD 的研发上花费了数十亿美元,更多的资金正在筹措中。美国空军已经拨款 9.75 亿美元购买推进器原型,以改进 NGAD 有人驾驶平台的发动机系统。从长远来看,到 2028 年,美国空军将为 NGAD 的研发投入 190 亿美元的预算。

4 在充满挑战的作战环境中实现移动目标的规模化打击

在具有挑战性的作战环境中实现大规模移动目标交战增强了军队利用不同系统和技术同时发现、跟踪和攻击大范围内多个移动目标的能力。

这种作战要领可协调传感器、武器系统、指挥与控制结构以及情报资产,以制定完整而快速的应对计划。在面对使用机动或在困难地形作战的隐形敌人时,这种作战方式最为有效。

为此,军费开支主要用于开发和购买先进的技术和系统,包括用于发现和跟踪移动目标的传感器、用于精确攻击的精确制导弹药,以及用于在平台和指挥机构之间快速、安全地共享信息的通信网络。

2024 年 3 月,BlackSky公司从空军研究实验室(AFRL)获得了一份价值 2400 万美元的合同,用于创建移动目标交战服务。美国太空部队还在其2024年至2028年的支出计划中为地面移动目标指示器(GMTI)项目申请了12亿美元。

5 在对抗性的环境中定义优化的弹性基地、维持和通信

在有对抗性环境中定义优化的弹性基地、维持和通信意味着开发适应性强的军事基地、后勤解决方案和通信系统。即使在受到敌人的挑战或攻击时,它们也需要良好地运行。

下面是更详细的介绍:

弹性基础涉及精心规划和设置军事基地和行动。部队和装备需要分散在不同地点,使敌人更难将其作为目标。

在有争议的环境中,维持军事部队的弹药、燃料和备件供应,智能物流和供应链管理至关重要。它还包括风险规划、使用自主系统进行补给,以及使用 3D 打印等技术按需制造关键零部件。

通信必须足够稳定,以便在没有支持的恶劣条件下工作。例如,城域网无线电和自组网、自修复网状网络可帮助在恶劣条件下维持数据连接。此外,"联合全域指挥与控制"(JADC2)等计划可让指挥官在陆地、水域和空中连接传感器和武器。

6 定义 B-21 远程打击系统家族

与 NGAD 一样,"定义 B-21 远程打击系统家族 "也概述了美国空军围绕这种新型隐形轰炸机开发和连接各种技术的计划。

除建造隐形轰炸机外,还需要制定战略,使其与其他支持技术(如监视平台、电子战工具、通信系统以及无人或自主系统)一起投入使用。

将该轰炸机整合到 B-21 "突袭者 "系列系统中,可以提高空军的远距离攻击能力、在危险地区的生存能力以及为指挥官提供快速选择的灵活性。这种方法还能让空军利用数字工程和开放式系统架构等新技术,根据威胁的变化对轰炸机进行升级。

2023 年,美国空军(DAF)预留了 52 亿美元,用于开发、设计、制造和测试 B-21 突击机及相关技术和设施。这笔资金确保了所有配套系统的开发和有效使用。

7 空军部向战时态势过渡以对抗同级竞争对手的准备状态

根据 "空军部向战时态势过渡以对抗同级竞争对手的准备状态",空军部正在通过升级装备、培训人员和开发新技术,向战时态势过渡,以对抗军事能力相当的国家。

这一行动要务还能威慑潜在的敌人,他们花费数十年时间研究和开发攻击国家系统和基础设施的方法。这种战备状态可确保武装部队在重大冲突中具有竞争力,并在必要时保护美国及其盟国。它还侧重于适应新型战争和对抗其他强国在军事能力方面的进步。

根据这一要求,"10 x 10 愿景 "还计划通过提高整个军队的数据质量、数据访问和合规性来加快现代化进程。总统对国防部的预算要求增加到 7,730 亿美元,以保持强大的威慑力,支持军人和家属,加强伙伴关系,并保持美国的技术优势。

参考来源:GovCon

成为VIP会员查看完整内容
8

危机谈判模型将危机升级描述为一个由三部分组成的信号传递过程。首先,卷入政策争端的国家会就争议问题提出公开要求。其次,如果要求没有得到满足,国家就会发出强制性威胁。最后,国家通过日益敌对的公开行为表现出决心,使危机更接近战争。因此,信号传递是危机谈判模型中的主要战略机制。

然而,这种传统的危机升级观点与某些国际危机案例相冲突。这对传统谈判和传统的危机升级观点提出了理论挑战。为了解决这一矛盾,下文提出了另一种升级模式,试图在不违背谈判理论基本原则的前提下,解决这一理论和经验上的矛盾,并解释 "混合战争 "的案例。该理论认为,在国际危机中,国家并不总是将信号传递作为主要的战略机制。相反,它们可能会利用其他战略机制来促进自身利益。

本文提出的 "混合升级 "模式描述了国家利用模糊性升级危机的一种方法。在利用军事手段升级的同时,混合国通过宣传、审查、代理、假情报和其他形式的欺骗等信息手段歪曲有关危机的信息,从而产生模糊性。这样,混合国就可以利用各种降低成本的机制,限制升级的典型物质和政治成本,从而降低升级的传统成本。

为了检验这一理论的有效性,研究了最近两场与混合战争有关的冲突。用两种危机谈判模型--传统升级和混合升级--来检验数据。假设传统升级模型无法解释或预测模棱两可的冲突中的危机行为,因为它们没有考虑到危机中可利用的其他战略机制。

21世纪的国际冲突

从表面上看,俄格、俄乌两场冲突似乎都没有遵循当代讨价还价模式中描述的典型升级模式,即各国表明其政策倾向,随后发出胁迫性威胁,并相应升级以达成和解或进入军事冲突。在这些案例中,传统的冲突升级过程及其机制似乎得到了加强或不复存在,而采用了一种不同的方法。

在格鲁吉亚,俄罗斯公开扮演第三方维和者的角色,同时淡化俄罗斯在该地区的政策利益。在危机期间,与俄罗斯结盟的分离主义分子采用了更为传统的升级模式,包括胁迫威胁和展示决心。然而,当军事行动开始时,俄罗斯利用其军事力量迅速瓦解了格鲁吉亚军队,并以对俄罗斯有利的方式结束了冲突。虽然分离主义代理人在战前升级并表明了决心,但一旦冲突的军事阶段开始,俄罗斯就大幅升级。

在克里米亚问题上,传统的升级过程基本不存在,因为俄罗斯发动了一场突袭行动来夺取克里米亚,而在入侵之前并没有典型的外交过程,即提出公开要求或进行胁迫性威胁。与传统的危机升级模式不同,俄罗斯经常淡化那些通常表明其有决心实现政策要求的行动。

在顿巴斯战役中,当当地分离主义分子在当地的行动升级时,俄罗斯再次公开扮演第三方的角色,而不是参与者,尽管俄罗斯向分离主义分子提供了支持。在冲突的关键时刻,俄罗斯还使用了传统的升级手段,如在乌克兰边境附近集结军队,而俄罗斯官员则淡化了干预威胁。从这两个案例中我们可以清楚地看到,俄罗斯付出了相对较低的代价,却在不遵循传统危机信号模式的情况下获得了巨大的政治利益。

这些案例对讨价还价模式中的传统危机升级概念提出了挑战。首先,俄罗斯的危机行为与传统的危机升级模型不符,在传统模型中,国家通过释放信号来寻求事前解决。其次,俄罗斯的行为成本相对较低,而传统模型预测的成本会很高。

下文探讨的研究问题是,传统的危机谈判模型能否准确解释被称为 "混合战争 "的模糊冲突中的危机行为。格鲁吉亚和乌克兰危机代表了应用传统升级模型时的潜在异常情况。它们在很大程度上与传统谈判模式的升级观点相冲突,即国家提出政策要求,发出与这些要求相关的胁迫性威胁,然后通过展示决心相应地升级。这种由三部分组成的升级观点,即国家通过发出信号来推进政策目标,与这些案例的事实并不相符。这些案例对现有理论提出了挑战,要求我们要么发展不同的理论来解释这类冲突中的国家行为,要么修改和扩展现有模型来解释这些反常案例。

本文提出的理论采用了后一种方法,旨在扩展战争的讨价还价模式来解释这些情况,而不是完全废除这种方法。所需的主要修改是证明信号传递是国家讨价还价的众多机制之一。在第二章中,我提出了另一种危机模式,即国家在危机升级过程中利用模糊性推进。我将这种模式称为混合升级。

混合升级假定,当危机信号传递机制在战略上不那么有吸引力时,国家可以利用常规和非常规军事手段升级,以追求自身利益,同时部署非军事手段来制造模糊性,从而降低传统升级的典型成本。在这里,国家将传统的强制手段与制造模糊性的非军事信息手段相结合。模糊性降低了升级的典型成本,为国家提供了比传统信号传递过程更好的回报。

混合升级模型从理论上将混合战争的军事战略与国家的政治目标联系起来。它解释了为什么处于危机中的国家可能会避免发出信号而选择非常规的危机战略。它还展示了国家如何在危机中部署不同类型的手段以实现其政策目标,以及军事实力与信息力量之间的复杂关系。

成为VIP会员查看完整内容
7

本手册执行美国空军部指令 (DAFPD) 13-1,指挥与控制 (C2) 体系。它规定了空军(AF)对在控制和报告中心(CRC)执行任务的人员进行培训和资格认证的最低标准。本手册适用于分配到空中作战司令部(ACC)、美国欧洲空军和非洲空军(USAFE-AFAFRICA)以及空军国民警卫队(ANG)的所有作战编码 CRC。本手册适用于为 C2 体系执行地面作战管理的正规空军 (RegAF) 和国民警卫队 (ANG) 的所有文职雇员和军警成员。本手册不适用于空军后备役、空军教育与训练司令部 (AETC) 正规训练单元 (FTU) 或美国太空部队。

成为VIP会员查看完整内容
10

本报告探讨了数字孪生(DT)技术在核电厂和燃料循环设施保障与安全(S&S)方面的应用。数字孪生和 DT 使能技术有望与未来的核反应堆设计相集成,也有可能对当前运行的核设施产生影响。扩展和先进的数字集成、仪表和控制系统、数据分析、建模和仿真以及运营和维护实践都与 DT 使能技术相关。本报告确定并讨论了与核安全和安保活动中应用 DT 和 DT 使能技术相关的考虑因素和机遇,以及潜在的挑战和差距。以下是本报告讨论的一些主要考虑因素、机遇、挑战和差距:

在核安全与保障中应用危险特性的考虑因素和机遇:

  • 实物库存:跟踪历史库存、核对记录与实物库存、对特殊核材料进行数字跟踪、模拟缺失或缺陷物品的假设情况,并确保实物库存符合监管验收标准。

  • 外围入侵检测系统(PIDAS):对不同传感器模式的骚扰警报进行自动分类,利用传感器自诊断功能满足定期测试的监管要求,检测异常情况并预测传感器故障。

  • 通过设计实现安全:确定在应对设计基础威胁方面存在的差距,将通过设计实现安全纳入设施,规划并准备应对设计基础威胁的变化和即将出现的安全情景。

与安全和安保设计相关的挑战和差距:

  • 提高建模和仿真的逼真度:开发技术和方法,以提高对安全和安保情景的理解和认识,了解和分析攻击矢量和设施安全和安保的实时变化,确定最能代表综合安全和安保态势和性能的数量和参数。

  • S&S DT 的验证和确认:为综合模型(尤其是未来设施的综合模型)提供高质量和高保真的测试数据,为复杂的模型互动开发综合测试方法,在设施的生命周期内验证性能测试,开发培训数据集和综合模型及模拟,以有效地代表重要的 S&S 特征。

  • 为 S&S DT 集成先进传感器:在将现有传感器与 S&S DT 集成时支持数据异质性,从对手测试中确定传感器部署和灵敏度方面的差距,将网络安全集成到先进传感器和通信技术中。

事实证明,数字孪生在复杂工业和工程应用中的优势包括提高运行效率、增强安全性和可靠性、减少错误、加快信息共享和更好的预测。人们对数字孪生技术的兴趣与日俱增,预计该技术将在未来十年内得到快速和广泛的行业应用。相关利益方还需要做出更多努力,以应对挑战并缩小差距,在目前运行的和未来的核设施中实施用于安全与安保的 DT 技术。

成为VIP会员查看完整内容
10

本文介绍了“作战智能体”(BattleAgent),这是一个结合了大型视觉语言模型(VLM)和多智能体系统(MAS)的详细仿真演示系统。这个新颖的系统旨在模拟多个智能体之间以及智能体与其环境之间在一段时间内的复杂动态互动。它既能模拟领导者的决策过程,也能模拟士兵等普通参与者的观点。该模拟展示了智能体当前的能力,具有智能体与环境之间细粒度多模式交互的特点。它开发了可定制的智能体结构,以满足特定的情境要求,例如侦察和挖掘战壕等各种与战斗相关的活动。这些组件相互协作,以生动全面的方式再现历史事件,同时从不同的视角洞察个人的思想和情感。BattleAgent 的技术基础为历史战役建立了详细和身临其境的场景,使智能体能够参与、观察和动态响应不断变化的战役场景。这种方法有可能大大加深我们对历史事件的理解,特别是通过个人叙述。这些举措还有助于历史研究,因为传统的历史叙事往往缺乏文献记载,而且优先考虑决策者的观点,从而忽略了普通个人的经历。这种偏颇的文献记录导致我们对历史的理解存在相当大的差距,因为许多故事仍未被讲述。BattleAgent 利用当前人工智能(AI)的进步,为弥合这一差距提供了一些见解。它展示了人工智能在关键社会事件中重振人类方面的潜力,从而促进更细致入微的集体理解,推动人类社会的进步发展。对最终仿真结果进行了量化评估,显示了该方法的合理性能和有效性。

图 1:1346 年克雷西战役演示: 描绘历史交战中英法联军阵地的部队编队和运动,并标注关键地点和领导人。

智能体被定义为有能力感知周围环境并根据这些感知做出明智决策以完成特定目标xi2023崛的系统。大型语言模型(LLMs)zhao2023survey; fan2023bibliometric 的最新进展展示了令人印象深刻的推理能力huang2022towards; jin2024impact,表明它们具有作为智能体基础的潜力。这些模型在遵循指令zhou2023instruction; zeng2023evaluating;、解释命令以及模拟人类推理和学习过程wang2024llms; wang2024tool; shen2024small方面表现出了非凡的能力。此外,大型视觉语言模型(VLM)zhang2024vision 的开发促进了支持多模式信息交互的各种智能体应用程序的创建durante2024agent; xie2024large。当与外部工具(物理或虚拟工具)相结合时,这些智能体采用 LLM 或 VLM 作为其推理骨干,以确定应如何处理任务、如何利用工具以及应在内存中保留哪些信息。这种增强功能使智能体能够管理一系列自然语言处理任务,并使用语言与环境互动。

使用 LLM 和 VLM 创建了大量智能体应用程序,重点是增强推理能力,du2023improving; chan2023chateval; sun2023corex; liang2023encouraging, production capabilities hong2023metagpt; liu2023bolaa; ge2023openagi; yang2023appagent; mei2024llm; ge2023llm, gaming gong2023mindagent; xu2023exploring; lan2023llm; hu2024survey, and social simulation pang2024self; zhou2024real; sreedhar2024simulating; xie2024can; hua2023war, among others. WarAgent hua2023war 是基于 LLM 的 MAS 模拟历史事件的先驱,它研究的是宏观层面的系统行为,如国家和政府,而不是微观层面的模拟战斗中发生的详细动态事件或个人在这种动态时间段中的经历。因此,BattleAgent 在 WarAgent 为历史事件仿真奠定的基础上,研究了 LLM 和 VLM 在详细历史情况复原和探索仿真中个人经历方面的潜力。

长期以来,历史研究一直致力于通过过去事件的视角来理解人类的经历。传统的历史叙事往往侧重于领导人和决策者的视角,而将普通人的经历置于阴影之下。这种选择性的历史研究方法给我们的理解造成了巨大的差距,因为士兵等普通参与者的故事和经历经常被忽视。这项研究背后的动机就是要解决这种不平衡现象,并利用人工智能的进步为历史事件提供更全面的视角。口述历史(shopes2011oral; portelli2002makes)一直是用来捕捉个人经历的一种方法,为历史事件提供了更加个人化的描述。然而,这种方法仅限于近代史,而且受到目击者可用性的限制,往往会留下许多未被发现的细节。随着我们离事件发生的时间越来越远,亲历者的声音也会逐渐消失,随之消失的还有丰富的历史画卷。

为了应对这些挑战,我们的研究引入了 BattleAgent,这是一个新颖的仿真框架,利用基于 LMM 的 MAS 来详细重建历史事件,重点是描述普通人(尤其是士兵)的经历。BattleAgent 可在复杂的地形和等级森严的指挥结构中模拟历史上的战斗,其中包含复杂的军事后勤和战略规划。作为模型的核心,我们精心制作了 30 个独立的士兵智能体,每个智能体都有丰富详尽的背景和鲜明的个性,从而为他们注入了活力和深度。BattleAgent 的设计目的是模仿和记录这些智能体的经历,捕捉他们在整个战斗过程中的行动、受伤情况、情绪反应和心理状态。通过分析这些元素,我们生成了个性化的叙事,反映了参与战争的普通人的多方面经历。这种方法不仅使这些智能体的行动和情感永垂不朽,而且还能在更广阔的历史冲突背景下,以细致入微的个性化视角审视普通士兵的经历。

为了模拟如此复杂的场景,模拟包含以下三个关键特征:

  • 增强的 2-D 真实感功能: BattleAgent 可模拟环境中的详细互动,包括地形交战、时间进程和智能体之间的互动。
  • 身临其境的多智能体交互: 它集成了 MAS,以促进战斗模拟中智能体之间的动态交互,准确反映历史环境和错综复杂的军事交战,从战略演习到后勤考虑和通信动态。
  • 动态智能体结构: 该框架引入了可适应的智能体配置和多模式互动。该系统可以 "自我改进 "其结构,分叉、合并和剪切智能体,以持续保持仿真效果。它拥有自主调整结构以优化仿真保真度的能力。

研究对历史分析和社会的贡献可归纳如下:

  • 强调个人视角和细粒度: 提供一个平台,让普通人的声音在历史事件中得到倾听和理解。这一平台旨在通过纳入个人视角,提高历史重构的准确性。
  • 与过去的联系和共鸣: 通过详细分析过去的错误和人类付出的代价,帮助预防未来的冲突。该平台通过将历史战役参与者的经历人性化,促进同理心并加深与过去的联系。
  • 了解历史的教育工具: 提供一种教育工具,帮助人们了解错综复杂的历史和历史事件的残酷现实。其身临其境的互动平台可以培养人们的同理心,让人们从更细微的角度来看待过去,这使其成为学生和历史爱好者的宝贵资源。
  • 作为下一代游戏引擎的潜力: 提供全自动流程,创建身临其境的动态历史仿真,使其成为潜在的下一代游戏引擎。通过使用基于 LLM 的智能体和基于 VLM 的智能体,它可以生成详细而逼真的环境、人物和事件,提供独特而引人入胜的游戏体验。

多智能体系统

MAS为模拟复杂的交互和场景hua2023war提供了一个平台,彻底改变了人工智能的面貌。随着LLM推理智能的发展,特别是其在复杂场景中出色的推理能力fan2023nphardeval; fan2024nphardeval4v; zhang2024llm,MAS与人工智能系统的整合显示出其多功能性和有效性。MAS 最初分为推理增强系统、非玩家角色(NPC)多智能体玩家系统和生产增强系统,这对理解它们的不同应用具有奠基性作用。诸如 LLM-Debate du2023improving、ChatEval chan2023chateval 和 MAD liang2023encouraging 等著名的发展极大地推动了推理增强系统的发展。同样,在 NPC 多智能体系统中,生成式智能体 park2023generative 和 GPT-Bargaining fu2023improving 的出现为更多类似人类的智能体行为铺平了道路。在生产增强领域,MetaGPT hong2023metagpt 和 OpenAGI ge2023openagi 等创新简化并增强了软件开发中的协作努力。许多著作还探索了智能体在科学实验中的潜力 bran2023augmenting; hua2024trustagent; chen2023towards setting。

在人文和历史研究方面,"战争代理"(WarAgent)hua2023war 计划是应用基于 LLM 的 MAS 模拟国际冲突的典范,每个代理代表不同的国家,探索国际关系和冲突的动态。我们的研究以从 WarAgent 中获得的人道主义见解为基础,力求完善这一方法,从普通个人的视角出发,对历史场景进行细化模拟。转向关注历史事件中的微观体验,旨在利用 MAS 和 LLM 技术的进步,捕捉普通人在历史叙事中的细微视角,从而提供对过去更详细、更感同身受的理解。通过这样做,我们希望对历史关键时刻的人类经历进行更深入、更具包容性的研究,从而丰富对历史的理解。

多模式多智能体人工智能系统的最新进展进一步拓展了 MAS 的功能。AppAgent AppAgent 展示了作为智能手机用户的多模态代理的使用,增强了我们对人机交互的理解。AWS AWS 中的生成式人工智能和多模态智能体的整合释放了金融市场的新潜力。LLaVAPlus 在教会智能体使用各种工具方面的贡献为智能体的适应性和功能性开辟了新的途径。此外,"多模式行动链代理 "CoA 的实现为代理与数字界面的交互提供了新的视角,有助于在数字领域进行更直观的用户界面设计和更逼真的模拟。

BattleAgent 仿真是首个基于多模态模型的大型多智能体应用,它为历史和人文研究引入了一个新颖的定量维度,并强调了人工智能在理解人类历史和塑造未来情景方面的更广泛影响。通过探索其他历史路径和关键决定因素,我们的工作证明了 LMM 和 MAS 在提高我们对过去的理解力方面的重大贡献,并有可能引导一个更明智、更和平的未来。

历史颗粒度分析的挑战

多年来,使用计算方法模拟历史事件的追求有了很大发展。从人类模拟开始,过渡到人类-程序混合系统,最后到完全计算机化的模拟,每个阶段都带来了独特的见解和挑战hua2023war。迪克森(Dickson)的《迪克森 2002》(dickson 2002 road)概述的人体模拟提供了一种基础方法。在教育场景中,这种模拟涉及角色扮演练习,使学生能够深入了解历史事件的复杂性,如美国加入第一次世界大战。人机混合系统的出现,以国家间模拟模型 guetzkow1963simulation 及其各种应用 hermann1967attempt 为代表。这些系统将人类决策与计算过程相结合,为模拟国际冲突创造了一个更具活力和互动性的环境。然而,对人类输入的依赖在可扩展性和可能的分析深度方面仍然存在限制。

在过去十年中,利用计算能力创建更复杂的模拟发生了重大转变。OneSAF 目标系统(OOS)tolefson2008onesaf 和基于 JAVA 的比斯开湾潜艇战争模拟 hill2004using 就是最好的例子。这些模拟使用了详细的军事行动模型和博弈论,提高了历史分析的准确性和深度。最近,通过开发生成式人工智能方法,社会系统动态的高级模拟成为现实。尽管取得了这些进步,但要在这些模型中完全囊括人类行为的复杂性和历史数据的浩瀚性仍然具有挑战性。此外,全计算机模拟虽然可以实现三个阶段中最细致、最精确的模拟,但仍侧重于历史分析的全景式和高层次模拟,往往无法深入到国家或著名领导人视角之外的证人个体反思和细粒度分析。

"基于智能体的计算模型 "和 "生成性社会科学 "的思想,在21世纪e21pstein1999agent开始之前就已经是众所周知的理论。基于规则的智能体虽然可以重构复杂的社会行为,在一定程度上考察 "回溯未来 "ghaffarzadegan2023生成性,但往往无法保持类似人类的智能,而这正是模拟和理解人类社会的关键。即使是最先进的计算社会科学(CSS)方法,使用生成方法进行精细的历史分析似乎也不现实。当前的 CSS,尤其是在情感分析(fan2020stigmatization; yin2020using; li2023chatgpt)等领域,主要基于当代数据源。这给历史分析带来了巨大挑战,因为历史数据往往缺乏计算分析所需的粒度和数字格式。

研究通过在 MAS 框架内采用 LLM 来应对这一挑战。这种方法将现代人工智能的综合数据处理能力与 MAS 的复杂建模相结合,是历史模拟领域的一个新步骤。这种融合标志着与传统方法的重大差异,因为它试图克服历史研究中数据稀缺和质量的限制。通过利用先进的语言模型,我们可以推断、重建和模拟历史叙事和事件,其深度和准确性是以前无法达到的。因此,我们将这种精细模拟方法称为 "历史仿真"。

MAS 框架不仅模拟了单个智能体及其互动,还纳入了从有限历史数据中得出的更广泛的社会政治和经济背景。这种方法可以对历史事件进行更细致入微的探索,揭示形成这些事件的各种因素之间复杂的相互作用。因此,工作站在了历史仿真的最前沿,或者说,重新定义了 "历史仿真",将人工智能驱动的分析与传统的历史学术研究进行了独特的融合。这种协同作用旨在为历史事件提供新的视角,促进对过去及其对未来影响的细化、多样化和更深入的理解。

动态智能体结构

战场环境是高度动态和多变的,会出现许多不可预测的情况。针对这种复杂性,我们提出了一种动态代理结构 liu2023dynamic; han2024llm,使代理能够根据当前情况调整其组织配置。我们提出的动态智能体结构支持多种自适应机制,如图 5 所示:

图 5:智能体动态结构。

1.分叉:一个智能体可以决定分叉另一个自主智能体来完成特定任务,有效地分兵把口,分配资源,同时解决多个目标。

2.合并: 在一个智能体面临巨大压力却选择继续战斗的情况下,它可能会与最接近的盟友智能体合并,以整合力量,增强自身的应变能力。

3.剪枝: 在某个智能体不堪重负或从战场撤退的情况下,动态智能体结构会通过将该智能体从现役部队中剪枝来适应这种变化。

这种动态代理结构可以根据不断变化的战场情况做出灵活的自适应决策。例如,一个智能体可以分叉出一个子智能体,通过分配一部分士兵来创建一个自主智能体,负责收集周围环境的信息并将其传递回来。此外,该智能体还可根据形势要求,派遣自主子代理集中处理来犯敌军的特定部分。如果智能体缺乏应对当前局势所需的力量,它们可能会选择从地图上撤退或与其他智能体合并,以增强其综合实力。因此,我们的项目引入了一种动态多智能体系统,其中的智能体结构和数量可根据特定情况的需要进行调整。这种自适应方法使系统能够有效应对战场环境中出现的各种不可预测的挑战。

成为VIP会员查看完整内容
20
登陆后查看更多精品内容
VIP会员
本周荟萃主题
区块链
区块链(Blockchain)是由节点参与的分布式数据库系统,它的特点是不可更改,不可伪造,也可以将其理解为账簿系统(ledger)。它是比特币的一个重要概念,完整比特币区块链的副本,记录了其代币(token)的每一笔交易。通过这些信息,我们可以找到每一个地址,在历史上任何一点所拥有的价值。
深度学习
机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。
机器学习
“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。”

——中文维基百科
强化学习
强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。
推荐系统
推荐系统,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。推荐推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。推荐系统利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
卷积神经网络
在深度学习中,卷积神经网络(CNN或ConvNet)是一类深度神经网络,最常用于分析视觉图像。基于它们的共享权重架构和平移不变性特征,它们也被称为位移不变或空间不变的人工神经网络(SIANN)。它们在图像和视频识别,推荐系统,图像分类,医学图像分析,自然语言处理,和财务时间序列中都有应用。
计算机网络
计算机网络( Computer Networks )指将地理位置不同的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。
命名实体识别
命名实体识别(NER)(也称为实体标识,实体组块和实体提取)是信息抽取的子任务,旨在将非结构化文本中提到的命名实体定位和分类为预定义类别,例如人员姓名、地名、机构名、专有名词等。
机器翻译
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。
计算机视觉
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。
微信扫码咨询专知VIP会员