选择要攻击的威胁是战场上最重要的决策之一。该决策问题表现为武器-目标分配问题(WTA)。在以往的研究中,动态编程、线性规划、元启发式和启发式方法已被用于解决这一问题。然而,以往的研究因建模过于简化、计算负担重、缺乏对干扰事件的适应性以及问题规模变化时的重新计算等问题而受到限制。为了克服这些局限性,本研究旨在利用强化学习和图神经网络来解决 WTA 问题。所提出的方法反映了现实世界的决策框架--OODA-loop(观察-定向-决策),具有很高的实用性。在各种环境中进行了实验,并通过与现有的启发式和元启发式方法进行比较,证明了所提方法的有效性。所提出的方法为战术指挥与控制中的智能决策引入了一种开创性的方法,传统上被认为是人类专家的专属方法。
本研究将强化学习与图形神经网络(GNN)相结合。强化学习与 GNN 的结合是最有前途的领域之一,因为 GNN 能有效地表示复杂的交互作用。为了应用强化学习,DWTA 被建模为 POMDP(部分可观测马尔可夫决策过程)。为了优化强化学习智能体的策略,采用了近端策略优化(PPO)。学习环境是一个仿真模型,反映了对真实世界的详细描述。本研究的贡献如下。
本研究利用深度强化学习和图神经网络在各种情况下做出优化决策,为复杂性和不确定性主导的情况提供丰富的目标导向表征。
图神经网络有助于提高我们方法的可扩展性,从而增强其实际用途。
提出的方法通过人工智能技术的增强,为传统上由人类专家主导的领域(如战术指挥和控制)的决策制定带来了创新。
从整数编程中定义的问题出发,利用马尔可夫状态的理论基础和图建模技术系统地构建了 POMDP。与依靠直觉和经验法则推导 POMDP 的传统方法相比,这是一种更有条理的方法,更容易看出 POMDP 与所定义问题之间的联系。
这份报告是由东华大学图书馆策划,名为《人工智能国外大模型使用手册》,发布于2024年8月25日。报告的目的是提供一个全面的指南,帮助用户了解和使用国外的人工智能大型模型(AI大模型),以便在学术研究、教学发展等领域中应用这些技术,提高效率和创新能力。
报告的主要内容包括:
前言:
介绍了人工智能(AI)技术的普及和影响,以及国外大模型在自然语言处理(NLP)和深度学习领域的领先地位。
强调了东华大学图书馆编写此手册的目的,即普及AI大模型知识,帮助师生选择合适的工具,赋能学术研究和教学。
大模型概述:
定义了大模型,并讨论了它们的特点,如庞大的参数规模、复杂的网络结构、高计算资源需求等。
探讨了大模型在不同领域的应用,包括自然语言处理、图像识别、语音识别和推荐系统。
分析了大模型的发展趋势,如模型压缩、跨模态学习、隐私保护和可持续性。
国外AI大模型:
详细介绍了几款知名的国外AI大模型,包括GPT系列、Gemini系列、Claude系列和LLaMA。
讨论了这些模型的基本功能、特点、应用领域和发展趋势。
高教领域大模型应用:
GPT系列模型(OpenAI):
Gemini系列模型(Google):
Claude系列模型(Anthropic):
LLaMA(Meta AI):
其他模型:
报告的最后部分提供了参考文献,供读者进一步研究和探索。
整体来看,这份报告为用户提供了一个全面的国外AI大模型的概览,包括它们的功能、应用、安装和使用方法,以及在使用过程中可能遇到的注意事项和安全问题。报告旨在帮助用户更好地理解和利用这些先进的AI技术,以促进学术研究和教学活动的创新和发展。
研究意义随着新一代人工智能的发展,大模型(如GPT-4o等)凭借大规模训练数据、网络参数和算力涌现出强大的生成能力、泛化能力和自然交互能力,展现出改变工业世界的巨大潜力。尽管大模型已在自然语言等多个领域取得突破性进展,但其在工业应用中的探索仍处于初级阶段,当前工业大模型的系统性研究仍属空白。工业应用中特有的异质数据模态、复杂多样的专业化场景、长流程的关联性决策、以及对于可信性实时性的高要求,使得通用大模型无法直接用于解决复杂的工业问题,亟需开展全新的工业大模型基础理论和关键技术研究。
本文工作本文系统地探讨了工业大模型的挑战问题、概念内涵、体系架构、构建方法、关键技术与典型应用。从五个挑战问题的分析出发,提出了工业大模型的全新定义和体系架构;同时,提出了工业大模型的四阶段构建方法,阐述了工业大模型核心关键技术;然后,基于所提出的工业大模型六种核心应用能力,探讨了面向产品全生命周期的工业大模型典型应用场景,并给出了“基石”工业大模型原型系统在生成式人工智能方面的应用实例;最后,探讨和展望了工业大模型未来的研究方向和开放性问题。本文将为工业大模型这一全新研究方向的开辟与发展,提供基础理论、关键技术和行业应用的全面指导。
构建方法工业大模型的构建主要包括以下4个阶段:工业数据制备,工业基座模型训练,工业任务/行业模型适配,工业场景交互应用,如图2所示。
应用场景与通用大模型不同,工业大模型面向工业应用的需求,在其独特的架构和训练方法的支持下,形成6种核心应用能力,包括智能问答、场景认知、过程决策、终端控制、内容生成和科学发现。工业大模型贯穿产品全生命周期、围绕六项核心应用能力的典型应用场景。工业大模型在实际工业生产流程中可以将工业智能体作为载体之一,与工业场景中所涉及的人员与工业赛博物理系统进行交互完成特定任务。
【导读】MIT科学家Dimitri P. Bertsekas在ASU开设了2024《强化学习》课程,讲述了强化学习一系列主题。Dimitri 的专著《强化学习》讲义,是一本探讨人工智能与最优控制的共同边界的著作。
这是我在亚利桑那州立大学(ASU)课程中使用的主要教材。它基于我在2019至2024年间编写的课堂笔记。虽然它是一本独立的书籍,但也可以结合我的视频讲座和幻灯片(可在本网站找到)一起使用。 该书的第二版可以免费下载并用于教学目的。印刷版将在4个月内由出版公司发行,数字版也将在Google Play上提供。 本教材约480页,并在每章末附有练习题。书中主要强调基于动态规划(Dynamic Programming, DP)数学框架的直观推理。尽管数学证明并未被重点展示,但本教材依赖于我在此网站列出的《动态规划》和《强化学习》书籍中的理论发展和分析。这些书籍在符号和术语上保持一致。 本教材的重要结构特点是以模块化方式组织,具有灵活性,可以适应课程内容的变化和不同的内容选择。具体来说,本书分为两部分: (1) 一个基础平台,即第1章。该章节提供了对近似动态规划/强化学习(RL)领域的精选概览,并为更详细的课堂RL主题发展提供了起点,具体选择可由讲师决定。 (2) 选定方法的深入覆盖。在第2章中,我们讨论了一步或多步前瞻的值空间近似方法。特别关注了确定性和随机性的展开算法和前瞻树搜索。其他有趣的主题包括多智能体展开、自适应控制中的重优化展开、贝叶斯优化和极小极大问题。在第3章中,我们讨论了神经网络和其他近似架构的离线训练,以及与策略迭代/自学习、Q学习、策略梯度和聚合方法的结合。 在其他课程中,可以使用相同的基础平台进行不同的深入覆盖选择。例如,一个关于最优控制/MPC/自适应控制的课程可以基于第1章的平台构建。同样,基于该平台还可以设计数学导向程度不同的课程。 第1章,精确和近似动态规划。内容包括:AlphaZero的离线训练和在线对局、确定性动态规划、随机精确和近似动态规划、无限时域问题——概览、无限时域线性二次问题、例子重构与简化、强化学习与决策/控制。 第2章,值空间近似——展开算法。内容包括:确定性有限时域问题、值空间近似——确定性问题、离散优化的展开算法、带多步前瞻的值空间展开和近似、约束形式的展开算法、小阶段成本和长时域——连续时间展开、随机展开与蒙特卡洛树搜索、无限空间问题的展开优化、多智能体展开、贝叶斯优化和序贯估计的展开、基于POMDP(部分可观测马尔可夫决策过程)形式的自适应控制、极小极大控制的展开。 第3章,学习值和策略。内容包括:参数化近似架构、神经网络、近似动态规划中代价函数的训练、近似动态规划中策略的训练、策略梯度及相关方法、聚合。 关于第二版 第二版包含了一些重大补充,包括2024年在ASU课程中涵盖的内容。特别是建立了与Transformer、大型语言模型(LLM)以及HMM(隐马尔可夫模型)推理方法的联系(第2.3.7节),并大幅扩展了确定性问题的多步搜索内容(第2.4节)。此外,对MPC的讨论有所拓展,增加了其在极小极大问题和计算机象棋中的应用(第2.12节)。同时,第一版的结构和目标保持不变。
本文介绍了在战场数字孪生框架内使用贝叶斯优化(BO)、遗传算法(GA)和强化学习(RL)等先进技术优化军事行动的综合方法。研究重点关注三个关键领域:防御作战中的部队部署、火力支援规划和下属单位的任务规划。在部队部署方面,BO 用于根据战场指标优化营的部署,其中汤普森采样获取函数和周期核取得了优异的结果。在火力支援规划中,采用了 GA 来最小化威胁水平和射击时间,解决了资源有限条件下的资源受限项目调度问题(RCPSP)。最后,为任务规划开发了一个 RL 模型,该模型结合了多智能体强化学习 (MARL)、图注意网络 (GAT) 和层次强化学习 (HRL)。通过模拟战场场景,RL 模型展示了其生成战术演习的有效性。这种方法使军事决策者能够在复杂环境中提高行动的适应性和效率。研究结果强调了这些优化技术在支持军事指挥和控制系统实现战术优势方面的潜力。
战场数字孪生是一个数字复制品,代表了真实战场环境的组成部分和行为特征。它可以通过接收来自实际战场的实时或接近实时的战场、敌方和友军单位信息,并将其动态反映到数字孪生中,从而对数字孪生模型进行评估和调整。换句话说,模型可以根据真实世界的数据不断更新,以实现更具适应性的分析。这一概念与深绿的自适应执行相一致,后者也依赖于动态更新的信息。通过这种方式,可以向真实战场系统提供改进的决策反馈,帮助用户根据数字孪生模型做出更好的决策,而数字孪生模型是根据实际作战数据更新的。
本节提出了 “基于战场数字孪生的作战行动选择生成与分析 ”概念,通过各种技术方法,利用战场数字孪生生成作战行动选择。然后对这些选项进行评估、效果比较,并推荐最合适的 COA 选项。基于战场数字孪生的作战行动选择生成和分析的基本概念是,利用战场数字孪生的预测模拟生成作战行动选择,同时考虑若干战术因素(METT+TC:任务、敌人、地形和天气、可用部队和支持、可用时间和民用因素)。然后,可在数字孪生环境中对生成的作战行动方案进行快速评估。图 2 展示了这一流程的概念图。生成和分析 COA 的四个关键输入--威胁分析、相对战斗力分析结果、战场信息以及指挥官和参谋部的指导--假定来自其他分析软件模块和用户输入,从而完成智能决策支持系统。有关链接分析软件模块的更多信息,请参阅 Shim 等人(2023,2024)。
图 2:基于战场数字孪生系统的 COA 生成和分析概念。
可以按照图 1 中概述的战术规划流程生成并详细说明 COA 选项。然而,如前所述,规划过程中的许多任务都需要人工干预,而人工智能技术的应用仍然有限。因此,我们将重点放在 COA 生成阶段,在研究适用技术的同时,找出可以实现自动化和智能化的方面。本研究介绍了在 COA 生成过程中可实现自动化和智能化的三个概念:确定友军部队部署、规划间接火力支援和规划部队战术任务。友军部队部署是指部队到达战场后如何安排和使用,而部队部署则是指如何将部队转移到指定的大致位置。我们将贝叶斯优化方法应用于友军部署优化问题,作为 COA 方案生成的一部分。随着人工智能技术的快速发展,许多研究都探索了基于最先进机器学习算法的全局优化方法。其中,使用高斯过程的贝叶斯优化法作为一种针对实验成本较高的黑盒函数的全局优化方法受到了广泛关注(Brochu,2010 年)。对于炮兵作战,我们将火力支援调度问题归结为一个项目调度问题,该问题力求在遵守资源限制的同时,最大限度地减少敌方总威胁和发射时间。将项目调度与资源管理相结合的任务被称为资源约束项目调度问题(RCPSP)。最后,我们利用强化学习(RL)技术为下属单位规划战术任务,以找到最优行动策略。强化学习已经证明,它是在动态和不确定环境中解决复杂决策问题的有效框架。特别是,我们利用多智能体强化学习(MARL)、分层强化学习(HRL)和图注意网络(GAT)的原理,为多个单位有效地学习任务及其相应参数,同时从每个智能体的角度考虑其重要性。
在使用所提出的方法生成一系列作战行动(COA)选项后,将在战场数字孪生系统中对这些选项进行模拟评估。然后对模拟结果进行评估,以推荐最合适的 COA 选项。在下一章中,将详细解释用于实现所建议的 COA 生成概念的技术方法,并提供全面的实验评估结果,以突出所建议方法的有效性。
图 8:强化学习的拟议架构。
海洋环境中的防空是保护友军海军资产免受空中威胁。为了最大限度地减少对被防御资产的威胁,需要将稀缺的防御资源优化分配给目标。灵活的指挥和控制功能是处理防空事件动态性质的必要条件。须确保单舰或特遣舰队防空环境中传感器和武器之间的协调和自动化。为了在决策自动化方面提供有效的决策支持,舰艇指挥控制系统需要采用快速高效的算法。
舰艇防空规划(NADP)问题包括舰艇的机动决策以及针对威胁分配/调度武器和传感器,从而使友军部队的总预期生存概率最大化。NADP 问题可定义为武器目标分配(WTA)问题的一个特定版本,自 20 世纪 50 年代以来,已有文献对该问题进行了广泛研究。与其他研究相比,NADP 问题包含了新的特征,使问题的定义更加现实和适用。它还涉及传感器分配要求、武器/传感器盲区、取决于序列的设置时间和舰船雷达信号。
本文的目标是开发精确/启发式求解方法,为 NADP 决策自动化提供快速高效的决策支持。论文提出了 NADP 问题的混合整数非线性规划 (MINLP) 模型,并针对静态和动态问题开发了启发式求解方法。计算结果证明,这些启发式方法在解决 NADP 问题时既快速又高效。
武器目标分配(WTA)是一个组合优化问题,其中一组武器必须有选择地攻击一组目标,以最小化目标的预期生存值。在分布式形式下,它也是自主多智能体机器人学中的一个重要问题。在本研究中,我们探索了一种改进的武器目标分配问题的分布式方法,在该问题中,武器必须达到指定的杀死每个目标的概率。本文提出了三种新的成本函数,在智能体与目标比率较低的情况下,这些函数诱导的行为可能优于经典成本函数诱导的行为。以机载自主武器为例,在模拟同质和异质交战场景时探讨了这些成本函数的性能。模拟结果表明,在代理与目标比率较低的情况下,有效使用武器尤为重要,而所提出的成本函数可实现指定的预期行为。
此外,还考虑了多目标版本的 WTA 问题,其中任务分配的质量既取决于分配给每个目标的武器的总效果,也取决于智能体到达目标的相对时间。在现实世界中,任务规划者希望对每个目标实施出其不意的攻击,这种时间限制可能非常重要。本文提出的第四个成本函数将武器的有效性和时间指标结合为一个综合成本。在武器与目标的接近速度被限制在一定范围内的情况下,这种综合成本允许在分配决策过程中加入到达时间限制。通过理论分析和仿真演示了这种新成本函数的性能。结果表明,所提出的成本函数在闭合速度限制下平衡了优化有效性和到达时间考虑的双重目标,而且用户定义的调整参数可用于调整有序到达和实现预期杀伤概率双重目标的优先级。
通过构建 ChatGPT 克隆、代码错误修复器、测验生成器、翻译应用、自动回复邮件生成器、PowerPoint 生成器等项目,提升您的应用开发技能。 关键特性
书籍简介
通过本书,您将学习如何利用 ChatGPT 在应用程序中实现 AI 的潜力。本实用指南将带您无缝集成 OpenAI API 到项目中,帮助您轻松驾驭复杂的 API 并确保应用程序的流畅运行。 本次新版内容涵盖了 OpenAI Embeddings 等关键主题,帮助您理解词汇和短语之间的语义关系。您将通过 10 个 AI 项目了解如何使用 ChatGPT、Whisper 和 DALL-E API,使用最新的 OpenAI 模型(GPT-3.5 和 GPT-4)以及 Visual Studio Code 作为开发环境。项目中将集成 ChatGPT 到 Flask、Django、Microsoft Office API 和 PyQt 等框架和工具中。您将掌握 NLP 任务,构建 ChatGPT 克隆,创建 AI 代码错误修复 SaaS 应用程序,并通过整合 Stripe 支付系统,为应用添加支付功能。 通过本书,您将能够开发、部署并通过 ChatGPT API 实现您的创新应用。 您将学到的内容
本书适合人群
本书适合各类专业人士,包括程序员、企业家和软件爱好者。初学者 Python 开发者、希望探索 ChatGPT 应用的 AI 开发人员、将 AI 技术集成到软件中的开发人员、以及使用 ChatGPT 构建 AI 驱动 Web 应用的 Web 开发人员都将从中受益。对于正在利用 ChatGPT 进行 AI 项目的学者和研究人员也将有所帮助。理解本书的内容需要具备基本的 Python 知识并熟悉 API。 目录
关于作者
马丁·雅涅夫(Martin Yanev)是一位成就卓越的软件工程师,拥有丰富的跨行业经验,包括航空航天和医疗技术领域。凭借超过八年的辉煌职业生涯,马丁在空中交通控制和色谱系统等关键领域开发和集成尖端软件解决方案方面形成了独特的专业知识。他在费奇堡州立大学(Fitchburg State University)担任计算机科学教授,教授超过 28 万名全球学生,展现了其卓越的教学才能。他在 Flask、Django、pytest 和 TensorFlow 等框架上具有深厚造诣,并熟练掌握 OpenAI API 的构建、训练和微调。马丁拥有航空系统和软件工程双硕士学位,这一显赫的学术成就体现了他对行业理论和实践的坚持与专注。凭借卓越的成就和多样的技能,马丁不断推动创新,在软件工程领域取得变革性进展。
在过去15年中,空间和时空统计中的几个重要主题在教材中未得到足够的重视。《空间-时间数据建模:马尔可夫随机场、客观贝叶斯与多尺度模型》旨在填补这一空白,概述了近期提出的多种分析空间和时空数据集的方法,包括规范的高斯马尔可夫随机场、动态多尺度时空模型以及适用于空间和时空模型的客观先验。该书的目标是让这些方法更加易于实践者使用,并激发在空间和时空统计这一重要领域中的进一步研究。
Marco A. R. Ferreira是弗吉尼亚理工大学统计学系教授。他曾在多个科学期刊的编辑委员会中为统计学界服务,包括《贝叶斯分析》期刊,并参与了国际贝叶斯分析学会和美国统计协会的多个委员会,以及许多国内和国际会议的科学委员会。Marco目前的研究领域包括时间序列和时空数据的动态模型、多尺度模型、客观贝叶斯方法、随机搜索算法以及统计计算。其主要应用领域包括生物信息学、经济学、流行病学和环境科学。Marco的研究得到了行业、国家科学基金会和国家卫生研究院的资助。他在顶级期刊上发表了重要的科学论文,如《美国统计学会杂志》、《皇家统计学会杂志》、《Biometrika》和《贝叶斯分析》。截至撰写本文时,Marco已指导了超过15名博士生和博士后,他们现任职于学术界、工业界和政府部门。
**让AI助手立即将您的想法变为现实!**曾经,要成为程序员,您必须自己编写每一行代码。而现在,像GitHub Copilot这样的工具可以根据您用简单英语描述的内容,立即生成可运行的程序。畅销书《学习AI辅助的Python编程》已经帮助成千上万的有志程序员学习如何通过AI轻松编写Python程序。它非常适合初学者,或那些在传统编程陡峭学习曲线上挣扎的人。在《学习AI辅助的Python编程(第2版)》中,您将学到:
编写有趣且实用的Python应用程序——无需编程经验!
使用GitHub Copilot AI编码助手创建Python程序
编写告诉Copilot该做什么的提示
阅读Python代码并理解它的功能
测试您的程序,以确保它们按预期工作
通过提示工程或手动修改修复代码
创造性地应用Python来帮助工作 AI发展迅速,因此《学习AI辅助的Python编程(第2版)》已全面更新,以利用最新的模型和AI编码工具。由两位著名的计算机科学大学教授撰写,它教授您在AI优先的世界中开始Python编程所需的一切技能。您将学会使用这些技能创建用于数据分析、自动化繁琐任务,甚至视频游戏的工作应用程序。此外,在这本新版中,您将找到将大型软件项目分解为AI可以轻松完成的小任务的突破性技术。序言由Beth Simon撰写。购买纸质书可免费获得Manning Publications提供的PDF和ePub格式的电子书。关于技术人们编写计算机程序的方式已经永远改变。使用GitHub Copilot,您可以用简单的英语描述您希望程序执行的操作,AI会立即生成它。关于本书本书展示了如何使用AI创建和改进Python程序——即使您之前从未写过一行代码。您可以减少处理缓慢、底层编程细节的时间,学习如何让AI助手立即将您的想法变为现实。在此过程中,您还将学到足够的Python语言知识,以理解和改进您的AI助手创建的内容。内容包括
可运行代码的提示
手动修改代码并利用AI帮助
AI测试您的程序
让AI处理繁琐的细节 关于读者如果您可以在计算机上移动文件并安装新程序,您就可以学习编写实用的软件!关于作者Dr. Leo Porter是加州大学圣地亚哥分校的计算机科学教学教授,拥有十年以上的教学经验,并因其在计算机科学中有效教学法和评估的获奖研究而闻名。 Dr. Daniel Zingaro是多伦多大学的计算机科学副教学教授及获奖教师,他的主要研究领域是计算机科学教育研究,研究学生如何学习计算机科学内容。本书的技术编辑是Peter Morgan。目录
生成式AI已经彻底改变了组织应对问题的方式,加速了从概念到原型再到解决方案的过程。尽管这些应用程序提高了效率,它们通常需要进行详细的规划、起草和修改以完成复杂的任务。通过整合这些行动,AI代理提供了更高的自主性和效率,但理解和部署它们对于许多组织来说仍然是一个挑战,尤其是在技术和研究快速发展的情况下。 本书将是您穿越这个复杂且快速发展的领域的必备指南。作者迈克尔·阿尔巴达(Michael Albada)提供了一种实用且基于研究的方法,用于设计和实现单代理和多代理系统。书中简化了这些复杂性,并为您提供了从概念到解决方案高效过渡的工具。读完本书,您将能够: * 了解基于基础模型的AI代理的独特特性 * 探索AI代理的核心组件和设计原则 * 探讨设计权衡并实现有效的多代理系统 * 设计和部署定制的AI解决方案,提升您所在领域的效率和创新能力
**工业大模型伴随着大模型技术的发展,逐渐渗透至工业,处于萌芽阶段。**就大模型的本质而言,是由一系列参数化的数学函数组成的计算系统,且是一个概率模型,其工作机制是基于概率和统计推动进行的,而非真正的理解和逻辑推理,因此,当前大模型具有不可解释性和幻觉不可消除等主要特征。就大模型落地工业的情况而言,工业互联网、等工作已经让部分工业企业遍历了数据采集-数据存储-数据处理-数据分析-数据资产沉淀-数据应用的过程,部分场景已经准备好了向基础大模型投喂的“数据原料”,当经过简单数据处理、微调、适配后,可以解决部分垂直细分场景问题,具有落地可行性。就工业大模型的发展进度而言,工业大模型与工业互联网一样,都是要挖掘数据资产的价值,而数据准备的阶段性工作在工业互联网时期大部分已经准备好,故我们预计工业大模型的进程在技术不受限的前提下,可能会快于工业互联网。当然,工业大模型是以大模型技术为驱动,其进程快慢很大程度受限于大模型本身能力的进化。 **工业大模型玩家与工业互联网平台玩家重合度高,其成长路径目前也表现出高度相似的特征,但目前市场产品、服务、落地场景都处于探索阶段,大家都在同一起跑线。**就参与玩家而言,大模型技术底蕴、行业know how、运维资源等方面是各类玩家主要锚定的优势,且都是基于自身优势点,围绕具体应用场景摸索大模型在工业的落地性进行市场切入的。就具体产品形态而言,整体还较为稚嫩,目前大模型的能力更多还是依附于已有产品体系,鲜少有独立的产品出现,未来随着大模型流量入口特性明朗,有望独立成产品。就应用场景而言,当前大模型的不可解释性和幻觉等特性,与工业“0容错”的特性相悖,因此当前大模型落地工业的探索更多聚焦于偏运营的、具有一定容错能力的场景(如知识问答、辅助设计/代码生成等),而生产制造等核心场景的探索需要静待模型进化以及CV大模型、多模态大模型的发展。就发展挑战而言,模型、数据、应用、商业变现是无法避开的话题,且各方相互影响,互利共赢。 **大模型落地工业的探索中,还处于非常早期的阶段,供需双方都在尝试,当然,也有很多问题值得探讨与思考。**1)大模型落地工业的竞争要素:基础能力、模型能力、模型应用是主要竞争点,且在不同行业发展阶段,其相对竞争优势有所不同,具体而言:短期主要看大模型技术,长期则主要看模型应用深度。2)大小模型间的关系:大小模型间不存在替代关系,是并存且是协同融合赋能的关系。3)工业大模型服务走向平台化:大模型落地工业的服务平台化特征以开始显现,且逐步形成垂直行业大模型+智能体+小模型+机理模型为主的平台化调用方案。4)产业数据拉通助力工业大模型能力进化的同时,对大模型落地工业的广度、深度都大有裨益。
使用 GitHub Actions 自动化您的构建、测试和部署流水线!持续交付 (CI/CD) 流水线可以帮助您自动化软件开发过程,并最大化团队的效率。**《GitHub Actions 实战》**通过动手实验和项目,教您如何在 GitHub Actions 中构建实际的构建、测试和部署流水线。 在《GitHub Actions 实战》中,您将学习如何:
**《GitHub Actions 实战》**充满了用于自动化交付流水线的实战方法,帮助更快速地交付新功能。DevOps 工程师将特别喜欢关于基础设施即代码(Infrastructure-as-Code)和自动化云环境的可靠方法。本书由三位微软 MVP 编写,并由 GitHub 的 DevOps 架构师技术审核,提供了您在实际工作中取得成功所需的技能和建议。 购买本书的印刷版,您将获得 Manning 出版社免费提供的 PDF 和 ePub 格式的电子书。
**《GitHub Actions 实战》**向您展示了如何仅使用 GitHub 中可用的工具来实现安全可靠的持续交付过程——无需复杂的 CI/CD 框架!您将跟随一个销售票务的扩展示例应用程序,完成从初始构建到云端部署的全过程。 本书的第一部分介绍了工作流和 actions 的基础知识,所有内容都通过简单的示例进行说明。然后,您将深入了解平台的架构、安全考量以及工作流运行时的详细讲解。最后,您将学习如何交付完整的 CI/CD 流水线,包括合规性、性能和成本优化。您甚至将学习如何创建您自己的 actions,并在 GitHub 市场中共享!
适合已经使用 GitHub 并希望扩展到 GitHub Actions 的软件开发人员和 DevOps 工程师。
Michael Kaufmann 荣获微软区域总监 (RD) 和微软最有价值专家 (MVP) 称号。 Rob Bos 是一名培训师(Azure 和 GitHub),微软 MVP 和 LinkedIn Learning 讲师。 Marcel de Vries 是 Xebia Microsoft 服务线的联合创始人、全球总经理兼 CTO,连续 17 年获得微软 MVP 称号,自 2008 年以来一直担任微软区域总监。
加速你对数据分析的掌握,借助ChatGPT的强大功能。不论你是数据分析新手,还是想更快完成更多工作且更高效的专业人士,《使用生成式AI和Python入门数据分析》将帮助你简化和加速数据分析过程!这本书由两位世界级的数据科学家和一位经验丰富的风险经理撰写,专注于日常实际分析任务。在《使用生成式AI和Python入门数据分析》一书中,你将学习如何:
如果你具备数据分析的基本知识,本书将展示如何利用ChatGPT加速日常的核心数据分析工作。速度提升是显著的:作者报告称,完成任务的时间仅为过去的三分之一甚至四分之一。
本书提供了适用于工作中的可靠、实用的建议。它能帮助你更好地探索问题,生成新颖的分析方法,并微调数据管道——同时帮助你培养一种理解AI工具可能带来的风险和错误的直觉。最终,你能够完成更多工作,效率更高,结果更佳,轻松应对。本书假设你已经掌握了基本的知识,并将指导你完成整个分析过程——从收集和准备原始数据、数据清理、生成基于代码的解决方案、选择统计工具,到最终创建有效的数据展示。清晰的提示帮助你提取、解读并展示数据,将你的技能提升到一个全新的水平。
Artur Guja、Dr. Marlena Siwiak和Dr. Marian Siwiak是具有商业、科研和金融背景的经验丰富的数据科学家。本书的技术编辑为Mike Jensen。
Artur Guja是一位风险经理、计算机科学家、系统开发人员和金融市场专家,在银行业拥有超过20年的经验,致力于在IT、风险管理和金融产品交易领域提供安全且实用的解决方案。Dr. Marlena Siwiak是一位经验丰富的数据科学家和生物信息学家,具备广泛的科学背景,并在开发商业数据应用方面积累了丰富经验,既能驾驭数据又能驾驭文字。Dr. Marian Siwiak是一位数据科学家,凭借数据知识和管理经验,成功交付了涵盖生命科学、机器人等多领域的数百万规模的IT、科学和技术项目。
随着空军从以反恐为重点调整为应对具有潜在生存后果的近邻竞争,“一切照旧 ”的系统开发方法将不再适用:无法继续在几十年前开发的概念上循序渐进。相反,需要新的技术,为提供新的能力,以及运用这些能力的新的作战概念。目前在信息科学领域,特别是在自主系统(AS)开发及其相关基础技术--人工智能(AI)领域,存在着广泛而深入的技术推动力。随着新的人工智能算法和学习技术的开发和以新颖的方式加以应用,对认知和神经生理学的了解--大多数时候之所以 “聪明 ”的基础--也在以令人目眩的速度增长,而构建自主系统(如自动驾驶汽车和游戏机器人)的能力也不断成为头版新闻。此外,随着计算能力、内存、网络和数据可用性的摩尔定律增长,底层计算基础设施的爆炸性增长也加剧了这些进步。
在此的目标有两个:为空军高层领导提供自主系统潜力的愿景,以及自主系统如何在各级作战中发挥变革性作用;为科技界提供一个总体框架和路线图,以推动技术发展,同时支持其向现有和即将获得的系统过渡。与其他人一样,也认为使用这些系统将带来可观的回报,原因很简单,这些自主系统的单项能力将为提供更大的使用自由度和新的作战概念机会。但这只是一种传统观点。更深远的潜在回报将来自于以信息为中心的发展和自主系统的激增,这样,就可以抛弃传统的以平台为中心的思维方式,成为一个以服务为导向、无处不在的网络化和信息密集型的企业。
本文方法是首先阐述在 AS “行为 ”方面的需求:也就是说,无论底层技术手段如何,这些系统在熟练程度、信任度和灵活性等关键维度上的行为结果是什么?然后,将重点关注有可能将致力于解决这一问题的多个不同群体聚集在一起的架构方法,然后讨论可以将这些架构变为现实的使能技术。最后,提出了一些建议,这些建议不仅涉及技术问题,还涉及应该解决的问题集类型、解决这些问题所需的开发流程和组织结构,以及能够实现所提出愿景的知识平台的更广泛结构。
建议涉及六个具体领域,概述如下。
这些基本上是概括性的设计要求,规定了希望 AS 在熟练性、可信性和灵活性方面的行为方式。
建议 1a: 自主系统(AS)的设计应确保其在特定环境、任务和队友中的熟练操作。熟练性的理想属性包括情境代理、自适应认知能力、允许多代理出现以及从经验中学习的能力。
建议 1b: 自主系统(AS)应确保由人类同行操作或与人类同行合作时的信任。理想的信任原则包括:认知一致和/或决策透明、情境感知、可实现自然的人-系统互动的设计以及有效的人-系统团队合作和培训能力。
建议 1c:自主系统(AS)应以实现熟练程度和信任为目标,并能推动不同任务、同伴和认知方法之间的行为灵活性。人工智能系统所需的灵活性原则包括:能够根据整体任务的要求和所面临的情况改变其任务或目标。它应该能够扮演下属、同级或上级的角色,并与人类或组织内的其他自主系统一起改变这种角色。它还应能够改变执行任务的方式,既能在短期内应对不断变化的情况,也能在长期内积累经验和学习。
这包括支持跨学科研究与开发的统一框架和架构,以及支持架构内预期功能所需的技术投资。
建议 2a: 开发一个或多个通用的自主系统架构,以涵盖目前在不同社区使用的多个框架。架构至少应提供 “端到端 ”功能,即为自主系统提供感知能力,使其能够捕捉环境的关键方面;提供认知能力,使其能够进行评估、制定计划和作出决定,以实现预期目标;提供运动能力,使其能够在需要时对环境采取行动。体系结构应具有功能结构,以实现可扩展性和可重用性,不对组件功能的符号处理或次符号处理做出承诺,包含记忆和学习功能,并根据需要支持人机交互。无论采用哪种形式,架构都应可根据分配的任务、参与的同伴关系和使用的认知方法进行扩展。衡量一个架构是否有用的一个关键标准是,它是否有能力弥合处理自主性问题的不同群体之间在概念和功能上的差距。
建议 2b: 继续开发在组件层面提供所需功能的使能技术。这不仅包括支持基本的 “看/想/做 ”功能的技术,还包括支持有效的人机交互界面 (HCI)、学习/适应和知识库管理的技术,既包括通用技术,也包括特定领域的技术。技术开发的性质应从基础研究、探索性开发到早期原型设计不等,这取决于具体技术的成熟程度及其设想的应用。
建议 2c: 开发并推广多层硬件和多层软件架构,以支持自主系统的开发、验证、运行和修改,其中每一层为给定的高层和低层功能提供不同硬件实现/主机的物理结构,每一层为类似功能提供不同的软件实现。要充分利用新兴技术趋势,特别是商业领域的新兴技术趋势,可能需要各种复杂的架构模式。
这里既涉及与领域无关的问题(或功能性问题),如动态重新规划,也涉及与领域有关的问题(或面向任务的问题),如多域融合。
建议 3a:通过一套范围适当、规模适当、抽象化的面向功能的挑战问题集,推动自主系统的基本行为、架构和功能开发,使科学与技术(S&T)界的不同成员能够专注于自主系统行为的不同贡献者。根据最初提名的架构和功能集选择挑战问题集,其方式应涵盖架构所代表的全部功能(详尽性),并尽量减少解决任何两个挑战问题所需的功能重叠(排他性)。
建议 3b:选择以任务为导向的挑战问题,其两个目标是:a) 解决当前或未来可能非常适合应用自主系统的业务差距;b) 挑战科技界在自主系统功能的科学和工程方面取得重大进展。确保挑战问题能够在前面选定的架构和功能的范围内得到解决,以确保独立于领域的工作和独立于领域的工作之间的一致性,避免 “一次性 ”应用工作最终对其他面向任务的问题集贡献甚微。既要考虑 “部分 ”以任务为重点的挑战问题,也要考虑 “端到端 ”的挑战问题。最后,不要将科技资源用于解决在其他部门也有类似问题的作战问题,除非空军特有的属性使问题非常独特,无法以类似方式解决。
这包括支持创新、快速原型设计和迭代需求开发的流程--与传统的瀑布式流程(需求说明、里程碑满足和最终状态测试与评估(T&E))形成对比,以支持自主系统的快速开发和投入使用。
建议 4a: 建立教育和实习人员管道,选派人员到空军技术研究所参加自主性入门短期课程,重点是人工智能使能因素。然后,个人成员将被嵌入到以人工智能为重点的特别行动活动中:自主能力小组(ACT),学习如何将所学技能应用于满足美国空军的自主需求。在四年的时间里支持这项工作,使人工智能人员的数量比现在增加一个数量级。通过一系列特别激励计划确保留住人才。通过对关键的校外研究人员提供适当的长期支持来补充这支队伍。
建议 4b:采用三阶段框架,反复选择挑战性问题,对潜在解决方案的影响进行建模,并进行解决方案开发、原型设计和评估。开展基于兵棋推演的初始阶段评估,目标是确定关键挑战问题和基于自主系统的解决方案,以应对这些威胁或利用潜在机遇。通过定量模型和模拟(M&S)以及性能参数对这些概念进行形式化,对有前途的自主系统候选方案进行更深入的评估。最后,重点设计一个或多个在 M&S 研究中确定的有前途的自主系统候选方案的工程原型。开发并实验评估一个自主系统原型,该原型可作为:a) 购置的设计原型;b) 其他所需 S&T 的设计驱动力。
建议 4c: 通过空军首席数据官,获取存储美国空军航空、航天和网络数据的空间,以便人工智能专业人员能够利用这些数据创建自主解决方案,解决面临的挑战。在相关组织中设立数据管理员角色,以管理数据,并为数据生产者和消费者创建简化的访问和检索方法。
建议 4d: 支持向基于云的计算发展,同时利用量子计算这一通用计算范式,满足嵌入式和高性能计算处理需求。
这包括围绕项目(或成果)重点进行组织,而不是按照传统的技术专业领域进行组织。
这为提供了一种整合自主系统行为原则、架构/技术、挑战问题、发展过程和组织结构的整体手段。
总之,对自主系统开发和应用的建议包括
这些系统要想精通业务、得到人类同行的信任并灵活应对意外情况,就必须具备的行为方式
需要统一的框架、架构和技术,以便不仅跨越孤立的科技界,而且跨越操作上的隔阂和领域
挑战科技界所需的重点难点问题,包括基础性问题和操作性问题,同时提供远远超出传统的以平台为中心的现代化方法的操作优势
处理人员、系统、数据和计算基础设施的新流程,这些流程将加速创新、快速原型设计、实验和实地应用
新的组织结构--自主系统能力团队,将技术专业汇集到一个单一的组织中,专注于创新产品开发,并根据需要向其他组织和社区拓展
知识平台,全面整合自主系统的行为原则、架构/技术、挑战问题、开发流程和组织结构
AFRL,特别是 ACT,不能简单地将其注意力局限于自主系统的研究领域,也不能简单地延续在一次性演示中应用现代人工智能和 AS 技术来逐步提高任务能力的模式。必须选择挑战性问题来推进知识平台的能力,以敏捷的方式在变革性应用中提供表现出熟练、可信和灵活行为的自主系统。除了以项目为中心的工作外,ACT 还可以优先考虑和协调 AFRL 的整个自主系统科技组合--使各项工作同步进行,以最大限度地提高投资效果--及时、大规模地将 AS 能力用于应对任务挑战,同时在各科技局之间 “共享 ”新架构、技术和流程的 “财富”。最后,一旦取得成功,ACT 可以作为一个 “存在证明”,证明美国空军后勤部如何从其传统的以学科为中心的组织转变为一个更加跨学科和以项目为导向的组织,解决美国空军整个企业的变革性问题。
拥有一个独特的机会,将空军从一个以空中平台为中心的部门(空间和网络往往处于次要地位)转变为一个真正以多领域和知识为中心的组织。通过知识平台向作战人员提供自主系统,空中、太空和网络的每项任务都将得到改进,而且不仅是逐步改进,而是成倍地改进。将成为一个以服务为导向、无处不在的网络化和信息密集型企业。简而言之:
一个灵活的、以信息为中心的体系,通过无障碍地访问极其有效的外围设备,及时做出决策。
最近的全球冲突,如乌克兰战争,凸显了无人机系统(UAS)在军事场景中的广泛应用。这些系统不仅在情报、监视和侦察(ISR)任务中举足轻重,而且还发挥着直接作战的作用。此外,无人机系统正在彻底改变各种商业行业,如基础设施、物流、保险、媒体、电信、农业、采矿、石油和天然气以及零售业。
无人机系统的迅速扩散带来了新的威胁,如未经授权的监视、隐私泄露、空域受阻以及可能利用无人机携带破坏性有效载荷。这些问题在民用空域尤为突出,涉及无人机的事件激增。从 2021 年到 2023 年,美国运输安全管理局(TSA)报告了 2000 多起在美国机场附近发现无人机的事件,其中包括要求飞行员采取规避行动的事件。仅在 2024 年的前四个月,美国联邦航空局(FAA)就记录了 326 起在飞机、直升机和机场附近发生的与无人机有关的事件,凸显了日益增长的安全风险。
为应对这些挑战,迫切需要有效的反无人机系统(C-UAS)技术。各国正在越来越多地采购用于探测、识别、跟踪、警报、干扰、欺骗和消除不法无人机的系统。预计 2021 年至 2031 年,全球 C-UAS 技术市场将翻两番。值得注意的是,结合各种探测和缓解技术的综合防御网络被证明比孤立的系统更有效,美国陆军的一项评估就是证明。
以下报告将分析当前不断发展的 C-UAS 市场,研究当前趋势、技术进步和未来工作,以应对无人机系统扩散带来的日益严峻的挑战。
2020 年,亚美尼亚和阿塞拜疆就有争议的纳戈尔诺-卡拉巴赫地区发生冲突,最近,俄罗斯乌克兰战争,这一切都证明了无人机系统(UAS)在冲突场景中的无处不在。这些系统越来越多地被广泛应用,包括情报、监视和侦察(ISR)任务以及直接作战任务。此外,无人机系统还越来越多地应用于商业行业,如基础设施、物流、保险、媒体和娱乐、电信、农业、采矿、石油和天然气以及零售业。事实上,根据麦肯锡的一项研究,在 2021 年至 2023 年期间,全球由无人机投递的商业包裹数量将增加 85% 以上。
无人机体积、重量和成本大幅降低,电池寿命延长,自主性提高,这些发展都是推动无人机系统在军事和商业应用中使用的因素。AgileIntel Research 最近进行的一项研究预计,全球无人机市场将从 2023 年的 280 亿美元增至 2033 年的近 1500 亿美元,复合年增长率为 18.3%。同期,美国无人机市场预计将从 70 亿美元增至 400 亿美元,复合年增长率为 19%。此外,根据美国联邦航空管理局(FAA)的估计,商用无人机机队(用于商业、研究或教育目的)预计将从 2022 年底的约 727,000 架增长到 2027 年的 955,000 架。同期,美国联邦航空局预测娱乐机队(为个人兴趣和娱乐而操作的机队)也将从 169 万架增加到 182 万架。商用和军用无人机使用量的指数级增长导致了来自流氓系统的一系列威胁。这些威胁包括未经授权的监视、隐私泄露、空域阻塞以及无人机系统作为破坏性有效载荷的载体运行。全球机构在低空领域正面临着新的安全挑战,这主要是由于商业系统的激增,这些系统越来越多地被用于娱乐和专业目的。
仅就美国而言,民用空域中与无人机相关的安全挑战的规模和严重性在过去几年中已得到充分证实。2021 年至 2023 年期间,美国运输安全管理局(TSA)报告了 2000 多起在美国机场附近发现无人机的事件,其中一些事件涉及飞行员采取规避行动,包括四起涉及商用飞机的事件。此外,根据美国联邦航空管理局(FAA)的最新数据,在2024年前4个月(截至4月),已发生多达326起无人机被发现靠近飞机、直升机和机场的事件,从而造成严重的安全隐患。
这些趋势要求在探测、识别、定位/跟踪、警报、干扰、欺骗和摧毁等领域开发有效的反无人机技术。各国正在采购反无人机系统(C-UAS),如干扰、欺骗和致盲系统,以及基于激光的定向能武器(DEWs),预计全球市场将在 2021 年至 2031 年间翻两番。有趣的是,这些采购并不局限于孤立运行的独立系统,而是将互补的探测和缓解技术编织成一个综合防御网络,以提高效率。事实上,美国陆军联合反小型无人机系统办公室最近进行的一项行动评估发现,与部署孤立的系统相比,系统的系统方法更为有效。
各种 C-UAS 技术和系统可大致分为两类: 各种 C-UAS 技术和系统可大致分为两类:动能和非动能。
探测系统: 利用各种传感器技术,如雷达、电子光学/红外(EO/IR)相机、声学传感器和射频(RF)探测器,探测特定空域内的无人机系统并确定其位置。
识别和跟踪: 一旦被探测到,CUAS 系统可采用先进的算法和软件来识别和跟踪无人机系统,根据飞行行为、大小和通信信号等特征来区分授权和未授权的无人机。
电子对抗 (ECM):ECM 技术可破坏或干扰无人机系统的控制和通信系统,使无人机无法接收操作人员的指令,或破坏 GPS 信号以导致导航失灵。
干扰: 干扰是指发射电磁信号干扰无人机系统用于通信和导航的无线电频率,破坏其控制并使其失效。
欺骗: 欺骗技术是指产生虚假信号欺骗无人机导航系统,使无人机偏离预定飞行路线或安全着陆,从而解除无人机构成的威胁。
网络安全措施: CUAS 系统可采用网络安全措施来防范无人机系统带来的网络威胁,包括未经授权访问网络、数据泄露和针对关键基础设施的恶意软件攻击。
声学威慑: 发射高频声音或声学信号,阻止无人机系统进入限制空域或敏感区域,利用鸟类和其他野生动物的厌恶行为阻止无人机入侵。
定向能武器(DEW): 虽然定向能武器通常被认为是动能武器,但有些定向能武器系统提供非致命选择,如激光眩晕器或非破坏性光束转向,在不造成物理伤害的情况下使无人机系统的电子设备或传感器失效。
指挥与控制(C2)干扰: 瞄准无人机系统与其操作员之间的通信链路,破坏指挥和控制信号,阻止无人机接收指令或传输数据。
网络威胁情报: 利用先进的分析和威胁情报来预测和应对无人机系统带来的网络威胁,包括恶意软件、数据外渗和网络入侵企图。
拦截: 使用配备网炮、捕获装置或其他手段的有人或无人飞机拦截无人机系统威胁,以实际捕获或禁用未经授权的无人机。
动能弹射系统: 部署火器、大炮或其他基于弹射的武器,通过瞄准关键部件或对无人机造成物理破坏,击落无人机系统威胁或使其失效。
定向能武器(DEW): 利用高能激光束或微波脉冲损坏或破坏无人机系统的电子设备、传感器或推进系统,使无人机无法操作或出现故障。
爆炸物: 使用爆炸物或爆炸性射弹,通过直接撞击或在目标附近引爆来摧毁无人机系统威胁。
防撞系统: 为飞机或地面平台配备防撞系统,旨在与无人机系统威胁发生物理碰撞或扰乱其飞行路线,使其坠毁或失去控制。
电子战 (EW): 利用电子战技术,通过干扰、欺骗或其他电子干扰手段,破坏或削弱无人机系统的控制和通信系统。
机动和撞击: 使用有人或无人飞行器拦截无人机系统威胁并与之发生物理碰撞,使其坠毁或因撞击力而失效。
专用动能拦截器: 使用专门的动能拦截系统,如导弹防御系统或反无人机弹药,以精确制导的射弹或导弹瞄准并摧毁无人机系统威胁。
地基防空系统: 部署地对空导弹、高射炮或其他地基武器系统,与在防御系统射程内飞行的无人机系统威胁交战并使其失效。
远程武器站(RWS): 在远程操作平台或车辆上安装火器、大炮或其他动能武器,以便从远处攻击无人机系统威胁并使其失效,同时最大限度地减少操作人员的暴露。
图:美国国防部:2024-2029 年C-UAS市场,百万美元
人类能够通过规划、推理和预测行动结果,执行具有长期目标的复杂任务。为了让具身智能体(如机器人)实现类似的能力,它们必须获得可以迁移到新情境中的环境知识,并在有限的试错预算下学习。基于学习的方法,如深度强化学习,可以从数据中发现并利用应用领域的内在规律和特征,并不断提高其性能,但这通常需要大量的训练数据。本论文探讨了用于空间推理与规划任务的数据驱动技术的发展,重点在于提高学习效率、可解释性以及在新场景中的可迁移性。
本论文的主要贡献包括四个方面:
CALVIN:一种微分规划器,能够学习可解释的世界模型用于长期规划。CALVIN成功地在部分可观测的三维环境中(如迷宫和室内房间)导航,通过从专家示范中学习奖励(目标和障碍)以及状态转换(机器人动力学)。
SOAP:一种强化学习算法,用于无监督地发现长远任务的宏动作(选项)。选项将任务划分为子任务,并实现子任务的稳定执行。SOAP在基于历史条件的走廊任务以及经典基准(如Atari游戏)中表现出稳健的性能。
LangProp:一个使用大型语言模型(LLM)进行代码优化的框架,通过将代码视为可学习的策略,解决具身智能体问题。该框架在CARLA自动驾驶基准中成功生成了具有可解释性的代码,其性能与人类专家编写的代码相当甚至更优。
Voggite:一种具有视觉到动作的Transformer后台的具身智能体,它解决了Minecraft中的复杂任务。在MineRL BASALT竞赛中,Voggite通过识别动作触发点,将任务分割成多个阶段,获得了第三名。 这些进展为基于学习的方法在复杂的空间推理与规划挑战中的应用提供了新的途径。关键词:机器学习、神经网络、深度强化学习、模仿学习、层次化强化学习、策略优化、机器人技术、自动驾驶、具身智能体、选项发现、技能学习、导航、规划、计算机视觉、大型语言模型、多模态基础模型。1.1 动机人类具有在新环境中进行规划、推理和预测行动结果的能力,这是执行具有长期目标的复杂任务的显著能力。无论我们遇到的是新游戏、新运动还是新地点,尽管我们从未有过类似的具体经历,但我们仍然能够通过从先前的经验中推断出策略,利用可迁移的知识和技能。通过现代规划算法,如果环境动态(尤其是状态转换和奖励动态)是完全已知的,状态和动作是可枚举的,并且计算资源是无限的,那么找到接近最优的规划解决方案是可能的。然而,现实中这三个假设通常都不成立。智能体通常只能访问环境的局部或部分观测结果,必须根据这些结果来估计环境的状态和动态。状态和动作通常是连续的而非离散的,因此需要一个估计器将连续输入映射为有意义的表示,能够泛化到新输入。最后,由于计算资源有限,状态和动作的枚举通常是不可行的,因此需要一种高效的策略,在有限的计算资源和智能体生命周期内探索状态-动作空间。许多涉及战略决策的现实问题要求智能体学习到可以应用于新场景的环境知识,并在有限的试错预算下学习。设计一个能像人类一样在开放领域中达到同样水平的性能和效率的算法仍是一个未解的问题。例如,自动驾驶[251]仍然是一个正在进行的、未解决的研究领域,因为在多智能体问题环境中,动态环境的复杂性极高,同时存在信息不完美和传感器输入噪声的挑战。这与工业机器人形成鲜明对比,工业机器人已在可控、可预测且在很多情况下是完全已知的环境中有效运行了几十年。加上任务的重复性,这使得人类可以硬编码系统来处理常见的预期场景。马尔可夫决策过程(MDP)和强化学习(RL)是强大的框架,它们将决策过程形式化为一个可以通过数学定义的目标进行学习的问题[213]。这些框架捕捉了与环境交互的序列性和时间演化特性。神经网络的进展及其与RL的成功整合[138, 139, 201]改变了计算机视觉和机器人技术领域,催生了基于学习的方法来解决传统上通过人类手工实现的专家系统解决的问题。基于学习的方法有两个主要优势。首先,随着数据的增加,基于学习的算法可以不断改进和适应应用领域,而手动实现的方法是固定的,无法适应变化。其次,基于学习的方法能够自动发现应用领域的内在规律和特征,并利用它们来提高性能,而无需对这些策略进行硬编码。虽然RL在解决复杂战略问题方面非常有效[10, 12, 138, 202, 229],但样本效率和可泛化性仍然是需要解决的挑战。当前最先进的RL算法在已训练的任务或可以通过反应策略解决的任务中表现出色,但并没有显式学习易于迁移的技能[145, 162, 163, 174, 198]。与可以轻松获取样本的游戏或模拟任务不同,在现实世界中收集样本可能是昂贵的,甚至是不安全的。人类能够通过学习可迁移的知识和技能来绕过这些问题,从而通过更少的试错提高成功的几率,并避免灾难性失败(如从悬崖上掉下或被车撞)。本研究旨在提出获取技能的方法,使智能体能够更有效、更高效地执行任务。
1.2 研究目标本研究致力于解决涉及空间推理、规划和决策任务的挑战,以数据驱动的方式,同时提高学习的效率、可解释性和可迁移性。本研究目标可以进一步细分为五个具体的研究目标,详细描述如下。1.2.1 学习一个具有可泛化性的规划器本研究的核心目标之一是开发能够泛化到新场景的可学习规划器。反应性马尔可夫策略与具备计划的策略之间的区别在于,反应性策略根据当前状态或局部观测结果作出即时决策,而规划则涉及对给定情境的长期分析,以提出空间和时间上一致的解决方案。两种方法的区别类似于[106]中提出的系统1(快速、无意识、自动的决策)和系统2(缓慢、有意识、严格的决策)思维。两种决策过程都很重要,因为反应性策略对于实时决策非常有用,而规划对于确保所作决策的一致性和连贯性非常重要。例如,基于蒙特卡罗树搜索(MCTS)的算法[201, 202]在学习反应策略和长期规划之间交替进行;通过模拟蒙特卡罗树的回合[40]并反向传播返回值估计,反应性策略根据回合结果进行更新。尽管像围棋和模拟环境的动态是已知的,但对于许多现实世界问题却并非如此。基于模型的RL方法[75, 79, 190]通过学习环境模型来进行模拟回合,解决了这个问题。第3章探讨了相关的替代途径,学习一个可微分规划器,以解决在新环境中无法通过反应策略有效解决的导航任务。第5章提出了一种新的学习算法决策的范式,通过将代码视为可学习的策略,利用大型语言模型(LLMs)从数据中进行学习。通过使算法可学习,RL智能体之前难以掌握的高级和长期计划现在可以通过模仿学习(IL)和RL技术学习。此外,第4章和第6章展示了如何使用选项[166, 214]的时间抽象来帮助智能体做出明智的长期决策,这将在1.2.2节和1.2.3节中讨论。
1.2.2 发现可重复使用的技能技能学习是高效探索、决策和任务解决的另一个重要组成部分。通过技能,可以构思一个高层次的计划,将低层次的技能策略结合起来并协调执行。这些技能专门解决任务的子集,因此智能体可以通过组合这些技能,从更少的训练样本中学习解决复杂的新任务。在第4章中探讨了这些技能如何通过无监督方式学习,使用来自环境的奖励作为学习信号。智能体轨迹被分割为与技能相关的子策略选项[166, 214]。
1.2.3 使用带有记忆增强的策略解决POMDP环境与1.2.2节相关,选项不仅可以用来学习技能,还可以用于学习时间一致的行为。它作为一个离散的潜变量携带前进的记忆,使得智能体能够在部分可观测马尔可夫决策过程(POMDP)环境中执行任务,在这种环境中,仅通过当前的观测结果无法确定环境的底层状态。通过维护智能体轨迹的历史,可以更好地确定真实的环境状态,因为过去的观测结果通常与未来的观测结果通过隐藏变量相关联。第4章检验了不同训练目标的算法发现选项的有效性和鲁棒性,展示了所提出的解决方案相对于经典的递归策略和Option-Critic策略[9, 111]的优势。在第6章中,技能和轨迹分割的概念被用于使智能体在任务完成的不同阶段改变其策略。将复杂任务分解为子任务并按阶段执行,使智能体能够执行与高层计划一致的时间一致行为。
1.2.4 解释专家和智能体的行为本研究的另一个主题是解释所学习的策略。上面讨论的技能学习是确保更好解释性的一种方法,因为选项以语义上可解释的方式对智能体轨迹进行分割。第3章探讨了可解释性的另一种方法:一个可微分的规划器通过专家演示的机器人导航轨迹学习目标、障碍物和运动动力学。它还在决策过程中计算奖励图和价值图,类似于逆强化学习(IRL)[6, 148, 260, 261]。在第5章中,提出了一种将策略明确表示为人类可读代码的更显式方法。策略性能问题可以直接通过阅读代码进行诊断,使这种方法成为解释性人工智能(AI)研究中的有价值技术。
1.2.5 训练具身智能体执行复杂任务最后,本研究的目标是将所开发的技术应用于具身智能体相关的问题,例如机器人技术。在第3章、第5章和第6章中,分别解决了机器人导航、自动驾驶以及在虚拟世界Minecraft[208]中的任务执行的挑战。这些挑战都有导航和空间推理作为完成任务的关键要素。导航是一个传统上通过专家设计的系统解决的现实问题,但可以通过利用数据驱动的学习来提高效率。例如,车道变换和与其他车辆合作是自动驾驶车辆的任务,要求复杂的规划。由于人类合作行为难以建模,特别是在存在多重因素和微妙线索的情况下,这个问题变得尤为复杂,而且并不总是有确定的策略可遵循。从现实世界数据中学习合作行为可以有助于优化这些任务。
1.3 主要贡献本论文的贡献可以总结如下:
武器目标分配问题(WTAP)是将一组武器和弹药分配给目标的问题,最大限度地减少敌方威胁。在最简单的形式中,WTAP 可以表述为一个非线性整数程序,并且已被证明是完全NP的。有关 WTAP 的文献主要研究确定性参数下的问题。但在现实中,军事行动的大部分信息都是基于训练、测试、演习、历史事件和个人经验的数据,这就增加了与 WTAP 相关参数的不确定性。例如,目标信息、位置和武器对特定目标的有效性并不总是能够百分之百确定地估计出来。这种不确定性给军事指挥官带来了挑战,因此,将这种不确定性纳入决策框架至关重要。文献中未充分研究的另一个问题是顺序决策背景下的 WTAP 问题。在这种情况下,分批打击敌方目标可能是有益的。然而,在这种情况下,由于剩余目标和/或未被摧毁的目标会进行伪装,因此先前的打击会对未来打击的信息可用性产生负面影响。考虑到这种不确定性,就很难制定多阶段 WTAP。
本论文的内容安排如下。在第 2 章中,概述了有关 WTAP 的文献。在第 3 章中,介绍了不确定条件下大规模连续非线性资源分配问题的一般优化框架。更具体地说,研究了一个具有凸、可分离、不一定可微的目标函数的大规模资源分配问题,该目标函数包括一个区间不确定性集下的不确定参数,并考虑了一组确定性约束条件。设计了一种精确算法来求解该问题的 “最小遗憾 ”表述,这是一个 NP 难问题,证明了所提出的 Benders 型分解算法能在有限时间内收敛到最优解。通过广泛的计算研究评估了所提算法的性能,结果表明,所提算法能为大规模问题提供高效的解决方案,尤其是在目标函数可微分的情况下。对于目标函数不可微的问题,计算时间会更长,这在意料之中,但表明,使用精确方法可以在更短的运行时间内获得高质量、接近最优的解决方案。还开发了两种启发式方法,它们部分基于精确算法,并表明所提出的精确方法的优点在于通过为高效启发式方法奠定基础,既能提供最优解,也能提供高质量的近似最优解。
在第 4 章中,研究了目标信息不确定情况下的武器目标分配问题。更具体地说,提出了三种随机/稳健优化模型,分别是平均情况、最坏情况和遗憾导向模型。证明,平均情况模型和最坏情况模型可以重写为等价的确定性模型,而且相对容易求解。然后,展示了基于遗憾的方法所得到的模型虽然不那么保守,但由于包含了大量随问题规模呈指数增长的约束条件,其求解对计算的要求大大增加。为了解决这个问题,提出了三种类似班德斯的分解方案,这些方案的复杂程度不断提高,其中包含两种线性化方案来处理非线性约束。为了评估数值方案的性能,进行了广泛的数值研究。结果表明,所提出的算法性能良好,能在合理的时间内解决大多数问题实例。
在第 5 章中,研究了随机武器目标分配问题的两阶段版本。更具体地说,考虑了这样一种情况:决策者需要使用一组可用的武器和弹药分两批打击一组目标。使这一问题复杂化的是,目标会观察到第一次攻击,并相应地重新调整(伪装、分散和/或干脆消失)。因此,这里的研究问题是 如何在第一阶段为目标分配武器,同时考虑战场上幸存目标的反应。由此产生的优化问题具有双线性目标函数和非凸约束条件,因此导致商用非架设求解器效率低下。因此,提供了一种定制的求解方案,该方案基于非线性约束的线性化和为非凸约束生成凹包络。然后,通过添加非预期约束条件来解决由此产生的问题。此外,还探讨了渐进对冲等其他求解方法。
在第 6 章中,对论文进行了总结,并提出了潜在的未来研究方向。
为军事规划行动方案(COA)的制定和分析制定备选方案的过程依赖于人类的学科专业知识。分析行动方案需要审查多个因素,了解与行动、反应、拟议反作用力和多种合理结果相关的复杂互动和依赖关系。在 2021 财政年度,美军系统工程研究所研究团队完成了一项工作,建立了一个兵棋推演海上框架,该框架能够在海上场景中利用深度强化学习(DRL)技术训练人工智能(AI)体,让人工智能体在游戏中与蓝方体进行可信的竞争。然而,使用 DRL 进行智能体训练的局限性在于人工智能体如何做出决策的透明度。如果领导者要依靠智能体来制定或分析作战行动,他们就会希望了解这些决策。为了加深理解,研究人员与利益相关者一起确定了可视化要求,并开发了初步原型供利益相关者反馈,以帮助加深对人工智能生成的决策和建议的理解。本报告介绍了为支持任务规划人员和智能体培训人员的使用案例而开发的可视化原型。原型包括训练结果图表、智能体路径热图可视化、权重矩阵可视化和烧蚀测试图。
图 1. AI智能体可视化集成方法。
本报告的其余部分遵循以下大纲。本报告第 2 节简要概述了与军事条令相关的兵棋推演以及智能体在 COA 开发和分析中的潜在作用。第 3 节概述了由此产生的可视化原型和消融测试结果。报告的最后是总结和展望。
大型视觉语言模型(LVLMs)通过在大型语言模型(LLMs)的基础上整合视觉模态,增强了用户交互并丰富了用户体验。它展现了强大的信息处理和生成能力。然而,幻觉现象的存在限制了LVLMs在各个领域的潜力和实际效用。尽管已有大量工作致力于幻觉的减缓与纠正,但针对这一问题的综述性研究却较为少见。在本次综述中,我们首先介绍了LVLMs和幻觉现象的背景。随后,介绍了LVLMs的结构以及幻觉生成的主要原因。接着,我们总结了近期在幻觉纠正和减缓方面的相关工作。此外,我们还从判断性和生成性角度介绍了LVLMs幻觉评估的可用基准。最后,我们提出了一些未来的研究方向,以增强LVLMs的可靠性和实用性。
近年来,大型语言模型(LLMs)在自然语言处理(NLP)领域取得了优异的成绩。基于Transformer的LLMs通过在大规模语料库上学习语言模式和知识,获得了理解和生成自然语言的能力。许多LLMs在NLP领域中涌现,如GPT-4 [1]、Llama [2]、InstructGPT [3]、PaLM [4]和Vicuna [5]。在大规模语料库和大量参数的支持下,这些LLMs能够完成广泛的任务,并展示出强大的零样本能力。尽管LLMs具有令人兴奋且稳健的特性,但它们仅限于文本领域。越来越多的研究提出将视觉信息融入LLMs中,这些新模型称为大型视觉语言模型(LVLMs),可应用于多种场景,如医疗诊断与辅助[6]、[7],艺术与娱乐[8],自动驾驶[9],虚拟助手和聊天机器人[10]、[11]。凭借其出色的性能,LVLM吸引了众多用户。然而,一些用户发现,LVLM生成的信息在事实层面上是错误的,但看似合理,例如错误地报告不存在的物体、物体属性、行为和物体间关系。上述现象被称为幻觉,这使得LVLM难以应用于对准确性和可靠性要求较高的场景中。例如,幻觉可能会误导用户,提供错误或不准确的信息,甚至在内容摘要或信息检索中导致错误信息的传播。如果LVLM频繁生成幻觉,可能会影响其发展。因此,纠正或减缓幻觉对于LVLMs来说是必要的。
为了构建一个可信赖的LVLM,幻觉是必须克服的障碍。因此,出现了大量关于减缓或纠正LVLM幻觉的研究工作。目前,已有几篇综述总结了LLMs中的幻觉纠正工作[12]、[13]。在多模态领域,也有部分工作[14]、[15]致力于总结多模态大型语言模型中的幻觉现象。然而,我们的综述采用了明显不同的分类策略。我们根据不同幻觉纠正工作的核心思想以及幻觉评估基准进行了分类。
在本文中,我们对LVLM幻觉现象的最新进展进行了综述。首先,我们介绍了与LVLM和幻觉相关的背景知识。在第二节中,我们提供了LVLM的结构及其产生幻觉的主要原因。第三节总结了幻觉的纠正和减缓工作。接下来,第四节中我们介绍了用于评估LVLM幻觉的基准。最后,在第五节中,我们对LVLM幻觉纠正的未来前景提供了一些见解,并描绘了潜在的研究方向。
LVLMs可以分为三个模块:感知模块、跨模态模块和响应模块,如图1(A)所示。通过这三个模块,视觉信息被提取并映射到文本空间。进一步地,视觉信息和文本信息结合以生成最终的响应。 感知模块通常使用视觉Transformer(ViT)[16]或其变体[17]将图像转换为高维向量。在输入ViT之前,图像被分割成若干patch,并添加位置信息。如图1(A)所示,ViT是一个仅包含编码器的模型,由N个编码器组成。编码器的多头注意力机制是Transformer模型的核心组件,具有强大的并行计算能力,能够在序列的不同部分之间建立联系。 跨模态模块旨在弥合视觉和语言之间的模态差距[18]。近年来,LVLMs中的跨模态模块采用了可学习接口[10]、[19]、Q-former[20]和pereceiver resampler[21]等结构。可学习接口基于投影矩阵将视觉信息映射到文本空间。Q-former通过与文本交互视觉信息来弥合模态间的差距。pereceiver resampler通过使用交叉注意力将视觉特征编码到文本中。 响应模块充当LVLMs的大脑。因此,它需要强大的能力来处理和分析视觉和文本的输入,以生成最终答案。响应模块通常采用LLMs,如Vicuna [5]、Llama [2]、Flan-PaLM [22]和Llama2 [23]。ViT和LLM都是基于Transformer的,但LLM是仅包含解码器的结构。解码器的掩码多头注意力机制增加了掩码操作。因此,LLM在文本生成过程中无法利用“未来”信息,确保了生成内容的真实性。
有几个因素导致LVLM产生幻觉。幻觉的发生可能与LVLM的多个部分有关,包括感知模块、跨模态模块和响应模块。因此,为了更好地纠正和减缓幻觉,我们将幻觉现象的主要原因归纳如下:
模态差距:每种模态都有其独特的特性和表达方式,这导致了不同模态数据在分布、特征和语义上的显著差异。模态差距的存在使响应模块在理解图像输入时产生偏差,导致错误的响应生成。例如,如图1(B)所示,红白相间的物体实际上是一个标志,而不是中文字符。由于模态差距的存在,响应模块错误地将其描述为“红白相间的中文字符”。
数据集中的有害信息:交叉熵损失的本质是模仿。因此,LVLMs从数据集中学习模式以生成与训练数据相似的响应。由于LVLMs需要大量数据进行训练,大多数数据集是通过LVLMs或LLMs生成的。尽管这些数据在生成后经过人工清理,仍有一定比例的误导性样本保留在数据集中。当LVLM从这些带有幻觉的数据中学习时,必然会生成幻觉。
LLM的幻觉:LVLMs的优异表现主要归功于其将LLMs作为“大脑”。然而,LLMs很容易产生幻觉。此外,LLMs已经积累了丰富的参数化知识。当这些参数化知识错误或与接收到的视觉信息冲突时,会导致幻觉。此外,可用解码策略的随机性也可能是幻觉的诱因。许多特殊现象通常在解码过程中发生,并且与幻觉密切相关。
III. 幻觉的纠正 在本部分中,我们将回顾和总结近年来与LVLM(大型视觉语言模型)中幻觉现象相关的纠正与减缓工作。随着LVLM在各个领域的广泛应用,如何有效地减少其生成不准确或错误的内容(即幻觉)成为了一个重要的研究方向。幻觉的产生与数据集、模态差距以及输出响应的生成机制密切相关,因此幻觉纠正的方法主要集中在以下三类:数据集去幻觉、模态差距补偿以及输出纠正。我们将对这三类方法进行详细介绍,分析各自的工作原理和应用场景。
数据集去幻觉是通过改进或清理训练数据集,以减少或避免模型在推理过程中生成幻觉内容的一种有效方法。LVLM通常通过指令调优来增强推理性能,而这一过程对高质量、大规模的指令数据集有高度依赖。然而,现实中构建这样的数据集并不容易,即便有LLMs或LVLMs的帮助也很难确保数据完全无误。因此,通过对现有数据集进行改写、去除过度自信样本和打破不当共现现象成为解决这一问题的重要策略。
数据重写 数据重写是指对训练数据中的错误信息或潜在误导性样本进行修改,以确保模型学到的信息更加准确。例如,针对某些数据中由于标注错误或不准确导致的幻觉现象,可以通过自动化工具或人工验证的方式,识别并纠正这些问题。数据重写的方法可以帮助LVLM在训练时避免学习到有害的或不准确的信息,从而减小幻觉的生成概率。
去除过度自信 在LVLM的训练过程中,有些数据会使模型对某些错误的或不确定的输出表现出过度的自信。这种过度自信会使模型在推理阶段产生幻觉。为了解决这一问题,研究者提出了一些方法来降低模型在面对不确定输入时的自信水平。例如,通过调整损失函数,使模型在训练过程中对不确定的样本保持一定程度的怀疑,从而避免模型生成看似合理但实际上错误的响应。
打破共现现象 共现现象是指在训练数据中,某些视觉元素和文本描述频繁一起出现,导致模型在推理时不加区分地将这些元素联系在一起。例如,某些物体和某些动作在数据集中经常共现,但在实际场景中这些组合并不总是正确的。为了解决这一问题,可以通过打乱数据集中这些元素的组合,或引入新的样本,以减少这种共现现象对模型产生的负面影响。
模态差距是LVLM中幻觉产生的一个重要原因。由于视觉信息和文本信息之间的特性差异,模型在融合这些多模态数据时,可能会产生错误的推断。通过有效的跨模态模块设计,可以弥合视觉和语言之间的差距,减少因模态不匹配导致的幻觉现象。
可学习接口的应用 可学习接口是一种基于投影矩阵的方法,它将视觉信息映射到文本空间。这种方法通过学习视觉和语言之间的对应关系,使模型能够更好地理解视觉信息并将其与文本结合。通过这种方式,模型能够在视觉和语言之间建立更加紧密的联系,从而减少幻觉的产生。
Q-former的引入 Q-former是一种通过交互方式将视觉信息与文本信息连接起来的技术。它通过设计一种特殊的查询机制,使视觉信息在跨模态过程中与文本信息进行交互。这种方法能够更好地处理模态之间的差异,尤其是在复杂的视觉场景中,帮助模型准确地生成文本描述。
pereceiver resampler的使用 pereceiver resampler是一种使用交叉注意力机制的技术,旨在将视觉特征编码到文本中。通过这种方法,视觉特征被转换为与文本相匹配的表征,从而减少模态差距导致的幻觉现象。
除了通过改进数据集和跨模态机制来减少幻觉,研究人员还致力于直接纠正模型输出的幻觉内容。输出纠正方法通过后处理技术或改进解码策略,来确保模型生成的最终响应更加准确。
后处理机制 后处理机制是一种在模型生成响应之后对其进行检查和修正的技术。例如,通过引入额外的验证模块,检查生成的文本是否与视觉信息一致。如果发现生成内容存在逻辑或事实错误,可以通过该模块进行修正。这样的后处理机制可以有效减少模型生成幻觉的可能性。
解码策略的优化 解码策略对生成式模型的输出有很大的影响。研究发现,某些解码策略(如贪婪搜索或随机采样)容易引发幻觉现象。为了解决这一问题,研究人员提出了一些新的解码策略,例如基于约束的采样方法或对抗性解码策略。这些方法通过更好地平衡生成的多样性和准确性,减少了模型生成幻觉的概率。
在减缓和纠正LVLM幻觉的过程中,建立有效的评估基准是至关重要的。评估基准用于衡量模型在生成过程中出现幻觉的频率和严重程度,同时也为模型改进提供反馈。我们从判断性和生成性两个角度总结了现有的幻觉评估基准。
判断性基准 判断性基准主要通过分析模型生成的响应是否符合事实或是否与视觉输入一致来评估幻觉。例如,通过引入人工评估或使用预定义的规则来判断模型生成的内容是否准确。这类基准侧重于定量地评估幻觉现象,帮助研究人员了解幻觉在不同场景中的发生频率。
生成性基准 生成性基准则侧重于评估模型在生成过程中所表现出的创造性和合理性。尽管模型可能生成出具有一定创新性的内容,但这些内容不一定符合事实或逻辑。因此,生成性基准的评估主要关注模型是否能够在保持生成多样性的同时,减少幻觉的产生。
尽管当前LVLM在减少幻觉方面取得了一定进展,未来仍有很多值得探索的方向。以下是一些可能的研究方向: 1. 多模态融合的优化 进一步优化视觉与语言之间的融合机制,特别是在复杂场景中的跨模态理解和表达。 1. 数据集构建的改进 通过新的数据增强和数据清洗技术,构建更高质量、更具代表性的大规模数据集,以减少训练数据中的幻觉样本。 1. 模型透明性的提高 提高LVLM的透明性和可解释性,使得用户可以更清楚地理解模型生成幻觉的原因,从而对其进行有效的纠正。 1. 动态学习机制的引入 引入动态学习机制,使模型能够在运行过程中不断调整和修正自身,避免幻觉的累积效应。