世界模型的概念因多模态大型语言模型(如GPT-4)和视频生成模型(如Sora)的进展而受到了广泛关注,这些技术在追求通用人工智能的过程中具有核心地位。本综述提供了关于世界模型文献的全面回顾。一般来说,世界模型被视为理解当前世界状态或预测其未来动态的工具。本综述系统地分类了世界模型,重点讨论了两个主要功能:(1)构建内部表征以理解世界的机制;(2)预测未来状态以模拟和指导决策。首先,我们回顾了这两个类别的当前进展。接着,我们探讨了世界模型在关键领域中的应用,包括自动驾驶、机器人技术和社会模拟,重点分析每个领域如何利用这些功能。最后,我们概述了关键挑战,并提供了未来研究方向的见解。
科学界长期以来一直致力于开发一个统一的模型,以复制世界的基本动态,从而实现通用人工智能(AGI)[98]。2024年,多模态大型语言模型(LLMs)和Sora [130] 的出现,加剧了关于世界模型的讨论。尽管这些模型展示了捕捉世界知识方面的新能力——例如Sora生成的视频,似乎完美遵循物理定律——但关于它们是否真正符合全面世界模型的标准,仍然存在疑问。因此,对世界模型研究中近期进展、应用和未来方向的系统回顾,既是及时的,也是必要的,尤其是在人工智能时代迎来新的突破时。
世界模型的定义仍然是一个持续争论的话题,通常可以分为两个主要视角:理解世界和预测未来。如图1所示,Ha和Schmidhuber [59] 的早期工作专注于抽象化外部世界,以深入理解其内在机制。与此相对,LeCun [98] 认为,世界模型不仅应当感知和建模现实世界,还应具备展望可能未来状态的能力,从而为决策提供指导。像Sora这样的生成视频模型代表了一种更加侧重于模拟未来世界演变的方式,因此,它们与世界模型的预测性方面更为契合。这引发了一个问题:世界模型应优先理解当前世界,还是预测未来状态?本文将从这两个视角出发,提供关于世界模型文献的全面回顾,突出关键方法和挑战。
世界模型的潜在应用遍及多个领域,每个领域对理解能力和预测能力的要求各不相同。例如,在自动驾驶中,世界模型需要实时感知道路状况[195, 177]并准确预测其演变[127, 167, 241],特别注重即时环境感知和复杂趋势的预测。在机器人技术中,世界模型对导航[160]、物体检测[183]和任务规划[62]等任务至关重要,需要精确理解外部动态[47]并能够生成交互式和具身的环境[132]。在虚拟社会系统模拟领域,世界模型必须捕捉和预测更为抽象的行为动态,例如社会互动和人类决策过程。因此,全面回顾这些能力的进展,并探索未来研究方向和趋势,是非常及时且必要的。
现有的世界模型综述大致可分为两类,如表1所示。第一类综述主要集中在描述世界模型在特定领域的应用,如视频处理与生成[23, 242]、自动驾驶[54, 100, 209]和基于代理的应用[242]。第二类综述[116]则侧重于多模态模型向世界模型的技术过渡,这些模型能够处理跨多种模态的数据。然而,这些论文往往缺乏对世界模型究竟是什么以及不同实际应用对这些模型的需求的系统性探讨。在本文中,我们旨在正式定义和分类世界模型,回顾近期的技术进展,并探索它们广泛的应用。
本综述的主要贡献如下:(1)我们提出了一种新的世界模型分类体系,围绕两个主要功能进行结构化:构建隐性表征以理解外部世界的机制,以及预测外部世界的未来状态。第一类主要关注开发学习并内化世界知识的模型,以支持随后的决策;而第二类则强调从视觉感知中增强对物理世界的预测和模拟能力。(2)基于这一分类体系,我们对自动驾驶、机器人和社会模拟等关键应用领域如何强调世界模型的不同方面进行了分类。(3)我们强调了能够适应更广泛实际应用的世界模型未来研究方向和趋势。
本文的其余部分安排如下:第二节介绍世界模型的背景,并提出我们的分类体系;第三节和第四节分别详细阐述了当前关于两类世界模型的研究进展;第五节介绍世界模型在三个关键研究领域中的应用;第六节概述了世界模型的开放问题和未来方向。
在本节中,我们探讨了世界模型概念在文献中的发展,并将构建世界模型的工作分为两个不同的分支:内部表征和未来预测。
世界模型的概念首次由Ha等人于2018年系统地引入人工智能领域[58, 59]。这篇文章将世界模型概念的起源追溯到1971年提出的“心理模型”[43]的心理学原理,该原理认为人类将外部世界抽象为简单元素及其相互关系,以此来感知世界。这个原理表明,从深层次的内部视角来看,我们对世界的描述通常涉及构建一种抽象表征,这种表征在不需要详细描述的情况下也足以表达世界。基于这一概念框架,作者引入了一个受人类认知系统启发的代理模型,如图1所示。在这个开创性的模型中,代理从现实世界环境中获取反馈,并将其转化为一系列输入来训练模型。该模型能够模拟特定行动后,外部环境可能发生的结果。本质上,它创建了对未来世界演变的心理模拟,基于对这些状态预测结果的决策进行行动。该方法与基于模型的强化学习(MBRL)方法非常相似,两个策略都涉及模型生成外部世界的内部表征。这些表征有助于在现实世界中进行导航和解决各种决策任务。
在2022年关于自主机器智能发展的远见性文章中[98],Yann LeCun介绍了联合嵌入预测架构(JEPA),这是一个模仿人脑结构的框架。如图1所示,JEPA包括一个感知模块,处理感官数据,接着是一个认知模块,用于评估这些信息,从而有效地体现了世界模型。这个模型使大脑能够评估行动并确定最合适的应对措施,应用于现实世界。LeCun的框架之所以引人注目,是因为它融入了双系统概念,模仿了“快速”与“慢速”思维。系统1涉及直觉和本能反应:无需世界模型的快速决策,例如本能地躲避迎面而来的人。相反,系统2则采用深思熟虑的、经过计算的推理,考虑到世界的未来状态。它超越了即时的感官输入,模拟潜在的未来场景,比如预测房间里未来十分钟内可能发生的事件,并相应地调整行动。这种前瞻性思维要求构建一个世界模型,以有效地根据环境的预期动态和演变来指导决策。在这个框架中,世界模型对于理解和表征外部世界至关重要。它使用潜在变量来建模世界状态,捕捉关键信息,同时过滤掉冗余数据。这种方法使得世界的表征高度高效且极简,有助于在未来场景中做出最优决策和规划。
模型捕捉世界知识的能力对于它们在各种现实任务中的有效性至关重要。在2023年开始的关于大型语言模型(LLMs)的研究浪潮中,许多研究展示了潜在世界知识的存在。换句话说,这些模型捕捉了直观的知识,包括空间和时间理解,使它们能够对现实场景做出预测[57, 119]。此外,LLMs还能够通过认知地图对外部世界进行建模,近期的研究揭示了它们中嵌入的类脑结构[104]。这些模型甚至能够基于先前的经验预测未来事件,从而增强它们在现实情境中的效用和适用性。
上述世界模型主要代表了对外部世界的隐性理解。然而,在2024年2月,OpenAI推出了Sora模型[130],这是一个被广泛认为是世界模拟器的视频生成模型。Sora输入现实世界的视觉数据,并输出预测未来世界演变的视频帧。值得注意的是,它展示了卓越的建模能力,例如在相机移动和旋转过程中保持3D视频模拟的一致性。它还能够生成物理上合理的结果,如在汉堡包上留下咬痕,并模拟数字环境,如渲染Minecraft游戏中的第一人称视角。这些能力表明,Sora不仅模仿了世界的外观,还在模拟场景中建模了真实世界的动态,专注于真实模拟动态世界的变化,而不仅仅是表示静态世界状态。
无论是专注于学习外部世界的内部表征,还是模拟其操作原理,这些概念都凝聚成一个共同的共识:世界模型的核心目的是理解世界的动态并预测未来的场景。从这个角度出发,我们对世界模型的近期进展进行了深入的审视,并从以下几个方面进行分析,如图1所示。 * 外部世界的隐性表征(第3节):这一研究类别构建了环境变化的模型,以便做出更有根据的决策,最终目标是预测未来状态的演变。它通过将外部现实转化为潜在变量的模型来促进隐性理解。此外,随着大型语言模型(LLMs)的出现,传统决策任务中的努力得到了这些模型在世界知识描述能力上的显著提升。我们进一步关注将世界知识融入现有模型的进展。
外部世界的未来预测(第4节):我们首先探讨了模拟外部世界的生成模型,主要使用视觉视频数据。这些工作强调了生成的视频与未来物理世界状态的真实性。随着近期研究将焦点转向开发真正互动的物理世界,我们进一步研究了从视觉到空间表征的过渡,以及从视频到具身环境的转变。这包括全面探讨与生成具身环境相关的研究,这些环境能够模拟外部世界。
世界模型的应用(第5节):世界模型在多个领域中有着广泛的应用,包括自动驾驶、机器人技术和社会模拟等。我们探讨了世界模型在这些领域中的整合如何推动理论研究和实际应用的进展,强调其在现实应用中的变革潜力。
扩散模型报告总结摘要
摘要——本综述对机器学习中多模态对齐与融合的最新进展进行了全面回顾,尤其是在文本、图像、音频和视频等数据类型日益多样化的背景下。多模态集成通过利用不同模态之间的互补信息,提高了模型的准确性并扩展了其应用范围,同时在数据稀缺的情况下也促进了知识迁移。我们系统地对现有的对齐与融合技术进行了分类和分析,并基于对200多篇相关论文的广泛回顾,提取了有价值的见解。此外,本综述还讨论了多模态数据集成中的挑战,包括对齐问题、噪声鲁棒性以及特征表示的差异,并着重于社交媒体分析、医学影像和情感识别等领域的应用。文中提供的见解旨在指导未来的研究,优化多模态学习系统,以提高其在各类应用中的可扩展性、鲁棒性和泛化能力。
关键词——多模态对齐、 多模态融合、多模态性、机器学习、综述
1 引言
技术的快速发展导致了多模态数据生成的指数增长,包括图像、文本、音频和视频[1]。这种数据的丰富性为计算机视觉、自然语言处理(NLP)等多个领域的研究者和从业者带来了机遇与挑战。通过整合来自不同模态的信息,可以显著提升机器学习模型的性能,增强其理解复杂现实场景的能力[2]。模态的结合通常有两个主要目标:(i)不同的数据模态可以互补,从而提高模型在特定任务上的精度和效果[3],[4],[5];(ii)某些模态的数据可能较为稀缺或收集起来具有挑战性,因此,基于大规模语言模型(LLM)的训练可以通过知识迁移在数据稀缺的任务中实现满意的性能[5],[6]。
例如,在社交媒体分析中,将文本内容与相关的图像或视频结合,可以更全面地理解用户情感和行为[1],[7]。除了社交网络,多模态方法在医疗图像自动注释、视频摘要和情感识别等应用中也取得了有希望的成果[8],[9],[10],[11],[12]。尽管取得了这些进展,但在有效整合和利用多模态数据方面仍然存在两个主要的技术挑战:对齐和融合。对齐侧重于建立不同模态之间的语义关系,确保每个模态的表示在一个共同的空间内对齐;而融合则是将多模态信息整合为统一的预测,利用每个模态的优势来提升整体模型的性能。 第一个组件是多模态对齐,涉及建立不同模态之间的关系[1],[49],[50],[51]。例如,将视频中的动作步骤与相应的文本描述进行对齐,由于输入输出分布的差异以及模态间可能存在的信息冲突,这一任务需要复杂的方法[52]。多模态对齐可大致分为显式对齐和隐式对齐[1],[53]。显式对齐通过相似度矩阵直接度量模态间的关系,而隐式对齐则在翻译或预测等任务中作为一个中间步骤。
第二个组件是多模态融合,涉及将不同模态的信息结合起来,进行统一的预测,同时解决模态之间噪声变异性和可靠性差异等挑战[1],[54],[55]。传统上,融合方法根据其在数据处理流程中的阶段进行分类[53],[56]。例如,早期融合在特征提取阶段将多个模态的数据整合在一起,尽早捕捉模态间的交互[56]。本综述聚焦于当前融合技术的核心特征,以更有效地代表现代方法,并指导未来的发展。我们将融合方法分析为基于核、图形、编码-解码器和注意力机制的融合框架。
图1展示了三种典型的多模态模型结构。在(a)中,由于模态之间的交互不足,简单的操作未能实现深入有效的融合。在(b)中,尽管设计了专门的融合网络,但对齐问题仍然显著。具体而言,由图像和文本分别通过各自模态特定模型提取的特征可能在语义上没有对齐,直接将这些特征传递给融合模块可能无法产生最佳结果。在(c)中,模型使用共享编码器或集成的编码-解码过程同时处理多模态输入,这使得图像和文本数据能够转化为共同的表示空间,从而更自然地结合。此类设计通常优先考虑模型的简洁性和效率,特别是在模态间关系已被充分理解并有效建模的情况下。
本研究旨在通过对200多篇相关论文的回顾,提供现有方法、最新进展和潜在未来方向的全面概述,为该领域做出贡献。本综述帮助研究人员理解多模态对齐和融合的基本概念、关键方法及当前进展,重点讨论视觉和语言模态,同时扩展到视频和音频等其他类型。
本综述的组织结构如下:第二节介绍多模态学习的基础概念,包括大规模语言模型(LLM)和视觉模型的最新进展,为对融合和对齐的讨论奠定基础;第三节探讨为什么要进行对齐与融合的综述研究;第四节审视对齐方法,重点讨论显式和隐式技术如何建立不同模态之间的关系;第五节探讨融合策略,将其分为早期、晚期和混合融合,并介绍基于核、图形和注意力机制的先进融合框架;第六节讨论多模态融合和对齐中的关键挑战,包括特征对齐、计算效率、数据质量和可扩展性;最后,第七节概述未来研究的潜在方向,并讨论实践意义,旨在指导该领域的进一步创新。
2 为什么需要对齐与融合
对齐与融合是多模态学习中的两个基本概念,尽管它们各自独立,但相互之间紧密相关,且常常相辅相成[1],[50]。对齐涉及确保不同模态的数据正确匹配和同步,从而使它们传达的信息具有一致性,并适合进行融合。另一方面,融合是指将来自不同模态的信息结合起来,创建一个统一的表示,全面捕捉数据的本质[1],[54],[55]。此外,许多最新的方法发现,在没有对齐过程的情况下进行融合是非常具有挑战性的[49]。
2.1 提升全面性与鲁棒性
对齐确保来自不同源的数据在时间、空间或上下文上同步,从而实现有意义的组合。如果没有适当的对齐,融合过程可能导致误解或关键信息的丢失[53]。 一旦对齐完成,融合利用对齐后的数据生成更为鲁棒和全面的表示[49]。通过整合多个视角,融合能够弥补单一模态的弱点,从而提高准确性和可靠性。 2.2 解决数据稀缺与不平衡问题
在许多现实应用中,某些模态的数据可能稀缺或难以获取。对齐有助于即使在数据有限的情况下,也能同步可用的数据,确保其能够有效利用[106],[107]。 随后,融合使得模态之间能够进行知识迁移,使模型能够利用一种模态的优势来弥补另一种模态的不足。这在某一模态拥有丰富数据而另一模态数据稀缺的场景中尤为有用。 2.3 改进模型的泛化能力和适应性
对齐确保了不同模态之间关系的准确理解与建模,这对于模型在不同上下文和应用中进行泛化至关重要[1],[53]。 融合通过创建一个统一的表示,能够更有效地捕捉数据的细微差异,从而提高模型的适应性。这个统一的表示可以更容易地适应新的任务或环境,增强模型的整体灵活性[1],[53]。 2.4 支撑高级应用
对齐与融合共同推动了诸如跨模态检索等高级应用的发展,在这些应用中,一种模态(例如,文本)中的信息被用于在另一种模态(例如,图像)中搜索相关信息[108]。这些过程对于诸如情感识别等任务也至关重要,在这些任务中,将视觉和听觉线索结合起来,能够比单独使用任何一种模态更准确地理解人类情感[109]。 3 多模态对齐
多模态对齐涉及建立两种或更多不同模态之间的语义关系。它在多个领域得到了广泛研究,包括网络对齐[110]、图像融合[50]和多模态学习中的特征对齐[111]。 为了将不同模态对齐到相同的语义表示中,需要衡量这些模态之间的相似性,同时考虑潜在的长程依赖关系和歧义。简而言之,目标是构建一个映射,将一个模态的表示与另一个模态中共享相同语义的表示对齐。根据[1],对齐可以分为两种类型:显式对齐和隐式对齐。显式对齐通常通过使用相似度矩阵直接度量相似性,而隐式对齐则通常是在翻译或预测等任务中作为一个中间步骤进行处理。 3.1 显式对齐
显式对齐有着早期的基础,通常依赖于诸如动态时间规整(DTW)[112],[113]和典型相关分析(CCA)[114]等统计方法。
DTW通过找到一个最优匹配来测量两个序列之间的相似性,该过程涉及插入帧来对齐序列[112]。然而,原始的DTW公式需要预定义的相似性度量,因此它与典型相关分析(CCA)结合,后者由Harold Hotelling于1936年提出[114],通过线性变换将两个不同的空间投影到一个共同的空间中。CCA的目标是通过优化投影来最大化两个空间之间的相关性。CCA促进了对齐(通过DTW)和模态间映射的联合学习,并且可以以无监督的方式进行,正如在视频-文本和视频-音频对齐等多模态应用中所见。图2展示了CCA方法的可视化。具体而言,CCA的目标函数可以表示为: maxρ=corr(uTX,vTY)\max \rho = \text{corr}(u^T X, v^T Y)maxρ=corr(uTX,vTY) 其中: • X 和 Y 是来自两个不同空间的数据矩阵; • u 和 v 是线性变换向量(或典型向量),它们将 X 和 Y 投影到共同空间中; • ρ 是投影uTXu^T XuTX 和vTYv^T YvTY 之间的相关系数; • 目标是找到 u 和 v,使得投影后的数据之间的相关性ρ最大化。 然而,CCA只能捕捉两个模态之间的线性关系,限制了它在涉及非线性关系的复杂场景中的应用。为了解决这一限制,引入了核典型相关分析(KCCA),它通过核方法将原始数据映射到更高维的特征空间,从而处理非线性依赖[115],[116]。像多标签KCCA和深度典型相关分析(DCCA)等扩展方法进一步改进了原始的CCA方法[115],[116],[117],[118],[119]。 此外,Verma和Jawahar展示了如何使用支持向量机(SVM)实现多模态检索[120]。另外,像图像对齐中基于特征模态的线性映射方法也被开发出来,旨在通过复杂的空间变换来处理多模态对齐问题[121]。 3.2 隐式对齐
隐式对齐是指在执行主要任务时作为中间步骤使用的方法,通常是以潜在方式进行。与直接对齐不同模态的数据不同,这些方法通过学习共享的潜在空间来改善主要任务的性能。隐式对齐技术可以大致分为两类:基于图模型的方法和基于神经网络的方法。 3.2.1 基于图模型的方法
图结构的整合使得更复杂的模态间关系得以更好地建模,从而使多模态数据的处理更加准确和高效。这些方法常用于将图像与文本或图像与信号进行对齐。例如,某些模型通过对物体的图表示进行对齐,实现了少样本上下文模仿学习,从而使机器人在没有事先训练的情况下能够执行新的任务[122]。基于显式进化模型的GraphAlignment算法在识别同源顶点和解决副本问题方面表现出强大的性能,优于其他方法[123]。图3展示了如何在对齐中使用图结构。
这些任务中的一个主要挑战是对齐不同模态之间的隐式信息,其中多模态信号并不总是直接对应。基于图的模型通过将模态间的复杂关系表示为图结构(图中节点表示数据元素,如词语、物体或帧,边表示它们之间的关系,如语义、空间或时间关系)在解决这个问题上证明了其有效性。 近期的研究探索了使用图结构进行多模态对齐的多个方面。例如,Tang等人[124]提出了一种基于图的多模态顺序嵌入方法,以提高手语翻译。通过将多模态数据嵌入到统一的图结构中,他们的模型更好地捕捉了复杂的关系。 另一个应用是在情感分析中,隐式多模态对齐起着至关重要的作用。Yang等人[125]提出了一种基于图的多模态对齐模型(MGAM),该模型联合建模了显式方面(如物体、情感)和隐式多模态交互(如图像-文本关系)。 在具身人工智能领域,Song等人[126]探讨了如何构建基于场景的知识图,以建模复杂多模态任务中的隐式关系。他们的工作将文本和视觉信息整合到一个知识图中,并通过基于图的推理进行多模态语义的对齐。对齐隐式线索(如场景中物体之间的空间和时间关系)对于提高具身人工智能系统中的决策和交互至关重要。 在命名实体识别(NER)任务中,Zhang等人[127]提出了一种基于图的逐标记方法,该方法结合了与文本相关的图像中的隐式视觉信息。该方法利用视觉域中的空间关系来改进命名实体的识别,这在使用孤立的文本数据时通常是模糊的。 在图像描述生成和视觉问答(VQA)等任务中,场景图也起着至关重要的作用。Xiong等人[128]提出了一种基于场景图的模型,用于跨模态的语义对齐。通过将物体及其关系表示为图中的节点和边,该模型提高了视觉和文本模态的对齐效果。 总之,基于图的方法为表示多样化数据类型提供了强大的框架,并且在多模态对齐中具有巨大的潜力。然而,这种灵活性也带来了重大的挑战。 图结构的稀疏性和动态性增加了优化的复杂性。与矩阵或向量不同,图具有不规则的非结构化连接,导致计算复杂度高且内存开销大,即使在先进的硬件平台上也存在这些问题。此外,图神经网络(GNN)对超参数特别敏感。网络架构、图采样和损失函数优化等选择直接影响性能,这增加了GNN设计和实际部署的难度。 3.2.2 基于神经网络的方法
近年来,基于神经网络的方法已成为解决隐式对齐问题的主要方法,特别是在翻译等任务中,将对齐作为潜在的中间步骤通常能获得更好的结果。常见的神经网络方法包括编码器-解码器模型和跨模态检索。 当没有隐式对齐时,翻译过程会给编码器带来更大的负担,需要它将整个图像、句子或视频总结为一个向量表示。 一个常见的解决方案是使用注意力机制,使解码器能够专注于源实例的特定子组件。这与传统的编码器-解码器模型不同,后者将所有源子组件一起编码。注意力模块引导解码器更多地关注被翻译的源实例的特定子组件——例如图像的区域、句子中的词语、音频的片段、视频中的帧或指令的部分。例如,在图像描述生成中,注意力机制允许解码器(通常是递归神经网络)在生成每个词时专注于图像的特定部分,而不是一次性编码整个图像[129]。 以前的工作通过设计特定模态的嵌入器和预测器,接口连接输入和输出的预训练模型来实现这一目标。 生成对抗网络(GAN)由于其能够学习高维数据空间之间的复杂映射,因此已成功应用于多模态数据的合成[130],[131],[132],[133],[134]。例如,在MRI模态中,使用一个统一框架,其中单个生成器学习跨模态的映射,可以提高不同数据类型之间的对齐精度[130]。 另一种深度生成方法,C-Flow,利用标准化流进行多模态对齐,应用于3D点云重建等任务,从而对生成过程进行更细粒度的控制[135]。自编码器及其变体,如变分自编码器(VAE),也被用来学习潜在表示,捕捉跨模态的基础语义结构。这种方法在组合表示学习中证明了其有效性,VAE帮助通过将图像和文本模态映射到共享的潜在空间来对齐它们[136]。类似地,使用VAE的跨模态量化进行图像-文本配对生成,展示了神经网络如何通过学习量化的联合表示对齐文本和视觉数据[137]。 此外,半监督流形对齐方法(如扩散传输对齐DTA)利用少量先验知识对齐具有不同但相关结构的多模态数据域[138]。这种方法在仅能进行部分数据对齐的情况下尤为有效,因为它依赖于域之间的几何相似性。 最近,Att-Sinkhorn方法结合了Sinkhorn度量和注意力机制,在通过解决不同模态的概率分布之间的最优传输问题来改进多模态特征对齐方面显示了更高的准确性[139]。 总之,显式和隐式对齐技术在多模态机器学习领域都至关重要。尽管显式方法提供了一个明确的框架,用于度量相似性和建立对应关系,但隐式方法通常更灵活,并能适应更多的场景,特别是那些涉及复杂或模糊数据关系的任务。未来的研究可能会继续探索结合两种对齐策略优点的混合方法,以解决多模态数据中所面临的各种挑战[110],[111],[139]。
多模态数据涉及多种信息类型的整合,如图像、文本和音频,这些信息可以通过机器学习模型处理,从而提高多种任务的性能[1],[53],[140],[141],[142],[143]。通过结合不同类型的信息,多模态融合利用了每种模态的优势,同时弥补了依赖单一数据类型时可能出现的弱点或空白[1],[53],[144]。例如,每种模态在最终预测中可能会有不同的贡献,某些模态可能在某一时刻比其他模态更具信息量或噪声更小。 融合方法在有效结合不同模态的信息时至关重要。早期的方法通常将图像和文本分开处理,两个数据类型之间仅有基本的整合。像 CLIP [13] 这样的架构采用了双编码器框架,其中视觉和文本信息分别编码,它们的交互通过简单的操作来处理,通常涉及点积计算[145],[146]。因此,这两种模态的融合在整体模型架构中所占的比重较小,主要由编码器本身主导。尽管这种有限的集成策略在基于检索的任务[147],[148]中有效,但对于更复杂的多模态挑战(需要深度理解和模态之间的交互)则不够充分[149],[150]。 如果通过独立训练每个模态的专门编码器,然后进行表面化的集成就能实现强大的性能,那么深度多模态学习的需求就值得怀疑。然而,经验数据表明,对于需要细致理解的任务,如视觉问答和视觉推理,必须对两种模态进行更复杂、更深度的融合,才能充分捕捉视觉感知和语言处理之间的相互关系[152]。 传统上,融合方法根据融合发生的数据处理管道阶段进行分类。早期融合在特征级别进行数据整合,晚期融合则在决策级别进行整合,混合融合结合了两者的特点[1],[53]。早期融合涉及在特征提取阶段将来自不同模态的数据合并[56],从而让模态之间的交互得以早期捕捉。如赵等人[93]所述,集成发生在特征级别。相比之下,晚期融合则在决策阶段将各个模态模型的输出结合起来,当预测时缺少一个或多个模态时,这种方法特别有优势,正如 Morvant 等人[153]所展示的。混合融合则将早期融合和晚期融合的各个方面结合在一起,赵等人[93]研究了其在深度学习中的实现。 随着技术和融合方法的演进,区分早期、晚期和混合融合变得越来越复杂。先进的方法通常超越了传统的基于时序的分类,在特征级别和决策级别同时操作,这挑战了僵化的分类。 为了解决这种复杂性,我们提出了一种基于当前融合技术核心特征的新分类框架,提供了对现代方法的更准确表征,并为未来的进展提供指导。特别是,尽管许多基于注意力的方法可以适配编码器-解码器或仅编码器框架,但我们将它们单独分类,因为它们在最近的显著发展和独特创新方面,传统的分类方法无法充分捕捉。
编码器-解码器融合架构涉及一个编码器,该编码器从输入数据中提取关键特征并将其压缩成紧凑的形式,而解码器则基于这种压缩的表示重建输出[26]。在该架构中,系统主要由两个主要组件组成:编码器和解码器。编码器通常作为一个高级特征提取器,将输入数据转换为一个潜在空间,其中包含重要特征[26],[37]。换句话说,编码过程在减少冗余的同时保留了重要的语义信息。一旦编码步骤完成,解码器就会基于潜在表示生成相应的“重建”输出[26],[31]。在像语义分割这样的任务中,解码器的输出通常是一个语义标签图,它与输入大小相匹配。 编码器-解码器融合通常有三种形式:(1)数据级融合,将来自不同模态的原始数据拼接在一起,并送入共享的编码器;(2)特征级融合,分别从每个模态提取特征,可能包括中间层,然后将它们组合后再输入到解码器;(3)模型级融合,在处理后将各个模态特定模型的输出进行拼接。图4展示了这三种类型的编码器-解码器融合结构。特征级融合通常最为有效,因为它考虑了不同模态之间的关系,从而实现了更深层次的集成,而非表面上的组合。
在这种方法中,来自每个模态的数据或每个模态独特预处理步骤后的处理数据在输入级别进行合并[27]。在这种集成之后,来自所有模态的统一输入将通过一个编码器来提取更高层次的特征。换句话说,来自不同模态的数据在输入阶段被合并,并通过单一编码器提取综合特征。 最近的研究聚焦于数据级融合,以提高自动驾驶中物体检测和感知的性能。一些研究探索了在神经网络架构的早期阶段融合相机和LiDAR数据,展示了在稀疏点云中,特别是对骑行者的三维物体检测精度有所提升[35]。一个基于Yolo框架的联合处理相机和LiDAR原始数据的系统比传统的决策级融合提高了5%的车辆检测精度[27]。此外,还开发了一个面向低级传感器融合的开放硬件和软件平台,特别是利用原始雷达数据,推动了这一领域的研究[36]。这些研究突出了原始数据级融合在利用传感器间协同作用并提高整体系统性能方面的潜力。
这种融合技术的核心思想是将来自多个抽象层次的数据进行组合,从而利用从深度网络不同层次提取的特征,最终增强模型的性能。许多应用都实施了这一融合策略[32],[163]。 特征级融合已成为多种计算机视觉任务中的一种强大方法。它涉及在不同的抽象层次上融合特征以提升性能。例如,在性别分类中,融合局部补丁的两层层次结构证明是有效的[163]。在显著性物体检测中,融合来自不同VGG层次的特征的网络能够保留语义信息和边缘信息[30]。在多模态情感计算中,一种“分而治之,合而为一”的策略探索了局部和全局交互,达到了最先进的性能[32]。对于自适应视觉跟踪,开发了一种层次模型融合框架,通过层次更新对象模型,引导参数空间的搜索并减少计算复杂性[33]。 这些方法展示了层次特征融合在多个领域中的多样性,展现了它在捕捉细粒度和高级信息方面的能力,从而在复杂的视觉任务中实现更好的性能。
模型级融合是一种通过集成多个模型的输出提高准确性的技术。例如,在使用地面穿透雷达(GPR)进行地雷检测时,Missaoui等人[34]证明了通过多流连续隐马尔可夫模型(HMM)融合边缘直方图描述符和Gabor小波的方式,优于单一特征和等权重组合。 在多模态物体检测中,Guo和Zhang[28]应用了平均、加权、级联和堆叠等融合方法,将图像、语音和视频的模型结果结合起来,从而提高了在复杂环境中的性能。对于面部动作单元(AU)检测,Jaiswal等人[29]发现,使用人工神经网络(ANN)的模型级融合比简单的特征级方法更有效。此外,对于涉及多保真度计算机模型的物理系统,Allaire和Willcox[25]开发了一种融合方法,利用模型不适配信息和合成数据,得到了比单独模型更好的估计结果。在质量控制和预测性维护中,一种新颖的模型级融合方法优于传统方法,减少了预测方差30%,并提高了45%的准确性[38]。这些研究证明了模型级融合在多个领域中的有效性。 本节回顾了基于编码器-解码器架构的融合模型。编码器-解码器融合架构在多模态任务中被广泛应用,展示了不同融合技术的多样性,包括数据级融合、特征级融合和模型级融合。这些方法在提高多模态学习模型的准确性和鲁棒性方面起到了重要作用,为未来的研究和应用提供了有益的参考。
基于注意力机制的融合方法近年来得到了广泛应用,特别是在多模态学习任务中。注意力机制的核心思想是根据输入数据的重要性动态调整其对模型的影响,而不是对所有输入特征进行等权处理[154]。这种方式通过引导模型关注最相关的模态和特征,从而提高了模型的表现和鲁棒性。 在多模态学习中,基于注意力的融合可以通过多种方式实现。最常见的方法包括加权融合、交互式融合以及跨模态注意力机制的应用。通过引入自注意力机制(Self-Attention)和跨模态注意力机制,模型能够自动学习不同模态之间的相互关系,并在处理复杂任务时做出适当的决策[155]。 例如,在视觉问答(VQA)任务中,通过引入跨模态注意力机制,模型可以根据问题的内容自动选择与之相关的图像区域,从而提高了任务的精确度和准确性[156]。类似的,在多模态情感分析中,基于注意力的机制能够帮助模型理解不同模态(如语音、文本和面部表情)之间的相互作用,从而对情感状态进行更为精准的预测[157]。 此外,近年来,许多研究还将多头注意力(Multi-Head Attention)扩展到多模态融合中,允许模型并行处理多个模态的不同子空间,从而增强了多模态交互的表达能力[158]。这种方法尤其适用于需要多方面信息整合的复杂任务,如视频内容分析和跨模态检索等。 总之,基于注意力机制的融合方法通过动态调整不同模态的贡献,能够有效提升模型在多模态学习中的表现,特别是在处理多层次、多类型信息时,能够显著改善性能。
图神经网络(GNN)在处理具有复杂关系和结构的数据时,表现出极大的潜力,因此被广泛应用于多模态融合任务中。GNN通过图的节点和边之间的传播机制,能够捕捉到数据的结构信息,在图像、文本和其他模态数据之间建立有效的联系。 在多模态融合的背景下,GNN可以将不同模态的特征表示作为图的节点,并通过图卷积操作(Graph Convolution)来学习模态间的关系。例如,在图像和文本融合的任务中,可以将图像中的不同区域和文本中的不同词汇视为图的节点,节点之间通过边连接,表示它们之间的关系。通过图卷积操作,模型能够学习到图像和文本之间的深层次关联,从而在视觉问答、图像描述等任务中取得更好的效果[159]。 GNN还可以应用于多模态信息的关联学习和跨模态信息检索等任务中。在这些任务中,GNN能够通过图结构有效地捕捉模态间的复杂交互,帮助模型从不同模态中提取有用的信息并进行融合。这种方法尤其适合处理带有结构关系的多模态数据,如社交媒体上的多模态情感分析和医学图像分析中的跨模态信息融合。 随着图神经网络在多模态学习中的不断发展,越来越多的研究表明,图结构能够为不同模态间的交互提供一种自然且高效的表示方式,为多模态融合方法提供了新的思路。
自监督学习是一种无监督学习方法,它通过自我生成标签来训练模型,尤其在没有大量标注数据的情况下表现出了强大的潜力[160]。这种方法通过构造辅助任务,使模型学习数据的深层次结构,并为多模态融合提供了新的思路。
在多模态学习中,自监督学习能够通过从单一模态的输入中生成任务相关的信息,并促进模态间的对齐和互补。通过构建自监督任务(例如图像-文本对比学习),模型可以在无监督的情况下学习到不同模态之间的语义一致性,进而提高多模态融合的效果[161]。
例如,在图像-文本对比学习中,模型可以通过构造图像与文本之间的相关性任务,来学习它们之间的联合表示。这样,尽管模型不需要大量标注数据,它仍然能够学习到跨模态的有效表示,并在多模态任务中进行更准确的预测。这种自监督学习方法在减少对标注数据依赖的同时,能够显著提高模型的泛化能力和跨模态表现。
持续学习(Continual Learning)是指模型在不断接收新数据时,能够保持已有知识的同时,学习新知识,而不会遭遇灾难性遗忘[162]。在多模态学习中,持续学习能够有效处理随时间变化的多模态数据,特别是当模型需要根据实时输入调整其学习策略时。
在多模态融合任务中,持续学习能够使模型随着新模态或新领域的到来,灵活地调整其参数和融合策略,从而适应新的数据分布[163]。例如,自动驾驶系统中的传感器数据(如雷达、相机、激光雷达等)可能随着环境变化而发生变化,持续学习可以帮助模型保持对不同传感器数据的有效融合,同时应对新的驾驶环境。 持续学习还能够促进多模态模型的可扩展性和自适应性,使其能够在新的多模态数据出现时,进行快速有效的调整,避免灾难性遗忘的问题。这为多模态学习提供了更为强大的能力,特别是在需要处理动态变化的复杂数据环境时。
大语言模型(LLM)正在改变世界,承诺自动化任务并解决复杂问题。新一代的软件应用程序正在将这些模型作为构建块,释放几乎每个领域的新潜力,但要可靠地访问这些能力,需要掌握新的技能。本书将教你提示工程的艺术与科学——解锁LLM真正潜力的关键。
行业专家 John Berryman 和 Albert Ziegler 分享了如何与人工智能有效沟通,将你的想法转化为语言模型友好的格式。通过学习哲学基础和实践技巧,你将获得知识和信心,能够构建下一代基于LLM的应用程序。
John Berryman 是 Arcturus Labs 的创始人兼首席顾问,专注于LLM应用程序开发。他的专业知识帮助企业利用先进的人工智能技术。作为 GitHub Copilot 的早期工程师,John 为其自动补全和聊天功能的发展做出了贡献,处于人工智能辅助编程工具的前沿。 在参与Copilot的工作之前,John在搜索引擎领域建立了令人印象深刻的职业生涯。他的多元化经验包括帮助开发美国专利局的下一代搜索系统,为 Eventbrite 构建搜索和推荐系统,并为 GitHub 的代码搜索基础设施做出贡献。John 还是《Relevant Search》(Manning)的共同作者,该书总结了他在搜索领域的专业知识。 John 在尖端人工智能应用和基础搜索技术方面的独特背景,使他处于LLM应用和信息检索创新的前沿。 Albert Ziegler 早在LLM应用成为主流之前,就开始设计以人工智能驱动的系统。作为 GitHub Copilot 的创始工程师,他设计了其提示工程系统,并帮助激发了一波 AI 驱动工具和“Copilot”应用程序的浪潮,塑造了开发者辅助和LLM应用程序的未来。 如今,Albert 继续在 AI 技术的前沿推动边界,担任 AI 网络安全公司 XBOW 的 AI 部门负责人。在那里,他领导将大语言模型与尖端安全应用结合的工作,致力于保护未来数字世界的安全。
人工智能生成内容(AIGC)正在打造一个没有创意限制的世界,从新闻报道到艺术作品,从课程教育到科技研发,AIGC正在以不可逆的力量颠覆传统创作和创新的规则及边界。
11月29日,由清华大学新闻学院与人工智能学院双聘教授沈阳老师团队撰写的报告《AIGC发展研究3.0》面向全球发布。该报告从哲学的理论思考出发,聚焦AIGC的文图乐剧创作、多学科发展及跨行业应用,融汇了学术研究思考与产业实践经验,致力于向广大读者提供AIGC应用指南,共同探寻人类和人工智能共生之道。
这项工作的目标是开发一个与自适应交互控制器相结合的有人无人编队协同(MUMT)框架,使单个飞行员能够与多个无人机(UAV)协同工作,同时最大限度地提高人类代理的性能,并将其精神负担保持在可接受的水平。通过使用混合主动交互(MII)概念来解决这一问题,该概念根据代理的当前条件和能力在代理之间分担任务。MII 借助生理计算来确定人类代理的精神状态,并采用自动规划技术在不确定情况下通过顺序决策来控制交互。研究结果表明,与非适应性实验条件相比,利用主观和生理特征测量的工作量明显减少,而人类代理在适应性实验条件下的表现也明显提高。这些研究结果表明了所提出的自适应交互控制方法如何在提高性能的同时减少操作员的工作量,从而为实现更高效、更强大的 MUM-T 铺平了道路。
有人-无人编队协同(MUM-T)可以理解为多个代理的合作团队:在关键任务情况下,多个无人驾驶飞行器(UAV)和可能的多个有人驾驶飞机共同行动。因此,通过这种属于混合主动交互(MII)框架的团队合作,为未来人类与多无人机的交互提出了一个新的视角。为了设计混合动力系统,了解是什么因素影响了人类操作员的(精神)状态、决策能力和表现,尤其是在危急情况下,这一点非常重要。从 MII 的角度来看,我们认为人类操作员(飞行员)并不是一个万无一失的团队操作员。例如,退化的心理状态可能会削弱人类代理在任务执行过程中的能力。因此,在本论文工作中,我们研究了生理计算和人工智能算法,用于估算人类飞行员在困难任务条件下与无人机团队互动时的心理状态(如心理工作量),以便调整代理的互动,从而提高性能。例如,根据人类飞行员当前的(精神)状态和任务子任务的优先级,可以选择是否触发无人机请求。
因此,为了实现本论文的目标,这项工作首先要了解和评估人类飞行员与无人机互动时的心理状态。为此,我们开发了一个在搜救任务中使用 MUM-T 的场景,让参与者扮演一名与三架无人机合作的飞行员。在第一次实验活动中,我们设计了诱发高强度和低强度脑力劳动的任务,并通过自我报告、行为和生理测量(即大脑、心脏和眼球运动特征)对其进行评估。通过第一次活动,我们:(i) 根据生理信号确定了脑力劳动负荷的特征--发现脑力劳动负荷对所有测量指标都有显著影响;(ii) 提出了不同的分类管道,在单独使用心脏特征或结合使用大脑和眼球运动特征时,分类准确率平均从最佳的 75% 到最低的 59.8%不等。
然后,在这些结果的基础上,本论文工作的重点是构建一个顺序决策系统,该系统能够通过分类器的输出监测人的精神状态,并选择适当的行动来调整互动,以最大限度地提高人的表现,最终提高任务成果。考虑到人类心理状态的部分可观测性和此类系统的非确定性,我们在部分可观测马尔可夫决策过程(POMDP)框架下构建了这项工作。POMDP 模型旨在控制互动,其参数是利用第一次实验活动中收集的所有数据和相关分类结果近似得出的。在模拟中对所获得的政策进行了评估。
最后,本论文工作的结论是在第二次实验活动中对这种基于 POMDP 的交互控制策略进行性能和心理工作量管理方面的评估。在这次实验中,所有开发项目都进行了整合和在线测试:生理特征的提取和处理、人类精神状态的估计以及交互的适应。主观结果显示,与非自适应交互系统相比,在使用自适应方法时,参与者明显感觉工作量减少。在自适应条件下,他们的飞行得分也明显提高。这些研究结果表明了基于 POMDP 的自适应交互控制如何在提高性能的同时减少操作员的工作量,从而为实现更高效、更强大的 MUM-T 铺平道路。除了几篇短文外,本论文还发表了一篇期刊论文和一篇会议论文。
关于论文的结构,前三章是与这项工作相关的最新成果。因此,第一章介绍了人机交互(HRI)的概念,并讨论了可能的交互渠道、HRI 如何定义与交互相关的自主性以及人工代理的局限性。人机交互的概念在 “有人-无人团队”(Manned-Un-Manned Teaming)的背景下得到了进一步发展,并深入探讨了混合主动交互和生理计算如何有助于人机交互。第二章回顾了心理状态评估文献,并定义了心理工作量。此外,还详细介绍了与人类心理工作量相关的生理变化。随后是对生理计算方法的解释。最后,回顾了当前人机交互中的心理工作量评估研究,并重点介绍了未来的发展。接下来,第三章概述了人工智能(AI)背景下的规划,并介绍了各种规划挑战和影响规划模型选择的因素。这延伸到了概率规划,特别是部分可观测马尔可夫决策过程(POMDP)。最后,论文介绍了解决 POMDP 的各种方案。
第四章是论文的贡献部分。它首先定义了本论文的研究范围和目标。然后详细介绍了实验设计、实施、采集、处理和分析工具。本章还介绍了用于实时处理和分析眼动跟踪数据的应用程序。第五章详细介绍了首次实验活动以及心理工作量估算的相关结果。本章首先介绍了第一次实验活动,然后介绍了数据的收集和处理。此外,还研究了不同的验证技术以及时间对生理数据的影响。最后,对结果进行了分析和讨论。第六章概述了根据从第一次实验活动中获得的知识制定规划框架的过程。随后是解决规划模型的技术问题,以获得控制 MUM-T 互动的策略。最后,使用内部模拟器对生成的策略和随机策略进行了比较。随后,第七章旨在验证所提出的 MUM-T 自适应交互方法。该章详细介绍了利用所有创建模块进行自适应交互的闭环设计。最后,介绍了第二次实验活动,本章以实验结果及其讨论结束。最后,第八章以总体结论、每个贡献的具体发现以及对未来方向和改进的展望结束论文。
2024年10月16日,中国信息通信研究院(以下简称“中国信通院”)在OSCAR开源产业大会上隆重发布了《开源大模型应用指南1.0》。
随着大模型的飞速发展与持续创新,其有望成为引领未来的通用技术。开源模式可集众智、采众长,在加速大模型技术持续创新、拓展大模型应用路径,释放大模型产能潜力,推动形成新质生产力等方面发挥着不可替代的作用。然而,开源大模型的广泛应用也伴随着一系列风险与挑战,亟需社会各界协同合作,探索有效治理路径。
在此背景下,中国信息通信研究院(以下简称“中国信通院”)云计算开源产业联盟 “开源人工智能治理工作组”,组织业界开源大模型治理专家和开源大模型研发与应用单位,围绕开源大模型发展背景、技术生态、应用风险、治理实践等方面,构思、编写了《开源大模型应用指南1.0》,旨在给出开源大模型安全、合规、高效应用的实操要点和最佳实践,为开源大模型应用企业提供参考和借鉴。
报告概述
近年来,开源模式与人工智能技术加速融合,有力地打破了闭源人工智能技术垄断、加速人工智能大模型技术持续创新、拓展大模型应用路径,重塑人工智能产业生态,同时开源大模型的创新发展和应用还为个人、企业和国家的发展提供更为广阔的发展天地。然而,大模型技术在给人类带来生活方式转变和生产方式革新的同时,也引入了安全、合规等多方面风险挑战,大模型技术的滥用还可能对人类社会的可持续带来负面影响。大模型开源增加了人工智能系统风险暴露和被恶意利用的可能性,开源许可模式的应用也使得人工智能技术利用的合规风险更加复杂,开源大模型的可得性亦可能加剧开源大模型滥用风险。 为保障开源大模型技术健康有序发展,充分释放人工智能技术效能,相关政策或法规纷纷出台,除人工智能治理宏观监管要求外,越来越多的国家政府开始关注开源大模型的针对性、包容性监管。在具体风险治理层面,企业应构建开源大模型统一治理体系,并建立开源大模型风险防控机制,以最大化开源大模型应用实效。 本指南结合中国信通院开源研究工作,分析总结开源大模型发展态势,重点围绕开源大模型应用风险及治理动态、治理措施展开研究,为企业安全、合规、高效应用开源大模型提供参考。 报告目录
一、开源大模型发展态势
(一)从软件到大模型,开源的“变”与“不变” (二)从垄断到开放,开源重塑AI生态 (三)从个人到国家,开源释放AI效能
二、开源大模型创新趋势
(一)开源语言大模型开启百家争鸣新纪元 (二)开源多模态大模型注入AI生态新活力 (三)开源AGENT引领人工智能发展新方向
三、开源大模型风险挑战
(一)开源大模型应用或导致安全风险升级 (二)开源大模型应用或面临多重规制要求 (三)开源模式或加剧大模型技术滥用风险
四、开源大模型治理全球动态
(一)国际组织高度重视开源大模型发展,积极探索全球人工智能治理方案 (二)欧盟立法谋求人工智能监管主导权,开源大模型得有条件义务豁免 (三)美国人工智能监管增强化趋势明显,国防领域率先探索开源大模型影响 (四)中国人工智能治理规则由“软”及“硬”,开源大模型或得包容性监管
五、企业应用开源大模型风险治理实操要点
(一)开源大模型治理体系构建 (二)开源大模型风险防控建议
六、国内开源大模型应用生态完善方向
**本书探讨了信息论、统计学、计算与学习之间的若干(众多)联系。信号处理、机器学习和统计学都围绕着从信号和数据中提取有用信息展开。**在信号处理和信息论中,一个核心问题是如何设计信号——以及它们传输的通道——以最大限度地传达和存储信息,并允许最有效的解码。与此不同,在机器学习和统计学中,通常情况下自然界提供了一个固定的数据分布,学习者或统计学家的目标是恢复关于这个(未知的)分布的信息。我们的目标是展示信息论的视角如何提供清晰的答案和技术来实现这一恢复过程。信息论的核心内容之一是发现基本极限:发展出证明某些程序是最优的结果。 因此,信息论工具能够描述在各种通信和统计情境下可达成的结果。正如我们将在接下来的章节中探讨的那样,在统计推断和机器学习任务的背景下,这使我们能够开发出能够证明最优性的程序——即没有比这更好的程序。这类结果在许多方面都非常有用:我们希望避免做出错误的决策或错误的推断,可能会意识到某些任务是不可完成的,此外,我们还可以明确计算解决不同统计问题所需的数据量。我将本书分为四个独立的部分,每一部分当然与其他部分相互关联,但每一部分也可以作为一个相对自包含的单元进行阅读。 本书以第二章的回顾开始,介绍了我们讨论的基本信息论量:互信息、熵和散度度量。这是后续所有章节的必读内容。第三章提供了指数族模型的概述,这是统计学习工具箱中的核心工具。熟悉这部分内容的读者,可能通过广义线性模型的课程学习过,可以跳过这部分,但它为后续章节中的例子和应用提供了有用的基础,因此我们将在全书中多次回到这一部分。本书的第一部分涵盖了我所称的“稳定性”结果。 从高层次来看,这意味着我们探讨在序列中的每个随机变量观察值对该序列的各种函数影响较小的情况下,可以获得哪些成果。我们从第四章的集中不等式开始,讨论和求和以及相关量如何快速收敛;尽管这部分内容对后续章节至关重要,但它不依赖于特定的信息论技术。我们在本书的这一部分中讨论了一些启发式应用,涉及统计学习中的问题——经验风险最小化,第五章提供了关于均匀集中性的一些结果,并将其应用于“泛化”——机器学习中的标准理论工具,通常应用于预测模型的准确性——以及估计问题,这些为模型参数估计提供了各种保证,是核心的统计问题和技术。接着我们在第六章中深入探讨泛化和收敛保证——通过控制不同的信息论量,证明样本X1,…,XnX_1, \dots, X_nX1,…,Xn 的函数代表了从中抽取样本的完整总体PPP。在这个背景下,我们发展了PAC-Bayesian界限,并使用相同的框架提供了控制泛化和收敛的工具,应用于交互式数据分析。这类分析反映了现代统计学,在这种分析中,我们在进行更全面的分析之前,先进行某种数据探索,但它打破了经典统计方法,因为这种分析依赖于样本。我们在第七章中讨论了更高级的想法,发展了关于随机矩阵的更复杂的集中结果,利用信息论的核心思想,将散度度量与不同的随机过程连接起来。最后,第八章探讨了披露限制和隐私技术,这些技术都基于分布中的不同稳定性概念。第二部分研究了基本极限,使用信息论技术推导各种估计、学习和其他统计问题的收敛速率下界。 第九章首先介绍了三种主要的下界方法:Assouad方法、Fano方法和Le Cam方法。这一章展示了所有其他下界方法的基本技术。从高层次来看,我们可以将这一部分与第一部分一起看作是本书的整体研究目标:分布如何彼此接近,我们如何利用这种接近性?第十章简要介绍了一些超出这些方法的下界技术,包括一些非参数问题的应用,以及一些超越典型期望值下界的结果,这些结果模拟了信息论中的“强对偶定理”,即以极高的概率,不能期望取得比平均误差更好的结果。在现代统计学习问题中,人们常常关注的不仅仅是统计风险,还包括通信或计算成本,或者研究参与者的隐私。因此,在第十一章中,我们开发了一些近期针对这些问题的技术,特别是涉及我们希望同时获得多维度最优保证的问题,这与信息论中的通信复杂度思想相关。第十二章回顾了最常见的误差度量——平方误差,介绍了经典统计工具,但也展示了一些这些思想的现代应用,它们在一些问题中重新出现。最后,我们通过第十三章探讨了测试问题和函数估计,研究那些只希望估计大模型中的一个单一参数的情况。尽管估计单一标量似乎比其他问题简单,但充分解决其复杂性需要相当细致的处理,并引入信息论工具。第三部分重新审视了我们在第二章中提出的所有信息论概念,但不再仅仅给出定义和一些推论,而是提供了不同信息论量(如熵)的操作性解释。 当然,这包括了香农关于编码和熵关系的原始结果(我们在第二章的概述2.4.1节中讨论信息论时涉及),同时我们也提供了熵和信息作为统计实验和统计学习中不确定性度量的解释,这在信息论对熵的处理当中通常缺失(第十四章)。我们的讨论揭示了熵与用于预测的损失函数之间的深刻联系,通过一种特定的对偶性,使得我们可以在两者之间来回转换。我们在第十五章将这些想法与校准问题联系起来,探讨如何确保预测模型的有效性,例如,在75%的日子里,如果模型预测降雨概率为75%,则确实会下雨。我们还利用这些信息论中的风险、熵和损失的概念,联系到优化和机器学习中的问题。特别是第十六章探讨了,如果我们不是将模型拟合到某个“真实”的损失函数,而是使用一个更容易优化的代理损失函数,我们基本上不会失去任何东西。这使我们能够界定何时(至少在渐近意义上)可以计算上高效地学习良好的预测器,并设计有效的实验来解决统计机器学习问题。由于这些章节与优化和凸对偶性有关,它们建立在凸分析的非平凡基础上;我们在附录B和C中提供了相关的综合复习,以便读者掌握所需的结果。对于不熟悉凸优化和分析的读者,我必须承认这些章节可能会有些艰深——因此,我们尽力阐明从整体概念到最一般结果所需的技术条件。第四部分结束了本书,探讨了随机优化、在线博弈和极小极大问题。 我们在第十七章中的方法采用了现代视角,认为随机优化是最小化函数的随机模型,并包括了现代机器学习优化中主要工具的收敛性“书籍”证明。它还利用了前面关于基本极限的结果,发展了凸优化的最优性理论,并将其纳入同一框架。第十八章探讨了在线决策问题,更广泛地讨论了需要探索与利用的问题,包括赌博机问题和因果估计中的一些基本问题,信息论工具为这些问题提供了清晰的处理方法。最后,第十九章回顾了第十四章中的损失函数和预测问题,但考虑的是自然与统计学家/学习者之间的博弈。再次利用我们已发展的熵和损失函数的视角,我们能够提供信息论中著名的冗余/容量定理的一个推广,但将其重新表述为自然对抗下的损失最小化博弈。
摘要 文章探讨了大模型作为人工智能技术的前沿应用之一,在军事领域具有广泛的应用前景,包括指挥控制、情报分析、战术训练等多个方面。然而,大模型的应用也面临着诸多挑战和安全风险,如计算资源需求、模型解释性、数据安全性等方面的问题。为了充分发挥大模型在军事领域的潜力,文章提出了一系列建议,包括加强技术创新、提升计算资源支持、保障数据安全、加强模型解释性、应对安全风险等方面的措施。 关键词 大模型,人工智能,军事应用,指挥控制
0 引言 当今迅速发展的科技时代,人工智能(AI)技术正以前所未有的速度改变着我们的生活和工作方式。其中,大模型(Large Language Model,LLM)作为人工智能技术的重要代表之一,已经在各个领域展现出了惊人的应用潜力。在军事领域,大模型所蕴含的强大计算能力、大规模数据处理能力和智能决策能力引发了人们对其在战争模拟、情报分析、战场指挥等方面的广泛关注[1-4]。 大模型[5-6]通常指的是拥有数亿甚至数十亿参数的深度学习模型,其可以通过学习大量的数据来提取特征,从而实现对复杂问题的建模和预测。随着军事技术的不断发展和战争形态的日新月异,如何有效利用大模型技术来增强军事力量、提高战争效率、保障国家安全,成为当前军事领域面临的重大挑战 要课题之一。大模型的应用可以极大地提高情报分析的准确性和效率,辅助指挥员进行决策,提高指挥控制的智能化水平,同时也可以用于武器系统的目标识别、路径规划等领域,提高武器系统的性能。 本文将首先介绍大模型大模型的概念、特点,其次介绍大模型在军事领域中的具体应用、情报分析、指挥控制、武器系统等方面,接着分析大模型在军事领域应用的挑战,如数据安全、算法偏见等,探讨我国在这一领域的现状和未来发展方向,最后总结全文并展望未来。
2022年,随着ChatGPT的发布,大规模语言模型受到了广泛关注。ChatGPT不仅在参数量和预训练语料库规模上远超前代模型,还通过大量高质量的人工标注数据进行微调,实现了革命性的性能突破。此类进展促使得企业和研究机构认识到,构建更智能、更强大的模型依赖于丰富且高质量的数据集。因此,数据集的建设与优化成为了人工智能领域的关键方向。本文对训练大规模语言模型所需的预训练数据和微调数据的现状进行了总结,涵盖了数据规模、搜集方式、数据类型及其特点、处理流程等,并对当前可用的开源数据集进行了梳理和介绍。
1 引言
在人工智能领域,语言模型的发展一直是推动技术进步的核心动力之一。语言模型的目标是通过模拟文本数据的生成概率,来实现对自然语言的理解和生成。最初的模型,如n-gram,依赖于统计分析来预测词语序列,但这些模型难以捕捉复杂的语本依赖性,因此在处理复杂任务时表现有限。随着深度学习技术的发展,特别是AlexNet在视觉识别领域的突破,神经网络被引入到自然语言处理中。循环神经网络(RNN)及其衍生的LSTM和GRU显著提高了模型对序列数据的建模能力,使其能够更好地建模语言中的时序特征和文本关系。然而,这些方法仍然依赖于传统的监督学习范式,训练数据规模普遍较小,大部分数据集的规模以MB为量级。 真正的革命来自于以Transformer为基础的预训练语言模型的推出。Transformer架构通过自注意力机制(Self-Attention)有效地捕捉长距离依赖关系,并且由于其高并行化特性,极大地提高了语言模型的训练效率。这使得以大规模无标记文本作为训练语料成为可能。GPT和BERT等模型以Transformer为基础,加速了语言模型的迭代性能,将语言模型的“深度”推向了一个新的高度。 预训练语言模型之所以强大,是因为它们能够在未经过人工标注的大规模集群中自动学习丰富的特征。这些模型在预训练阶段以无监督大数据集发现和生成规律,并将其广泛的预测能力扩展到众多任务的表征能力。然而,预训练模型的强大性能离不开高质量大数据的支持,微调阶段在特定任务完成精调工作。因此,随着各个领域的数据集进一步微调,模型模型的更好地适应特定应用需求。 2022年,随着ChatGPT的发布,大规模语言模型受到了广泛关注。ChatGPT不仅拥有远超之前模型的参数量,且使用大规模高质量的人类标注数据对模型进行微调。ChatGPT革命性的性能突破让企业和研究机构认识到,构建更智能、更强大的模型依赖于丰富且高质量的数据集。自此,数据集的建设和优化成为了人工智能领域未来发展的方向。在这个背景下,许多公司和组织参与到训练数据的构建和优化工作中,而许多大规模模型语言集(如Baichuan、Qwen、Chatglm等)已经相继开源,但其训练数据几乎完全保密。 模型训练所涉及的语料的广度和质量是其核心竞争力。当然,也有非常多的公司和组织把投入大量资源构建的数据集进行开源,为社区的发展做出贡献。比如Together AI的RedPajama数据集或Hugging Face的Common Crawl数据。这些数据集中不仅标了降噪和不相关内容,还进行了结构化和标准化处理,使其适用于训练所需高质量数据。 与此同时,尽管许多商业组织的预训练数据与训练语料已被开源,其他在语音和世界的被公开总量并不理想。此外,数据的提升和可视化。随着模型的不断增大。 未来的数据建设成为一种非常核心的关键要求。当前对前沿问题和数据资源的需求是快速且不断增长的挑战之一,而随着对隐私问题和标准化的处理未来更需要建设和高质量基础来推动数据。
2 预训练数据
预训练任务通过让模型基于已有文本预测未知的Token,以此来学习语言结构和语义规则。自编码训练任务(如BERT)和自回归训练任务(如GPT)分别代表了两种主要的方法。在ChatGPT发布后,自回归训练任务逐渐成为训练大规模语言模型的主流方法。在预训练过程中,模型通过估计预测Token的原始概率,逐步掌握文本的语法和语义,从而积累大量语言知识,提升文本理解和生成能力。核心机制在于,模型能够通过预测文本的一部分,逐渐建立对整个文本结构的理解。此外,模型不仅能记住具体的单词和短语,还能学习更高层次的语言结构和语义关系。这种能力对于生成连贯且有意义的文本至关重要,使得模型在实际应用中能够提供更恰当的回答,上一文一致的回答。 预训练数据集对于训练模型理解和生成能力至关重要,是大规模语言模型开发的基础。预训练数据集通常来自人工标记,含有丰富的语言元素和复杂的结构。这种标注数据为模型提供了真实、自然的语言使用场景,使得模型学习到语言的本质特征和标准规则。预训练语料的背景特征就是规模庞大。大规模的数据集能够提供丰富的语言现象和多样的上下文场景,使模型在训练过程中接触到各种语言结构、词汇用法和语法规则。这种规模保证了模型可以捕捉到更广泛的语言模式和关系,从而在多种任务中表现出色。 除了规模庞大,其第二个重要特性就是来源广泛。预训练语料涵盖了从日常通信到专业学术的各种文本类型。这包括新闻报道、科学论文、文学作品等。这种多样化的文本来源确保了模型能够在不同的语境中灵活应用,既能理解口语的表达,也能处理学术术语和复杂的学术论述。模型通过在这些不同类型的文本中学习,可以获得更全面的语言知识和更强的适应能力。 通过预训练,模型能够积累大量的背景知识,这使得它在面对新的任务时,能够迅速适应并表现出色。预训练就像是让模型“打下上万本书,见多识广”,积累了丰富的知识储备,而微调过程则是让模型在特定领域进行专门训练,以便更好地完成特定任务。此外,预训练数据的多样性和复杂性也意味着在预训练过程中对数据的处理需要结合高度清洗和精细的标注。尽管如此,其中一些噪音可能是模型成长的营养剂,而非阻碍。例如别字、模棱两可的语言、复杂的语音环境中学习,模型能够得到更加健壮和灵活,能够更好地处理实际应用中遇到的各种问题。
3 微调数据
微调过程是训练语言模型不可或缺的一环,其目的是在于将模型从面向语言知识的通用训练转向面向具体任务的针对训练。在预训练阶段,模型通过预测被掩码的Token任务学习了大量的语言知识,使其具备理解和生成文本的能力。然而,这些知识是通用的,无法被直接应用于具体任务的实现。微调阶段旨在针对特定任务的语料库上进行训练,使模型能够学习到具体任务的需求和规则,从而将所学的语言知识和生成能力在应用任务中按特定任务。与预训练阶段相比,微调数据集通常是经过人工标记和精心设计的,记录了特定任务中的输入输出对应关系或其他更精细的上下文标记,从而更有针对性和强关联性。对不同读懂程度任务,微调数据包括任务参考文本、问题和问题的答案。通过这个训练,模型能够学习到解决特定任务的特征和模式,从而将训练阶段学到的通用知识应用到特定任务中。 微调数据集在分布式配置中包含:命令类问题、机器翻译、文本分类、自动问答等。这些任务需要语言模型学习更具体的问题解答能力,自动语言掌握模型的各种领域,知识储备和生成能力的需求。然而,随着ChatGPT的发布,人们发现,机器人语言模型在预训练阶段学到了更多的语言知识,获得了更强的语言能力,便能设计话和领域解决语用中所有高表达意图任务的各种应用任务。这些数据集使得模型在解决复杂多种问题中优化。 传统微调数据有可能有各种形式,如文本大小(机器翻译或其他文本类)等。但在传统微调数据集基础上强调对更高的基准结构变化而构建大规模系统。对于优化微调数据库。
结尾:
主要任务包括指令集跟随,日常对话、数学推理、代码生成、医疗问答等。构建微调数据集的主要问题分为两个方面,问题的收集和答案获取。其构建方式大致可以分为以下几种:人工撰写、真实用户对话、基于已有数据集的扩充、利用语言模型直接生成以及基于传统数据集的改写。下面介绍这几种基本的数据构建方式。 4 总结 本论文概述了大语言模型在预训练和微调阶段的数据构建要点。在预训练数据方面,英文数据在 数量和质量上优于中文数据,成为训练英文大语言模型的有力资源,而中文数据因网页资源有限、学 术数据匮乏、社交媒体平台闭源等因素受限。中文领域开源数据集的缺乏,也阻碍了中文大语言模型 的发展,尽管模型可以通过英文数据学习多语言能力,但中文特有的知识和文本风格仍难以完全涵 盖。此外,数据隐私与开放性之间的平衡成为关注点,语料枯竭也带来新的挑战,促使研究者探索合 成数据等新来源。 在微调数据方面,构建方法多样,包括人工撰写、真实用户数据扩充等。多样性、质量和安全性 是微调数据的重要目标,实际应用中常融合多种数据来源以取得最佳效果,并在不同领域数据配比上 进行优化。总体而言,预训练与微调数据的高质量构建对于提升大语言模型的性能至关重要。特别在 中文领域,各方需协力推动数据来源的拓展与技术改进,使中文大语言模型在各类应用中更具竞争 力。
摘要——工业网络正在经历由新兴技术的融合推动的快速转型,这些技术正在革新传统工作流程、提升操作效率,并在各个行业领域中根本性地重塑工业格局。在这场革命中,数字孪生(DT)作为一种变革性创新,成功地将现实世界系统与其虚拟对应物相结合,架起了物理世界与数字世界之间的桥梁。本文提供了一个全面的调查,介绍了各行业中基于数字孪生(DT)的新兴服务和应用,从数字孪生的基本概念和组成部分概述,到对数字孪生关键 enabling 技术的讨论。与现有文献不同,本文深入探讨并分析了数字孪生在广泛工业服务中的应用能力,包括数据共享、数据卸载、集成感知与通信、内容缓存、资源分配、无线网络以及元宇宙等领域。特别地,本文对数字孪生在各个工业应用领域中的作用进行了深入的技术讨论,涵盖制造、医疗保健、交通运输、能源、农业、航天、石油与天然气以及机器人等行业。在技术分析过程中,我们深入探讨了物理与虚拟平台之间的实时数据通信,以实现工业数字孪生网络的构建。随后,本文广泛探讨并分析了数字孪生在工业领域中的主要隐私与安全问题。文中还提供了分类表和调查的主要研究成果,强调了数字孪生在工业中的重要意义。最后,本文指出了未来的研究方向,旨在推动该前沿领域的进一步发展。
关键词——数字孪生、工业网络、无线通信、机器学习、安全性。
I. 引言
工业革命标志着由最近在工业物联网(IIoT)方面的进展驱动的技术创新和自动化新时代的开始[1]。这一关键时期为现代经济中持续发展的先进工业流程奠定了基础。近年来,数字孪生(DT)作为这一演变的关键推动力,允许通过双向通信、实时仿真和监控,将物理世界与数字世界连接起来。通过优化操作和增强决策,数字孪生推动了智能制造、预测性维护以及更高效的基础设施管理[2]。 近期,数字孪生模型因其强大的潜力和多功能性引起了广泛关注,在医疗保健、教育、农业和制造业等多个领域带来了显著的益处[3][4]。它们提供实时洞察、优化流程并增强决策能力,推动了其在众多领域的应用和探索[5]。凭借其创新的操作方法,数字孪生模型为工业应用提供了多种重要的优势,且在不同的部署层级下具有不同程度的虚拟化功能[6]:
借助其独特的优势,数字孪生技术已经被提出应用于广泛的工业领域,包括智能制造、智能医疗、智能交通、能源管理、卫星通信等。例如,数字孪生在智能制造中扮演着至关重要的角色,通过创建制造系统、机器和流程的数字复制品,贯穿各行业[7]。在医疗保健中,数字孪生增强了病患数据管理并个性化治疗方案,同时改善了手术规划[8]。在交通运输和物流中,数字孪生利用工业物联网网络和无线通信提高了资源监控和优化效率[9]。数字孪生在农业和食品生产中的应用通过无线传感器网络实现了精确监控和预测分析[10],同时提升了生产力和可持续性[11]。在卫星操作中,数字孪生通过先进的监控和预测性维护提高了装配过程和网络性能的准确性和可靠性[12]。此外,在自动驾驶车辆、无人机和智能港口的管理中,数字孪生利用蜂窝网络和无线通信提升了导航、安全性和操作效率[13]。所有这些数字孪生在各行各业中的显著进展和成就,突显了进一步深入探讨这一革命性研究领域的理想时机。本文中将展示的数字孪生在各行业中的集成概览如图1所示。数字孪生凭借其强大的技术潜力,已显著转变了许多工业领域,包括能源、交通运输、制造和机器人等。 A. 比较与我们的贡献
在数字孪生技术的最新进展及其与各类应用的集成推动下,近期已发布了多项综述,探讨了数字孪生的变革性影响及其新兴趋势。例如,[14]的研究贡献了数字孪生概念,强调其与工业4.0及关键技术的集成,特别是在制造业中的快速发展,探讨了人工智能和工业物联网等关键技术的作用。类似地,[15]的作者分析了数字孪生技术的当前定义和核心特征,探索其在各个领域的应用,并提出了与社会技术方面和生命周期设计相关的意义。其他研究文献[16]到[17]则探讨了数字孪生在工业物联网等相关领域中的影响。在[16]中,研究人员呈现了数字孪生的定义和特征,扩展其在物联网中的应用,并展示了数字孪生在软硬件一体化过程中的作用。有关数字孪生在工业物联网中的研究也在[17]中得到探讨,重点讨论了如人工智能和区块链等技术的支撑作用,探索了智能和安全的数字孪生-IIoT实现方案。此外,[18]中的文章回顾了数字孪生系统中的安全与隐私问题,并讨论了防御措施。[19]也集中研究了数字孪生在工业4.0范式下的安全形势,重点分析了网络物理系统、工业物联网、边缘计算和人工智能等多种技术融合的安全威胁,提出了初步的安全建议。数字孪生在无线网络中的集成问题在[20]中也有所探讨,讨论了数字孪生技术在无线系统中的关键概念、分类、设计考虑和部署趋势。而[21]的研究则从通信和计算角度探讨了数字孪生在智能产业中的作用,回顾了下一代无线技术(如5G及其后续技术)和计算范式(如边缘计算和云计算)中的应用研究进展。数字孪生在6G通信系统中的作用也在[22]中进行了探讨,分析了数字孪生在6G系统中的部署潜力和应用场景。有关数字孪生在各行业集成与进展的研究在[23]、[24]和[25]中有所涉及,提供了数字孪生在产品设计、生产和健康管理等领域的应用回顾。 尽管已有诸多研究,但它们缺乏对数字孪生在工业服务和应用中的全面综述。尤其是在数据共享、数据感知与卸载、内容缓存、资源管理、无线网络、元宇宙等工业服务领域,数字孪生的潜力在公开文献中仍然未得到充分探索[23]-[24]。此外,关于数字孪生在不同工业领域中的应用的全面讨论,在[16]到[17]中也缺失。现有的研究仅提供了部分数字孪生应用分析,而尚未深入探讨从机器人、制造到农业和航天等所有重要应用领域的全面综述。 受到这些局限性的启发,本文提供了一个更全面的数字孪生在工业网络中的集成调查,包括工业服务和应用。我们特别强调了在每个工业用例中,物理实体与其数字对应物在统一数字孪生平台上的双向通信,提供了有关工业数字孪生网络操作的有价值见解。此外,本文还突出了数字孪生在工业领域中的安全性和隐私问题,这些也正是我们的关键创新,使我们的文章在相关文献中与众不同。为此,本文的主要贡献如下:
B. 调查结构
我们的调查结构如图2所示。第二节回顾了数字孪生的基本原理、组成部分和支撑技术。第三节深入分析了数字孪生在不同工业设置中的服务。第四节探讨了数字孪生在各个工业应用中的潜力。第五节讨论了工业网络中各个层次的安全问题。第六节总结了主要发现,并指出了未来的研究方向。最后,第七节对本文进行了总结。
随着人工智能(AI)的出现,基于个人经验和判断进行行动和思考的自主概念为未来的自主决策铺平了道路。这种未来可以解决相互依存的多计算系统这一复杂领域的问题,而这些系统面临的主要挑战是,它们之间的相互作用会产生不可预测且往往不稳定的结果。为相互依存计算系统设想和设计人工智能驱动的自主性至关重要,它涵盖了从物联网(IoT)到网络安全等各种用例。这可以通过克隆人类决策过程来实现,克隆过程要求人类在决定如何行动之前,先感知未知的随机环境,执行行动,最后评估感知到的反馈。每个人都会根据自己的行为特征和推理,主观地评估反馈是否令人满意。上述步骤的重复迭代构成了人类的学习过程。因此,其核心思想是将人类的认知注入到相互依存的计算系统中,使其转变为人工智能决策体,模仿人类的理性行为属性,自主优化其主观标准。
无人驾驶飞行器(UAV)或多接入边缘计算服务器(MEC)等相互依赖的计算系统的快速发展带来了海量数据和严格的服务质量(QoS)要求。当这些系统以自主方式行动时,它们会表现出竞争行为,因为每个系统都想自私地优化自己的主观标准。这就引入了非合作环境中交互决策的概念,即每个系统的反馈都取决于其他系统可能相互冲突的行动。因此,本文利用博弈论来有效捕捉非合作环境中相互依赖的计算系统之间的战略互动,并证明存在解决方案,即稳定的均衡点。均衡点被认为是稳定的解决方案,因为每个系统都没有单方面改变自身行动的战略动机。为了以分布式方式确定这些均衡点,我们采用了强化学习(RL)技术,该技术可使相互依存的自主计算系统在随机环境中利用自身行动和经验的反馈,通过试错进行智能学习。此外,传统的强化学习方法还加入了奖励重塑技术,通过契约理论考虑自主互联计算系统之间类似劳动经济学的安排,并通过贝叶斯信念模型考虑它们的行为特征。同时利用博弈论和强化学习与奖励重塑技术,是向自感知人工智能(SAAI)迈出的一步。本文证明,它极有可能成为构建基于人工智能的自主决策相互依赖计算系统的主要组成部分,并能有效地应用于各种应用领域。
图 1.1: 总体决策框架
本文首先分析了所使用的数学工具的理论基础。此外,除了传统的单智能体环境,还引入了多个非集中式低复杂度框架,根据人工智能原理将相互依存的多智能体计算系统转化为自主决策者。在多智能体应用环境中,提出了以第 1.1 节所述 IDU 约束为特征的非合作博弈,并应对了由此带来的挑战。具体来说,博弈论与强化学习的融合带来了新颖的低复杂度分布式学习框架。此外,通过注入人类认知属性,传统的 RL 框架得到了丰富,从而使决策过程更加有效。证明了纳什均衡点的存在,并表明基于人工智能的自主相互依存计算系统能够接近这些均衡点,而无需集中式闭合解决方案。通过建模和仿真,在各种实际应用案例中对所提出的框架进行了评估。本论文的主要贡献如下。
1.引入了新颖的低复杂度分布式决策框架,将传统的资源有限、相互依赖的计算系统转变为自主、智能的计算系统。我们研究了两种情况: (a) 完整信息情景,即计算系统可以交换所有必要信息,并以分布式方式收敛到均衡点;以及 (b) 不完整信息情景,即利用强化学习让智能相互依赖计算系统以自主方式接近均衡点。对这两种情况下的运行性能进行了实证评估。
2.在处理非合作博弈的应用领域,通过证明博弈是潜在的或子/超模的方式,用数学方法证明纳什均衡点的存在。如果环境是完全可观察的,则采用传统的闭式求解方法,如最佳响应动力学,反之,则采用各种强化学习算法,从经验上接近纳什均衡点。
3.通过利用契约理论和贝叶斯信念,将人类认知和行为特征分别纳入决策框架。此外,当在信息不对称的环境中运用契约理论时,提供了优化问题的闭式激励解的完整证明,这反过来又从一个非凸问题正式转化为一个凸问题。通过适当地将这些人类意识属性纳入奖励重塑的强化学习框架,计算系统可以自主优化其主观目标并做出有效决策。这是向增强型自我意识人工智能迈出的一步。
4.除了多智能体设置,还将强化学习应用于单智能体问题,例如离线深度强化学习,表明基于 RL 的决策智能体比许多替代策略(例如基于机器学习(ML)的方法)能带来更好的结果。
5.通过在广泛的应用领域进行大规模模拟,对所提出的决策方法进行了实证评估,突出了这些方法的主要操作特点。此外,还引用了与其他方法的详细比较评估,强调了所引入框架的优越性。
图 3.7:移动边缘计算中的人工智能无人机数据卸载框架
AI大模型应用落地痛点分析
在政策支持、技术变革以及企业数字化转型需求的驱动下,中国企业纷纷开始探索并实践AI对于业务的赋能,积极推进AI大模型的深度应用与落地,与此同时对大模型应用的精度、效果、开发和部署效率等都产生了更高的需求。
但另一方面,企业在落地大模型应用的过程中仍面临诸多挑战。
本章节将重点聚焦企业落地A大模型应用过程中的现状和需求,并对其面临的痛点和挑战进行梳理。
人工智能(AI)是公认的先进技术,可帮助决策过程实现高精度和高准确性。然而,由于依赖于复杂的推理机制,许多人工智能模型通常被评价为黑盒。 人类用户往往无法理解这些人工智能模型是如何以及为何做出决策的,从而担心其决策的可接受性。以往的研究表明,由于缺乏人类可理解的相关解释,最终用户无法接受这些决策。在此,可解释人工智能(XAI)研究领域提供了一系列方法,其共同主题是研究人工智能模型如何做出决策或解释决策。这些解释方法旨在提高决策支持系统(DSS)的透明度,这在道路安全(RS)和空中交通流量管理(ATFM)等安全关键领域尤为重要。尽管决策支持系统在不断发展,但在安全关键型应用中仍处于演变阶段。在 XAI 的推动下,透明度的提高已成为使这些系统在实际应用中切实可行、解决可接受性和信任问题的关键因素。此外,根据欧盟委员会目前的 “解释权 ”授权和全球各组织的类似指令,认证机构不太可能批准这些系统用于一般用途。这种将解释渗透到现有系统中的冲动,为 XAI 与 DSS 相结合的研究铺平了道路。
为此,本论文主要为 RS 和 ATFM 应用领域开发了可解释模型。特别是,通过分类和回归任务,开发了用于评估驾驶员车内心理工作量和驾驶行为的可解释模型。此外,还提出了一种利用互信息(MI)从车辆和脑电图(EEG)信号生成混合特征集的新方法。该特征集的使用成功地减少了复杂的脑电图特征提取计算所需的工作量。互信息(MI)的概念被进一步用于生成人类可理解的心理工作量分类解释。在 ATFM 领域,本论文开发并展示了一个可解释的模型,用于从历史飞行数据中预测航班起飞时间延误。通过开发和评估这两个领域的可解释应用所获得的启示强调了进一步研究 XAI 方法的必要性。
在本博士论文的研究中,DSS 的可解释应用是通过加法特征归因(AFA)方法开发的,该方法是当前 XAI 研究中流行的一类 XAI 方法。尽管如此,仍有一些文献断言,特征归因方法通常会产生不一致的结果,需要进行合理的评估。然而,关于评估技术的现有文献仍不成熟,提出了许多建议方法,却未就其在各种场景中的最佳应用达成标准化共识。为了解决这个问题,我们还根据 XAI 文献的建议,为 AFA 方法制定了全面的评估标准。建议的评估流程考虑了数据的基本特征,并利用了基于案例推理的加法形式,即 AddCBR。本论文提出了 AddCBR,并将其作为评估流程的补充进行演示,以此作为比较 AFA 方法生成的特征归因的基线。iXGB 生成决策规则和反事实,以支持 XGBoost 模型的输出,从而提高其可解释性。通过功能评估,iXGB 展示了用于解释任意树状集合方法的潜力。
从本质上讲,这篇博士论文最初有助于为两个不同的安全关键领域开发经过理想评估的可解释模型。其目的是提高相应 DSS 的透明度。此外,论文还引入了新颖的方法,以不同的形式生成更易于理解的解释,超越了现有的方法。论文还展示了 XAI 方法的稳健评估方法。
图 1.1: 研究课题、研究贡献和收录论文的一般映射。
军用数据链是作战数据传输的关键,是武器装备的神经系统,也是打赢未来信息化联合作战的基石,决定着整个作战体系的作战效能乃至作战成败。军用数据链本质上是一种通信系统,可实现不同武器装备系统或指控系统间高速标准化通讯。在信息规范上,数据链对消息格式进行了专门定义,在传输链路上,数据链实现了终端复用和传输提速。在俄乌战场上,乌方借助北约通用数据链弥补预警指挥平台不足的劣势,使其作战部队实现网络化作战,形成了强大协同作战能力。 对于军事装备来说,如果说雷达是眼睛,指挥系统是大脑,武器装备是肌肉,那么数据链就是将“眼睛”、“大脑”和“肌肉”相互连接起来的“神经”,而现代战争中信息化、智能化的“神经网络”则需要更快、更多、更宽的数据链路,以实现作战装备和决策中心的高效链接,依靠数据链构建数字化战场,才能达成真正意义上的协同化、智能化作战,大力建设全军互联互通数据链是实现联合作战的必由之路,是形成新质战斗力的必要举措。 “十四五”进入攻坚阶段,可以预见迎面而来的“十五五”,军事信息化将深入推进,军事智能化有望大放异彩。我们判断,国防建设将实现从聚焦硬实力到关注软实力的切换,数据链作为整合未来军队作战力量的黏合剂,将充分受益于新质作战装备建设及存量装备渗透率的提升。相关行业及业内公司正逐步显示出其内在价值,行业公司有望实现业绩的稳定、快速增长,赢得长期溢价。
数据链需求特点 战术数据链是指挥控制用关键链路,每次大规模放量均伴随标准化工作的落地,军种结构上由海军和空军主导,而陆军始终因为波形的统一问题仍需要更合适的组网规划;通用数据链是情报传递及无人机控制核心链路,在低空飞行器通信方面,采用5G通信存在覆盖范围小等问题,而采用数据链能够满足低空飞行中的通信速率及通信距离要求,具备较高应用潜力;专用数据链是各武器平台间通信的特有链路,为满足战场协同作战规划,多为平台组网后装需求,年间订单额存在一定波动。 ** 数据链产业链、竞争格局及发展特点** 数据链由战术数据链系统、加密解密设备、数据链终端设备以及收发设备四部分组成,其中数据链终端设备占据核心地位,数据链终端设备是射频、加密、基带处理等部分的集成产品,由各整机供应商完成抓总,数据链系统为数据链软件环节,涉及波形发生、仿真模拟及智慧决策等领域,而收发环节价值量占比最高,约占60%左右,收发环节主要构成部分为射频模块,类似于雷达射频系统。 产业链:我国数据链行业主要由军工集团主导,民企多参与配套。我国数据链全产业链供应商主要集中在军工集团内,民企参与较少,系统级供应商相关标的有七一二、上海瀚讯、海格通信及盟升电子;在射频组件领域,电科下属10、54所等具备自主供应能力,电科内部还有13、55所等专业化供应商,相关民企有新劲刚及雷电微力等;此外在加密领域有电科30所上市平台电科网安,主要参与民企为佳缘科技;在数据链系统领域有观想科技及坤恒顺维等。发展特点:数据链多规格小批量特点决定了综合毛利率的稳定性;数据链服务需求是平抑产品需求波动的有力保障;同时主机厂占据专用数据链主要份额,并向其他数据链领域延伸。