现在,人工智能(AI)在一系列涉及高层次推理和思考的游戏、测试和认知任务中,都能与人类智能相媲美,甚至更胜一筹。许多人认为,在涉及高层次认知、判断和决策的情况下,人类应该--或者很快就会被人工智能所取代。我们不同意这种观点。在本文中,我们首先追溯了人工智能和人类认知作为计算形式这一观点的历史渊源。本文以大型语言模型为例,强调了将计算机和思维类比为输入输出设备所存在的问题。人类认知最好被概念化为一种理论化形式,而不是信息处理、基于数据库的预测或贝叶斯更新。人工智能使用基于频率或概率的方法来获取知识,在很大程度上是后视的和模仿的,而人类的认知是前视的,能够产生真正的新颖性。本文认为,人工智能基于数据的预测不同于人类基于理论的因果逻辑。本文引入了 “数据-信念不对称 ”的概念,以 “比空气更重的飞行 ”为例说明两者的区别。理论为人类提供了一种识别新数据的认知机制,一种介入世界、进行实验和解决问题的方式。在整篇文章中,本文将讨论所提出的论点对不确定情况下的战略和决策制定的影响。
现在,人工智能(AI)在涉及高层次思维和战略推理的各种游戏、标准化测试和认知任务中,都能与人类匹敌或胜过人类。例如,人工智能引擎可以在国际象棋中轻松击败人类,而国际象棋几十年来一直是人工智能能力的重要基准(Bory,2019;Simon,1985)。现在,人工智能系统在复杂的游戏(如外交或战略)中也表现出色,这些游戏涉及复杂的谈判、与他人的复杂互动、结盟、欺骗以及理解其他玩家的意图(如 Ananthaswamy,2022 年)。目前的人工智能模型在各种专业资格考试中的表现也超过了人类的 90%,如法律方面的律师资格考试和会计方面的注册会计师考试(Achiam 等人,2023 年)。人工智能在医疗诊断方面也取得了长足进步,在诊断某些疾病方面击败了训练有素的医疗专业人员(例如,Zhou 等人,2023 年)。这些突飞猛进的进步让一些人工智能学者认为,即使是最像人类的特征,如意识,原则上也将很快被机器复制(如 Butlin 等人,2023 年;Goyal 和 Bengio,2022 年)。总之,人工智能正在迅速设计出 “人性化思考”、“理性思考”、“人性化行动 ”和 “理性行动 ”的算法(Csaszar and Steinberger, 2022)。
鉴于人工智能的惊人进步,丹尼尔-卡尼曼(Daniel Kahneman)提出(并回答)了一个合乎逻辑的下一个问题: “会有什么东西是人类的专利吗?坦率地说,我看不出有什么理由要对人工智能所能做的事情设限......因此,很难想象在数据充足的情况下,仍然会存在只有人类才能做的事情......只要有可能,你就应该用算法取代人类"(2018:609-610,着重号为作者所加)。
卡尼曼并不是唯一这样评价的人。达文波特和柯比认为,“我们已经知道,分析和算法比大多数人类更善于从数据中创造洞察力”,而且 “这种人类/机器的性能差距只会越来越大”(2016:29)。许多学者声称,人工智能很可能在大多数--如果不是全部--推理和决策形式上胜过人类(例如,Grace 等人,2024 年;Legg 和 Hutter,2007 年;Morris 等人,2023 年)。一些人认为,战略决策也可能被人工智能接管(Csaszar, Ketkar and Kim, 2024),甚至科学本身也将 “自动化”(Zhu and Horton, 2024;相关论点见 Agrawal et al.) 人工智能的先驱之一杰弗里-辛顿(Geoffrey Hinton)认为,大型语言模型是有知觉和智能的,“数字智能 ”将不可避免地超越人类的 “生物智能”--如果它还没有做到的话(见辛顿,2023 年;另见本吉奥等人,2023 年)。
与机器相比,人类在认知和计算方面的局限性显而易见。人类具有偏见和有限理性(综述见 Chater 等人,2018 年;另见 Kahneman,2003 年;Kahneman,2011 年)。人类会选择性地关注和采样哪些数据,而且容易受到确认和其他数百种认知偏差的影响(根据最近的统计,有近两百种)。简而言之,人类是 “有限理性 ”的--他们计算和处理信息的能力受到严重阻碍(西蒙,1955 年),尤其是与计算机相比(参见西蒙,1990 年)。而使人类理性受限、决策能力低下的原因,似乎正是计算机在认知任务上表现出色的原因。计算机和人工智能的优势在于,它们可以处理大量数据,并以强大的方式快速处理这些数据。
在本文中,对人工智能与人类认知的关系--包括其对不确定情况下的战略和决策制定的影响--提出了相反的看法。首先重温了将计算等同于人类认知这一说法的历史渊源。人工智能建立在认知是信息处理的一般形式,是一种 “输入-输出设备 ”的理念之上。为了说明人类与计算机在认知方面的差异,以大型语言模型与人类语言学习为例。基于这些差异,认为人类的认知在重要的情况下是以前瞻性的方式运作的--从理论到数据。以 “比空气重 ”的飞行为例,介绍了 “数据-信念(a)对称 ”的概念,以及这一概念在解释人工智能和人类认知时分别发挥的作用。人类的认知是前瞻性的,这就要求数据-信念不对称,这种不对称体现在理论以及人类的因果推理和实验中。人类认知由基于理论的因果逻辑驱动,这与人工智能强调基于数据的预测不同。理论能够产生新的、相反的数据、观察和实验。本文强调了这些论点对不确定性条件下决策制定的影响,同时简要强调了考虑人类-人工智能混合系统的机会。
在上述数据与信念不对称的基础上,要讨论的是人类参与前瞻性理论研究和因果推理的认知与实践过程,这使得人类在本质上能够 “超越数据”--或者更具体地说,超越现有数据,进行实验并产生新的数据和新奇事物。我们特别强调了这种形式的认知和实践活动如何不同于计算、数据驱动和信息处理导向的认知形式--我们在上文讨论过的人工智能和计算人工智能的标志--并允许人类以前瞻性的方式 “干预 ”世界。那些专注于数据驱动预测的方法会按照世界的现状进行分析,却没有认识到人类有能力进行实验并理解原因(参见 Pearl 和 Mackenzie,2018 年)--以及实现那些由于(目前)缺乏数据和证据而在目前看来难以置信的信念。我们以比空气重的飞行为例,为这一点提供了一个实际的例子,努力为我们所谓的 “基于理论的因果逻辑 ”提供一个独特的窗口,让我们了解一个更加普遍和无处不在的过程。
以 Felin 和 Zenger(2017 年)为基础的出发点是,认知活动是一种理论或科学活动。也就是说,人类会产生前瞻性理论来指导他们的感知、搜索和行动。正如皮尔斯所指出的,人类的 "心智对于想象某种正确的理论具有天然的适应性(......)。如果人类没有适应其要求的天赋思维,他就不可能获得任何知识"(1957: 71)。正如我们以语言为例所强调的那样,儿童微薄的语言输入几乎无法解释巨大的输出,这说明了人类理论化的生成能力。人类的理论化能力--参与新问题的解决和实验--起源于进化,为进化的飞跃和技术的出现提供了一个非常合理的解释(Felin 和 Kauffman,2023 年)。
重要的是,基于理论的认知使人类能够做事。这也是儿童发展中所谓 “核心知识 ”论点的基础(如 Carey 和 Spelke,1996;Spelke 等人,1992)。人类像科学家一样,通过猜想、假设和实验的过程来发展知识。认知的计算方法侧重于数据和环境输入的首要地位,而基于理论的认知观点则侧重于人类的积极作用,人类不仅要了解周围环境,还要在实验、生成新知识和创新方面发挥积极作用(Felin and Zenger, 2017)。如果没有理论化的这种主动性、生成性和前瞻性,很难想象知识会如何增长--无论我们谈论的是个人知识、集体知识还是科学知识。发展心理学一篇文章的标题很好地体现了这一点: “如果你想出人头地,就得有一套理论"(Karmiloff-Smith 和 Inhelder,1974 年)。这也呼应了库尔特-勒温的格言:“没有什么比好的理论更实用”(1943: 118)。这里的核心要点是,理论不仅仅是科学家的专利。理论对于任何试图理解和影响周围环境的人来说都是实用的--理论帮助我们做事。理论化是人类认知和实践活动的一个核心方面。因此,正如杜威所言,“科学的实体不仅来自科学家”,“人类各行各业的个人都应该是实验家”(1916: 438-442)。以这种直觉为基础,将其扩展到新颖的领域,并将其与以人工智能为基础的认知模型进行对比。
基于理论的观点在决策和战略的背景下扩展了上述逻辑,强调了理论化和理论在经济背景下的重要性,并对认知产生了广泛影响(Felin 和 Zenger,2017 年)。基于理论的观点背后的核心思想是,经济行为者可以(也需要)发展独特的、针对特定企业的理论。理论并不试图描绘现有的现实,而是要产生未知的未来可能性。在经济学中,“反向贝叶斯主义”(reverse Bayesianism)的观点与之大致相同(见 Karni and Vierø, 2013)。理论可被视为 “入侵 ”竞争性要素市场的机制(参见 Barney,1986 年),使经济行为者能够以不同的方式看待和探索世界。对新可能性的认识是自上而下形成的(Felin 和 Koenderink,2022 年)。这些理论对于如何有效地组织或管理实现新事物的过程也具有重要意义(Wuebker 等人,2023 年)。这种方法已经过实证检验和验证(如 Agarwal 等人,2023 年;Camuffo 等人,2021 年;Novelli 和 Spina,2022 年),包括重要的理论延伸(如 Ehrig 和 Schmidt,2022 年;Zellweger 和 Zenger,2022 年)。基于理论的观点所产生的实际影响也促进了管理工具的发展,以帮助初创企业、经济参与者和组织创造经济价值(Felin、Gambardella 和 Zenger,2021 年)。
本节的目标不是详尽回顾基于理论的观点。相反,现在的目标是进一步阐述基于理论的观点的认知方面,并将其与以数据为重点的落后认知和人工智能方法进行对比。本文强调人类的理论化和因果推理能力与人工智能强调数据驱动的预测有何不同。基于理论的认知观允许人类在给定数据之外干预世界,而不仅仅是处理、表示或推断现有数据。理论能够通过实验产生非显而易见的数据和新知识。我们强调了我们的认知方法与计算、贝叶斯和人工智能启发的认知方法所提出的论点和处方有何显著不同。仔细确定这些差异非常重要,因为基于人工智能的方法和计算方法--正如本文开头广泛讨论的那样--据说会取代人类的判断和认知(例如,卡尼曼,2018)。
上述论点提出了许多研究机会,尤其是在理解不确定情况下的战略和决策时。首先,我们有机会研究人类(如经济行为者)何时以及如何利用人工智能相关工具创造新价值或辅助决策。人工智能作为一种认知工具,要想成为竞争优势的源泉,就必须以独特或公司特有的方式加以利用。使用普遍可用的训练数据的人工智能必然会产生通用和非特定的产出。现成的人工智能解决方案有可能陷入信息技术的 “生产力悖论”(Brynjolffson 和 Hitt,1998 年),即对人工智能的投资实际上不会给购买这些工具的人带来任何收益(相反,只会给出售这些技术的人)。因此,我们有机会研究特定决策者--比如公司--自身的价值理论如何推动人工智能的发展和采用。要使人工智能真正成为战略和决策制定的有用工具,就需要对人工智能进行定制、目的训练和微调,使其与企业等决策者的理论、数据集和专有文件相匹配。例如,在战略决策中使用人工智能时,“检索增强生成 ”技术的进步似乎为提高特异性提供了一条大有可为的途径。在寻求独特的人工智能驱动输出时,任何人工智能的采用都应慎重考虑使用(或不使用)哪些语料库和训练数据。毕竟,人工智能为使用特定数据而定制的输出结果也是人类代理的产物,人类代理会决定哪些数据与当前决策相关(哪些不相关)。正是在这里,我们看到了一个机会,可以了解人类如何与人工智能进行独特的互动,以生成这些工具和相关的人类-人工智能界面。早期工作已开始研究企业如何利用人工智能来提高创新能力,或各种人类-人工智能混合解决方案如何实现更好的决策(例如,Babina 等人,2024 年;Bell 等人,2024 年;Choudhary、Marchetti、Shrestha 和 Puranam,2023 年;Girotra 等人,2023 年;Gregory 等人,2021 年;Kemp,2023 年;Kim 等人,2023 年;Raisch 和 Fomina,2023 年)。但是,研究特定经济行为者或企业自身的理论和因果逻辑--以及其独特或企业特有的数据和信息来源--如何影响执行战略和决策的人工智能相关工具的开发或采用,也是大有可为的。
其次,在涉及不同类型的任务、问题和决策时,有机会对人类与人工智能各自的能力进行研究并制定分类标准。对于人工智能全面取代人类的前景,有很多兴奋、炒作和恐惧的说法(参见 Grace 等人,2024 年)。然而,在现实中,人类和人工智能之间可能会有分工--各自专注于最适合自己的任务、问题和决策类型。我们有机会研究像企业这样的经济行为体如何将人类(及其认知能力、工作、角色)与算法(或人工智能相关工具)与正确的任务和决策进行随机 “匹配”。目前,人工智能显然非常适合重复性、计算密集型和直接根据过去数据推断的任务和决策。人类所做的大量决策都是相对常规的,适合算法处理(Amaya 和 Holweg,2024 年;Holmström、Holweg、Lawson、Pil 和 Wagner,2019 年)。因此,人工智能无疑将在许多管理领域发挥关键作用,尤其是流程重复的领域,如运营(Amaya 和 Holweg,2024 年;Holmström、Holweg、Lawson、Pil 和 Wagner,2019 年)。然而,有些决策更低频、更罕见(Camuffo 等人,2022 年),因此不适合人工智能。在此,我们预计人类将继续发挥核心作用,因为他们有能力进行前瞻性的理论研究,并发展出超越现有数据的因果逻辑。尽管如此,在常规决策与非常规决策之间自然存在一个 “滑动尺度”(和界面)。即使在罕见且影响巨大的决策制定中,人工智能也可能发挥作用,也许是在信息收集、处理或汇总方面增强人类的能力。正如我们在本文中所讨论的,人工智能和人类各有其优势和局限性。现有的工作倾向于在相同的基准上比较人工智能和人类,而不是认识到两者各自的优势。研究人工智能和人类的比较能力--它们各自的能力、局限性和持续发展--是未来工作的一个重要机遇。
第三,我们的论点指向的也许是有关人类本质的更为 “基础性 ”的问题,尤其是与人类认知的所谓计算本质相关的问题。虽然关于认知本质的问题听起来可能过于抽象和哲学化,但它们却至关重要,因为它们会对我们的假设、我们采用的方法以及我们研究的方式和内容产生下游影响。在此,我们赞同赫伯特-西蒙(Herbert Simon)的观点,他认为 “在制定我们的研究议程和指导我们的研究方法时,没有什么比我们对所研究行为的人类本质的看法更重要的了”(1985: 303;着重部分由作者标明)。那么,在人工智能和认知科学领域(以及经济学和战略学领域),关于人类认知的主流观点是什么呢?对人类的主要看法是,人类是从事信息处理的输入输出设备,类似于计算机。七十多年来,计算机一直是人类认知的核心组织隐喻--从阿兰-图灵和赫伯特-西蒙的研究到人工神经网络、预测处理和贝叶斯大脑的现代实例(如 Cosmides 和 Tooby,2013 年;Knill 和 Pouget,2004 年;Goldstein 和 Gigerenzer,2024 年;Kotseruba 和 Totsos,2020 年;Russell 和 Norvig,2022 年;Sun,2023 年)。然而,认知的通用计算方法并不考虑所研究生物的比较性质,因为人类、生物和机器都被视为 “不变的”(见 Simon, 1990; cf. Gershman et al., 2015; Simon, 1980)。研究这些差异是未来工作的一个重要机遇。认知存在显著差异,这些差异值得仔细关注。例如,计算机无法有意义地决定哪些输入可能相关,哪些不相关(也无法有意义地识别新的输入),而人类却可以控制他们可能首先选择或 “生成 ”的输入(例如,Brembs,2021;Felin 和 Koenderink,2022;Yin,2020)。人类认知是一种以实验和解决问题为导向的前瞻性理论。请注意,我们并不是要论证某种人类例外论,因为这些能力以不同的方式在更广泛的生物有机体中体现出来(Riedl, 1984; cf. Popper, 1991)。研究使生物有机体和经济行为主体能够理论化、解决问题和进行实验的内生和比较因素--并将各种形式的生物智能与人工智能和非生物智能进行比较--是一个重要的研究机会(参见 Levin, 2024)。把所有智能都视为广义计算,会不必要地缩小理论和实证工作的范围,从根本上忽略了智能在不同系统中表现出来的丰富多样的方式。此外,生物和非生物形式的智能之间的界面--正如人类在进化过程中对技术和工具的使用(Felin and Kauffman, 2023)--为未来的工作提供了引人入胜的机会。
联合火力自动化(JFA)项目旨在将联合火力指挥与控制(C2)数字化,以支持联合目标定位周期。联合目标定位周期中的一个重要步骤是为目标分配武器,以最大限度地提高总体效果。在科学文献中,这一问题被称为武器目标分配(WTA)问题。虽然有一些算法可以解决这个问题,但它们并没有考虑移动武器。近年来,随着无人驾驶航空系统(UAS)的发展,移动武器的使用变得更加便利,从一个目标移动到另一个目标的时间不再可以忽略不计。本科学报告介绍了一种算法,该算法在为武器分配目标时考虑到了武器的移动。对新问题进行了正式定义,并开发了一种启发式方法。还开发了一个数据生成器,用于生成与现实生活类似的实例。结果表明,所开发的算法可以在可接受的时间内解决生成的实例。
本科学报告介绍了一种为目标分配武器的算法的开发情况。所解决的问题适用于陆地目标定位周期。它符合联合火力现代化(JFM)资本项目,该项目旨在开发传感器到射击的概念和原型。简而言之,所提出的算法利用从传感器获得的信息,以集中的方式有效地将目标分配给武器。报告的主要成果之一是介绍了为在分配质量和执行计算所需时间之间找到适当平衡而进行的战略探索。这些成果将指导今后在这一主题上的发展。尽管主要是探索性的,但本报告强调了在设计这些算法时必须做出的一些权衡。在使用决策支持工具时,这些取舍会产生重大影响,用户应予以理解。
报告概述如下:第2节回顾了科学文献中的类似问题。第 3 节对问题进行了正式描述。第 4 节介绍了一些解决策略和数据生成器。第 5 节介绍并评论了所获得的结果。第 6 节为结束语。在整个报告中,使用了标准符号。读者可参阅表 9 了解所用符号的说明。
这项工作的目标是开发一个与自适应交互控制器相结合的有人无人编队协同(MUMT)框架,使单个飞行员能够与多个无人机(UAV)协同工作,同时最大限度地提高人类代理的性能,并将其精神负担保持在可接受的水平。通过使用混合主动交互(MII)概念来解决这一问题,该概念根据代理的当前条件和能力在代理之间分担任务。MII 借助生理计算来确定人类代理的精神状态,并采用自动规划技术在不确定情况下通过顺序决策来控制交互。研究结果表明,与非适应性实验条件相比,利用主观和生理特征测量的工作量明显减少,而人类代理在适应性实验条件下的表现也明显提高。这些研究结果表明了所提出的自适应交互控制方法如何在提高性能的同时减少操作员的工作量,从而为实现更高效、更强大的 MUM-T 铺平了道路。
有人-无人编队协同(MUM-T)可以理解为多个代理的合作团队:在关键任务情况下,多个无人驾驶飞行器(UAV)和可能的多个有人驾驶飞机共同行动。因此,通过这种属于混合主动交互(MII)框架的团队合作,为未来人类与多无人机的交互提出了一个新的视角。为了设计混合动力系统,了解是什么因素影响了人类操作员的(精神)状态、决策能力和表现,尤其是在危急情况下,这一点非常重要。从 MII 的角度来看,我们认为人类操作员(飞行员)并不是一个万无一失的团队操作员。例如,退化的心理状态可能会削弱人类代理在任务执行过程中的能力。因此,在本论文工作中,我们研究了生理计算和人工智能算法,用于估算人类飞行员在困难任务条件下与无人机团队互动时的心理状态(如心理工作量),以便调整代理的互动,从而提高性能。例如,根据人类飞行员当前的(精神)状态和任务子任务的优先级,可以选择是否触发无人机请求。
因此,为了实现本论文的目标,这项工作首先要了解和评估人类飞行员与无人机互动时的心理状态。为此,我们开发了一个在搜救任务中使用 MUM-T 的场景,让参与者扮演一名与三架无人机合作的飞行员。在第一次实验活动中,我们设计了诱发高强度和低强度脑力劳动的任务,并通过自我报告、行为和生理测量(即大脑、心脏和眼球运动特征)对其进行评估。通过第一次活动,我们:(i) 根据生理信号确定了脑力劳动负荷的特征--发现脑力劳动负荷对所有测量指标都有显著影响;(ii) 提出了不同的分类管道,在单独使用心脏特征或结合使用大脑和眼球运动特征时,分类准确率平均从最佳的 75% 到最低的 59.8%不等。
然后,在这些结果的基础上,本论文工作的重点是构建一个顺序决策系统,该系统能够通过分类器的输出监测人的精神状态,并选择适当的行动来调整互动,以最大限度地提高人的表现,最终提高任务成果。考虑到人类心理状态的部分可观测性和此类系统的非确定性,我们在部分可观测马尔可夫决策过程(POMDP)框架下构建了这项工作。POMDP 模型旨在控制互动,其参数是利用第一次实验活动中收集的所有数据和相关分类结果近似得出的。在模拟中对所获得的政策进行了评估。
最后,本论文工作的结论是在第二次实验活动中对这种基于 POMDP 的交互控制策略进行性能和心理工作量管理方面的评估。在这次实验中,所有开发项目都进行了整合和在线测试:生理特征的提取和处理、人类精神状态的估计以及交互的适应。主观结果显示,与非自适应交互系统相比,在使用自适应方法时,参与者明显感觉工作量减少。在自适应条件下,他们的飞行得分也明显提高。这些研究结果表明了基于 POMDP 的自适应交互控制如何在提高性能的同时减少操作员的工作量,从而为实现更高效、更强大的 MUM-T 铺平道路。除了几篇短文外,本论文还发表了一篇期刊论文和一篇会议论文。
关于论文的结构,前三章是与这项工作相关的最新成果。因此,第一章介绍了人机交互(HRI)的概念,并讨论了可能的交互渠道、HRI 如何定义与交互相关的自主性以及人工代理的局限性。人机交互的概念在 “有人-无人团队”(Manned-Un-Manned Teaming)的背景下得到了进一步发展,并深入探讨了混合主动交互和生理计算如何有助于人机交互。第二章回顾了心理状态评估文献,并定义了心理工作量。此外,还详细介绍了与人类心理工作量相关的生理变化。随后是对生理计算方法的解释。最后,回顾了当前人机交互中的心理工作量评估研究,并重点介绍了未来的发展。接下来,第三章概述了人工智能(AI)背景下的规划,并介绍了各种规划挑战和影响规划模型选择的因素。这延伸到了概率规划,特别是部分可观测马尔可夫决策过程(POMDP)。最后,论文介绍了解决 POMDP 的各种方案。
第四章是论文的贡献部分。它首先定义了本论文的研究范围和目标。然后详细介绍了实验设计、实施、采集、处理和分析工具。本章还介绍了用于实时处理和分析眼动跟踪数据的应用程序。第五章详细介绍了首次实验活动以及心理工作量估算的相关结果。本章首先介绍了第一次实验活动,然后介绍了数据的收集和处理。此外,还研究了不同的验证技术以及时间对生理数据的影响。最后,对结果进行了分析和讨论。第六章概述了根据从第一次实验活动中获得的知识制定规划框架的过程。随后是解决规划模型的技术问题,以获得控制 MUM-T 互动的策略。最后,使用内部模拟器对生成的策略和随机策略进行了比较。随后,第七章旨在验证所提出的 MUM-T 自适应交互方法。该章详细介绍了利用所有创建模块进行自适应交互的闭环设计。最后,介绍了第二次实验活动,本章以实验结果及其讨论结束。最后,第八章以总体结论、每个贡献的具体发现以及对未来方向和改进的展望结束论文。
世界模型的概念因多模态大型语言模型(如GPT-4)和视频生成模型(如Sora)的进展而受到了广泛关注,这些技术在追求通用人工智能的过程中具有核心地位。本综述提供了关于世界模型文献的全面回顾。一般来说,世界模型被视为理解当前世界状态或预测其未来动态的工具。本综述系统地分类了世界模型,重点讨论了两个主要功能:(1)构建内部表征以理解世界的机制;(2)预测未来状态以模拟和指导决策。首先,我们回顾了这两个类别的当前进展。接着,我们探讨了世界模型在关键领域中的应用,包括自动驾驶、机器人技术和社会模拟,重点分析每个领域如何利用这些功能。最后,我们概述了关键挑战,并提供了未来研究方向的见解。
科学界长期以来一直致力于开发一个统一的模型,以复制世界的基本动态,从而实现通用人工智能(AGI)[98]。2024年,多模态大型语言模型(LLMs)和Sora [130] 的出现,加剧了关于世界模型的讨论。尽管这些模型展示了捕捉世界知识方面的新能力——例如Sora生成的视频,似乎完美遵循物理定律——但关于它们是否真正符合全面世界模型的标准,仍然存在疑问。因此,对世界模型研究中近期进展、应用和未来方向的系统回顾,既是及时的,也是必要的,尤其是在人工智能时代迎来新的突破时。
世界模型的定义仍然是一个持续争论的话题,通常可以分为两个主要视角:理解世界和预测未来。如图1所示,Ha和Schmidhuber [59] 的早期工作专注于抽象化外部世界,以深入理解其内在机制。与此相对,LeCun [98] 认为,世界模型不仅应当感知和建模现实世界,还应具备展望可能未来状态的能力,从而为决策提供指导。像Sora这样的生成视频模型代表了一种更加侧重于模拟未来世界演变的方式,因此,它们与世界模型的预测性方面更为契合。这引发了一个问题:世界模型应优先理解当前世界,还是预测未来状态?本文将从这两个视角出发,提供关于世界模型文献的全面回顾,突出关键方法和挑战。
世界模型的潜在应用遍及多个领域,每个领域对理解能力和预测能力的要求各不相同。例如,在自动驾驶中,世界模型需要实时感知道路状况[195, 177]并准确预测其演变[127, 167, 241],特别注重即时环境感知和复杂趋势的预测。在机器人技术中,世界模型对导航[160]、物体检测[183]和任务规划[62]等任务至关重要,需要精确理解外部动态[47]并能够生成交互式和具身的环境[132]。在虚拟社会系统模拟领域,世界模型必须捕捉和预测更为抽象的行为动态,例如社会互动和人类决策过程。因此,全面回顾这些能力的进展,并探索未来研究方向和趋势,是非常及时且必要的。
现有的世界模型综述大致可分为两类,如表1所示。第一类综述主要集中在描述世界模型在特定领域的应用,如视频处理与生成[23, 242]、自动驾驶[54, 100, 209]和基于代理的应用[242]。第二类综述[116]则侧重于多模态模型向世界模型的技术过渡,这些模型能够处理跨多种模态的数据。然而,这些论文往往缺乏对世界模型究竟是什么以及不同实际应用对这些模型的需求的系统性探讨。在本文中,我们旨在正式定义和分类世界模型,回顾近期的技术进展,并探索它们广泛的应用。
本综述的主要贡献如下:(1)我们提出了一种新的世界模型分类体系,围绕两个主要功能进行结构化:构建隐性表征以理解外部世界的机制,以及预测外部世界的未来状态。第一类主要关注开发学习并内化世界知识的模型,以支持随后的决策;而第二类则强调从视觉感知中增强对物理世界的预测和模拟能力。(2)基于这一分类体系,我们对自动驾驶、机器人和社会模拟等关键应用领域如何强调世界模型的不同方面进行了分类。(3)我们强调了能够适应更广泛实际应用的世界模型未来研究方向和趋势。
本文的其余部分安排如下:第二节介绍世界模型的背景,并提出我们的分类体系;第三节和第四节分别详细阐述了当前关于两类世界模型的研究进展;第五节介绍世界模型在三个关键研究领域中的应用;第六节概述了世界模型的开放问题和未来方向。
在本节中,我们探讨了世界模型概念在文献中的发展,并将构建世界模型的工作分为两个不同的分支:内部表征和未来预测。
世界模型的概念首次由Ha等人于2018年系统地引入人工智能领域[58, 59]。这篇文章将世界模型概念的起源追溯到1971年提出的“心理模型”[43]的心理学原理,该原理认为人类将外部世界抽象为简单元素及其相互关系,以此来感知世界。这个原理表明,从深层次的内部视角来看,我们对世界的描述通常涉及构建一种抽象表征,这种表征在不需要详细描述的情况下也足以表达世界。基于这一概念框架,作者引入了一个受人类认知系统启发的代理模型,如图1所示。在这个开创性的模型中,代理从现实世界环境中获取反馈,并将其转化为一系列输入来训练模型。该模型能够模拟特定行动后,外部环境可能发生的结果。本质上,它创建了对未来世界演变的心理模拟,基于对这些状态预测结果的决策进行行动。该方法与基于模型的强化学习(MBRL)方法非常相似,两个策略都涉及模型生成外部世界的内部表征。这些表征有助于在现实世界中进行导航和解决各种决策任务。
在2022年关于自主机器智能发展的远见性文章中[98],Yann LeCun介绍了联合嵌入预测架构(JEPA),这是一个模仿人脑结构的框架。如图1所示,JEPA包括一个感知模块,处理感官数据,接着是一个认知模块,用于评估这些信息,从而有效地体现了世界模型。这个模型使大脑能够评估行动并确定最合适的应对措施,应用于现实世界。LeCun的框架之所以引人注目,是因为它融入了双系统概念,模仿了“快速”与“慢速”思维。系统1涉及直觉和本能反应:无需世界模型的快速决策,例如本能地躲避迎面而来的人。相反,系统2则采用深思熟虑的、经过计算的推理,考虑到世界的未来状态。它超越了即时的感官输入,模拟潜在的未来场景,比如预测房间里未来十分钟内可能发生的事件,并相应地调整行动。这种前瞻性思维要求构建一个世界模型,以有效地根据环境的预期动态和演变来指导决策。在这个框架中,世界模型对于理解和表征外部世界至关重要。它使用潜在变量来建模世界状态,捕捉关键信息,同时过滤掉冗余数据。这种方法使得世界的表征高度高效且极简,有助于在未来场景中做出最优决策和规划。
模型捕捉世界知识的能力对于它们在各种现实任务中的有效性至关重要。在2023年开始的关于大型语言模型(LLMs)的研究浪潮中,许多研究展示了潜在世界知识的存在。换句话说,这些模型捕捉了直观的知识,包括空间和时间理解,使它们能够对现实场景做出预测[57, 119]。此外,LLMs还能够通过认知地图对外部世界进行建模,近期的研究揭示了它们中嵌入的类脑结构[104]。这些模型甚至能够基于先前的经验预测未来事件,从而增强它们在现实情境中的效用和适用性。
上述世界模型主要代表了对外部世界的隐性理解。然而,在2024年2月,OpenAI推出了Sora模型[130],这是一个被广泛认为是世界模拟器的视频生成模型。Sora输入现实世界的视觉数据,并输出预测未来世界演变的视频帧。值得注意的是,它展示了卓越的建模能力,例如在相机移动和旋转过程中保持3D视频模拟的一致性。它还能够生成物理上合理的结果,如在汉堡包上留下咬痕,并模拟数字环境,如渲染Minecraft游戏中的第一人称视角。这些能力表明,Sora不仅模仿了世界的外观,还在模拟场景中建模了真实世界的动态,专注于真实模拟动态世界的变化,而不仅仅是表示静态世界状态。
无论是专注于学习外部世界的内部表征,还是模拟其操作原理,这些概念都凝聚成一个共同的共识:世界模型的核心目的是理解世界的动态并预测未来的场景。从这个角度出发,我们对世界模型的近期进展进行了深入的审视,并从以下几个方面进行分析,如图1所示。 * 外部世界的隐性表征(第3节):这一研究类别构建了环境变化的模型,以便做出更有根据的决策,最终目标是预测未来状态的演变。它通过将外部现实转化为潜在变量的模型来促进隐性理解。此外,随着大型语言模型(LLMs)的出现,传统决策任务中的努力得到了这些模型在世界知识描述能力上的显著提升。我们进一步关注将世界知识融入现有模型的进展。
外部世界的未来预测(第4节):我们首先探讨了模拟外部世界的生成模型,主要使用视觉视频数据。这些工作强调了生成的视频与未来物理世界状态的真实性。随着近期研究将焦点转向开发真正互动的物理世界,我们进一步研究了从视觉到空间表征的过渡,以及从视频到具身环境的转变。这包括全面探讨与生成具身环境相关的研究,这些环境能够模拟外部世界。
世界模型的应用(第5节):世界模型在多个领域中有着广泛的应用,包括自动驾驶、机器人技术和社会模拟等。我们探讨了世界模型在这些领域中的整合如何推动理论研究和实际应用的进展,强调其在现实应用中的变革潜力。
人类是天生的社会性动物,彼此不断互动。一个没有这些互动的世界将缺乏意义。在我们日常生活中的各种互动中,有一些情况需要多人合作才能实现共同目标。例如,观察建筑工人合作建造一栋大楼,或者在街上漫步时司机为了安全导航而相互让路,就是这种合作的例证。这些场景都可以被视为合作的实例。在机器和人工智能领域,可以将这些场景建模为多智能体系统。多智能体强化学习(MARL)是解决多智能体系统内复杂问题的一种流行的机器学习范式。
虽然现实世界中的多智能体问题往往可以被框定为 MARL 问题,但由于 MARL 带来的影响,最近提出的方法的全部潜力主要是通过计算机模拟来实现的。例如,在真实场景中,智能体通常只能获得其对环境的局部观察结果,而无法看到任何其他全局信息。另一方面,在模拟中,在智能体的训练阶段,可以利用一个掌握系统所有信息的中央数据库。这种运行模式被称为 “分散执行的集中训练”(CTDE)。在这种模式下,价值函数因式分解方法构成了 MARL 算法系列,可将联合行动价值函数分解为智能体策略进行学习。尽管最近提出了几种这样的方法,但其中一些方法仍然无法解决某些难以权衡的复杂任务,而且还需要使用额外的状态信息,而这些信息并不总是可用的。在本论文中,我们介绍了一种称为残差 Q 网络的值函数因式分解方法,它在因式分解过程中不需要额外的状态信息。从理论上讲,这种方法能够对任何环境系列进行因式分解,特别是在对非合作行为有严重惩罚的场景中,具有优势。
懒惰智能体的出现是 MARL 中另一个常见问题。这是指在一个由多个智能体组成的团队中,一些智能体没有为实现团队的总体目标而合作,而是选择等待队友完成所有工作。这个问题是由于在团队成员之间分配共享奖励的功劳时存在误差造成的。为了解决这个问题,我们在本论文中提出了一种基于因果关系的方法,旨在找到智能体的个体观察结果与团队奖励之间的因果关系。直觉是,当团队获得奖励时,每个智能体只有在对实现团队奖励有任何影响的情况下才应该接受奖励。此外,我们还从单纯的 CTDE 学习过渡到探索智能体如何在不共享网络参数的情况下,通过使用我们基于因果关系的方法来增强其合作行为,从而实现独立学习。独立学习被认为是一种更现实的方法,因为智能体被视为自成一体的实体,每个智能体都有自己的策略,并且不依赖于集中式甲骨文进行学习。
在多种情况下,具备通信能力有利于改善合作行为。在许多 MARL 应用场景中,都可能存在可以进行通信的情况,这在多个实际应用中都很常见。为此,本论文提出了一种名为 “注意正则化通信(ARCOMM)”的通信方法。让智能体进行交谈可能是学习某些复杂任务的关键,而要想取得成功,就必须学习高效的信息。此外,还探索了完全独立的学习者(不共享网络参数、仅依靠本地化观测的智能体)之间的通信。这种探索包括不同层次的网络容量、参数共享和通信,并研究它们之间的相互作用。
总之,本论文提出的方法为 MARL 目前存在的一些问题带来了重要的解决方案,为该领域提供了改进合作的新方法,并允许创建能力更强的智能体。同时,还提出了一些观点,并启发了一些讨论,以尽量缩小模拟与现实之间的差距。最后,概述了未来研究的潜在途径,阐明了可从本文介绍的研究成果中获益的其他应用,以此结束本论文。
图 3.1:拟议 RQN 方法中的集中训练分散执行范例说明。
网络化多智能体系统已成为许多工程系统不可或缺的一部分。多智能体系统中的协同决策面临许多挑战。本文将研究信息及其对智能体的可用性对多智能体系统中协同决策的影响。
本文考虑了使用两个观测器从观测数据中检测马尔可夫模型和高斯模型的问题。考虑两个马尔可夫链和两个观察者。每个观察者观察真实未知马尔可夫链状态的不同函数。给定观察结果后,目标是找出两个马尔可夫链中哪一个产生了观察结果。本文为每个观察者提出了块二元假设检验问题,并证明每个观察者的决策是局部似然比的函数。本文提出了一种共识方案,让观察者就其信念达成一致,并证明了共识决策对真实假设的渐近收敛性。使用两个观测者检测高斯模型时,也考虑了类似的问题框架。为每个观测者提出了序列假设检验问题,并使用局部似然比求解。考虑到观察者随机和不对称的停止时间,提出了一种共识方案。本文引入了 “信息价值 ”的概念,以理解为达成共识而交换的信息的 “有用性”。
接下来,考虑有两个观察者的二元假设检验问题。自然界有两种可能的状态。有两个观察者,他们收集的观察结果在统计学上与真实的自然状态相关。假设这两个观察者是同步的。观测者的目标是根据观测结果,共同找出真实的自然状态。考虑采用集中式和分散式方法来解决问题。每种方法都分为两个阶段:(1) 构建概率空间:已知真实假设,收集观测数据以建立假设与观测数据之间的经验联合分布;(2) 给定一组新的观测数据,为观测者制定假设检验问题,以找到他们各自对真实假设的信念。提出了让观察者就其对真实假设的信念达成一致的共识方案。比较了集中式方法中错误概率的衰减率和分散式方法中就错误信念达成一致的概率的衰减率。比较了集中式方法和分散式方法的数值结果。
多智能体系统中一个智能体的事件集中的所有命题可能无法同时验证。研究了文献中的事件状态运行结构和不相容关系的概念,并将其作为研究事件集结构的工具。举了一个多智能体假设检验的例子,在这个例子中,事件集并不构成布尔代数,而是构成了一个正晶格。还讨论了 “非交换概率空间 ”的可能构造,其中包含不相容事件(无法同时验证的事件)。作为这种概率空间中可能存在的决策问题,考虑了二元假设检验问题。提出了解决这一决策问题的两种方法。在第一种方法中,将可用数据表示为来自通过投影估值度量(PVM)建模的测量结果,并检索使用经典概率模型求解的底层检测问题的结果。在第二种方法中,使用正算子估值方法(POVM)来表示测量结果。证明,第二种方法实现的最小错误概率与第一种方法相同。
最后,考虑了学习经验分布的二元假设检验问题。在任一假设下,观测值的真实分布都是未知的。经验分布是从观测数据中估计出来的。利用经验分布序列解决一系列检测问题。经验分布下的信息状态和最优检测成本向真实分布下的信息状态和最优检测成本的收敛情况如图所示。还给出了最佳检测成本收敛的数值结果。
本章介绍了同步定位与建图(SLAM)问题,展示了构成典型SLAM系统的模块,并解释了SLAM在自主系统架构中的作用。本章还对该主题提供了简短的历史回顾,并讨论了传统SLAM概念如何随着新技术趋势和机遇的出现而不断发展。本章的最终目标是引入基本术语和动机,并描述本手册的范围和结构。
机器人在未知环境中安全高效运行的必要前提是能够形成其周围环境的内部表示。这类表示可以用来支持避障、低层控制、规划,以及更广泛的决策过程,以完成分配给机器人的任务。执行简单任务(例如跟随车道或保持与前方物体一定距离)可能仅需要在传感器数据流中跟踪感兴趣的实体,而复杂任务(例如大规模导航或移动操作)则需要构建和维护环境的持久表示(地图)。这样的地图描述了障碍物、物体和其他感兴趣实体的存在及其相对于机器人位姿(位置和方向)的相对位置。例如,地图可以用来指导机器人到达感兴趣的地点、抓取某个物体或支持对初始未知环境的探索。图1.1展示了一些现实场景中同步定位与建图(SLAM)的实际应用。 对于在初始未知环境中运行的机器人,构建环境地图的同时估计其相对于该地图的位姿的任务被称为同步定位与建图(SLAM)。如果地图已知,SLAM问题简化为定位问题,此时机器人只需估计其相对于地图的位姿。另一方面,如果机器人的位姿已知,例如通过绝对定位系统(例如差分GPS或动作捕捉)确定,则SLAM问题简化为建图问题,此时机器人只需使用传感器数据对周围环境进行建模。 SLAM在机器人研究中的核心地位源于实际应用中机器人位姿很少已知。差分GPS和动作捕捉系统成本高昂且仅限于小范围区域,因此不适用于大规模机器人部署。消费级GPS虽然更广泛可用,但其精度(通常误差在米级)和可用性(受限于户外且需要卫星直视线)使其往往不适合作为定位的唯一来源;消费级GPS通常用作SLAM的附加信息源,而非SLAM中定位功能的替代品。 同样,在许多机器人应用中,机器人通常无法获得先验地图,因此需要执行SLAM而不是简单定位。实际上,在某些应用中,构建地图本身就是机器人部署的目标。例如,在支持灾害响应和搜救行动时,机器人可能被部署以绘制灾区地图以帮助第一响应者。在其他情况下,地图可能已经陈旧或缺乏足够的细节。例如,家用机器人可能获得其操作公寓的平面图,但这样的平面图可能未描述实际环境中的家具和物体,且这些元素每天可能重新布置。类似地,火星探测车可以获取低分辨率的火星表面卫星地图,但仍需要执行局部建图以指导避障和运动规划。 SLAM问题的重要性促使研究界和实践者对这一主题给予了极大的关注,这些技术在多个应用领域中(从机器人到虚拟现实和增强现实)得到了广泛应用。同时,SLAM仍然是一个令人兴奋的研究领域,拥有许多开放问题和新的机遇。
SLAM的最终目标是根据传感器数据推断地图表示和机器人位姿(即轨迹)。这些传感器数据包括内感知传感器(例如轮式里程计或惯性测量单元(IMU))和外感知传感器(例如摄像头、激光雷达(LiDAR)和雷达)。从数学上讲,这可以理解为一个逆问题:给定一组测量值,确定一个能够生成这些测量值的世界模型(地图)和机器人位姿(轨迹)。解决SLAM问题有两种主要策略:间接方法和直接方法。 绝大多数SLAM方法倾向于对原始传感器数据进行预处理,以提取“中间表示”,这些表示紧凑且更易于数学描述。这些方法不使用图像中的每个像素,而是提取少量的二维特征点(或关键点),并仅对这些关键点的几何与相机位姿及场景几何的关系进行建模。相比之下,直接方法则直接从原始传感器数据中计算定位和建图,而不计算中间抽象。这种分类在视觉SLAM中尤为显著,但不限于此,如第9章和第10章将进一步探讨。间接和直接方法各有优缺点。 间接方法通常更快且更节省内存。例如,它们仅处理少量关键点,而不是处理每幅图像中的每个像素。因此,实时视觉SLAM的间接方法在2000年左右已成为现实。迄今为止,间接方法仍是计算能力有限的平台上实时机器人视觉的首选。此外,一旦确定了中间表示,后续的计算通常在数学上更简单,从而使得推断问题更易于解决。例如,在视觉SLAM中,一旦在多幅图像中识别出一组对应点,定位和建图问题可归结为经典的束调整问题,而针对该问题已存在多种强大的求解器和近似方法。 反之,直接方法有潜力提供更高的精度,因为它们利用了所有可用的输入信息。然而,处理所有输入信息(例如每幅图像的所有像素)的计算开销较大,且在将关注量(定位和建图)与原始输入数据(例如每个像素的亮度)建立复杂关系时,可能会在整体损失函数中引入更多的非凸性问题。然而,通过高效的近似和推断策略,第一批实时可用的直接视觉SLAM方法在2010年代问世。正如在第二部分和第三部分中所见,通过使用图形处理单元(GPU)并行化计算,可大大提高大量输入数据的处理效率。 在直接和间接方法中,测量值均用于推断机器人位姿和地图表示。在估计理论中,有一套成熟的文献描述了如何根据观测值推断感兴趣的量(在SLAM中即为机器人位姿和周围地图)。本书特别关注基于概率推断的估计理论工具——在第2章和第3章中对这些工具进行了回顾并针对SLAM问题进行了定制化处理,这些工具将估计重新表述为优化问题的求解。
间接方法自然在常见的SLAM架构中形成了模块分工(图1.2):原始传感器数据首先传递给一组算法(SLAM前端)以提取中间表示;然后将这些中间表示传递给估计器(SLAM后端),由后端估计感兴趣的量。前端通常还负责构建初始猜测:这是后端用于迭代优化的初始估计,从而减轻非凸性引发的收敛问题。以下将通过几个例子进一步澄清SLAM前端和后端之间的区别。
视觉 SLAM 使用摄像头图像估计机器人的轨迹并生成稀疏的三维点云地图。视觉 SLAM 系统的典型前端通过提取二维关键点并在不同帧之间进行匹配,使得每组匹配(称为特征轨迹)对应于在不同相机视角下对同一三维点(称为地标)的重新观测。前端还将利用一种计算机视觉技术(称为最小解算器)计算相机位姿和三维地标位置的粗略估计。随后,由后端负责通过解决一个称为束调整的优化问题,估计(或精化)未知地标的三维位置以及观测这些地标的机器人位姿。这种模型形成了一种基于地标(或基于特征)的 SLAM 模型,如图 1.3(a) 所示。第 8 章将对视觉 SLAM 进行详细讨论。
激光雷达 SLAM 使用激光雷达扫描来估计机器人轨迹和地图。激光雷达 SLAM 的常见前端使用扫描匹配算法(例如迭代最近点算法,ICP)计算两次激光雷达扫描之间的相对位姿。具体来说,前端会匹配连续时间点的扫描,以估计机器人在它们之间的相对运动(即所谓的里程计),并匹配对应于同一地点的多次扫描(即所谓的回环检测)。然后,里程计和回环检测的测量结果会传递给后端,后端通过解决一个称为位姿图优化的优化问题,优化机器人的轨迹。这种模型形成了一种基于位姿图的 SLAM 模型,如图 1.3(b) 所示。第 9 章将详细讨论激光雷达 SLAM。
上述示例展示了 SLAM 系统前端生成并传递给后端的三种常见“中间表示”(或伪测量)(图 1.2):地标观测、里程计和回环检测。在复杂的 SLAM 系统中,这些表示可以组合使用。例如,在某些视觉 SLAM 系统中,可以提取对应于三维地标的关键点,并进一步处理它们以计算对应于里程计和回环检测的相对位姿,最终使用基于位姿图的后端。前端和后端的划分需要在计算效率和精度之间做出权衡。提取更简单的表示可以显著加快后端求解器的速度(例如,执行位姿图优化通常比束调整快得多);但同时,对测量值的抽象会在后端的测量建模中引入近似,从而导致一定程度的小误差(例如,束调整通常比位姿图优化更精确)。
需要指出的是,回环检测是 SLAM 的关键方面。如果仅使用里程计进行轨迹估计,累积里程计运动估计会导致轨迹估计随着时间的推移出现漂移,从而导致严重的轨迹变形。回到已经访问过的地方对于将轨迹估计误差限制在一定范围内并生成全局一致的地图至关重要。需要注意的是,在基于地标的 SLAM 中,回环检测隐含地体现在对先前观察到的地标的新观测中。
我们最后观察到,SLAM 研究贯穿多个学科领域。SLAM 的前端从原始传感器数据中提取特征,涉及信号处理、几何学、二维计算机视觉和机器学习等领域。SLAM 的后端基于前端的测量进行估计,涉及估计理论、优化和应用数学等领域。这种跨学科的思想和影响使 SLAM 成为一个令人着迷且多面复杂的问题。
SLAM的作用是为下游任务提供支持。例如,机器人的位姿估计可以用于控制机器人沿着预定轨迹移动,而地图(结合当前机器人的位姿)可以用于运动规划(如图1.4所示)。在这里,运动规划被广义地使用:虽然SLAM通常用于构建大规模地图以支持导航任务,但它也可以支持构建局部三维地图以实现操作和抓取。 尽管可能将SLAM看作一个将传感器数据作为输入并即时输出机器人位姿和地图的单一系统,但实际上,这些系统的实现以及它们在自主架构中的集成更加复杂。这是因为机器人需要闭合不同的控制和决策环路,而这些环路具有不同的延迟要求。例如,参考图1.4,机器人需要在其轨迹上闭合低级控制环路(这是图中右上角的标准反馈控制环路),这可能需要较高的频率和低延迟以保持稳定性;例如,一架高速飞行的无人机可能需要前端在几毫秒的延迟内生成里程计估计。另一方面,闭合运动规划环路(图1.4中的外环)可以容忍更高的延迟,因为全局规划通常以较低的频率运行;因此,后端可能以秒级的延迟提供全局轨迹和地图估计。 基于这些原因,典型的SLAM系统实现通常涉及多个并行运行的进程,并且较慢的进程(例如后端的全局位姿和地图优化)不会影响较快的进程(例如里程计估计)。我们还注意到,SLAM系统中涉及的各个进程具有复杂的交互(如图1.4中双向边所强调的):例如,前端将里程计数据传递给后端,而后端会周期性地对里程计轨迹应用全局修正,修正后的轨迹随后传递给运动控制器;同样,前端计算的回环检测数据被传递给后端,而后端也可以向回环检测模块提供可能或不可能的回环闭合机会的反馈。 视觉SLAM问题与“从运动中重建结构”(Structure from Motion,SfM)问题密切相关。虽然对某些研究者而言,这两个术语是等价的,但另一些研究者认为视觉SLAM系统通常会集成额外的传感器信息(如IMU、轮式里程计等),并专注于在线方法(数据按顺序流入),而SfM则可以是在线或离线的,输入仅为图像。 总的来说,可以区分两种互补的挑战:一是在线挑战,其中机器人移动时传感器数据按顺序流入,而SLAM后端可能以较慢的速度运行,但像机器人定位这样的关键估计必须实时确定,通常甚至需要在计算能力有限的嵌入式硬件上完成。这些实时约束对机器人在复杂环境中(尤其是像无人机这样的高速机器人)做出正确反应至关重要,并且往往决定了算法和处理步骤的选择。 另一种是离线挑战,其中输入数据可能没有任何顺序(例如无序的图像数据集),计算通常不需要实时性能,且计算硬件可以(任意)强大(例如使用多个强大的GPU)。在这种情况下,地图和轨迹估计的精度比计算时间更为重要。 然而,在大多数应用中,人们会面临这两种极端场景的混合,其中某些数据需要快速确定,而其他数据可以离线处理。在SLAM的实际应用中,仔细分析哪些数据需要以何种频率确定是极其重要的,并且可能需要设计一个不同时间尺度的层次结构来估计这些数据。
从上述描述来看,SLAM是一个引人入胜但非常具有挑战性的问题,其复杂性既体现在实现上,也体现在需要在资源受限的平台上实现快速运行。因此,一个值得提出的问题是:我们是否可以开发不依赖SLAM的复杂自主机器人?我们将这个问题细化为以下三个子问题:
本节开头提到,SLAM是为支持机器人任务而设计的。那么,一个自然的问题是,SLAM是否对所有机器人任务都是必要的?答案显然是否定的。对于更具反应性的任务,例如保持目标在视线内,可以通过更简单的控制策略(例如视觉伺服)解决。同样,如果机器人仅需在小范围内操作,依赖于里程计估计和局部建图可能是可以接受的。此外,如果机器人的操作环境中有用于定位的基础设施,那么我们可能不需要解决SLAM。然而,SLAM似乎是机器人在非结构化(即无基础设施)环境中进行长期操作的必要组成部分:长期操作通常需要记忆(例如,回到之前看到的物体或找到合适的无碰撞路径),而SLAM构建的地图表示可以提供这种长期记忆。
SLAM的一个主要关注点是优化轨迹和地图表示,使其在度量上准确(或全局一致)——这正是SLAM后端的作用。有人可能会问,度量精度是否真的必要。一个替代方案是仅使用里程计以获得局部一致的轨迹和地图估计;这种方式可以避免回环检测和后端优化的需求。不幸的是,由于漂移问题,里程计不足以支持长期操作:想象一下,机器人访问了建筑物中的办公室1,然后在探索了其他区域后访问了办公室3,而办公室3就在办公室1的隔壁(见图1.5(a))。仅使用里程计,机器人可能会误以为办公室1和办公室3相距很远(由于里程计漂移),因此无法意识到两者之间有一条短路径连接(见图1.5(b))。 一个稍微复杂一些的替代方案是构建拓扑地图。拓扑地图可以被视为一个图,其中节点是机器人访问的地点,边表示连接这些地点的可通行性(见图1.5(c))。与本手册采用的度量SLAM视角不同,拓扑地图中的节点和边不包含度量信息(距离、方位、位置),因此不需要任何优化:只需在机器人经过两个地点时(通过里程计)或地点识别模块发现地点重叠时(回环检测)添加边即可。尽管这种方法看似合理,但主要问题在于地点识别技术并不完美,更根本地讲,不同地点可能看起来相似(即感知混淆现象)。回到前面的例子,如果办公室1和办公室3看起来非常相似,纯拓扑方法可能会错误地认为它们是同一个办公室(见图1.5(d))。另一方面,度量SLAM方法可以利用几何信息得出办公室1和办公室3确实是两个不同房间的结论,同时为用户提供一组更强大的工具,以决定地点识别结果是否正确以及两次观测是否对应于同一地点。这些工具将在第4章中详细讨论。
SLAM构建的地图可以直接被查询、检查和可视化。正如我们将在第6章中看到的,有多种表示地图的方法,包括三维点云、体素、网格、神经辐射场等。另一方面,可以采取完全不同的方式:为了让机器人执行任务,机器人可以被训练为将原始传感器数据直接转换为行动(例如,使用强化学习),从而绕过构建地图的需求。在这种方法中,神经网络通过传感器数据到行动的训练会创建一个内部表示,但这种内部表示无法直接查询、检查或可视化。 关于地图是否必要,目前尚无定论,但初步证据表明,使用地图作为中间表示至少在完成许多机器人视觉任务时是有益的。此外,地图的好处在于其适用于多种任务,而完全在单一任务上下文中学习的表示可能无法支持新的、未见过的任务。最后,我们注意到在某些应用中,目标是生成一张可供检查的地图。例如,在搜救机器人应用中,提供一张地图以帮助第一响应者是非常有价值的。此外,在机器人以外的多个领域(如房地产规划与可视化、施工监控、虚拟和增强现实)中,目标是让人类检查或可视化地图。
空间推理算法的设计自从机器人和计算机视觉研究的诞生以来就处于核心地位。同时,SLAM研究不断演进,并扩展到新的工具和问题领域。
正如本书各章讨论的那样,SLAM具有多种面向。因此,其历史也是多方面的,可以追溯到不同的科学领域。 从观测和测量中创建世界地图是历史上最古老的挑战之一,这导致了大地测量学(测量地球性质的科学)和测绘学的产生。许多先驱者为这一领域做出了贡献。卡尔·弗里德里希·高斯在1821年至1825年间对汉诺威王国进行了三角测量。乔治·埃佛勒斯特爵士在1830年至1843年期间担任印度大三角测量总督,因而世界上最高的山峰以他的名字命名。1856年,卡尔·马克西米利安·冯·鲍恩芬德出版了一本关于《测绘元素》的标准著作,并于1868年创立了慕尼黑工业大学,重点推动将大地测量学确立为一门科学学科。安德烈-路易斯·柯列斯基在第一次世界大战前在克里特岛和北非进行测绘时,发展了著名的柯列斯基矩阵分解法。 视觉SLAM问题与摄影测量学以及计算机视觉中的运动结构重建问题密切相关,其起源可以追溯到19世纪(详见第8章)。 在机器人学中,SLAM的起源通常追溯到Smith和Chessman [239]以及Durrant-Whyte [79]的开创性工作,以及Crowley [60]和Chatila与Laumond [48]的平行研究。SLAM这一缩写于1995年在综述论文[80]中首次提出。这些早期工作提出了两个基本见解。第一个见解是,在未知环境中,为了避免漂移,必须同时估计机器人的位姿和固定外部实体(例如地标)的位置。第二个见解是,可以利用估计理论中的现有工具,特别是著名的扩展卡尔曼滤波器(EKF),在描述机器人位姿和地标位置的扩展状态上进行估计,从而形成EKF-SLAM方法。
EKF-SLAM方法非常流行,但在实践中面临三个主要问题: 1. 对异常值和数据关联错误的敏感性:这些错误可能源于地点识别或物体检测的失败,例如机器人错误地认为它正在观察某个对象或地点,而实际上是在观察另一个可能看起来相似的对象或地点。如果这些虚假测量没有被正确处理,EKF-SLAM可能会生成极其错误的估计。 1. 线性化问题:EKF依赖于机器人运动和传感器观测方程的线性化。在实践中,线性化点通常由里程计提供,当里程计漂移时,线性化系统可能无法很好地近似原始非线性系统,从而导致EKF-SLAM在里程计积累大量漂移时发散。 1. 计算复杂性:卡尔曼滤波器的直接实现会导致计算复杂性随状态变量数量的平方增长,这是由于需要操作密集的协方差矩阵。在基于地标的SLAM问题中,地标的数量可能达到数千个,使得直接方法难以实时运行。
为了解决这些问题,社区在2000年代初开始关注基于粒子滤波的方法 [178, 238, 103],这些方法使用一组假设(或粒子)来建模机器人轨迹,基于估计理论中的粒子滤波理论。当与基于地标的地图结合使用时,这些模型能够处理大量地标(突破EKF的平方复杂性);此外,它们使得密集地图模型(如二维占据网格地图)的估计更加容易。这些方法也不依赖于线性化,对异常值和数据关联错误的敏感性较低。然而,它们仍然在计算和精度之间存在权衡:获得精确的轨迹和地图需要使用大量粒子(通常成千上万),但粒子数量越多,计算量也越大。特别是在三维问题中,需要更多粒子覆盖可能的机器人位姿,这会加剧粒子耗尽问题。
2005年至2015年间,一个关键见解推动了SLAM研究的转变。这个见解是,虽然EKF中的协方差矩阵是密集的,但其逆(即信息矩阵)非常稀疏,并且当保留过去的机器人位姿进行估计时,稀疏性模式具有可预测性 [87]。这使得可以设计近似线性复杂度的滤波算法,而非EKF的平方复杂度。这一见解最初应用于类似EKF的方法(如EIF),但也为基于优化的方法铺平了道路。优化方法最早在SLAM研究的初期被提出 [162],但当时因计算速度慢而被忽视。稀疏结构的发现促使人们重新审视这些优化方法,并使其在在线情况下更加可扩展和可解 [65, 126]。 这波新的研究浪潮可以理解为向另一种估计框架的转变:最大似然估计和最大后验估计。这些框架将估计问题重新表述为优化问题,同时以概率图模型(特别是因子图)的形式描述问题结构。基于因子图的SLAM方法至今仍然是主流,并且塑造了社区对相关问题(如视觉和视觉惯性里程计)的思考方式。优化视角不仅功能强大,还允许比以往更深入的理论分析(见第7章)。此外,可以轻松证明,EKF(在适当的线性化点上)可以理解为非线性优化求解器的一次迭代,因此优化视角比滤波方法更强大。
优化视角似乎也更适合于SLAM的最新扩展(将在本手册第III部分描述),其中需要同时估计连续变量(描述场景几何)和离散变量(描述场景语义)。本历史回顾截至2015年,而本手册第III部分的目标是讨论包括“深度学习革命”(始于2012年)在内的现代趋势,这些趋势逐渐渗透到机器人学领域。 值得注意的是,以上历史回顾主要集中在SLAM的后端(即估计引擎),而SLAM前端的发展则源于多个领域的工作,包括计算机视觉、信号处理和机器学习。 基于上述考虑,本手册将主要关注基于因子图的SLAM方法。这是一个范围选择的问题,并不削弱其他技术工具的价值。例如,截至本手册编写时,基于EKF的工具在视觉惯性里程计应用中仍然流行(受益于Mourikis和Roumeliotis [180]的开创性工作),并且新型估计框架(如不变滤波器 [20] 和等变滤波器 [90])以及基于随机有限集的替代方法 [181] 也在不断发展。
SLAM 的核心关注点是估计环境(以及机器人)的几何特性。例如,SLAM地图包含有关环境中障碍物的信息、两个位置之间的距离和可通行路径,以及显著地标的几何坐标。从这个意义上说,SLAM作为一种表示方式,对于机器人理解和执行诸如“机器人:前往位置[x, y, z]”这样的命令非常有用,其中[x, y, z]是机器人需要到达的地点或物体在地图坐标系中的坐标。 然而,用坐标指定目标对于非专业的人类用户来说并不合适,也绝不是我们与人类互动或为其指定目标的方式。因此,希望下一代机器人能够理解和执行以自然语言指定的高级命令,例如:“机器人:把浴室里的衣服捡起来,送到洗衣房。”解析这些指令要求机器人同时理解环境的几何信息(例如,浴室在哪里)和语义信息(例如,什么是浴室或洗衣房,哪些物体是衣服)。 这种认识最近促使研究界开始将 SLAM 视为更广泛的空间感知系统的一个组成部分。这个系统可以同时推理场景的几何、语义以及可能的物理特性,从而构建一种多层次的地图表示(即“世界模型”),使机器人能够理解并执行复杂的指令。由此产生的空间人工智能(Spatial AI)算法和系统有望显著提高机器人的自主能力,并在过去十年中迅速发展。 直观地说,可以认为空间人工智能将SLAM作为一个子模块(处理几何推理部分),但增加了额外的语义推理能力。这使得机器人能够完成任务规划的闭环,如图1.7所示,现在机器人可以接受高级语义目标,而不是运动目标的坐标。我们将在本手册的第III部分详细讨论空间人工智能。
第一部分涵盖SLAM的基础知识,特别关注用于SLAM后端的估计理论工具和SLAM可以生成的不同类型的地图表示。具体来说: * 第2章 介绍SLAM的因子图表示,并回顾如何通过迭代非线性优化方法求解。 * 第3章 迈出了不可或缺的一步,将该表示扩展到平滑流形上的变量估计,例如旋转和位姿。 * 第4章 讨论了如何在SLAM后端中建模和缓解异常值和数据关联错误的影响。 * 第5章 回顾了使后端优化可微分的技术,这是连接传统SLAM方法与最新深度学习架构的关键步骤。 * 第6章 将重点从后端转移到密集地图表示的问题,讨论SLAM中最重要的表示方法。 * 第7章 讨论了更高级的求解器和SLAM后端的理论属性。
第二部分讨论SLAM的关键方法和使用不同传感器模式的应用,展示了现代SLAM算法和系统的可行性。该部分重点介绍传感器依赖的SLAM前端设计以及当前技术的应用范围: * 第8章 回顾了关于视觉SLAM的大量文献。 * 第9章 和 第10章 分别涵盖激光雷达SLAM和雷达SLAM。 * 第11章 讨论了基于事件相机的SLAM的最新研究。 * 第12章 回顾了如何将惯性测量建模为因子图SLAM系统的一部分,并讨论了基本限制(例如可观性)。 * 第13章 讨论了如何建模其他里程计信息来源,包括轮式和腿式里程计。
第三部分展望SLAM的最新研究现状和未来趋势,涉及从计算架构到新问题与表示,以及语言和基础模型在SLAM中的作用。具体来说: * 第14章 重点介绍空间人工智能未来的计算架构,这些架构可以利用更灵活和分布式的计算硬件,并更好地支持跨多种机器人平台的空间感知。 * 第15章 回顾了通过在SLAM中引入深度学习模块与可微分优化结合所获得的最新改进。 * 第16章 讨论了使用新型地图表示(包括神经辐射场(NeRFs)和高斯点阵)的机会和挑战。 * 第17章 涉及在高度动态和可变形环境中进行SLAM的最新研究,涵盖从拥挤环境中的建图到手术机器人等实际应用。 * 第18章 讨论了空间人工智能和度量-语义地图表示的进展。 * 第19章 探讨了利用基础模型(例如大型视觉-语言模型)带来的新机遇,以及它们在创建新型地图表示中的作用,这些表示能够理解并对自然语言中的“开放词汇”指令进行语义锚定。
随着人工智能(AI)的出现,基于个人经验和判断进行行动和思考的自主概念为未来的自主决策铺平了道路。这种未来可以解决相互依存的多计算系统这一复杂领域的问题,而这些系统面临的主要挑战是,它们之间的相互作用会产生不可预测且往往不稳定的结果。为相互依存计算系统设想和设计人工智能驱动的自主性至关重要,它涵盖了从物联网(IoT)到网络安全等各种用例。这可以通过克隆人类决策过程来实现,克隆过程要求人类在决定如何行动之前,先感知未知的随机环境,执行行动,最后评估感知到的反馈。每个人都会根据自己的行为特征和推理,主观地评估反馈是否令人满意。上述步骤的重复迭代构成了人类的学习过程。因此,其核心思想是将人类的认知注入到相互依存的计算系统中,使其转变为人工智能决策体,模仿人类的理性行为属性,自主优化其主观标准。
无人驾驶飞行器(UAV)或多接入边缘计算服务器(MEC)等相互依赖的计算系统的快速发展带来了海量数据和严格的服务质量(QoS)要求。当这些系统以自主方式行动时,它们会表现出竞争行为,因为每个系统都想自私地优化自己的主观标准。这就引入了非合作环境中交互决策的概念,即每个系统的反馈都取决于其他系统可能相互冲突的行动。因此,本文利用博弈论来有效捕捉非合作环境中相互依赖的计算系统之间的战略互动,并证明存在解决方案,即稳定的均衡点。均衡点被认为是稳定的解决方案,因为每个系统都没有单方面改变自身行动的战略动机。为了以分布式方式确定这些均衡点,我们采用了强化学习(RL)技术,该技术可使相互依存的自主计算系统在随机环境中利用自身行动和经验的反馈,通过试错进行智能学习。此外,传统的强化学习方法还加入了奖励重塑技术,通过契约理论考虑自主互联计算系统之间类似劳动经济学的安排,并通过贝叶斯信念模型考虑它们的行为特征。同时利用博弈论和强化学习与奖励重塑技术,是向自感知人工智能(SAAI)迈出的一步。本文证明,它极有可能成为构建基于人工智能的自主决策相互依赖计算系统的主要组成部分,并能有效地应用于各种应用领域。
图 1.1: 总体决策框架
本文首先分析了所使用的数学工具的理论基础。此外,除了传统的单智能体环境,还引入了多个非集中式低复杂度框架,根据人工智能原理将相互依存的多智能体计算系统转化为自主决策者。在多智能体应用环境中,提出了以第 1.1 节所述 IDU 约束为特征的非合作博弈,并应对了由此带来的挑战。具体来说,博弈论与强化学习的融合带来了新颖的低复杂度分布式学习框架。此外,通过注入人类认知属性,传统的 RL 框架得到了丰富,从而使决策过程更加有效。证明了纳什均衡点的存在,并表明基于人工智能的自主相互依存计算系统能够接近这些均衡点,而无需集中式闭合解决方案。通过建模和仿真,在各种实际应用案例中对所提出的框架进行了评估。本论文的主要贡献如下。
1.引入了新颖的低复杂度分布式决策框架,将传统的资源有限、相互依赖的计算系统转变为自主、智能的计算系统。我们研究了两种情况: (a) 完整信息情景,即计算系统可以交换所有必要信息,并以分布式方式收敛到均衡点;以及 (b) 不完整信息情景,即利用强化学习让智能相互依赖计算系统以自主方式接近均衡点。对这两种情况下的运行性能进行了实证评估。
2.在处理非合作博弈的应用领域,通过证明博弈是潜在的或子/超模的方式,用数学方法证明纳什均衡点的存在。如果环境是完全可观察的,则采用传统的闭式求解方法,如最佳响应动力学,反之,则采用各种强化学习算法,从经验上接近纳什均衡点。
3.通过利用契约理论和贝叶斯信念,将人类认知和行为特征分别纳入决策框架。此外,当在信息不对称的环境中运用契约理论时,提供了优化问题的闭式激励解的完整证明,这反过来又从一个非凸问题正式转化为一个凸问题。通过适当地将这些人类意识属性纳入奖励重塑的强化学习框架,计算系统可以自主优化其主观目标并做出有效决策。这是向增强型自我意识人工智能迈出的一步。
4.除了多智能体设置,还将强化学习应用于单智能体问题,例如离线深度强化学习,表明基于 RL 的决策智能体比许多替代策略(例如基于机器学习(ML)的方法)能带来更好的结果。
5.通过在广泛的应用领域进行大规模模拟,对所提出的决策方法进行了实证评估,突出了这些方法的主要操作特点。此外,还引用了与其他方法的详细比较评估,强调了所引入框架的优越性。
图 3.7:移动边缘计算中的人工智能无人机数据卸载框架
**本书探讨了信息论、统计学、计算与学习之间的若干(众多)联系。信号处理、机器学习和统计学都围绕着从信号和数据中提取有用信息展开。**在信号处理和信息论中,一个核心问题是如何设计信号——以及它们传输的通道——以最大限度地传达和存储信息,并允许最有效的解码。与此不同,在机器学习和统计学中,通常情况下自然界提供了一个固定的数据分布,学习者或统计学家的目标是恢复关于这个(未知的)分布的信息。我们的目标是展示信息论的视角如何提供清晰的答案和技术来实现这一恢复过程。信息论的核心内容之一是发现基本极限:发展出证明某些程序是最优的结果。 因此,信息论工具能够描述在各种通信和统计情境下可达成的结果。正如我们将在接下来的章节中探讨的那样,在统计推断和机器学习任务的背景下,这使我们能够开发出能够证明最优性的程序——即没有比这更好的程序。这类结果在许多方面都非常有用:我们希望避免做出错误的决策或错误的推断,可能会意识到某些任务是不可完成的,此外,我们还可以明确计算解决不同统计问题所需的数据量。我将本书分为四个独立的部分,每一部分当然与其他部分相互关联,但每一部分也可以作为一个相对自包含的单元进行阅读。 本书以第二章的回顾开始,介绍了我们讨论的基本信息论量:互信息、熵和散度度量。这是后续所有章节的必读内容。第三章提供了指数族模型的概述,这是统计学习工具箱中的核心工具。熟悉这部分内容的读者,可能通过广义线性模型的课程学习过,可以跳过这部分,但它为后续章节中的例子和应用提供了有用的基础,因此我们将在全书中多次回到这一部分。本书的第一部分涵盖了我所称的“稳定性”结果。 从高层次来看,这意味着我们探讨在序列中的每个随机变量观察值对该序列的各种函数影响较小的情况下,可以获得哪些成果。我们从第四章的集中不等式开始,讨论和求和以及相关量如何快速收敛;尽管这部分内容对后续章节至关重要,但它不依赖于特定的信息论技术。我们在本书的这一部分中讨论了一些启发式应用,涉及统计学习中的问题——经验风险最小化,第五章提供了关于均匀集中性的一些结果,并将其应用于“泛化”——机器学习中的标准理论工具,通常应用于预测模型的准确性——以及估计问题,这些为模型参数估计提供了各种保证,是核心的统计问题和技术。接着我们在第六章中深入探讨泛化和收敛保证——通过控制不同的信息论量,证明样本X1,…,XnX_1, \dots, X_nX1,…,Xn 的函数代表了从中抽取样本的完整总体PPP。在这个背景下,我们发展了PAC-Bayesian界限,并使用相同的框架提供了控制泛化和收敛的工具,应用于交互式数据分析。这类分析反映了现代统计学,在这种分析中,我们在进行更全面的分析之前,先进行某种数据探索,但它打破了经典统计方法,因为这种分析依赖于样本。我们在第七章中讨论了更高级的想法,发展了关于随机矩阵的更复杂的集中结果,利用信息论的核心思想,将散度度量与不同的随机过程连接起来。最后,第八章探讨了披露限制和隐私技术,这些技术都基于分布中的不同稳定性概念。第二部分研究了基本极限,使用信息论技术推导各种估计、学习和其他统计问题的收敛速率下界。 第九章首先介绍了三种主要的下界方法:Assouad方法、Fano方法和Le Cam方法。这一章展示了所有其他下界方法的基本技术。从高层次来看,我们可以将这一部分与第一部分一起看作是本书的整体研究目标:分布如何彼此接近,我们如何利用这种接近性?第十章简要介绍了一些超出这些方法的下界技术,包括一些非参数问题的应用,以及一些超越典型期望值下界的结果,这些结果模拟了信息论中的“强对偶定理”,即以极高的概率,不能期望取得比平均误差更好的结果。在现代统计学习问题中,人们常常关注的不仅仅是统计风险,还包括通信或计算成本,或者研究参与者的隐私。因此,在第十一章中,我们开发了一些近期针对这些问题的技术,特别是涉及我们希望同时获得多维度最优保证的问题,这与信息论中的通信复杂度思想相关。第十二章回顾了最常见的误差度量——平方误差,介绍了经典统计工具,但也展示了一些这些思想的现代应用,它们在一些问题中重新出现。最后,我们通过第十三章探讨了测试问题和函数估计,研究那些只希望估计大模型中的一个单一参数的情况。尽管估计单一标量似乎比其他问题简单,但充分解决其复杂性需要相当细致的处理,并引入信息论工具。第三部分重新审视了我们在第二章中提出的所有信息论概念,但不再仅仅给出定义和一些推论,而是提供了不同信息论量(如熵)的操作性解释。 当然,这包括了香农关于编码和熵关系的原始结果(我们在第二章的概述2.4.1节中讨论信息论时涉及),同时我们也提供了熵和信息作为统计实验和统计学习中不确定性度量的解释,这在信息论对熵的处理当中通常缺失(第十四章)。我们的讨论揭示了熵与用于预测的损失函数之间的深刻联系,通过一种特定的对偶性,使得我们可以在两者之间来回转换。我们在第十五章将这些想法与校准问题联系起来,探讨如何确保预测模型的有效性,例如,在75%的日子里,如果模型预测降雨概率为75%,则确实会下雨。我们还利用这些信息论中的风险、熵和损失的概念,联系到优化和机器学习中的问题。特别是第十六章探讨了,如果我们不是将模型拟合到某个“真实”的损失函数,而是使用一个更容易优化的代理损失函数,我们基本上不会失去任何东西。这使我们能够界定何时(至少在渐近意义上)可以计算上高效地学习良好的预测器,并设计有效的实验来解决统计机器学习问题。由于这些章节与优化和凸对偶性有关,它们建立在凸分析的非平凡基础上;我们在附录B和C中提供了相关的综合复习,以便读者掌握所需的结果。对于不熟悉凸优化和分析的读者,我必须承认这些章节可能会有些艰深——因此,我们尽力阐明从整体概念到最一般结果所需的技术条件。第四部分结束了本书,探讨了随机优化、在线博弈和极小极大问题。 我们在第十七章中的方法采用了现代视角,认为随机优化是最小化函数的随机模型,并包括了现代机器学习优化中主要工具的收敛性“书籍”证明。它还利用了前面关于基本极限的结果,发展了凸优化的最优性理论,并将其纳入同一框架。第十八章探讨了在线决策问题,更广泛地讨论了需要探索与利用的问题,包括赌博机问题和因果估计中的一些基本问题,信息论工具为这些问题提供了清晰的处理方法。最后,第十九章回顾了第十四章中的损失函数和预测问题,但考虑的是自然与统计学家/学习者之间的博弈。再次利用我们已发展的熵和损失函数的视角,我们能够提供信息论中著名的冗余/容量定理的一个推广,但将其重新表述为自然对抗下的损失最小化博弈。
摘要——本综述对机器学习中多模态对齐与融合的最新进展进行了全面回顾,尤其是在文本、图像、音频和视频等数据类型日益多样化的背景下。多模态集成通过利用不同模态之间的互补信息,提高了模型的准确性并扩展了其应用范围,同时在数据稀缺的情况下也促进了知识迁移。我们系统地对现有的对齐与融合技术进行了分类和分析,并基于对200多篇相关论文的广泛回顾,提取了有价值的见解。此外,本综述还讨论了多模态数据集成中的挑战,包括对齐问题、噪声鲁棒性以及特征表示的差异,并着重于社交媒体分析、医学影像和情感识别等领域的应用。文中提供的见解旨在指导未来的研究,优化多模态学习系统,以提高其在各类应用中的可扩展性、鲁棒性和泛化能力。
关键词——多模态对齐、 多模态融合、多模态性、机器学习、综述
1 引言
技术的快速发展导致了多模态数据生成的指数增长,包括图像、文本、音频和视频[1]。这种数据的丰富性为计算机视觉、自然语言处理(NLP)等多个领域的研究者和从业者带来了机遇与挑战。通过整合来自不同模态的信息,可以显著提升机器学习模型的性能,增强其理解复杂现实场景的能力[2]。模态的结合通常有两个主要目标:(i)不同的数据模态可以互补,从而提高模型在特定任务上的精度和效果[3],[4],[5];(ii)某些模态的数据可能较为稀缺或收集起来具有挑战性,因此,基于大规模语言模型(LLM)的训练可以通过知识迁移在数据稀缺的任务中实现满意的性能[5],[6]。
例如,在社交媒体分析中,将文本内容与相关的图像或视频结合,可以更全面地理解用户情感和行为[1],[7]。除了社交网络,多模态方法在医疗图像自动注释、视频摘要和情感识别等应用中也取得了有希望的成果[8],[9],[10],[11],[12]。尽管取得了这些进展,但在有效整合和利用多模态数据方面仍然存在两个主要的技术挑战:对齐和融合。对齐侧重于建立不同模态之间的语义关系,确保每个模态的表示在一个共同的空间内对齐;而融合则是将多模态信息整合为统一的预测,利用每个模态的优势来提升整体模型的性能。 第一个组件是多模态对齐,涉及建立不同模态之间的关系[1],[49],[50],[51]。例如,将视频中的动作步骤与相应的文本描述进行对齐,由于输入输出分布的差异以及模态间可能存在的信息冲突,这一任务需要复杂的方法[52]。多模态对齐可大致分为显式对齐和隐式对齐[1],[53]。显式对齐通过相似度矩阵直接度量模态间的关系,而隐式对齐则在翻译或预测等任务中作为一个中间步骤。
第二个组件是多模态融合,涉及将不同模态的信息结合起来,进行统一的预测,同时解决模态之间噪声变异性和可靠性差异等挑战[1],[54],[55]。传统上,融合方法根据其在数据处理流程中的阶段进行分类[53],[56]。例如,早期融合在特征提取阶段将多个模态的数据整合在一起,尽早捕捉模态间的交互[56]。本综述聚焦于当前融合技术的核心特征,以更有效地代表现代方法,并指导未来的发展。我们将融合方法分析为基于核、图形、编码-解码器和注意力机制的融合框架。
图1展示了三种典型的多模态模型结构。在(a)中,由于模态之间的交互不足,简单的操作未能实现深入有效的融合。在(b)中,尽管设计了专门的融合网络,但对齐问题仍然显著。具体而言,由图像和文本分别通过各自模态特定模型提取的特征可能在语义上没有对齐,直接将这些特征传递给融合模块可能无法产生最佳结果。在(c)中,模型使用共享编码器或集成的编码-解码过程同时处理多模态输入,这使得图像和文本数据能够转化为共同的表示空间,从而更自然地结合。此类设计通常优先考虑模型的简洁性和效率,特别是在模态间关系已被充分理解并有效建模的情况下。
本研究旨在通过对200多篇相关论文的回顾,提供现有方法、最新进展和潜在未来方向的全面概述,为该领域做出贡献。本综述帮助研究人员理解多模态对齐和融合的基本概念、关键方法及当前进展,重点讨论视觉和语言模态,同时扩展到视频和音频等其他类型。
本综述的组织结构如下:第二节介绍多模态学习的基础概念,包括大规模语言模型(LLM)和视觉模型的最新进展,为对融合和对齐的讨论奠定基础;第三节探讨为什么要进行对齐与融合的综述研究;第四节审视对齐方法,重点讨论显式和隐式技术如何建立不同模态之间的关系;第五节探讨融合策略,将其分为早期、晚期和混合融合,并介绍基于核、图形和注意力机制的先进融合框架;第六节讨论多模态融合和对齐中的关键挑战,包括特征对齐、计算效率、数据质量和可扩展性;最后,第七节概述未来研究的潜在方向,并讨论实践意义,旨在指导该领域的进一步创新。
2 为什么需要对齐与融合
对齐与融合是多模态学习中的两个基本概念,尽管它们各自独立,但相互之间紧密相关,且常常相辅相成[1],[50]。对齐涉及确保不同模态的数据正确匹配和同步,从而使它们传达的信息具有一致性,并适合进行融合。另一方面,融合是指将来自不同模态的信息结合起来,创建一个统一的表示,全面捕捉数据的本质[1],[54],[55]。此外,许多最新的方法发现,在没有对齐过程的情况下进行融合是非常具有挑战性的[49]。
2.1 提升全面性与鲁棒性
对齐确保来自不同源的数据在时间、空间或上下文上同步,从而实现有意义的组合。如果没有适当的对齐,融合过程可能导致误解或关键信息的丢失[53]。 一旦对齐完成,融合利用对齐后的数据生成更为鲁棒和全面的表示[49]。通过整合多个视角,融合能够弥补单一模态的弱点,从而提高准确性和可靠性。 2.2 解决数据稀缺与不平衡问题
在许多现实应用中,某些模态的数据可能稀缺或难以获取。对齐有助于即使在数据有限的情况下,也能同步可用的数据,确保其能够有效利用[106],[107]。 随后,融合使得模态之间能够进行知识迁移,使模型能够利用一种模态的优势来弥补另一种模态的不足。这在某一模态拥有丰富数据而另一模态数据稀缺的场景中尤为有用。 2.3 改进模型的泛化能力和适应性
对齐确保了不同模态之间关系的准确理解与建模,这对于模型在不同上下文和应用中进行泛化至关重要[1],[53]。 融合通过创建一个统一的表示,能够更有效地捕捉数据的细微差异,从而提高模型的适应性。这个统一的表示可以更容易地适应新的任务或环境,增强模型的整体灵活性[1],[53]。 2.4 支撑高级应用
对齐与融合共同推动了诸如跨模态检索等高级应用的发展,在这些应用中,一种模态(例如,文本)中的信息被用于在另一种模态(例如,图像)中搜索相关信息[108]。这些过程对于诸如情感识别等任务也至关重要,在这些任务中,将视觉和听觉线索结合起来,能够比单独使用任何一种模态更准确地理解人类情感[109]。 3 多模态对齐
多模态对齐涉及建立两种或更多不同模态之间的语义关系。它在多个领域得到了广泛研究,包括网络对齐[110]、图像融合[50]和多模态学习中的特征对齐[111]。 为了将不同模态对齐到相同的语义表示中,需要衡量这些模态之间的相似性,同时考虑潜在的长程依赖关系和歧义。简而言之,目标是构建一个映射,将一个模态的表示与另一个模态中共享相同语义的表示对齐。根据[1],对齐可以分为两种类型:显式对齐和隐式对齐。显式对齐通常通过使用相似度矩阵直接度量相似性,而隐式对齐则通常是在翻译或预测等任务中作为一个中间步骤进行处理。 3.1 显式对齐
显式对齐有着早期的基础,通常依赖于诸如动态时间规整(DTW)[112],[113]和典型相关分析(CCA)[114]等统计方法。
DTW通过找到一个最优匹配来测量两个序列之间的相似性,该过程涉及插入帧来对齐序列[112]。然而,原始的DTW公式需要预定义的相似性度量,因此它与典型相关分析(CCA)结合,后者由Harold Hotelling于1936年提出[114],通过线性变换将两个不同的空间投影到一个共同的空间中。CCA的目标是通过优化投影来最大化两个空间之间的相关性。CCA促进了对齐(通过DTW)和模态间映射的联合学习,并且可以以无监督的方式进行,正如在视频-文本和视频-音频对齐等多模态应用中所见。图2展示了CCA方法的可视化。具体而言,CCA的目标函数可以表示为: maxρ=corr(uTX,vTY)\max \rho = \text{corr}(u^T X, v^T Y)maxρ=corr(uTX,vTY) 其中: • X 和 Y 是来自两个不同空间的数据矩阵; • u 和 v 是线性变换向量(或典型向量),它们将 X 和 Y 投影到共同空间中; • ρ 是投影uTXu^T XuTX 和vTYv^T YvTY 之间的相关系数; • 目标是找到 u 和 v,使得投影后的数据之间的相关性ρ最大化。 然而,CCA只能捕捉两个模态之间的线性关系,限制了它在涉及非线性关系的复杂场景中的应用。为了解决这一限制,引入了核典型相关分析(KCCA),它通过核方法将原始数据映射到更高维的特征空间,从而处理非线性依赖[115],[116]。像多标签KCCA和深度典型相关分析(DCCA)等扩展方法进一步改进了原始的CCA方法[115],[116],[117],[118],[119]。 此外,Verma和Jawahar展示了如何使用支持向量机(SVM)实现多模态检索[120]。另外,像图像对齐中基于特征模态的线性映射方法也被开发出来,旨在通过复杂的空间变换来处理多模态对齐问题[121]。 3.2 隐式对齐
隐式对齐是指在执行主要任务时作为中间步骤使用的方法,通常是以潜在方式进行。与直接对齐不同模态的数据不同,这些方法通过学习共享的潜在空间来改善主要任务的性能。隐式对齐技术可以大致分为两类:基于图模型的方法和基于神经网络的方法。 3.2.1 基于图模型的方法
图结构的整合使得更复杂的模态间关系得以更好地建模,从而使多模态数据的处理更加准确和高效。这些方法常用于将图像与文本或图像与信号进行对齐。例如,某些模型通过对物体的图表示进行对齐,实现了少样本上下文模仿学习,从而使机器人在没有事先训练的情况下能够执行新的任务[122]。基于显式进化模型的GraphAlignment算法在识别同源顶点和解决副本问题方面表现出强大的性能,优于其他方法[123]。图3展示了如何在对齐中使用图结构。
这些任务中的一个主要挑战是对齐不同模态之间的隐式信息,其中多模态信号并不总是直接对应。基于图的模型通过将模态间的复杂关系表示为图结构(图中节点表示数据元素,如词语、物体或帧,边表示它们之间的关系,如语义、空间或时间关系)在解决这个问题上证明了其有效性。 近期的研究探索了使用图结构进行多模态对齐的多个方面。例如,Tang等人[124]提出了一种基于图的多模态顺序嵌入方法,以提高手语翻译。通过将多模态数据嵌入到统一的图结构中,他们的模型更好地捕捉了复杂的关系。 另一个应用是在情感分析中,隐式多模态对齐起着至关重要的作用。Yang等人[125]提出了一种基于图的多模态对齐模型(MGAM),该模型联合建模了显式方面(如物体、情感)和隐式多模态交互(如图像-文本关系)。 在具身人工智能领域,Song等人[126]探讨了如何构建基于场景的知识图,以建模复杂多模态任务中的隐式关系。他们的工作将文本和视觉信息整合到一个知识图中,并通过基于图的推理进行多模态语义的对齐。对齐隐式线索(如场景中物体之间的空间和时间关系)对于提高具身人工智能系统中的决策和交互至关重要。 在命名实体识别(NER)任务中,Zhang等人[127]提出了一种基于图的逐标记方法,该方法结合了与文本相关的图像中的隐式视觉信息。该方法利用视觉域中的空间关系来改进命名实体的识别,这在使用孤立的文本数据时通常是模糊的。 在图像描述生成和视觉问答(VQA)等任务中,场景图也起着至关重要的作用。Xiong等人[128]提出了一种基于场景图的模型,用于跨模态的语义对齐。通过将物体及其关系表示为图中的节点和边,该模型提高了视觉和文本模态的对齐效果。 总之,基于图的方法为表示多样化数据类型提供了强大的框架,并且在多模态对齐中具有巨大的潜力。然而,这种灵活性也带来了重大的挑战。 图结构的稀疏性和动态性增加了优化的复杂性。与矩阵或向量不同,图具有不规则的非结构化连接,导致计算复杂度高且内存开销大,即使在先进的硬件平台上也存在这些问题。此外,图神经网络(GNN)对超参数特别敏感。网络架构、图采样和损失函数优化等选择直接影响性能,这增加了GNN设计和实际部署的难度。 3.2.2 基于神经网络的方法
近年来,基于神经网络的方法已成为解决隐式对齐问题的主要方法,特别是在翻译等任务中,将对齐作为潜在的中间步骤通常能获得更好的结果。常见的神经网络方法包括编码器-解码器模型和跨模态检索。 当没有隐式对齐时,翻译过程会给编码器带来更大的负担,需要它将整个图像、句子或视频总结为一个向量表示。 一个常见的解决方案是使用注意力机制,使解码器能够专注于源实例的特定子组件。这与传统的编码器-解码器模型不同,后者将所有源子组件一起编码。注意力模块引导解码器更多地关注被翻译的源实例的特定子组件——例如图像的区域、句子中的词语、音频的片段、视频中的帧或指令的部分。例如,在图像描述生成中,注意力机制允许解码器(通常是递归神经网络)在生成每个词时专注于图像的特定部分,而不是一次性编码整个图像[129]。 以前的工作通过设计特定模态的嵌入器和预测器,接口连接输入和输出的预训练模型来实现这一目标。 生成对抗网络(GAN)由于其能够学习高维数据空间之间的复杂映射,因此已成功应用于多模态数据的合成[130],[131],[132],[133],[134]。例如,在MRI模态中,使用一个统一框架,其中单个生成器学习跨模态的映射,可以提高不同数据类型之间的对齐精度[130]。 另一种深度生成方法,C-Flow,利用标准化流进行多模态对齐,应用于3D点云重建等任务,从而对生成过程进行更细粒度的控制[135]。自编码器及其变体,如变分自编码器(VAE),也被用来学习潜在表示,捕捉跨模态的基础语义结构。这种方法在组合表示学习中证明了其有效性,VAE帮助通过将图像和文本模态映射到共享的潜在空间来对齐它们[136]。类似地,使用VAE的跨模态量化进行图像-文本配对生成,展示了神经网络如何通过学习量化的联合表示对齐文本和视觉数据[137]。 此外,半监督流形对齐方法(如扩散传输对齐DTA)利用少量先验知识对齐具有不同但相关结构的多模态数据域[138]。这种方法在仅能进行部分数据对齐的情况下尤为有效,因为它依赖于域之间的几何相似性。 最近,Att-Sinkhorn方法结合了Sinkhorn度量和注意力机制,在通过解决不同模态的概率分布之间的最优传输问题来改进多模态特征对齐方面显示了更高的准确性[139]。 总之,显式和隐式对齐技术在多模态机器学习领域都至关重要。尽管显式方法提供了一个明确的框架,用于度量相似性和建立对应关系,但隐式方法通常更灵活,并能适应更多的场景,特别是那些涉及复杂或模糊数据关系的任务。未来的研究可能会继续探索结合两种对齐策略优点的混合方法,以解决多模态数据中所面临的各种挑战[110],[111],[139]。
多模态数据涉及多种信息类型的整合,如图像、文本和音频,这些信息可以通过机器学习模型处理,从而提高多种任务的性能[1],[53],[140],[141],[142],[143]。通过结合不同类型的信息,多模态融合利用了每种模态的优势,同时弥补了依赖单一数据类型时可能出现的弱点或空白[1],[53],[144]。例如,每种模态在最终预测中可能会有不同的贡献,某些模态可能在某一时刻比其他模态更具信息量或噪声更小。 融合方法在有效结合不同模态的信息时至关重要。早期的方法通常将图像和文本分开处理,两个数据类型之间仅有基本的整合。像 CLIP [13] 这样的架构采用了双编码器框架,其中视觉和文本信息分别编码,它们的交互通过简单的操作来处理,通常涉及点积计算[145],[146]。因此,这两种模态的融合在整体模型架构中所占的比重较小,主要由编码器本身主导。尽管这种有限的集成策略在基于检索的任务[147],[148]中有效,但对于更复杂的多模态挑战(需要深度理解和模态之间的交互)则不够充分[149],[150]。 如果通过独立训练每个模态的专门编码器,然后进行表面化的集成就能实现强大的性能,那么深度多模态学习的需求就值得怀疑。然而,经验数据表明,对于需要细致理解的任务,如视觉问答和视觉推理,必须对两种模态进行更复杂、更深度的融合,才能充分捕捉视觉感知和语言处理之间的相互关系[152]。 传统上,融合方法根据融合发生的数据处理管道阶段进行分类。早期融合在特征级别进行数据整合,晚期融合则在决策级别进行整合,混合融合结合了两者的特点[1],[53]。早期融合涉及在特征提取阶段将来自不同模态的数据合并[56],从而让模态之间的交互得以早期捕捉。如赵等人[93]所述,集成发生在特征级别。相比之下,晚期融合则在决策阶段将各个模态模型的输出结合起来,当预测时缺少一个或多个模态时,这种方法特别有优势,正如 Morvant 等人[153]所展示的。混合融合则将早期融合和晚期融合的各个方面结合在一起,赵等人[93]研究了其在深度学习中的实现。 随着技术和融合方法的演进,区分早期、晚期和混合融合变得越来越复杂。先进的方法通常超越了传统的基于时序的分类,在特征级别和决策级别同时操作,这挑战了僵化的分类。 为了解决这种复杂性,我们提出了一种基于当前融合技术核心特征的新分类框架,提供了对现代方法的更准确表征,并为未来的进展提供指导。特别是,尽管许多基于注意力的方法可以适配编码器-解码器或仅编码器框架,但我们将它们单独分类,因为它们在最近的显著发展和独特创新方面,传统的分类方法无法充分捕捉。
编码器-解码器融合架构涉及一个编码器,该编码器从输入数据中提取关键特征并将其压缩成紧凑的形式,而解码器则基于这种压缩的表示重建输出[26]。在该架构中,系统主要由两个主要组件组成:编码器和解码器。编码器通常作为一个高级特征提取器,将输入数据转换为一个潜在空间,其中包含重要特征[26],[37]。换句话说,编码过程在减少冗余的同时保留了重要的语义信息。一旦编码步骤完成,解码器就会基于潜在表示生成相应的“重建”输出[26],[31]。在像语义分割这样的任务中,解码器的输出通常是一个语义标签图,它与输入大小相匹配。 编码器-解码器融合通常有三种形式:(1)数据级融合,将来自不同模态的原始数据拼接在一起,并送入共享的编码器;(2)特征级融合,分别从每个模态提取特征,可能包括中间层,然后将它们组合后再输入到解码器;(3)模型级融合,在处理后将各个模态特定模型的输出进行拼接。图4展示了这三种类型的编码器-解码器融合结构。特征级融合通常最为有效,因为它考虑了不同模态之间的关系,从而实现了更深层次的集成,而非表面上的组合。
在这种方法中,来自每个模态的数据或每个模态独特预处理步骤后的处理数据在输入级别进行合并[27]。在这种集成之后,来自所有模态的统一输入将通过一个编码器来提取更高层次的特征。换句话说,来自不同模态的数据在输入阶段被合并,并通过单一编码器提取综合特征。 最近的研究聚焦于数据级融合,以提高自动驾驶中物体检测和感知的性能。一些研究探索了在神经网络架构的早期阶段融合相机和LiDAR数据,展示了在稀疏点云中,特别是对骑行者的三维物体检测精度有所提升[35]。一个基于Yolo框架的联合处理相机和LiDAR原始数据的系统比传统的决策级融合提高了5%的车辆检测精度[27]。此外,还开发了一个面向低级传感器融合的开放硬件和软件平台,特别是利用原始雷达数据,推动了这一领域的研究[36]。这些研究突出了原始数据级融合在利用传感器间协同作用并提高整体系统性能方面的潜力。
这种融合技术的核心思想是将来自多个抽象层次的数据进行组合,从而利用从深度网络不同层次提取的特征,最终增强模型的性能。许多应用都实施了这一融合策略[32],[163]。 特征级融合已成为多种计算机视觉任务中的一种强大方法。它涉及在不同的抽象层次上融合特征以提升性能。例如,在性别分类中,融合局部补丁的两层层次结构证明是有效的[163]。在显著性物体检测中,融合来自不同VGG层次的特征的网络能够保留语义信息和边缘信息[30]。在多模态情感计算中,一种“分而治之,合而为一”的策略探索了局部和全局交互,达到了最先进的性能[32]。对于自适应视觉跟踪,开发了一种层次模型融合框架,通过层次更新对象模型,引导参数空间的搜索并减少计算复杂性[33]。 这些方法展示了层次特征融合在多个领域中的多样性,展现了它在捕捉细粒度和高级信息方面的能力,从而在复杂的视觉任务中实现更好的性能。
模型级融合是一种通过集成多个模型的输出提高准确性的技术。例如,在使用地面穿透雷达(GPR)进行地雷检测时,Missaoui等人[34]证明了通过多流连续隐马尔可夫模型(HMM)融合边缘直方图描述符和Gabor小波的方式,优于单一特征和等权重组合。 在多模态物体检测中,Guo和Zhang[28]应用了平均、加权、级联和堆叠等融合方法,将图像、语音和视频的模型结果结合起来,从而提高了在复杂环境中的性能。对于面部动作单元(AU)检测,Jaiswal等人[29]发现,使用人工神经网络(ANN)的模型级融合比简单的特征级方法更有效。此外,对于涉及多保真度计算机模型的物理系统,Allaire和Willcox[25]开发了一种融合方法,利用模型不适配信息和合成数据,得到了比单独模型更好的估计结果。在质量控制和预测性维护中,一种新颖的模型级融合方法优于传统方法,减少了预测方差30%,并提高了45%的准确性[38]。这些研究证明了模型级融合在多个领域中的有效性。 本节回顾了基于编码器-解码器架构的融合模型。编码器-解码器融合架构在多模态任务中被广泛应用,展示了不同融合技术的多样性,包括数据级融合、特征级融合和模型级融合。这些方法在提高多模态学习模型的准确性和鲁棒性方面起到了重要作用,为未来的研究和应用提供了有益的参考。
基于注意力机制的融合方法近年来得到了广泛应用,特别是在多模态学习任务中。注意力机制的核心思想是根据输入数据的重要性动态调整其对模型的影响,而不是对所有输入特征进行等权处理[154]。这种方式通过引导模型关注最相关的模态和特征,从而提高了模型的表现和鲁棒性。 在多模态学习中,基于注意力的融合可以通过多种方式实现。最常见的方法包括加权融合、交互式融合以及跨模态注意力机制的应用。通过引入自注意力机制(Self-Attention)和跨模态注意力机制,模型能够自动学习不同模态之间的相互关系,并在处理复杂任务时做出适当的决策[155]。 例如,在视觉问答(VQA)任务中,通过引入跨模态注意力机制,模型可以根据问题的内容自动选择与之相关的图像区域,从而提高了任务的精确度和准确性[156]。类似的,在多模态情感分析中,基于注意力的机制能够帮助模型理解不同模态(如语音、文本和面部表情)之间的相互作用,从而对情感状态进行更为精准的预测[157]。 此外,近年来,许多研究还将多头注意力(Multi-Head Attention)扩展到多模态融合中,允许模型并行处理多个模态的不同子空间,从而增强了多模态交互的表达能力[158]。这种方法尤其适用于需要多方面信息整合的复杂任务,如视频内容分析和跨模态检索等。 总之,基于注意力机制的融合方法通过动态调整不同模态的贡献,能够有效提升模型在多模态学习中的表现,特别是在处理多层次、多类型信息时,能够显著改善性能。
图神经网络(GNN)在处理具有复杂关系和结构的数据时,表现出极大的潜力,因此被广泛应用于多模态融合任务中。GNN通过图的节点和边之间的传播机制,能够捕捉到数据的结构信息,在图像、文本和其他模态数据之间建立有效的联系。 在多模态融合的背景下,GNN可以将不同模态的特征表示作为图的节点,并通过图卷积操作(Graph Convolution)来学习模态间的关系。例如,在图像和文本融合的任务中,可以将图像中的不同区域和文本中的不同词汇视为图的节点,节点之间通过边连接,表示它们之间的关系。通过图卷积操作,模型能够学习到图像和文本之间的深层次关联,从而在视觉问答、图像描述等任务中取得更好的效果[159]。 GNN还可以应用于多模态信息的关联学习和跨模态信息检索等任务中。在这些任务中,GNN能够通过图结构有效地捕捉模态间的复杂交互,帮助模型从不同模态中提取有用的信息并进行融合。这种方法尤其适合处理带有结构关系的多模态数据,如社交媒体上的多模态情感分析和医学图像分析中的跨模态信息融合。 随着图神经网络在多模态学习中的不断发展,越来越多的研究表明,图结构能够为不同模态间的交互提供一种自然且高效的表示方式,为多模态融合方法提供了新的思路。
自监督学习是一种无监督学习方法,它通过自我生成标签来训练模型,尤其在没有大量标注数据的情况下表现出了强大的潜力[160]。这种方法通过构造辅助任务,使模型学习数据的深层次结构,并为多模态融合提供了新的思路。
在多模态学习中,自监督学习能够通过从单一模态的输入中生成任务相关的信息,并促进模态间的对齐和互补。通过构建自监督任务(例如图像-文本对比学习),模型可以在无监督的情况下学习到不同模态之间的语义一致性,进而提高多模态融合的效果[161]。
例如,在图像-文本对比学习中,模型可以通过构造图像与文本之间的相关性任务,来学习它们之间的联合表示。这样,尽管模型不需要大量标注数据,它仍然能够学习到跨模态的有效表示,并在多模态任务中进行更准确的预测。这种自监督学习方法在减少对标注数据依赖的同时,能够显著提高模型的泛化能力和跨模态表现。
持续学习(Continual Learning)是指模型在不断接收新数据时,能够保持已有知识的同时,学习新知识,而不会遭遇灾难性遗忘[162]。在多模态学习中,持续学习能够有效处理随时间变化的多模态数据,特别是当模型需要根据实时输入调整其学习策略时。
在多模态融合任务中,持续学习能够使模型随着新模态或新领域的到来,灵活地调整其参数和融合策略,从而适应新的数据分布[163]。例如,自动驾驶系统中的传感器数据(如雷达、相机、激光雷达等)可能随着环境变化而发生变化,持续学习可以帮助模型保持对不同传感器数据的有效融合,同时应对新的驾驶环境。 持续学习还能够促进多模态模型的可扩展性和自适应性,使其能够在新的多模态数据出现时,进行快速有效的调整,避免灾难性遗忘的问题。这为多模态学习提供了更为强大的能力,特别是在需要处理动态变化的复杂数据环境时。
现代战争,无论是侧重于动能任务、信息收集任务,还是这两种任务的组合,都是基于由众多 OWNFOR 和 OPFOR 实体执行的众多任务序列。为了应对战争的复杂性,专业作战人员多年来一直遵循军事决策程序(MDMP)。通过这种方法,任务(包括条件和标准)被用来确定必要的能力。然后才分配适当的实体执行任务。从使命(即任务)到能力再到物资,形成了清晰的逻辑联系。2003 年,“任务与手段框架”(MMF)作为 MDMP 的正式体现被制定出来。
遗憾的是,在许多物资研究中,都没有将 MDMP 作为 a]明确说明军事任务和 b]定量评估替代产品和服务的任务效用的逻辑基础。最大的挑战可能来自于有本体支持的 C4ISR 学科,在这些学科中,对实体的类型、属性和相互关系进行正式命名和定义是描述任务成功与否的基础。目前正在进行一项演示,利用多用途多层面框架来规划、监控和评估作战测试和支持开发活动的执行情况。最近,这项研究已扩大到支持 MINI-DASS(任务所需的信息-可发现的可用传感源),这是一项 ISR 信息生成方法计划,旨在明确态势了解与任务成功之间的关系。
这种单一的集成式 MMF 本体方法对研究、需求、测试、培训和分析活动具有重大影响,所有这些活动都在这一单一的概念模型中得到了相同的反映。
图 1. 为理解态势而获取相关信息的示意图。
信息生成技术的进步、新型传感器的购置以及移动设备的普及,导致产生了大量数据,并加大了从异构信息源中获取和检索相关信息的挑战。此外,由于情报、监视和侦察(ISR)资源的数量和能力有限,无法处理多种信息收集请求,因此有必要最大限度地利用这些资源,以提高所获信息的价值和及时交付。ISR 和动武军事行动都需要了解情况。
信息源和动能资产的数量和多样性不断增加,使作战行动越来越具有挑战性;在联军环境中尤其如此。不仅 ISR 和动能资产更加分散,而且联军行动通常是临时性和高度分散的。此外,不同的联盟政策也使联合行动更具挑战性。
在本文中,ISR 资产是指任何可向消费者(分析师、规划者、决策者)提供信息的信息源、生产者或容器。它可以是一个物理传感器、一个可收集数据的人为来源或一个可检索信息的信息容器(如数据库)。
图 1 显示了为理解态势而获取信息的高级外化过程。
这一周期的起点是需要了解态势,为军事决策提供依据。最初会产生一个任务驱动的信息查询。需要一个人机界面来翻译请求,以便计算机能够理解。然后,必须使用与任务相关的数据/信息源;需要发现这些数据/信息源,然后进行查询。为了收集必要的任务相关数据/信息,需要对信息进行相关性过滤,然后进行提取。提取的数据/信息随后可通过各种数据分析功能进行处理,包括融合、关联、聚合等。然后,信息可能会被分析人员利用,并传播给包括决策者在内的信息消费者。表征的关键要素包括
这种外部化说明了需要收集、利用、处理、分析和传播的各种 ISR 资产,以提高对局势的认识和决策能力。在面对多种信息请求时,要优化联军 ISR 和动能资产的发现和利用,并通过为用户收集与任务相关的信息来加强从数据到决策的过程,就需要有支持收集规划和评估的自动化工具。
开发传感器本体的研究为传感器能力和属性提供了丰富的语义描述,已证明对传感器集成、ISR 资源任务分配和信息融合大有裨益。这一领域的工作可作为基础加以利用和扩展,以满足我们的研究要求。在我们的工作中,除了开发传感器属性、能力和可用性的表征外,我们还在开发由不同信息源产生的不同类型信息的正式表征,以及它们如何帮助弥补信息差距。高层次的信息需求需要分解成具体的信息请求,并根据这些本体的概念进行表达,以便于将需求与适当的信息源进行匹配。这些模型与适当的推理方案相结合,将改善目前的流程。
美国陆军研究实验室(ARL-SEDD、-CISD 和 -SLAD)和 AMSAA 正在就优化 ISR 和动能资产的效用以满足任务需求开展相关研究工作。这项研究工作的重点是开发一个 “任务和方法框架”(MMF),以优化利用现有的 ISR 和动能资产(手段)来获取行动(任务)所需的信息。这些目标旨在加强对态势的理解。
本文介绍了任务构建和所需能力的生成过程和模型,以及本体论的开发过程,本体论可帮助确定有哪些可用资产以及这些资产可提供哪些能力来满足任务所需能力。在本文中,数据和信息是同义词。
图 2. 按战争等级划分的 MOUT 任务布局。一般来说,高层任务被定义后,部分任务会传递给下层任务执行和/或进一步分解。蓝色虚线表示自上而下的推断关系。红色箭头表示时间向前推移。
图 3 任务循环示意图。第 4 层的任务通过 O4,1 操作器启动第 1 层的交互。O1,2 操作器改变第 2 层组件的状态。第 3 层计算出新的能力,最后与第 4 层循环中下一个任务所需的能力进行比较。如果第 3 级的当前能力达到或超过了下一个任务的要求,则流程继续。一个任务周期(即一个 360度周期)从开始到通过 O3,4 操作员进行最终能力/任务比较,可能代表一次开发测试或一次 ISR 任务。
图 5. MMF 的对立力量与时间前向操作器一起显示。请注意,OWNFOR(时间前向)操作器顺时针移动;OPFOR 逆时针移动。
2022年,随着ChatGPT的发布,大规模语言模型受到了广泛关注。ChatGPT不仅在参数量和预训练语料库规模上远超前代模型,还通过大量高质量的人工标注数据进行微调,实现了革命性的性能突破。此类进展促使得企业和研究机构认识到,构建更智能、更强大的模型依赖于丰富且高质量的数据集。因此,数据集的建设与优化成为了人工智能领域的关键方向。本文对训练大规模语言模型所需的预训练数据和微调数据的现状进行了总结,涵盖了数据规模、搜集方式、数据类型及其特点、处理流程等,并对当前可用的开源数据集进行了梳理和介绍。
1 引言
在人工智能领域,语言模型的发展一直是推动技术进步的核心动力之一。语言模型的目标是通过模拟文本数据的生成概率,来实现对自然语言的理解和生成。最初的模型,如n-gram,依赖于统计分析来预测词语序列,但这些模型难以捕捉复杂的语本依赖性,因此在处理复杂任务时表现有限。随着深度学习技术的发展,特别是AlexNet在视觉识别领域的突破,神经网络被引入到自然语言处理中。循环神经网络(RNN)及其衍生的LSTM和GRU显著提高了模型对序列数据的建模能力,使其能够更好地建模语言中的时序特征和文本关系。然而,这些方法仍然依赖于传统的监督学习范式,训练数据规模普遍较小,大部分数据集的规模以MB为量级。 真正的革命来自于以Transformer为基础的预训练语言模型的推出。Transformer架构通过自注意力机制(Self-Attention)有效地捕捉长距离依赖关系,并且由于其高并行化特性,极大地提高了语言模型的训练效率。这使得以大规模无标记文本作为训练语料成为可能。GPT和BERT等模型以Transformer为基础,加速了语言模型的迭代性能,将语言模型的“深度”推向了一个新的高度。 预训练语言模型之所以强大,是因为它们能够在未经过人工标注的大规模集群中自动学习丰富的特征。这些模型在预训练阶段以无监督大数据集发现和生成规律,并将其广泛的预测能力扩展到众多任务的表征能力。然而,预训练模型的强大性能离不开高质量大数据的支持,微调阶段在特定任务完成精调工作。因此,随着各个领域的数据集进一步微调,模型模型的更好地适应特定应用需求。 2022年,随着ChatGPT的发布,大规模语言模型受到了广泛关注。ChatGPT不仅拥有远超之前模型的参数量,且使用大规模高质量的人类标注数据对模型进行微调。ChatGPT革命性的性能突破让企业和研究机构认识到,构建更智能、更强大的模型依赖于丰富且高质量的数据集。自此,数据集的建设和优化成为了人工智能领域未来发展的方向。在这个背景下,许多公司和组织参与到训练数据的构建和优化工作中,而许多大规模模型语言集(如Baichuan、Qwen、Chatglm等)已经相继开源,但其训练数据几乎完全保密。 模型训练所涉及的语料的广度和质量是其核心竞争力。当然,也有非常多的公司和组织把投入大量资源构建的数据集进行开源,为社区的发展做出贡献。比如Together AI的RedPajama数据集或Hugging Face的Common Crawl数据。这些数据集中不仅标了降噪和不相关内容,还进行了结构化和标准化处理,使其适用于训练所需高质量数据。 与此同时,尽管许多商业组织的预训练数据与训练语料已被开源,其他在语音和世界的被公开总量并不理想。此外,数据的提升和可视化。随着模型的不断增大。 未来的数据建设成为一种非常核心的关键要求。当前对前沿问题和数据资源的需求是快速且不断增长的挑战之一,而随着对隐私问题和标准化的处理未来更需要建设和高质量基础来推动数据。
2 预训练数据
预训练任务通过让模型基于已有文本预测未知的Token,以此来学习语言结构和语义规则。自编码训练任务(如BERT)和自回归训练任务(如GPT)分别代表了两种主要的方法。在ChatGPT发布后,自回归训练任务逐渐成为训练大规模语言模型的主流方法。在预训练过程中,模型通过估计预测Token的原始概率,逐步掌握文本的语法和语义,从而积累大量语言知识,提升文本理解和生成能力。核心机制在于,模型能够通过预测文本的一部分,逐渐建立对整个文本结构的理解。此外,模型不仅能记住具体的单词和短语,还能学习更高层次的语言结构和语义关系。这种能力对于生成连贯且有意义的文本至关重要,使得模型在实际应用中能够提供更恰当的回答,上一文一致的回答。 预训练数据集对于训练模型理解和生成能力至关重要,是大规模语言模型开发的基础。预训练数据集通常来自人工标记,含有丰富的语言元素和复杂的结构。这种标注数据为模型提供了真实、自然的语言使用场景,使得模型学习到语言的本质特征和标准规则。预训练语料的背景特征就是规模庞大。大规模的数据集能够提供丰富的语言现象和多样的上下文场景,使模型在训练过程中接触到各种语言结构、词汇用法和语法规则。这种规模保证了模型可以捕捉到更广泛的语言模式和关系,从而在多种任务中表现出色。 除了规模庞大,其第二个重要特性就是来源广泛。预训练语料涵盖了从日常通信到专业学术的各种文本类型。这包括新闻报道、科学论文、文学作品等。这种多样化的文本来源确保了模型能够在不同的语境中灵活应用,既能理解口语的表达,也能处理学术术语和复杂的学术论述。模型通过在这些不同类型的文本中学习,可以获得更全面的语言知识和更强的适应能力。 通过预训练,模型能够积累大量的背景知识,这使得它在面对新的任务时,能够迅速适应并表现出色。预训练就像是让模型“打下上万本书,见多识广”,积累了丰富的知识储备,而微调过程则是让模型在特定领域进行专门训练,以便更好地完成特定任务。此外,预训练数据的多样性和复杂性也意味着在预训练过程中对数据的处理需要结合高度清洗和精细的标注。尽管如此,其中一些噪音可能是模型成长的营养剂,而非阻碍。例如别字、模棱两可的语言、复杂的语音环境中学习,模型能够得到更加健壮和灵活,能够更好地处理实际应用中遇到的各种问题。
3 微调数据
微调过程是训练语言模型不可或缺的一环,其目的是在于将模型从面向语言知识的通用训练转向面向具体任务的针对训练。在预训练阶段,模型通过预测被掩码的Token任务学习了大量的语言知识,使其具备理解和生成文本的能力。然而,这些知识是通用的,无法被直接应用于具体任务的实现。微调阶段旨在针对特定任务的语料库上进行训练,使模型能够学习到具体任务的需求和规则,从而将所学的语言知识和生成能力在应用任务中按特定任务。与预训练阶段相比,微调数据集通常是经过人工标记和精心设计的,记录了特定任务中的输入输出对应关系或其他更精细的上下文标记,从而更有针对性和强关联性。对不同读懂程度任务,微调数据包括任务参考文本、问题和问题的答案。通过这个训练,模型能够学习到解决特定任务的特征和模式,从而将训练阶段学到的通用知识应用到特定任务中。 微调数据集在分布式配置中包含:命令类问题、机器翻译、文本分类、自动问答等。这些任务需要语言模型学习更具体的问题解答能力,自动语言掌握模型的各种领域,知识储备和生成能力的需求。然而,随着ChatGPT的发布,人们发现,机器人语言模型在预训练阶段学到了更多的语言知识,获得了更强的语言能力,便能设计话和领域解决语用中所有高表达意图任务的各种应用任务。这些数据集使得模型在解决复杂多种问题中优化。 传统微调数据有可能有各种形式,如文本大小(机器翻译或其他文本类)等。但在传统微调数据集基础上强调对更高的基准结构变化而构建大规模系统。对于优化微调数据库。
结尾:
主要任务包括指令集跟随,日常对话、数学推理、代码生成、医疗问答等。构建微调数据集的主要问题分为两个方面,问题的收集和答案获取。其构建方式大致可以分为以下几种:人工撰写、真实用户对话、基于已有数据集的扩充、利用语言模型直接生成以及基于传统数据集的改写。下面介绍这几种基本的数据构建方式。 4 总结 本论文概述了大语言模型在预训练和微调阶段的数据构建要点。在预训练数据方面,英文数据在 数量和质量上优于中文数据,成为训练英文大语言模型的有力资源,而中文数据因网页资源有限、学 术数据匮乏、社交媒体平台闭源等因素受限。中文领域开源数据集的缺乏,也阻碍了中文大语言模型 的发展,尽管模型可以通过英文数据学习多语言能力,但中文特有的知识和文本风格仍难以完全涵 盖。此外,数据隐私与开放性之间的平衡成为关注点,语料枯竭也带来新的挑战,促使研究者探索合 成数据等新来源。 在微调数据方面,构建方法多样,包括人工撰写、真实用户数据扩充等。多样性、质量和安全性 是微调数据的重要目标,实际应用中常融合多种数据来源以取得最佳效果,并在不同领域数据配比上 进行优化。总体而言,预训练与微调数据的高质量构建对于提升大语言模型的性能至关重要。特别在 中文领域,各方需协力推动数据来源的拓展与技术改进,使中文大语言模型在各类应用中更具竞争 力。
人工智能的发展历程与AIGC的市场机遇。人工智能的发展经历了三次浪潮,从最初的逻辑推理和专家系统,到机器学习和深度学习,人工智能技术不断演进。AIGC利用生成式AI技术,创造出多样化的内容,展示出巨大的商业潜力。AIGC产业链可划分为基础层、模型层和应用层。预计到2030年,AIGC市场规模将增至9810亿美元,推动全球经济增长4.9万亿美元,累计产生的经济影响达到19.9万亿美元。 基础层:AIGC的快速发展推动算力需求激增,算力存储网络成为投资的主赛道。随着AIGC技术的快速发展,特别是基于Transformer的大模型对算力需求急剧增加,全球互联网巨头纷纷加大对AIGC基础设施的投资,以推动创新和保持竞争优势。GPU系统、HBM存储和高性能网络基础设施在AIGC计算中发挥着关键作用,满足了对高速并行计算的需求,成为硬件基础设施投资的主赛道。 模型层:算法进步、性能成本优化与商业模式多元化的融合。AIGC技术的进步得益于生成算法、预训练模型和多模态技术的创新。在大语言模型的竞争中,性能和成本是两个核心要素,性能的提升和成本的降低使得AIGC的应用更加广泛。AIGC公司通过订阅服务、API接入等多元化商业模式来拓展收入渠道,从而增强自身的市场竞争力。随着企业逐渐认识到AIGC技术的潜力,预计B2B服务将在整体AIGC市场中占据主导地位。全球大语言模型市场将显著增长,OpenAI凭借ChatGPT的成功在市场上处于领先地位,而科技巨头如微软、亚马逊和谷歌也正通过技术创新和产品整合来追赶。 应用层:技术创新应用推动市场发展和行业变革。AIGC技术正推动ToC和ToB领域的创新与多元化应用,覆盖Chatbot、社交、游戏和内容创作等多个场景,并在企业层面提供提高效率、降低成本的解决方案。在电子设备领域,AIGC技术引发革新,特别是在智能手机、汽车和人形机器人的智能化创新中表现突出。各类AIGC应用爆发式增长,其中AI广告市场份额最大,药物研发、网络安全和IT服务市场增速最快。
大语言模型(LLM)正在改变世界,承诺自动化任务并解决复杂问题。新一代的软件应用程序正在将这些模型作为构建块,释放几乎每个领域的新潜力,但要可靠地访问这些能力,需要掌握新的技能。本书将教你提示工程的艺术与科学——解锁LLM真正潜力的关键。
行业专家 John Berryman 和 Albert Ziegler 分享了如何与人工智能有效沟通,将你的想法转化为语言模型友好的格式。通过学习哲学基础和实践技巧,你将获得知识和信心,能够构建下一代基于LLM的应用程序。
John Berryman 是 Arcturus Labs 的创始人兼首席顾问,专注于LLM应用程序开发。他的专业知识帮助企业利用先进的人工智能技术。作为 GitHub Copilot 的早期工程师,John 为其自动补全和聊天功能的发展做出了贡献,处于人工智能辅助编程工具的前沿。 在参与Copilot的工作之前,John在搜索引擎领域建立了令人印象深刻的职业生涯。他的多元化经验包括帮助开发美国专利局的下一代搜索系统,为 Eventbrite 构建搜索和推荐系统,并为 GitHub 的代码搜索基础设施做出贡献。John 还是《Relevant Search》(Manning)的共同作者,该书总结了他在搜索领域的专业知识。 John 在尖端人工智能应用和基础搜索技术方面的独特背景,使他处于LLM应用和信息检索创新的前沿。 Albert Ziegler 早在LLM应用成为主流之前,就开始设计以人工智能驱动的系统。作为 GitHub Copilot 的创始工程师,他设计了其提示工程系统,并帮助激发了一波 AI 驱动工具和“Copilot”应用程序的浪潮,塑造了开发者辅助和LLM应用程序的未来。 如今,Albert 继续在 AI 技术的前沿推动边界,担任 AI 网络安全公司 XBOW 的 AI 部门负责人。在那里,他领导将大语言模型与尖端安全应用结合的工作,致力于保护未来数字世界的安全。
军用数据链是作战数据传输的关键,是武器装备的神经系统,也是打赢未来信息化联合作战的基石,决定着整个作战体系的作战效能乃至作战成败。军用数据链本质上是一种通信系统,可实现不同武器装备系统或指控系统间高速标准化通讯。在信息规范上,数据链对消息格式进行了专门定义,在传输链路上,数据链实现了终端复用和传输提速。在俄乌战场上,乌方借助北约通用数据链弥补预警指挥平台不足的劣势,使其作战部队实现网络化作战,形成了强大协同作战能力。 对于军事装备来说,如果说雷达是眼睛,指挥系统是大脑,武器装备是肌肉,那么数据链就是将“眼睛”、“大脑”和“肌肉”相互连接起来的“神经”,而现代战争中信息化、智能化的“神经网络”则需要更快、更多、更宽的数据链路,以实现作战装备和决策中心的高效链接,依靠数据链构建数字化战场,才能达成真正意义上的协同化、智能化作战,大力建设全军互联互通数据链是实现联合作战的必由之路,是形成新质战斗力的必要举措。 “十四五”进入攻坚阶段,可以预见迎面而来的“十五五”,军事信息化将深入推进,军事智能化有望大放异彩。我们判断,国防建设将实现从聚焦硬实力到关注软实力的切换,数据链作为整合未来军队作战力量的黏合剂,将充分受益于新质作战装备建设及存量装备渗透率的提升。相关行业及业内公司正逐步显示出其内在价值,行业公司有望实现业绩的稳定、快速增长,赢得长期溢价。
数据链需求特点 战术数据链是指挥控制用关键链路,每次大规模放量均伴随标准化工作的落地,军种结构上由海军和空军主导,而陆军始终因为波形的统一问题仍需要更合适的组网规划;通用数据链是情报传递及无人机控制核心链路,在低空飞行器通信方面,采用5G通信存在覆盖范围小等问题,而采用数据链能够满足低空飞行中的通信速率及通信距离要求,具备较高应用潜力;专用数据链是各武器平台间通信的特有链路,为满足战场协同作战规划,多为平台组网后装需求,年间订单额存在一定波动。 ** 数据链产业链、竞争格局及发展特点** 数据链由战术数据链系统、加密解密设备、数据链终端设备以及收发设备四部分组成,其中数据链终端设备占据核心地位,数据链终端设备是射频、加密、基带处理等部分的集成产品,由各整机供应商完成抓总,数据链系统为数据链软件环节,涉及波形发生、仿真模拟及智慧决策等领域,而收发环节价值量占比最高,约占60%左右,收发环节主要构成部分为射频模块,类似于雷达射频系统。 产业链:我国数据链行业主要由军工集团主导,民企多参与配套。我国数据链全产业链供应商主要集中在军工集团内,民企参与较少,系统级供应商相关标的有七一二、上海瀚讯、海格通信及盟升电子;在射频组件领域,电科下属10、54所等具备自主供应能力,电科内部还有13、55所等专业化供应商,相关民企有新劲刚及雷电微力等;此外在加密领域有电科30所上市平台电科网安,主要参与民企为佳缘科技;在数据链系统领域有观想科技及坤恒顺维等。发展特点:数据链多规格小批量特点决定了综合毛利率的稳定性;数据链服务需求是平抑产品需求波动的有力保障;同时主机厂占据专用数据链主要份额,并向其他数据链领域延伸。