理解世界还是预测未来？世界模型的综合综述

世界模型的概念因多模态大型语言模型（如GPT-4）和视频生成模型（如Sora）的进展而受到了广泛关注，这些技术在追求通用人工智能的过程中具有核心地位。本综述提供了关于世界模型文献的全面回顾。一般来说，世界模型被视为理解当前世界状态或预测其未来动态的工具。本综述系统地分类了世界模型，重点讨论了两个主要功能：（1）构建内部表征以理解世界的机制；（2）预测未来状态以模拟和指导决策。首先，我们回顾了这两个类别的当前进展。接着，我们探讨了世界模型在关键领域中的应用，包括自动驾驶、机器人技术和社会模拟，重点分析每个领域如何利用这些功能。最后，我们概述了关键挑战，并提供了未来研究方向的见解。

1 引言

科学界长期以来一直致力于开发一个统一的模型，以复制世界的基本动态，从而实现通用人工智能（AGI）[98]。2024年，多模态大型语言模型（LLMs）和Sora [130] 的出现，加剧了关于世界模型的讨论。尽管这些模型展示了捕捉世界知识方面的新能力——例如Sora生成的视频，似乎完美遵循物理定律——但关于它们是否真正符合全面世界模型的标准，仍然存在疑问。因此，对世界模型研究中近期进展、应用和未来方向的系统回顾，既是及时的，也是必要的，尤其是在人工智能时代迎来新的突破时。

世界模型的定义仍然是一个持续争论的话题，通常可以分为两个主要视角：理解世界和预测未来。如图1所示，Ha和Schmidhuber [59] 的早期工作专注于抽象化外部世界，以深入理解其内在机制。与此相对，LeCun [98] 认为，世界模型不仅应当感知和建模现实世界，还应具备展望可能未来状态的能力，从而为决策提供指导。像Sora这样的生成视频模型代表了一种更加侧重于模拟未来世界演变的方式，因此，它们与世界模型的预测性方面更为契合。这引发了一个问题：世界模型应优先理解当前世界，还是预测未来状态？本文将从这两个视角出发，提供关于世界模型文献的全面回顾，突出关键方法和挑战。

世界模型的潜在应用遍及多个领域，每个领域对理解能力和预测能力的要求各不相同。例如，在自动驾驶中，世界模型需要实时感知道路状况[195, 177]并准确预测其演变[127, 167, 241]，特别注重即时环境感知和复杂趋势的预测。在机器人技术中，世界模型对导航[160]、物体检测[183]和任务规划[62]等任务至关重要，需要精确理解外部动态[47]并能够生成交互式和具身的环境[132]。在虚拟社会系统模拟领域，世界模型必须捕捉和预测更为抽象的行为动态，例如社会互动和人类决策过程。因此，全面回顾这些能力的进展，并探索未来研究方向和趋势，是非常及时且必要的。

现有的世界模型综述大致可分为两类，如表1所示。第一类综述主要集中在描述世界模型在特定领域的应用，如视频处理与生成[23, 242]、自动驾驶[54, 100, 209]和基于代理的应用[242]。第二类综述[116]则侧重于多模态模型向世界模型的技术过渡，这些模型能够处理跨多种模态的数据。然而，这些论文往往缺乏对世界模型究竟是什么以及不同实际应用对这些模型的需求的系统性探讨。在本文中，我们旨在正式定义和分类世界模型，回顾近期的技术进展，并探索它们广泛的应用。

本综述的主要贡献如下：（1）我们提出了一种新的世界模型分类体系，围绕两个主要功能进行结构化：构建隐性表征以理解外部世界的机制，以及预测外部世界的未来状态。第一类主要关注开发学习并内化世界知识的模型，以支持随后的决策；而第二类则强调从视觉感知中增强对物理世界的预测和模拟能力。（2）基于这一分类体系，我们对自动驾驶、机器人和社会模拟等关键应用领域如何强调世界模型的不同方面进行了分类。（3）我们强调了能够适应更广泛实际应用的世界模型未来研究方向和趋势。

本文的其余部分安排如下：第二节介绍世界模型的背景，并提出我们的分类体系；第三节和第四节分别详细阐述了当前关于两类世界模型的研究进展；第五节介绍世界模型在三个关键研究领域中的应用；第六节概述了世界模型的开放问题和未来方向。

2 背景与分类

在本节中，我们探讨了世界模型概念在文献中的发展，并将构建世界模型的工作分为两个不同的分支：内部表征和未来预测。

世界模型的概念首次由Ha等人于2018年系统地引入人工智能领域[58, 59]。这篇文章将世界模型概念的起源追溯到1971年提出的“心理模型”[43]的心理学原理，该原理认为人类将外部世界抽象为简单元素及其相互关系，以此来感知世界。这个原理表明，从深层次的内部视角来看，我们对世界的描述通常涉及构建一种抽象表征，这种表征在不需要详细描述的情况下也足以表达世界。基于这一概念框架，作者引入了一个受人类认知系统启发的代理模型，如图1所示。在这个开创性的模型中，代理从现实世界环境中获取反馈，并将其转化为一系列输入来训练模型。该模型能够模拟特定行动后，外部环境可能发生的结果。本质上，它创建了对未来世界演变的心理模拟，基于对这些状态预测结果的决策进行行动。该方法与基于模型的强化学习（MBRL）方法非常相似，两个策略都涉及模型生成外部世界的内部表征。这些表征有助于在现实世界中进行导航和解决各种决策任务。

在2022年关于自主机器智能发展的远见性文章中[98]，Yann LeCun介绍了联合嵌入预测架构（JEPA），这是一个模仿人脑结构的框架。如图1所示，JEPA包括一个感知模块，处理感官数据，接着是一个认知模块，用于评估这些信息，从而有效地体现了世界模型。这个模型使大脑能够评估行动并确定最合适的应对措施，应用于现实世界。LeCun的框架之所以引人注目，是因为它融入了双系统概念，模仿了“快速”与“慢速”思维。系统1涉及直觉和本能反应：无需世界模型的快速决策，例如本能地躲避迎面而来的人。相反，系统2则采用深思熟虑的、经过计算的推理，考虑到世界的未来状态。它超越了即时的感官输入，模拟潜在的未来场景，比如预测房间里未来十分钟内可能发生的事件，并相应地调整行动。这种前瞻性思维要求构建一个世界模型，以有效地根据环境的预期动态和演变来指导决策。在这个框架中，世界模型对于理解和表征外部世界至关重要。它使用潜在变量来建模世界状态，捕捉关键信息，同时过滤掉冗余数据。这种方法使得世界的表征高度高效且极简，有助于在未来场景中做出最优决策和规划。

模型捕捉世界知识的能力对于它们在各种现实任务中的有效性至关重要。在2023年开始的关于大型语言模型（LLMs）的研究浪潮中，许多研究展示了潜在世界知识的存在。换句话说，这些模型捕捉了直观的知识，包括空间和时间理解，使它们能够对现实场景做出预测[57, 119]。此外，LLMs还能够通过认知地图对外部世界进行建模，近期的研究揭示了它们中嵌入的类脑结构[104]。这些模型甚至能够基于先前的经验预测未来事件，从而增强它们在现实情境中的效用和适用性。

上述世界模型主要代表了对外部世界的隐性理解。然而，在2024年2月，OpenAI推出了Sora模型[130]，这是一个被广泛认为是世界模拟器的视频生成模型。Sora输入现实世界的视觉数据，并输出预测未来世界演变的视频帧。值得注意的是，它展示了卓越的建模能力，例如在相机移动和旋转过程中保持3D视频模拟的一致性。它还能够生成物理上合理的结果，如在汉堡包上留下咬痕，并模拟数字环境，如渲染Minecraft游戏中的第一人称视角。这些能力表明，Sora不仅模仿了世界的外观，还在模拟场景中建模了真实世界的动态，专注于真实模拟动态世界的变化，而不仅仅是表示静态世界状态。

无论是专注于学习外部世界的内部表征，还是模拟其操作原理，这些概念都凝聚成一个共同的共识：世界模型的核心目的是理解世界的动态并预测未来的场景。从这个角度出发，我们对世界模型的近期进展进行了深入的审视，并从以下几个方面进行分析，如图1所示。 * 外部世界的隐性表征（第3节）：这一研究类别构建了环境变化的模型，以便做出更有根据的决策，最终目标是预测未来状态的演变。它通过将外部现实转化为潜在变量的模型来促进隐性理解。此外，随着大型语言模型（LLMs）的出现，传统决策任务中的努力得到了这些模型在世界知识描述能力上的显著提升。我们进一步关注将世界知识融入现有模型的进展。

外部世界的未来预测（第4节）：我们首先探讨了模拟外部世界的生成模型，主要使用视觉视频数据。这些工作强调了生成的视频与未来物理世界状态的真实性。随着近期研究将焦点转向开发真正互动的物理世界，我们进一步研究了从视觉到空间表征的过渡，以及从视频到具身环境的转变。这包括全面探讨与生成具身环境相关的研究，这些环境能够模拟外部世界。