视频生成领域的研究格局正在发生深刻转变:其重点正从生成视觉上令人愉悦的短片,转向构建能够支持交互并保持物理合理性的虚拟环境。这一趋势预示着视频基础模型(video foundation models)的出现——它们不仅仅是视觉生成器,更是隐式世界模型(implicit world models),能够模拟真实或想象世界中的物理动态、智能体–环境交互及任务规划。 本综述系统地梳理了这一演化过程,并将现代视频基础模型概念化为由两个核心组成部分构成的体系:隐式世界模型视频渲染器(video renderer)。 * 世界模型编码关于世界的结构化知识,包括物理规律、交互动态以及智能体行为。它充当潜在的仿真引擎,使模型具备一致的视觉推理、长期时间一致性以及目标驱动的规划能力。 * 视频渲染器则将这种潜在仿真转换为逼真的视觉观测,从而生成视频,作为通往被模拟世界的“窗口”。

我们将视频生成的发展划分为四个世代(generations),每一代都在核心能力上实现了逐步跃升,最终演化为以视频生成模型为基础、同时具备内在物理合理性、实时多模态交互与跨时空尺度规划能力的世界模型。对于每一代,我们定义其核心特征,介绍代表性工作,并探讨其在机器人学、自动驾驶、交互式游戏等领域的应用。 最后,我们讨论了下一代世界模型面临的开放挑战设计原则,特别强调了**智能体智能(agent intelligence)**在塑造和评估这些系统中的关键作用。 关键词:世界模型(World Model),视频生成(Video Generation),条件视频生成(Conditioned Video Generation)

1 引言

1.1 研究动机(Motivation)

世界模型(World Models)旨在模拟真实世界,这一目标长期以来一直是人工智能领域的重要挑战,对机器人、自动驾驶和游戏等多种应用产生了深远影响。虽然构建世界模型所需的具体能力尚未被精确定义,但诸如 三维生成(3D generation) [1–3]、三维/四维场景生成(3D/4D scene generation) 以及 视频生成(video generation) 等研究方向,均展现出与世界建模相关的一项或多项关键能力,例如:运动动力学(motion dynamics)、交互性与可控性(interaction and controllability)、视觉质量(visual quality)、三维一致性(3D consistency)以及生成效率(generation efficiency)。因此,这些方向被视为通往世界模型的重要潜在路径。 尽管各类方法在世界建模的部分能力上各有优势,但视频生成提供了一条更直接且全面的途径,有望成为构建世界模型的有力工具。从认知科学角度看,视觉是人类及具身智能体(embodied agents)感知、学习与推理世界的主导感知通道。视觉流不仅传递空间结构与物体属性,还编码时间动态与因果关系,这些信息对于预测与规划至关重要。即便是复杂的 3D 或 4D 模拟,也可以以视频或图像的形式进行渲染与理解,这意味着人类与智能体均依赖视觉序列来建立对世界的理解。这种对视觉表征的内在依赖,使视频生成成为构建世界模型的天然且信息丰富的基础。 近年来,端到端视频生成的重大进展表明,这类模型已能充当高质量的视觉渲染器,从而支持以视频为核心的世界建模探索。随着扩散模型(diffusion models) [4–7] 与 自回归Transformer(autoregressive transformers) [8–10] 技术的突破,生成具备基础世界知识的高保真视频已成为可能。基于这些主干的当前方法 [11–27] 已能生成长时序、高质量的视频,在视觉层面具备高度真实感,从而能够高保真地模拟现实环境并融合多模态条件信号。因此,将视频生成模型视为世界模型的趋势日益显著。 在本综述中,我们将物理世界模型(physical world model)定义为一种复杂的数字引擎,它编码全面的世界知识,以符合物理与数学规律的方式模拟真实世界动态。此类模型既可作为推动机器人、自动驾驶和游戏等领域发展的高保真仿真器,也可作为受控的实验环境,用于在真实但安全的条件下训练和评估智能体。此外,通过建模物理世界,它们还能支持基于物理的工程、关键决策及其他现实任务。 近期的视频生成突破 [11–13, 15, 17, 18, 21–37],源于扩散模型 [38–47]、自回归骨干网络 [48]、变分自编码器(VAE) [49, 50]、图像生成技术 [35, 51–59]、可控图像生成 [60, 61]、以及训练与推理效率提升 [62–72] 的进步;再加上更灵活的条件注入模块 [73, 74] 与视频渲染 [75] 的增强,共同标志着该领域的关键转折点。这些模型如今能够生成植根于世界知识的高质量视频,并开始在构建世界模型中扮演核心角色。同时,随着虚拟现实(VR)具身智能(Embodied AI)等技术的快速发展,将世界模型集成至交互式、实时环境中已愈发可行。这些技术趋势与视频生成方法的成熟共同表明,我们正处于一个新时代的门槛上——世界模型将成为塑造自主系统、智能体与沉浸式虚拟环境的核心基础。这一趋势在图2中得到进一步印证:自2018年以来,尽管“世界模型”话题在论文中时有出现,但其发表数量较为平稳;而自2024年起,视频生成在技术突破与相关研究数量上均出现爆发式增长,从而催生了新一轮的世界模型研究热潮。这一模式凸显了视频生成与世界建模之间的共演关系(co-evolution):视频生成的快速进展不仅是平行发展,而是世界模型演化的关键驱动因素。因此,现在正是系统性探讨从视频生成到世界建模演进的最佳时机。 尽管取得了显著进展,但在概念层面结构层面仍存在诸多挑战。概念上,“世界模型”的定义仍较模糊,难以统一视角并有效衡量进展;结构上,领域中缺乏完善的能力分类体系,用以组织建模能力、发展阶段及潜在演化路径。因此,迫切需要系统化的阐释与综述性研究,以整合已有成果并指引未来方向。当前的综述工作 [76–88] 已在方法、数据集与应用层面打下基础,但仍亟需明确哪些方面已被充分探索,哪些领域(如实时集成、可控的视频到世界生成管线、综合评估指标等)仍相对空白。基于此,本综述旨在描绘从视频生成迈向全面世界建模的清晰路线,为未来研究与开发提供方向指导。 本文首先给出形式化定义,并围绕世界模型的分类体系(taxonomy)展开详细讨论。我们将物理世界模型定义为一种嵌入全面世界知识的数字仿真引擎,能够基于环境状态与上下文先验预测下一个场景。每一步预测可表示为三元组:(当前场景 Current Scene, 导航模式 Navigation Mode, 先验信息 Prior Information)(\text{当前场景 Current Scene},\ \text{导航模式 Navigation Mode},\ \text{先验信息 Prior Information})(当前场景 Current Scene, 导航模式 Navigation Mode, 先验信息 Prior Information) 三者共同决定了模拟环境的演化。模型重点捕捉物理环境的因果与时空动态,而外部输入(如导航模式或动作)则作为扰动信号影响环境演化。因此,世界模型可视为一个交互式环境系统(interactive environment system),它响应外部干预,但不显式建模产生这些干预的决策过程。基于此定义,我们系统分析了视频生成模型向世界建模演化的历程,并提出按模型能力划分的四代分类体系(如图1所示): * 第一代:真实性(Faithfulness)——准确模拟真实世界; * 第二代:交互性(Interactiveness)——具备可控性与交互动态; * 第三代:规划性(Planning)——建模复杂系统的未来演化; * 第四代:随机性(Stochasticity)——刻画异常与低概率事件。

我们进一步基于基础模型能力、导航模式类型、应用领域及条件控制策略对现有方法进行分类与分析。这一视角有助于澄清导航信号如何影响视频生成,以及何种架构设计最适合不同的世界建模任务。明确的代际划分也为系统评估世界建模进展提供了框架,并揭示当前视频生成系统与理想世界模型之间的差距。

我们的主要贡献包括:

全球化的世界模型分类体系: 提出基于模型核心能力(真实性、交互性、规划性)的四代分类法,系统刻画视频生成向世界模型的演进过程; * 世界模型定义的澄清: 将核心任务定义为下一场景视频预测(next-scene video prediction),并通过形式化方程刻画输入、内部状态与输出间的映射关系; * 导航模式的形式化定义: 明确导航模式的范围与特征,并与空间条件区分,避免概念重叠; * 未来展望: 讨论视频生成模型演化为完整世界模型所需的关键能力,并提出未来研究方向的思考。


1.2 定位(Position)

传统上,世界模型 [89, 90] 被视为帮助智能体(AI agents)感知并与环境交互的工具,其灵感多源于人类认知与“常识”推理。本文参考 Huang 在其博客 [91] 中提出的区分,将世界模型分为两个互补维度:物理轴(physical axis)心理轴(mental axis)。前者强调外部动态,后者强调内部模拟与意图建模。 从这一视角出发,物理世界模型(physical world model)代表一种更基础、更宏观的概念化形式,旨在捕捉物理世界的演化与内在规律;而心理世界模型(mental world model) [92–95] 可视为高阶物理世界模型中出现的认知框架,用于表征智能体的内部状态、意图与偏好。 哲学上,这一区分对应了“主观唯心主义(subjective idealism)”与“机械唯物主义(mechanistic materialism)”之间的经典争论。物理世界模型与后者一致,试图以客观、不变的物理规律解释世界,关注独立于主体感知的外部动态;而心理世界模型则体现主观视角,强调感知与意图对智能体理解世界的塑造作用。 在能力需求上,物理世界模型注重对现实物理规律的遵循、基于内在世界知识的交互,以及建立在客观动态上的规划能力;而心理世界模型则强调语义理解、主动交互与反事实推理(counterfactual reasoning),使其更具类人思维特征。由于两者在本质上存在差异,本文在定义中明确将心理世界模型排除在物理世界模型之外,并清晰界定物理世界模型的范围与能力。


1.3 范围(Scope)

本综述聚焦于推动视频生成模型向世界模型演化的方法。基于视频生成的世界模型旨在获取结构化的世界知识,以提升智能体的感知、推理与规划能力。我们将世界模型视为一种多模态感知–交互–预测系统(multimodal perceptual, interactive, and predictive system),能够捕捉环境的潜在动态、空间结构与语义信息。 这些表征可支持广泛的下游任务,包括(但不限于):视觉规划(visual planning)、反事实推理(counterfactual reasoning)、新场景泛化(generalization to novel scenarios)以及跨模态理解(cross-modal understanding),从而增强智能体性能并促进与物理相关的研究。此外,强大的世界知识表征在更广泛的应用领域中仍具有巨大潜力,值得持续探索。

成为VIP会员查看完整内容
1

相关内容

人工智能(Artificial Intelligence, AI )是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。 人工智能是计算机科学的一个分支。
《可控视频生成:综述》
专知会员服务
17+阅读 · 7月24日
《大型推理模型的安全性:综述》
专知会员服务
24+阅读 · 4月25日
《数字孪生对军事情报的影响:视角与机遇》
专知会员服务
33+阅读 · 2024年12月8日
《数字孪生的未来:对国家安全的挑战和影响》
专知会员服务
33+阅读 · 2024年7月11日
《军事域可解释人工智能》
专知会员服务
55+阅读 · 2024年7月4日
《未来战争与人工智能:可见之路》52页报告
专知会员服务
86+阅读 · 2024年5月12日
《生成式人工智能模型:机遇与风险》
专知会员服务
77+阅读 · 2024年4月22日
《互联战场:军事物联网正在兴起》
专知会员服务
65+阅读 · 2023年12月19日
《人工智能在军事武器系统中的崛起》
专知会员服务
153+阅读 · 2023年3月21日
【硬核书】数据科学,282页pdf
专知
26+阅读 · 2022年11月29日
【2022新书】生命科学的数据分析,511页pdf
专知
14+阅读 · 2022年11月15日
【KDD2020】图神经网络:基础与应用,322页ppt
多模态深度学习综述,18页pdf
专知
50+阅读 · 2020年3月29日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2009年12月31日
A Survey of Large Language Models
Arxiv
489+阅读 · 2023年3月31日
Arxiv
25+阅读 · 2023年3月17日
VIP会员
相关VIP内容
《可控视频生成:综述》
专知会员服务
17+阅读 · 7月24日
《大型推理模型的安全性:综述》
专知会员服务
24+阅读 · 4月25日
《数字孪生对军事情报的影响:视角与机遇》
专知会员服务
33+阅读 · 2024年12月8日
《数字孪生的未来:对国家安全的挑战和影响》
专知会员服务
33+阅读 · 2024年7月11日
《军事域可解释人工智能》
专知会员服务
55+阅读 · 2024年7月4日
《未来战争与人工智能:可见之路》52页报告
专知会员服务
86+阅读 · 2024年5月12日
《生成式人工智能模型:机遇与风险》
专知会员服务
77+阅读 · 2024年4月22日
《互联战场:军事物联网正在兴起》
专知会员服务
65+阅读 · 2023年12月19日
《人工智能在军事武器系统中的崛起》
专知会员服务
153+阅读 · 2023年3月21日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员