视频生成中的物理认知演进探究：一项综述

摘要——视频生成技术近期取得显著进展，尤其在扩散模型快速发展的推动下。然而，这些技术在物理认知方面的缺陷逐渐引起广泛关注——生成内容常常违反基本物理定律，陷入"视觉逼真但物理荒谬"的困境。研究者日益认识到物理保真度在视频生成中的重要性，并尝试将运动表征和物理知识等启发式物理认知融入生成系统，以模拟真实世界动态场景。鉴于该领域缺乏系统性综述，本文旨在通过全面总结架构设计及其应用来填补这一空白。具体而言，我们从认知科学视角梳理了视频生成中物理认知的演进过程，并提出三层分类体系：1）面向生成的基础图式感知；2）基于物理知识的被动认知生成；3）面向世界模拟的主动认知，涵盖前沿方法、经典范式与基准测试。随后，我们着重分析了该领域固有的关键挑战，并勾勒出未来研究的潜在路径，为推动学术界与工业界的讨论前沿做出贡献。通过结构化综述与跨学科分析，本文旨在为开发可解释、可控且物理一致的视频生成范式提供方向性指导，从而推动生成模型从"视觉模仿"阶段迈向"类人物理理解"的新阶段。本文研究的完整文献列表详见此处。关键词——视频生成，物理认知，世界模型 https://arxiv.org/pdf/2503.21765

1.1 概述近年来，视频生成任务取得了突破性进展[1]-[47]。这些基于海量真实视频数据训练的生成模型，能够根据多模态条件信号（如文本[48]-[53]、图像[54]-[58]或视频[59]-[62]）生成时空连贯的视频序列。以Sora[1]、Kling[63]和HunyuanVideo[64]为代表的现有技术已展现出逼真的视觉质量、时间连续性及强大的提示跟随能力，并在视频定制化[30][32][62][65]、视频编辑[37][66]-[68]、视频超分辨率[69][70]等下游任务中取得显著成功。更重要的是，通过指令微调[79]、上下文学习[80]、规划[81]和强化学习[82]等技术，视频生成正日益应用于游戏[2][71][72]、机器人[73][74]、自动驾驶[75]-[77]和科学研究[78]等领域，在通用人工智能（AGI）发展中扮演关键角色。如Yang等[83]所述，视频生成模型正像语言模型一样，逐步进化为自主智能体、规划器、环境模拟器和计算引擎，最终有望成为能在物理世界中进行推理与行动的"人工大脑"。然而研究表明[84]-[86]，这些模型在处理复杂动态场景时往往表现出显著的物理认知缺陷。如图1所示，生成结果在刚体碰撞、流体力学或弹性变形等场景中常违反牛顿力学、动量守恒和能量守恒等基本物理定律，产生"视觉逼真但物理荒谬"的内容。这些矛盾凸显了视频生成模型在物理认知建模方面的瓶颈，可能对机器人、自动驾驶等AI应用产生重大负面影响。因此，视频生成中的物理认知研究正受到学界与业界的广泛关注[88]-[90]。最新进展包括将运动驱动生成、物理模拟器与基于3D表征的渲染等技术系统性地融入生成架构。随着该领域的快速发展，对最新研究成果的追踪与比较变得尤为重要。然而现有综述多局限于通用AIGC领域[91][92]或较少聚焦视频生成[93]。为此，本综述旨在填补这一空白，为读者梳理视频生成中物理认知研究的完整发展脉络。为增强视频生成模型的物理可解释性，强化其作为"人工大脑"在物理世界中的类人推理与行动能力[83]，我们借鉴人类物理认知机制，将视频生成中的物理认知系统性地划分为：1）基于基础图式感知的生成；2）基于物理知识被动认知的生成；3）面向世界模拟的主动认知。通过这种认知驱动的解决方案，我们期望突破视频生成中长期存在的"物理嵌入瓶颈"。 1.2 分类体系人类认知系统的发展呈现明显的阶段性特征，这种螺旋式演进机制包括"直觉感知-符号学习-交互"三个阶段（图2）。在初始阶段（如婴儿期），个体通过原始感知图式建立对物理现实的直觉认知（如客体永存性），但这种认知是混沌的；在进阶阶段，个体开始通过观察和符号学习被动获取物理知识（如观察苹果下落或记忆牛顿定律）；在高级认知阶段，人类发展出主动推理和预测物理现象的能力，并通过与环境互动持续完善认知模型。当代视频生成系统与这种人类物理认知轨迹存在深刻映射。我们据此建立生成系统中物理认知建模的演进框架（图5），将前沿研究系统划分为三大关键领域： • 基础图式感知生成（第4节）：探讨视频/运动生成模型如何整合基础运动模式来增强动态场景一致性，包括重照明技术和零样本自引导生成方法； • 物理知识被动认知生成（第5节）：系统回顾将物理知识嵌入生成模型的各种机制，展示这种认知基础如何提升生成内容的物理可解释性与一致性； • 世界模拟主动认知（第6节）：研究通过环境主动交互预测未来的生成模型，揭示该方法如何有效弥合视频生成器与现实物理动力学间的鸿沟。最后，我们讨论了现有物理评估基准，并指出待解挑战：大规模基础物理模型构建、世界模拟器的物理保真度提升、多传感器数据融合、物理模拟效率优化、数据稀缺与Sim2Real差距、物理质量评估等。 1.3 结构安排本综述的结构如图5所示：第1章阐述物理保真度的重要性与分类标准；第3章介绍物理常识、主流生成模型和物理模拟器等基础知识；第4-6章详述视频生成物理认知的演进：第4章讨论基于视频/运动信号的开环生成方法；第5章聚焦符号知识嵌入的被动认知生成；第6章探究多模态数据驱动、空间感知和外部反馈等环境交互机制；第7章梳理现有物理合理性评估基准；第8章探讨当前挑战与未来方向；第9章总结全文贡献。