摘要——视频生成技术近期取得显著进展,尤其在扩散模型快速发展的推动下。然而,这些技术在物理认知方面的缺陷逐渐引起广泛关注——生成内容常常违反基本物理定律,陷入"视觉逼真但物理荒谬"的困境。研究者日益认识到物理保真度在视频生成中的重要性,并尝试将运动表征和物理知识等启发式物理认知融入生成系统,以模拟真实世界动态场景。鉴于该领域缺乏系统性综述,本文旨在通过全面总结架构设计及其应用来填补这一空白。 具体而言,我们从认知科学视角梳理了视频生成中物理认知的演进过程,并提出三层分类体系:1)面向生成的基础图式感知;2)基于物理知识的被动认知生成;3)面向世界模拟的主动认知,涵盖前沿方法、经典范式与基准测试。随后,我们着重分析了该领域固有的关键挑战,并勾勒出未来研究的潜在路径,为推动学术界与工业界的讨论前沿做出贡献。通过结构化综述与跨学科分析,本文旨在为开发可解释、可控且物理一致的视频生成范式提供方向性指导,从而推动生成模型从"视觉模仿"阶段迈向"类人物理理解"的新阶段。本文研究的完整文献列表详见此处。 关键词——视频生成,物理认知,世界模型 https://arxiv.org/pdf/2503.21765
1.1 概述 近年来,视频生成任务取得了突破性进展[1]-[47]。这些基于海量真实视频数据训练的生成模型,能够根据多模态条件信号(如文本[48]-[53]、图像[54]-[58]或视频[59]-[62])生成时空连贯的视频序列。以Sora[1]、Kling[63]和HunyuanVideo[64]为代表的现有技术已展现出逼真的视觉质量、时间连续性及强大的提示跟随能力,并在视频定制化[30][32][62][65]、视频编辑[37][66]-[68]、视频超分辨率[69][70]等下游任务中取得显著成功。更重要的是,通过指令微调[79]、上下文学习[80]、规划[81]和强化学习[82]等技术,视频生成正日益应用于游戏[2][71][72]、机器人[73][74]、自动驾驶[75]-[77]和科学研究[78]等领域,在通用人工智能(AGI)发展中扮演关键角色。 如Yang等[83]所述,视频生成模型正像语言模型一样,逐步进化为自主智能体、规划器、环境模拟器和计算引擎,最终有望成为能在物理世界中进行推理与行动的"人工大脑"。 然而研究表明[84]-[86],这些模型在处理复杂动态场景时往往表现出显著的物理认知缺陷。如图1所示,生成结果在刚体碰撞、流体力学或弹性变形等场景中常违反牛顿力学、动量守恒和能量守恒等基本物理定律,产生"视觉逼真但物理荒谬"的内容。这些矛盾凸显了视频生成模型在物理认知建模方面的瓶颈,可能对机器人、自动驾驶等AI应用产生重大负面影响。 因此,视频生成中的物理认知研究正受到学界与业界的广泛关注[88]-[90]。最新进展包括将运动驱动生成、物理模拟器与基于3D表征的渲染等技术系统性地融入生成架构。随着该领域的快速发展,对最新研究成果的追踪与比较变得尤为重要。然而现有综述多局限于通用AIGC领域[91][92]或较少聚焦视频生成[93]。为此,本综述旨在填补这一空白,为读者梳理视频生成中物理认知研究的完整发展脉络。 为增强视频生成模型的物理可解释性,强化其作为"人工大脑"在物理世界中的类人推理与行动能力[83],我们借鉴人类物理认知机制,将视频生成中的物理认知系统性地划分为:1)基于基础图式感知的生成;2)基于物理知识被动认知的生成;3)面向世界模拟的主动认知。通过这种认知驱动的解决方案,我们期望突破视频生成中长期存在的"物理嵌入瓶颈"。 1.2 分类体系 人类认知系统的发展呈现明显的阶段性特征,这种螺旋式演进机制包括"直觉感知-符号学习-交互"三个阶段(图2)。在初始阶段(如婴儿期),个体通过原始感知图式建立对物理现实的直觉认知(如客体永存性),但这种认知是混沌的;在进阶阶段,个体开始通过观察和符号学习被动获取物理知识(如观察苹果下落或记忆牛顿定律);在高级认知阶段,人类发展出主动推理和预测物理现象的能力,并通过与环境互动持续完善认知模型。 当代视频生成系统与这种人类物理认知轨迹存在深刻映射。我们据此建立生成系统中物理认知建模的演进框架(图5),将前沿研究系统划分为三大关键领域: • 基础图式感知生成(第4节):探讨视频/运动生成模型如何整合基础运动模式来增强动态场景一致性,包括重照明技术和零样本自引导生成方法; • 物理知识被动认知生成(第5节):系统回顾将物理知识嵌入生成模型的各种机制,展示这种认知基础如何提升生成内容的物理可解释性与一致性; • 世界模拟主动认知(第6节):研究通过环境主动交互预测未来的生成模型,揭示该方法如何有效弥合视频生成器与现实物理动力学间的鸿沟。 最后,我们讨论了现有物理评估基准,并指出待解挑战:大规模基础物理模型构建、世界模拟器的物理保真度提升、多传感器数据融合、物理模拟效率优化、数据稀缺与Sim2Real差距、物理质量评估等。 1.3 结构安排 本综述的结构如图5所示:第1章阐述物理保真度的重要性与分类标准;第3章介绍物理常识、主流生成模型和物理模拟器等基础知识;第4-6章详述视频生成物理认知的演进:第4章讨论基于视频/运动信号的开环生成方法;第5章聚焦符号知识嵌入的被动认知生成;第6章探究多模态数据驱动、空间感知和外部反馈等环境交互机制;第7章梳理现有物理合理性评估基准;第8章探讨当前挑战与未来方向;第9章总结全文贡献。