摘要——视频生成技术近期取得显著进展,尤其在扩散模型快速发展的推动下。然而,这些技术在物理认知方面的缺陷逐渐引起广泛关注——生成内容常常违反基本物理定律,陷入"视觉逼真但物理荒谬"的困境。研究者日益认识到物理保真度在视频生成中的重要性,并尝试将运动表征和物理知识等启发式物理认知融入生成系统,以模拟真实世界动态场景。鉴于该领域缺乏系统性综述,本文旨在通过全面总结架构设计及其应用来填补这一空白。 具体而言,我们从认知科学视角梳理了视频生成中物理认知的演进过程,并提出三层分类体系:1)面向生成的基础图式感知;2)基于物理知识的被动认知生成;3)面向世界模拟的主动认知,涵盖前沿方法、经典范式与基准测试。随后,我们着重分析了该领域固有的关键挑战,并勾勒出未来研究的潜在路径,为推动学术界与工业界的讨论前沿做出贡献。通过结构化综述与跨学科分析,本文旨在为开发可解释、可控且物理一致的视频生成范式提供方向性指导,从而推动生成模型从"视觉模仿"阶段迈向"类人物理理解"的新阶段。本文研究的完整文献列表详见此处。 关键词——视频生成,物理认知,世界模型 https://arxiv.org/pdf/2503.21765

1.1 概述 近年来,视频生成任务取得了突破性进展[1]-[47]。这些基于海量真实视频数据训练的生成模型,能够根据多模态条件信号(如文本[48]-[53]、图像[54]-[58]或视频[59]-[62])生成时空连贯的视频序列。以Sora[1]、Kling[63]和HunyuanVideo[64]为代表的现有技术已展现出逼真的视觉质量、时间连续性及强大的提示跟随能力,并在视频定制化[30][32][62][65]、视频编辑[37][66]-[68]、视频超分辨率[69][70]等下游任务中取得显著成功。更重要的是,通过指令微调[79]、上下文学习[80]、规划[81]和强化学习[82]等技术,视频生成正日益应用于游戏[2][71][72]、机器人[73][74]、自动驾驶[75]-[77]和科学研究[78]等领域,在通用人工智能(AGI)发展中扮演关键角色。 如Yang等[83]所述,视频生成模型正像语言模型一样,逐步进化为自主智能体、规划器、环境模拟器和计算引擎,最终有望成为能在物理世界中进行推理与行动的"人工大脑"。 然而研究表明[84]-[86],这些模型在处理复杂动态场景时往往表现出显著的物理认知缺陷。如图1所示,生成结果在刚体碰撞、流体力学或弹性变形等场景中常违反牛顿力学、动量守恒和能量守恒等基本物理定律,产生"视觉逼真但物理荒谬"的内容。这些矛盾凸显了视频生成模型在物理认知建模方面的瓶颈,可能对机器人、自动驾驶等AI应用产生重大负面影响。 因此,视频生成中的物理认知研究正受到学界与业界的广泛关注[88]-[90]。最新进展包括将运动驱动生成、物理模拟器与基于3D表征的渲染等技术系统性地融入生成架构。随着该领域的快速发展,对最新研究成果的追踪与比较变得尤为重要。然而现有综述多局限于通用AIGC领域[91][92]或较少聚焦视频生成[93]。为此,本综述旨在填补这一空白,为读者梳理视频生成中物理认知研究的完整发展脉络。 为增强视频生成模型的物理可解释性,强化其作为"人工大脑"在物理世界中的类人推理与行动能力[83],我们借鉴人类物理认知机制,将视频生成中的物理认知系统性地划分为:1)基于基础图式感知的生成;2)基于物理知识被动认知的生成;3)面向世界模拟的主动认知。通过这种认知驱动的解决方案,我们期望突破视频生成中长期存在的"物理嵌入瓶颈"。 1.2 分类体系 人类认知系统的发展呈现明显的阶段性特征,这种螺旋式演进机制包括"直觉感知-符号学习-交互"三个阶段(图2)。在初始阶段(如婴儿期),个体通过原始感知图式建立对物理现实的直觉认知(如客体永存性),但这种认知是混沌的;在进阶阶段,个体开始通过观察和符号学习被动获取物理知识(如观察苹果下落或记忆牛顿定律);在高级认知阶段,人类发展出主动推理和预测物理现象的能力,并通过与环境互动持续完善认知模型。 当代视频生成系统与这种人类物理认知轨迹存在深刻映射。我们据此建立生成系统中物理认知建模的演进框架(图5),将前沿研究系统划分为三大关键领域: • 基础图式感知生成(第4节):探讨视频/运动生成模型如何整合基础运动模式来增强动态场景一致性,包括重照明技术和零样本自引导生成方法; • 物理知识被动认知生成(第5节):系统回顾将物理知识嵌入生成模型的各种机制,展示这种认知基础如何提升生成内容的物理可解释性与一致性; • 世界模拟主动认知(第6节):研究通过环境主动交互预测未来的生成模型,揭示该方法如何有效弥合视频生成器与现实物理动力学间的鸿沟。 最后,我们讨论了现有物理评估基准,并指出待解挑战:大规模基础物理模型构建、世界模拟器的物理保真度提升、多传感器数据融合、物理模拟效率优化、数据稀缺与Sim2Real差距、物理质量评估等。 1.3 结构安排 本综述的结构如图5所示:第1章阐述物理保真度的重要性与分类标准;第3章介绍物理常识、主流生成模型和物理模拟器等基础知识;第4-6章详述视频生成物理认知的演进:第4章讨论基于视频/运动信号的开环生成方法;第5章聚焦符号知识嵌入的被动认知生成;第6章探究多模态数据驱动、空间感知和外部反馈等环境交互机制;第7章梳理现有物理合理性评估基准;第8章探讨当前挑战与未来方向;第9章总结全文贡献。

成为VIP会员查看完整内容
11

相关内容

模拟真实世界:多模态生成模型的统一综述
专知会员服务
29+阅读 · 3月7日
基于深度生成模型的个性化图像生成:十年综述
专知会员服务
18+阅读 · 2月19日
视觉中的生成物理人工智能:综述
专知会员服务
31+阅读 · 1月26日
大规模语言模型智能体的终身学习:发展路线图
专知会员服务
34+阅读 · 1月16日
跨多种数据模态的视觉目标跟踪:综述
专知会员服务
27+阅读 · 2024年12月16日
迈向可控语音合成:大语言模型时代的综述
专知会员服务
23+阅读 · 2024年12月13日
《遥感时序视觉语言模型》全面综述
专知会员服务
26+阅读 · 2024年12月4日
机器人中的三维高斯溅射:综述
专知会员服务
25+阅读 · 2024年10月17日
检索增强生成系统中的可信度:综述
专知会员服务
40+阅读 · 2024年9月18日
机器人中的深度生成模型:多模态演示学习的综述
专知会员服务
37+阅读 · 2024年8月9日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
实体关系抽取方法研究综述
专知
11+阅读 · 2020年7月19日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
图神经网络综述:模型与应用
PaperWeekly
197+阅读 · 2018年12月26日
基于深度学习的目标检测算法综述
AI研习社
14+阅读 · 2018年4月25日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
165+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
447+阅读 · 2023年3月31日
Arxiv
75+阅读 · 2023年3月26日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关VIP内容
模拟真实世界:多模态生成模型的统一综述
专知会员服务
29+阅读 · 3月7日
基于深度生成模型的个性化图像生成:十年综述
专知会员服务
18+阅读 · 2月19日
视觉中的生成物理人工智能:综述
专知会员服务
31+阅读 · 1月26日
大规模语言模型智能体的终身学习:发展路线图
专知会员服务
34+阅读 · 1月16日
跨多种数据模态的视觉目标跟踪:综述
专知会员服务
27+阅读 · 2024年12月16日
迈向可控语音合成:大语言模型时代的综述
专知会员服务
23+阅读 · 2024年12月13日
《遥感时序视觉语言模型》全面综述
专知会员服务
26+阅读 · 2024年12月4日
机器人中的三维高斯溅射:综述
专知会员服务
25+阅读 · 2024年10月17日
检索增强生成系统中的可信度:综述
专知会员服务
40+阅读 · 2024年9月18日
机器人中的深度生成模型:多模态演示学习的综述
专知会员服务
37+阅读 · 2024年8月9日
相关资讯
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员