人类具有从原始感官输入(如视频和音频)中学习强大感知能力的非凡能力,并且几乎不需要监督。尽管在建模高层次认知功能(如语言理解与生成)方面取得了巨大的近期进展,但我们目前最先进的计算机视觉模型在学习感知和表征物理世界的效率和性能方面,远远落后于人类水平。它们通常需要大量的训练数据,并且这些数据需要昂贵的手工标注,任务特定的架构,以及即便在模型参数和训练数据规模增大的情况下,性能提升也非常有限。在本论文中,我们研究了如何从原始未标注的视频数据构建可扩展的通用感知系统的问题。核心思想是训练一个大规模的世界模型,基于视觉数据。预训练的世界模型根据当前状态和额外干预预测可能的未来世界状态。我们进一步展示了,可以利用预测器生成的预测结果,以零-shot(零样本)方式提取广泛的视觉结构——如关键点、光流、分割和深度信息。 本论文分为三部分,我们在其中探索了无需手工标注的新范式,用于训练可扩展的通用感知系统。第一部分,我们提出了通过利用视频中的运动作为自监督信号来学习结构化场景表示的新方法。第二部分,概述了一个用于在视频数据上预训练大规模世界模型的通用框架,这反过来使得通过统一架构和任务接口能够零-shot地提取不同的视觉结构。第三部分,进一步通过解决不确定性管理的关键挑战,提升了世界模型的性能。