动物和人类在构建世界的内部表征并利用它们来模拟、评估和选择不同可能的行动方面表现出非凡的能力。这种能力主要通过观察且没有任何监督地学习。赋予自主代理类似的能力是机器学习中的一个基本挑战。在本论文中,我将探索新的算法,这些算法能够通过预测从视频中进行可扩展的表征学习、视觉数据的生成模型及其在机器人领域的应用。
首先,我将讨论使用预测学习目标来学习视觉表征所面临的挑战。我将介绍一个简单的预测学习架构和目标,它能够学习视觉表征,以零样本的方式解决各种视觉对应任务。随后,我将提出一种基于变压器的通过扩散建模进行照片级视频生成的方法。我们的方法在统一的潜在空间内联合压缩图像和视频,从而实现跨模态的训练和生成。最后,我将说明生成模型在机器人学习中的实际应用。我们非自回归的、动作条件的视频生成模型可以作为世界模型,使具身代理能够使用视觉模型预测控制进行规划。此外,我将展示一个通过下一个标记预测训练的通用代理,该代理可以从各种机器人和任务中学习多样的机器人经验。
在过去五年里,机器学习领域取得了显著进展。特别是,基于自监督任务的下一个标记预测训练的大规模生成模型在自然语言处理方面展示了非凡的能力。这些大型语言模型(LLMs)已经改变了我们与数字世界的互动。从撰写电子邮件等简单任务到编写代码等复杂任务,LLMs 正日益融入我们的日常生活。
尽管大型语言模型取得了显著进步并被广泛应用,但这些系统仍存在显著的局限性。具体而言,尽管它们在大量数据上进行了训练,但缺乏快速获取新技能和知识的能力。此外,当前的语言模型对物理世界仅有表面的理解,缺乏推理、常识和长期规划的能力。这些能力对于开发自主视觉代理,如增强现实助手、自动驾驶汽车和通用机器人,都是至关重要的。
我们如何构建对物理世界有直观理解的自主代理?我们可以从人类和动物的学习方式中汲取灵感。尽管缺乏语言,动物表现出高度的智能。它们能够熟练处理高维视觉输入,具备常识,并能在多个时间跨度上进行规划和行动。动物通过无监督的方式发展这种对物理世界的直观理解,主要通过观察和相对较少的环境交互进行学习。1943 年 Kenneth Craik 提出的一种解释已经激励了长期以来的 AI 研究人员:“如果有机体在其头脑中携带一个‘小规模模型’的外部现实及其自身可能的行动,它就能够尝试各种选择,得出哪个是最好的,在未来情况发生之前做出反应,利用过去事件的知识处理现在和未来,并在每一种情况下以更充分、更安全和更能干的方式应对面临的紧急情况。”
为实现这一目标,在本论文中,我将展示一些学习算法和神经网络架构,使自主机器能够以无监督的方式学习物理世界的小规模模型,并使用该模型在现实世界中进行规划和行动。首先,我将介绍一个简单的预测学习架构和目标,它能够学习视觉表征,并以零样本的方式解决各种视觉对应任务。接下来,我将提出一个可扩展的基于注意力的架构,用于学习图像和视频的生成模型。最后,我将描述一些用于构建机器人学习生成模型的算法。我将展示一种新颖的非自回归、动作条件的视频生成模型,该模型可以作为世界模型,使机器人能够使用视觉模型预测控制进行规划。此外,我还将介绍一个通过下一个标记预测训练的通用代理,该代理能够从各种机器人和任务中学习多样的机器人经验。