【斯坦福博士论文】生成模型的视觉与行为

动物和人类在构建世界的内部表征并利用它们来模拟、评估和选择不同可能的行动方面表现出非凡的能力。这种能力主要通过观察且没有任何监督地学习。赋予自主代理类似的能力是机器学习中的一个基本挑战。在本论文中，我将探索新的算法，这些算法能够通过预测从视频中进行可扩展的表征学习、视觉数据的生成模型及其在机器人领域的应用。

首先，我将讨论使用预测学习目标来学习视觉表征所面临的挑战。我将介绍一个简单的预测学习架构和目标，它能够学习视觉表征，以零样本的方式解决各种视觉对应任务。随后，我将提出一种基于变压器的通过扩散建模进行照片级视频生成的方法。我们的方法在统一的潜在空间内联合压缩图像和视频，从而实现跨模态的训练和生成。最后，我将说明生成模型在机器人学习中的实际应用。我们非自回归的、动作条件的视频生成模型可以作为世界模型，使具身代理能够使用视觉模型预测控制进行规划。此外，我将展示一个通过下一个标记预测训练的通用代理，该代理可以从各种机器人和任务中学习多样的机器人经验。

在过去五年里，机器学习领域取得了显著进展。特别是，基于自监督任务的下一个标记预测训练的大规模生成模型在自然语言处理方面展示了非凡的能力。这些大型语言模型（LLMs）已经改变了我们与数字世界的互动。从撰写电子邮件等简单任务到编写代码等复杂任务，LLMs 正日益融入我们的日常生活。

尽管大型语言模型取得了显著进步并被广泛应用，但这些系统仍存在显著的局限性。具体而言，尽管它们在大量数据上进行了训练，但缺乏快速获取新技能和知识的能力。此外，当前的语言模型对物理世界仅有表面的理解，缺乏推理、常识和长期规划的能力。这些能力对于开发自主视觉代理，如增强现实助手、自动驾驶汽车和通用机器人，都是至关重要的。

我们如何构建对物理世界有直观理解的自主代理？我们可以从人类和动物的学习方式中汲取灵感。尽管缺乏语言，动物表现出高度的智能。它们能够熟练处理高维视觉输入，具备常识，并能在多个时间跨度上进行规划和行动。动物通过无监督的方式发展这种对物理世界的直观理解，主要通过观察和相对较少的环境交互进行学习。1943 年 Kenneth Craik 提出的一种解释已经激励了长期以来的 AI 研究人员：“如果有机体在其头脑中携带一个‘小规模模型’的外部现实及其自身可能的行动，它就能够尝试各种选择，得出哪个是最好的，在未来情况发生之前做出反应，利用过去事件的知识处理现在和未来，并在每一种情况下以更充分、更安全和更能干的方式应对面临的紧急情况。”

为实现这一目标，在本论文中，我将展示一些学习算法和神经网络架构，使自主机器能够以无监督的方式学习物理世界的小规模模型，并使用该模型在现实世界中进行规划和行动。首先，我将介绍一个简单的预测学习架构和目标，它能够学习视觉表征，并以零样本的方式解决各种视觉对应任务。接下来，我将提出一个可扩展的基于注意力的架构，用于学习图像和视频的生成模型。最后，我将描述一些用于构建机器人学习生成模型的算法。我将展示一种新颖的非自回归、动作条件的视频生成模型，该模型可以作为世界模型，使机器人能够使用视觉模型预测控制进行规划。此外，我还将介绍一个通过下一个标记预测训练的通用代理，该代理能够从各种机器人和任务中学习多样的机器人经验。

成为VIP会员查看完整内容

相关内容

斯坦福大学 (Stanford University)

关注 75

斯坦福大学（StanfordUniversity）位于加利福尼亚州，临近旧金山，占地35平方公里，是美国面积第二大的大学。它被公认为世界上最杰出的大学之一，相比美国东部的常春藤盟校，特别是哈佛大学、耶鲁大学，斯坦福大学虽然历史较短，但无论是学术水准还是其他方面都能与常春藤名校相抗衡。斯坦福大学企业管理研究所和法学院在美国是数一数二的，美国最高法院的9个大法官，有6个是从斯坦福大学的法学院毕业的。

【伯克利博士论文】大型语言模型:迈向能够学习和发现一切的机器

专知会员服务

42+阅读 · 2024年9月8日

【普林斯顿博士论文】语言智能体: 从下一词元预测到数字自动化

专知会员服务

38+阅读 · 2024年5月14日

【剑桥大学博士论文】深度学习中的元学习、鲁棒性和二阶优化进展

专知会员服务

41+阅读 · 2024年5月5日

【牛津大学博士论文】图机器学习的鲁棒性分析

专知会员服务

31+阅读 · 2024年4月30日