大模型如何决策？Google伯克利MIT等最新《基础模型决策:问题、方法和机会》论文，详述序列决策与大语言模型的技术交叉

在大规模不同数据上预训练的基础模型在广泛的视觉和语言任务中表现出了非凡的能力。当这样的模型部署到现实世界环境中时，它们不可避免地要与其他实体和智能体进行交互。例如，语言模型通常用于与人类通过对话进行交互，视觉感知模型用于自主导航邻域街道。为了响应这些发展，新的范式正在出现，用于训练基础模型与其他智能体交互并进行长期推理。这些范式利用了为多模态、多任务和通用交互策划的越来越大的数据集的存在。在基础模型和决策的交叉点进行研究，为创建强大的新系统提供了巨大的希望，这些系统可以在对话、自动驾驶、医疗健康、教育和机器人等各种应用中有效交互。本文研究了基础模型决策的范围，并为理解问题空间和探索新的研究方向提供了概念工具和技术背景。通过提示、条件生成建模、规划、最优控制和强化学习等各种方法，回顾了地基模型在实际决策应用中的最新方法，并讨论了该领域中常见的挑战和开放问题。

https://www.zhuanzhi.ai/paper/2061942c130806abb07d97214c5a7506

1. 引言

**通过自监督学习在广泛的数据集上预训练的基础模型在向不同的下游任务迁移知识方面表现出了卓越的能力[Bommasani等人，2021]。**由于此类模型继续应用于涉及长期推理[Wei等人2022a]、控制[Brohan等人2022]、搜索[Strohman等人2005]和规划[Huang等人2022b]的更复杂问题，或部署在对话、自动驾驶、医疗保健和机器人等应用程序中，因此预计它们将与外部实体和代理接口。例如，在对话中，语言模型与人类进行多轮对话;在机器人技术中，感知-控制模型在现实世界环境中执行动作。这些场景为基础模型提出了新的挑战，包括(1)如何从外部实体给出的反馈中学习(如人类对对话质量的评级)，(2)如何适应大型语言或视觉数据集通常不涵盖的模态(如机器人动作)，以及(3)如何对未来进行长期推理和规划。

**传统上，这些问题一直是序列决策的核心[Sutton和Barto 2018]，包括强化学习、模仿学习、规划、搜索和最优控制等领域。**与基础模型的范式相反，在预训练中使用了具有数十亿图像和文本标记的广泛数据集，之前关于序列决策的工作主要集中在特定任务或tabula rasa设置，先验知识有限[Silver等人，2017]。尽管看似不利的设置，序列决策的研究已经取得了重大进展，在诸如玩棋盘游戏[Tesauro 1994]和雅达利电子游戏[Mnih等人2013]，以及操作机器人完成导航[Pomerleau 1988]和操作任务[Kalashnikov等人2018;Akkaya等。2019]。然而，由于这些方法在没有视觉、语言或其他数据集的广泛知识的情况下从头开始学习解决任务，它们通常在泛化和样本效率方面存在困难，例如，需要7个GPU天的交互式游戏才能解决一个Atari游戏[Agarwal等人2022]。直观地说，类似于用于基础模型的广泛数据集也应该有利于序列决策模型。例如，互联网上有无数关于如何玩雅达利游戏的文章和视频。类似地，有大量关于物体和场景属性的知识，这些知识对机器人很有用，或者关于人类需求和情感的知识，可以改进对话模型。

**虽然基础模型和序列决策的研究在很大程度上由于不同的应用和焦点而脱节，但在这些社区的交叉点上的活动越来越多。**在基础模型方面，随着发现大型语言模型的涌现特性，目标应用程序已经从简单的零次或少次视觉和语言任务过渡到现在涉及长期推理的问题[Srivastava等人，2022;Wei等。2022b;Lewkowycz et al. 2022]或多重交互[OpenAI 2022]。相反，在序列决策社区，受大规模视觉和语言模型成功的启发，研究人员已经开始策划越来越大的数据集，用于学习多模型、多任务和通用交互式智能体[Agarwal等人2020b;Szot等人，2021;Fan等，2022;Brohan等人，2022;Reed等，2022;Lee et al. 2022]。为了进一步模糊两个领域之间的界限，最近的一些工作研究了使用预训练基础模型，如CLIP [Radford等人2021]和ViT [Dosovitskiy等人2020]来引导视觉环境的交互式智能体的训练[Khandelwal等人2022;Tao等人2022]，而其他工作将基础模型作为通过人工反馈强化学习优化的对话代理进行了研究[Ouyang等人2022]，以及其他工作使大型语言模型与搜索引擎等外部工具交互[Komeili等人2021;Thoppilan等人，2022;Lazaridou等人，2022;Shuster等人]。计算器[Cobbe等人，2021;Thoppilan等人2022]、翻译器[Thoppilan等人2022]、MuJoCo模拟器[Liu等人2022d]和程序解释器[Gao等人2022]。

**我们在本报告中的前提是，如果联合考虑，基础模型和交互式决策的研究可以是互利的。**一方面，基础模型适应涉及外部实体的任务，可以从交互式地合并反馈和执行长期规划中受益。另一方面，序列决策可以利用基础模型的世界知识，更快地解决任务，泛化能力更好。为了推动这两个领域的交叉研究，我们对决策基础模型的问题空间进行了范围界定。本文提供了技术工具来了解该领域当前的研究，回顾了仍然存在的挑战和开放问题，并推测了克服这些挑战的潜在解决方案和有希望的方法。

**本报告分为5个主要部分。**在第2节中，我们回顾了序列决策的相关背景和符号，并提供了几个示例场景，其中基础模型和决策可以更好地联合考虑。接下来的三个部分将围绕基础模型如何描述决策系统的不同组件进行组织。在第3节中，我们讨论了基础模型如何作为行为的生成模型(例如，技能发现)和环境的生成模型(例如，进行基于模型的推出)。在第4节中，我们讨论了基础模型如何作为状态、动作、奖励和迁移动态的表示学习者(例如即插即用的视觉语言模型、基于模型的表示学习)。在第5节中，我们讨论了语言基础模型如何作为交互式智能体和环境，使我们能够在顺序决策框架(语言模型推理、对话、工具使用)下考虑新问题和应用。最后，在第6节中，我们概述了开放的问题和挑战，并提出了潜在的解决方案(例如，如何利用广泛的数据，如何构造环境，以及基础模型和决策的哪些方面可以改进)。

成为VIP会员查看完整内容