【伯克利博士论文】用于决策制定的基础模型：算法、框架与应用

AlphaGo和ChatGPT可能是过去十年中人工智能领域最重要的两项突破。这些技术得益于在序列决策（例如，规划、搜索和强化学习）以及基础模型（例如，基于互联网数据训练的语言和视频生成模型）方面的研究。本论文提出了在现实世界决策任务背景下，利用具有广泛知识的基础模型的新技术、算法和框架，这些研究将影响对话代理的构建、机器人控制和科学发现等应用。本论文从离线环境中的传统决策制定开始，逐步通过表示学习和生成建模引入更广泛的互联网规模数据。论文强调了理论基础与实际应用的结合。本论文的主要贡献包括离线强化学习的算法进步、面向决策制定的表示学习改进、作为强化学习替代的全新生成建模技术，以及基于互联网规模的生成代理和生成模拟器，所有这些都旨在增强基础模型的决策能力，并使之相辅相成。通过广泛的实证和理论分析，本论文表明，基础模型在得到适当利用时，可以显著提高决策任务的效果。这些发现为将机器学习模型与现实世界应用整合提供了新的方向，为更智能、适应性更强、效率更高的系统铺平了道路。在过去的十年中，人工智能（AI）领域的两项重要突破包括2016年人工智能围棋玩家AlphaGo击败人类选手李世乭 [21]，以及2022年部署的人工智能聊天机器人ChatGPT [22]。这些技术进步得益于在序列决策和基础模型方面的研究。在序列决策中，目标是让计算机（代理）自动决定一系列动作（例如，在哪里放置围棋子），并且让计算机基于来自环境的反馈（例如围棋比赛的结果）自动改进这些决策。机器学习在序列决策中的方法涉及训练决策策略，即基于当前观测（例如围棋棋盘）选择动作的策略，通过试验和错误的方式进行训练。这种方法在环境支持无限访问的游戏场景中表现良好，但在现实世界中超越游戏场景的规模时却难以实现，因为在现实环境中无限访问是不切实际的。即使在游戏场景中，先前在序列决策中的工作大多集中在任务特定或“白板”设置中，缺乏先验知识 [23]。因此，先前的序列决策工作在泛化和样本效率方面通常表现不佳，例如解决单个Atari游戏需要7个GPU天的交互游戏时间 [24]。最近，基础模型（定义为使用自监督学习在大规模数据上训练的大型机器学习模型 [25]）在互联网上的大量数据上进行了训练。例如，自回归语言模型 [26, 27]通过从互联网抓取的文本数据来预测给定前述单词（标记）后的下一个单词（标记）。类似地，视频生成模型 [28, 29]通过从互联网抓取的视频数据，在给定语言输入和/或前述帧的情况下，预测下一帧。因此，这些模型能够生成高度逼真的自然语言和视频。然而，模仿互联网内容并不是这些模型的最终目标。这些模型的最终目标是解决现实世界中的任务，如回答人们的问题和模拟现实世界的交互。为了实现这一目标，这些模型生成的内容必须由人类控制。如何引导这些模型根据用户反馈生成理想的内容，以及如何使这些模型做出一系列决策以完成某些复杂任务（例如构建网站），是序列决策的核心问题。将基础模型研究和序列决策研究结合起来具有巨大的优势。一方面，基础模型中的广泛知识可以提高决策算法的样本效率和泛化能力。另一方面，决策算法可以对原本与任务无关的基础模型进行任务特定的优化。本论文研究了基础模型在决策制定中的技术、框架和算法，并展示了如何将基础模型中的广泛知识有效转化为任务特定的决策，以更好地解决广泛的问题和应用。本论文通过从传统的决策制定技术开始，研究在离线数据集设置下的基础模型在决策制定中的应用，随后逐步引入更广泛的数据，最终整合互联网规模的视觉和语言数据。我们将对利用基础模型解决序列决策问题的理论方面和实际应用方面给予高度关注。本论文的工作基于先前关于序列决策的研究思想，但新提出的方法展示了更高的全面性和可扩展性。本章的其余部分组织如下。第1.1节介绍了基础模型，这是一种在互联网规模数据上训练的机器学习模型。本节讨论了训练基础模型的常见技术，包括表示学习和生成建模。随后描述了基础模型的局限性，包括指令遵循、长时间推理、多步骤规划和多模态处理。然后概述了本论文如何通过结合决策制定技术来应对其中的一些挑战。第1.2节描述了序列决策的典型设置和常见的决策制定算法，包括模仿学习、强化学习、搜索和规划。接下来，本节重点介绍了序列决策的主要瓶颈，包括样本效率和缺乏良好的视觉和文本表示。最后，简要介绍了本论文如何通过结合基础模型来应对这些挑战。第1.3节阐述了本论文的贡献，并总结了其结构。

成为VIP会员查看完整内容

相关内容

博士论文

关注 117

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【牛津博士论文】大规模观测因果机器学习中的结构与统计不确定性

专知会员服务

26+阅读 · 2024年9月29日

【牛津大学博士论文】观察性因果机器学习中的结构性和统计不确定性

专知会员服务

30+阅读 · 2024年9月24日

【CMU博士论文】经典方法对现代机器学习的改进

专知会员服务

28+阅读 · 2024年8月16日

【CMU博士论文】理解、正式表征和稳健处理现实世界的分布变迁

专知会员服务

22+阅读 · 2024年7月26日