【斯坦福大学博士论文】构建大语言模型的交互式学习流程管线

大语言模型（LLMs）已展现出卓越的能力，越来越多的研究致力于将其作为智能体（agents）使用——即能够将自然语言表达的复杂人类目标转化为在数字环境（如网页浏览器）中的一系列操作行为。要实现这一目标，需具备两个核心能力：第一，理解任意组合性的语言输入；第二，在陌生环境中自主学习，以便将语言目标有效地落实为多步决策行为。本论文正是围绕这两个挑战展开研究。在第一部分中，我提出了 Tree Projections 框架，用于理解 Transformer 如何构建组合性结构。随后，我基于 Tree Projections 提出一系列研究成果，揭示了 Transformer 中组合泛化（compositional generalization）、“顿悟”现象（grokking）以及样本高效学习的机制。尽管 Tree Projections 有助于解释模型的泛化能力，已有研究表明标准 Transformer 在处理深层递归时表现不佳，其根本原因是缺乏支持无限层级结构的机制。为此，我提出了 Pushdown Layers，一种引入基于栈的记忆机制的结构增强方法。Pushdown Layers 能够提升模型在嵌套或递归推理任务中的样本效率与泛化能力。在第二部分中，我介绍了 NNetNav 与 BAGEL，两种用于网页环境中无监督、开放式探索的方法，使得模型能够在无需人工监督的情况下，自动为新网页采集训练数据。最佳效果来自于结合 NNetNav 所采集的示范数据对 LLM 进行微调。NNetNav 利用语言的层级结构来引导探索策略。借助 NNetNav，我们从 20 个真实网站中采集了 10,000 条交互示范，并据此微调了一个 80 亿参数的模型，在多个网页浏览基准测试中实现了无监督方法的新 SOTA，超越了零样本设置下的 GPT-4 表现。总体而言，这些工作将我们更进一步推向具备语言理解与自主交互学习能力的数字语言智能体的发展目标。

成为VIP会员查看完整内容

相关内容

博士论文

关注 126

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【斯坦福博士论文】为大型语言模型构建交互学习管道

专知会员服务

18+阅读 · 7月12日

【伯克利博士论文】在大规模语言模型时代构建自主系统

专知会员服务

40+阅读 · 2024年12月28日

【阿姆斯特丹博士论文】在语言模型中寻找结构

专知会员服务

26+阅读 · 2024年11月27日

【伯克利博士论文】理解、构建和评估上下文感知条件自然语言生成模型

专知会员服务

27+阅读 · 2024年4月20日