【斯坦福大学Xiang Lisa Li博士论文】控制语言模型

大规模语言模型（LLMs）已成为现代自然语言处理的核心，能够在多个任务中展现出卓越的多功能性。有效地控制语言模型对于充分发挥其能力并将其应用于实际场景至关重要。成功部署这些模型通常需要特定任务的定制化以及对其行为的严格审计。在本论文中，我们提出了控制大规模语言模型的方法，并开发了评估工具来揭示控制失败。

在第一部分，我们将控制任务视为一个分布匹配问题，并研究在建模流程中（包括预训练、适应和解码阶段）在哪些环节以及如何进行干预。我将首先介绍一种在适应阶段的控制方法，称为Prefix-Tuning。这是一种参数高效的技术，通过仅修改模型参数的一个小子集实现精细控制。这种方法挑战了传统的完全微调的必要性，并为大规模预训练模型的成本高效定制奠定了基础。接下来，我将重新审视这些控制挑战的根本原因，特别是在预训练阶段，并提出了一种新的文本生成模型，称为Diffusion-LM。Diffusion-LM规避了自回归范式，并通过设计本身内在地增强了可控性。对于最后一种控制方法，我将讨论通过解码时的干预来实现可控性，称为Contrastive Decoding。通过对比一个较强的语言模型和一个较弱的语言模型之间的内部logits，我们能够生成比强语言模型单独生成的文本更高质量的文本。这些策略共同形成了一套连贯的控制机制，适用于语言建模管道的各个阶段。在第二部分，我们重点关注受控模型的评估。评估包括两个主要设计选择：（i）如何可扩展地判断响应的正确性，（ii）评估时使用什么问题。为了解决第一个问题，我们提出了基于一致性的自动化评估策略。语言模型经常表现出不一致的行为。例如，当我们在2023年9月评估ChatGPT时，我们发现它正确回答了“7+8？”为15，但错误地回应“7+8=15，真还是假？”为“假”。我探讨了生成与验证之间的不一致，并将其作为评估信号。对于第二个问题，我们将评估视为一个优化问题，并开发了自动发现模型失败的工具。具体来说，我们提出了AutoBencher，一个用于自动基准构建的声明性框架，并利用它可扩展地发现现有语言模型的新见解和漏洞。在AutoBencher中，我们将基准构建视为一个优化问题，通过声明数据集的几个期望，构建量化的替代指标，并搜索一个优化这些期望的特定数据集。我们进一步扩展了这个流程，使其针对特定模型，并使用强化学习训练调查模型，以提高召回率并覆盖多样化的模型失败。总体而言，这项工作的贡献推动了可控语言建模的前沿，并为重新思考语言模型评估奠定了新框架的基础。语言模型是一个基于文本序列的概率模型。其特定的分布由三个要素决定：模型家族（例如，N-gram模型、Transformer模型）、训练数据以及模型规模（例如，参数数量）。从历史上看，语言模型最初是在狭窄的领域内训练的。例如，N-gram模型通常基于精心挑选的语料库（如《华尔街日报》）构建，用于模拟或分析英语文本的特征——如熵或Zipf分布（Shannon，1948）。到了2000年代，语言模型成为更广泛的自然语言处理系统中的实用组件，主要用于在语音识别等任务中对候选输出进行重新排序。随着训练数据从专业语料库扩展到大规模的互联网数据，且模型架构从N-gram转变为神经网络序列模型，语言模型逐渐从狭窄的工具转变为通用生成器。在2010年代，带有监督的序列到序列模型成为翻译和摘要等应用的核心（Sutskever等，2014）。近年来，像GPT（Radford等，2019；Brown等，2020）和Claude（Anthropic，2024）等大规模模型，在异构的互联网规模语料库上训练，能够在各种领域中生成流畅且连贯的输出。然而，单纯的流畅性并不足够。随着语言模型的应用场景从分析和重新排序发展到直接生成，模型越来越多地被部署到对正确性、安全性和相关性有要求的环境中。一个数学问题的流畅续写可能是另一个数学问题——但这可能不是我们想要的答案。我们期望模型能回答问题。在其他情况下，我们可能希望模型拒绝不安全的请求、遵循格式指令、采用特定的角色或避免有毒内容。这将引出本论文的核心主题：控制。控制指的是引导语言模型行为朝着期望的结果发展。高层次而言，它意味着将一个原始的文本分布转换为一个符合任务目标、用户意图或安全约束的有用系统。控制可以采取多种形式：引导生成向事实准确性靠拢、强制风格一致性、抑制不良补全，或者确保指令得到准确执行。如果没有控制机制，即使是最流畅的模型也可能变得无用、不可靠或不安全。在本论文中，我提出了控制大规模语言模型的方法，并开发了评估工具来揭示控制失败。具体来说，我们探讨了如何在语言建模流程的每个阶段——包括预训练、适应和解码——施加控制。我们还介绍了评估方法，通过自动判断生成输出的质量并揭示模型失败，来评估这些控制效果。

1.1 强化控制

由于语言模型定义了一个文本分布，控制它最终可以归结为一个分布匹配问题：我们希望调整生成分布以实现期望的行为。关键的设计决策集中在确定哪些模型组件可以调整（即控制按钮）以及在开发流程的何时进行干预。语言模型通常在部署前经历几个关键阶段，控制可以在这些阶段中的每个阶段注入。适应是注入控制的最经典阶段。在这一阶段，我们调整模型的参数，以使其分布朝向期望的使用场景。微调长期以来一直是默认的方法，但我的工作提出了轻量化的替代方案，在保证质量的同时，以更低的计算成本实现精细控制。解码使得对生成输出进行极其轻量的干预成为可能。由于此阶段模型参数是固定的，因此控制是通过操作输出概率来执行的——例如，通过基于外部标准对令牌进行加权或减权。然而，该阶段的表达能力可能有限，因为它无法访问内部模型状态，也无法修改先前生成的令牌——这使得执行复杂或全局约束变得困难。预训练是语言建模流程中最上游的阶段，它为将可控性注入模型架构提供了强大的机会。在这一阶段注入控制能够进行结构性的变化，确保内建的可控性。然而，预训练也是最资源密集的阶段，这使得它在扩展或利用已经预训练的模型的能力时变得更加困难。这些方法共同构成了一套用于强化大规模语言模型特定行为的工具，详细内容见第3章、第4章和第5章。

1.2 评估控制

一旦控制被强化，下一步的挑战是评估模型是否遵守了这些控制。由于模型控制是一个分布匹配问题，我们也可以采用分布视角来进行评估。评估分为两部分：输入分布p(x)，它定义了评估内容，以及条件分布p(y | x)，它定义了如何判断响应。对于现代语言模型，这两个部分都非同小可。由于大规模语言模型是通用型的，我们必须选择p(x)来测试相关能力并暴露其弱点。同时，参考条件分布p*(y | x)必须是可靠的，特别是在评估模糊或开放性问题时。为此，我提出了自动化工具，利用语言模型本身来发现和验证失败案例，确保评估既具有可扩展性，又值得信赖。这些贡献将在第6章、第7章和第8章中介绍。

1.3 论文结构

**第2章：背景。**我们回顾语言模型和可控文本生成的历史，以建立本论文的历史背景。 **第3章：通过Prefix-Tuning适应语言模型。**传统的语言模型适应需要微调所有参数（规模达到数十亿），而我在Prefix-Tuning方面的工作首次展示了仅调整一小部分（0.1%）参数同样可以达到有效的控制。如今，参数高效微调已成为使用户能以更具成本效益的方式定制预训练模型的标准方法。 **第4章：通过设计构建可控语言模型。**传统的语言模型通过下一个令牌预测来构建输出，这限制了它们对输出序列的控制能力。我在Diffusion-LM方面的工作证实了非自回归模型在文本生成中的可行性，展示了此类模型如何通过设计本身内在地增强可控性。 **第5章：在解码时引导语言模型。**文本生成通常涉及从语言模型分布中采样。在本章中，我们将文本生成视为一个优化问题，并设计了一个对比目标，鼓励一致的生成。通过对比强语言模型和弱语言模型之间的内部logits，我们生成的文本比强语言模型单独生成的更高质量。 **第6章：通过一致性进行可靠和可扩展的评估。**评估对于推动语言模型的进步至关重要，这使得设计一个可扩展且可靠的评估指标变得非常必要。为此，我们提出使用生成和验证之间的一致性作为评估标准。一致性评估是无标签的且具有可扩展性的，因为它无需知道正确答案即可进行判断。 **第7章：通过AutoBencher自动发现模型失败。**传统评估依赖静态的、手工策划的基准，这些基准难以跟上日益通用的语言模型的步伐。这些传统的基准通常无法覆盖语言模型的多样化技能、领域和使用场景。为了解决这些局限性，我们提出了AutoBencher，这是一个用于自动构建基准的声明性框架，并利用它可扩展地发现现有语言模型的新见解和漏洞。 **第8章：将错误发现作为后验推断。**我们如何发现模型特定的失败？在本章中，我们将错误发现视为一个后验推断问题：给定模型输出中的特定失败（即后缀），我们旨在推断出可能导致该失败的输入提示（前缀）。为了高效地探索这个空间，我们提出了一种灵感来自Frank-Wolfe算法的方法，以鼓励发现多样化的失败模式。 **第9章：总结与未来方向。**我们总结并讨论了构建可控语言模型的未来研究方向。

成为VIP会员查看完整内容

相关内容

斯坦福大学 (Stanford University)

关注 74

斯坦福大学（StanfordUniversity）位于加利福尼亚州，临近旧金山，占地35平方公里，是美国面积第二大的大学。它被公认为世界上最杰出的大学之一，相比美国东部的常春藤盟校，特别是哈佛大学、耶鲁大学，斯坦福大学虽然历史较短，但无论是学术水准还是其他方面都能与常春藤名校相抗衡。斯坦福大学企业管理研究所和法学院在美国是数一数二的，美国最高法院的9个大法官，有6个是从斯坦福大学的法学院毕业的。

【ICML2025】大语言模型是自我示范预选择器

专知会员服务

11+阅读 · 6月9日

【CMU博士论文】语境：表征学习的机制

专知会员服务

19+阅读 · 4月29日

【CMU博士论文】学习匹配模型

专知会员服务

28+阅读 · 2024年12月17日

【牛津大学博士论文】观察性因果机器学习中的结构性和统计不确定性

专知会员服务

28+阅读 · 2024年9月24日