【伯克利博士论文】控制长篇大型语言模型输出

随着大型语言模型在近年来能力的大幅提升，提高我们对其输出的控制能力变得越发重要。在本论文中，我讨论了我开发的几种控制方案，范围从纯推理时控制到基于微调的对齐方法。我首先将讨论适用于非结构化自然语言生成的高度通用方法，包括一种称为FUDGE的推理时控制方案以及一种基于强化学习的微调方法，称为RLCD。接下来，我将讨论更专门的方法，这些方法可以用于更结构化领域的控制，如分子设计、程序合成和语义解析。最后，我将展示如何将这些想法与通过提示进行的结构化规划结合使用，以将我们的控制扩展到更长的输出——在自动故事生成应用中范围达到数千词。

近期大型语言模型（LLMs）的发展显著推进了在广泛自然语言任务上的最新技术水平。然而，虽然这类模型能够生成流畅的文本，但在推理时要充分控制它们的行为可能很困难。例如，开箱即用的预训练语言模型频繁地生成带有偏见或有害的文本，这可能是因为在它们的预训练数据中大量存在这类文本。

因此，控制生成——在推理时控制模型的行为，以产生符合期望的软性或硬性约束的输出——是确保在现实世界设置中道德使用这些强大技术的必要条件。实际上，去除问题偏见只是控制生成广泛应用领域中的一个例子。控制生成的应用范围从维持期望的风格或正式程度，到保持对参考文档或现实世界事实的忠实，甚至非语言任务（使用模型处理非语言领域），如设计具有理想药物属性的分子。

因此，近年来已经投入了大量努力来开发控制语言模型输出的方法。这些努力包括仅在推理时操作的各种方法，以及依赖于修改底层模型分布的方法，无论是通过微调还是通过强化学习。

尽管如此，控制LLMs的任务非常复杂，随着时间的推移只会变得更加困难：语言模型在能力上持续改进的同时变得越来越不可解释，我们对最强大的模型的访问权限更加有限，这些模型越来越多地隐藏在私有APIs后面，而我们要求的控制目标变得越来越困难。为了详细说明后一点：仅仅两三年前，我们可能满足于简单地控制输出段落的一般主题，这些段落仅几十个令牌长，但今天一个主要挑战是在可能跨越数千甚至数万个令牌的输出段落上控制事实准确性，既要考虑提供的上下文也要考虑现实世界的知识。在本论文中，我将讨论我开发的几种方法，这些方法在许多不同的设置中解决了控制生成的问题。自然语言的控制首先，在第二章，我将讨论用于非结构化自然语言的一般控制方法，包括纯推理时控制以及基于强化学习的微调。

对于纯推理时控制，我提出了一种用于控制文本生成的灵活且模块化的方法——生成未来判别器（FUDGE）。给定一个现有的基础语言模型（LM）用于从感兴趣的分布中生成文本，FUDGE允许在仅需要访问基础LM的输出逻辑的情况下，基于期望的属性a（例如，正式程度）进行条件化。FUDGE学习一个在部分序列上操作的属性预测器，并使用此预测器的输出来调整基础LM的原始概率。我们展示了FUDGE模型对应于基础LM给定属性a的条件分布的贝叶斯分解。此外，FUDGE可以轻松地组合多个期望属性的预测器。我们在三个任务上评估了FUDGE——诗句完成、语言生成中的主题控制以及机器翻译中的正式性变化——并在所有三个任务中观察到提升。与纯推理时控制相比，微调（包括基于RL的方法）需要并利用对基础语言模型更大的访问权限。虽然在前期需要额外的培训或微调模型的成本，但它们可以通过从微调模型中进行普通采样来减少推理时的成本（与可能需要更昂贵的解码程序来启用控制的推理时控制方法相比）。

基于RL的微调方法最近变得越来越受欢迎。在本论文中，我将提出一种RL方法，名为对比蒸馏的强化学习（RLCD），它不使用人类反馈就可以使语言模型遵循用自然语言表达的原则（例如，更无害）。RLCD从两个对比的模型输出中创建偏好对，一个使用正面提示来鼓励遵循给定原则，另一个使用负面提示来鼓励违反它们。使用两个不同的提示会导致模型输出在平均上更加分化，从而在没有人类注释的情况下产生更清晰的偏好标签。然后我们使用偏好对来训练一个偏好模型，进而用强化学习改善一个基础未对齐的语言模型。经验上，RLCD在三个不同的对齐任务——无害性、有帮助性和故事大纲生成——上优于RLAIF和上下文蒸馏基线，并在用于模拟偏好数据的7B和30B模型规模上均有表现。针对结构化领域的控制接下来，在第三章，我将讨论我为将控制扩展到结构化领域而进行的几项工作。这一部分的大部分内容将聚焦于我开发的一种方法——随机迭代目标增强，我们将其应用于分子设计和程序合成等多个领域。例如，在分子设计任务的背景下：分子设计中的生成模型倾向于是参数丰富、对数据需求高的神经模型，因为它们必须生成复杂的结构化对象作为输出。由于缺乏足够的训练数据，估计这样的模型可能具有挑战性。通过随机迭代目标增强，我们提出了一种用于迭代创建额外分子目标的自训练方法。我们首先将生成模型与一个简单的属性预测器一起进行预训练。然后将属性预测器用作似然模型，用于从生成模型中筛选候选结构。额外的目标通过随机EM迭代的过程中迭代产生，并用于最大化候选结构被接受的对数似然。由于生成模型在预训练后已经相当合理，因此一个简单的拒绝（重加权）采样器就足以抽取后验样本。我们展示了在无条件和条件分子设计上相比于强基线的显著提升。特别是，我们的方法在条件分子设计中的绝对增益超过了先前最先进技术10%。最后，我们展示了我们的方法在其他领域（如程序合成）也是有用的。

在本节的最后，我还将简要讨论我在这一领域与他人合作的一些其他项目，涉及其他结构化领域（如语义解析和填字游戏）的控制生成方法。

长篇故事生成最后，在第四章，我将应用诸如FUDGE之类的可控生成思想于生成更长长度的高质量语言模型输出——在故事生成领域达到数千词——的任务。

首先，在我关于递归重新提示和修订（Re3）的工作中，我们考虑了自动生成超过两千词的更长故事的问题。与之前关于更短故事的工作相比，长距离情节连贯性和相关性在这里是更为核心的挑战。我们提出了递归重新提示和修订框架来解决这些挑战，通过（a）提示一个通用语言模型构建一个结构化的总体计划，以及（b）通过重复地将来自计划和当前故事状态的上下文信息注入语言模型提示来生成故事段落。然后我们通过（c）对不同续篇进行重新排序以保持情节连贯性和前提相关性，最后（d）编辑最佳续篇以保证事实一致性进行修订。与直接从相同基础模型生成的类似长度故事相比，人类评估员判断Re3的故事在拥有连贯的总体情节方面（绝对增加14%）和与给定初始前提相关方面（增加20%）显著更多。

然后，我们通过提出详细大纲控制（DOC）框架来进一步改进我们在Re3中的先前工作，该框架用于在自动生成数千词长的故事时改善长距离情节连贯性。DOC由两个互补的组件组成：一个详细的大纲制作者和一个详细的控制器。详细的大纲制作者创建一个更详细、分层结构化的大纲，将创造性负担从主要起草过程转移到规划阶段。详细的控制器确保在生成过程中仍然尊重更详细的大纲，通过控制故事段落与大纲细节保持一致。在自动生成故事的人类评估中，DOC在情节连贯性（22.5%的绝对增益）、大纲相关性（28.2%）和有趣性（20.7%）上显著优于Re3。人类还判断DOC在交互式生成设置中的可控性要高得多。

最后，我将讨论几项最近和正在进行的工作，这些工作进一步探索了长篇故事生成的不同方面，如个性化、节奏和事实一致性，以及使用更新的LLMs来提高计算效率的一些改进。

成为VIP会员查看完整内容

相关内容

博士论文

关注 118

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【AAAI2024】基于波动的自适应结构化修剪方法，用于大型语言模型

专知会员服务

20+阅读 · 2023年12月21日