【博士论文】语言模型与人类偏好对齐，148页pdf

语言模型（LMs）经过大量文本数据的训练，可以获得如生成摘要、回答问题或生成代码等复杂技能。然而，它们也会表现出违反人类偏好的行为，例如，它们可能生成攻击性内容、虚假信息或持续社会偏见。在这篇论文中，我探索了几种使语言模型与人类偏好对齐的方法。首先，我认为使语言模型对齐可以被视为贝叶斯推断：以关于人类偏好的证据为条件调整先验（基础、预训练的LM）（第二章）。基于人类偏好的条件化可以通过多种方式实施。在第三章中，我研究了使用评分函数提供的反馈对预训练的语言模型进行微调的两种方法之间的关系：基于人类反馈的强化学习（RLHF）和分布匹配。我展示了RLHF可以被视为分布匹配的一个特例，但分布匹配则更为广泛。在第四章中，我展示了如何将分布匹配扩展到条件语言模型。最后，在第五章中我探索了一个不同的途径：在预训练期间就基于人类偏好对LM进行条件化。我显示，从一开始就涉及人类反馈往往比仅在监督微调期间使用它更有效。总体而言，这些结果突出了与RLHF不同且互补的对齐技术的发展空间。

对齐问题是人工智能（AI）的一个核心挑战，围绕这样一个问题：我们如何确保高级AI系统的行为对人类有益？随着我们将越来越复杂的任务委托给自动化系统，保证这些系统在人类偏好和伦理考量的范围内运行变得至关重要。语言模型能力的增长速度强烈表明，对齐问题不再是一个哲学难题，而是这个十年的决定性挑战。这篇论文探索了使语言模型与人类偏好对齐的技术。语言模型通过人类产生的大量文本数据获得能力，如生产文档、回答问题或生成代码。然而，当它们从互联网文本中捕获的人类知识中提取信息时，也无意中吸收了人类的缺陷、偏见和不完美。对齐失败的范围可以从偏见的微妙持续到公然生成虚假或攻击性内容。限制语言模型避免这些对齐失败需要的训练技术不仅仅是模仿互联网文本。本论文探索并阐明了若干此类训练技术。第一章概述了语言模型的训练背景及其可能带来的风险。此外，它还试图解释什么是使语言模型对齐。该章还深入探讨了使语言模型对齐的当前技术水平（第二章）。第三章认为，使语言模型与人类偏好对齐可以视为贝叶斯推断，其中以人类偏好的证据为条件调整一个先验（即预训练的语言模型）。这种条件化可以通过多种方式来实现。

第四章和第五章分析和开发在微调过程中使语言模型对齐的目标。第四章探讨了两种此类方法之间的关系，这两种方法都使用评分函数的反馈：基于人类反馈的强化学习（RLHF）和分布匹配。我展示了虽然RLHF可以解释为分布匹配的特例，后者本质上范围更广。然而，我还展示了如何通过减少其梯度估计的方差，强化学习仍然可以提供有关如何改进分布匹配技术的见解。在第五章中，对一个特定的分布匹配方法——分布策略梯度——进行了扩展，以适应条件语言模型并直接处理任务，如文档总结或对话。第六章采取了不同的路径，专注于从预训练阶段就将人类反馈整合到语言模型中。我提供的证据表明，语言模型生命周期早期涉及人类反馈通常比仅在微调期间使用它的表现更好。然后，我评估了几个带有人类反馈的预训练目标，并发现一种实现以人类偏好为条件的想法的简单方式——直接训练模型模仿基于对齐评分条件的互联网文本分布——比其他方法实现更好的对齐和对抗性鲁棒性。最后，第七章通过讨论这些发现如何集体强调与RLHF并行或作为替代的多样化对齐策略的潜力，结束了这篇论文。

成为VIP会员查看完整内容

相关内容

博士论文

关注 118

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【博士论文】基于信息论的泛化理论方法，274页pdf

专知会员服务

54+阅读 · 2024年6月3日

【博士论文】信息论视角下的泛化理论方法，274页pdf

专知会员服务

51+阅读 · 2024年4月28日

【MIT博士论文】人工智能与人类对齐的构建模块：指定、检查、建模和修订，216页pdf

专知会员服务

44+阅读 · 2024年4月2日

【博士论文】生成模型中的可控性与不确定性，214页pdf

专知会员服务

46+阅读 · 2024年3月14日