近年来,许多自然语言生成方面的先进技术都得益于在互联网规模的数据上训练大型语言模型。然而,这种范式可能导致生成有毒、不准确和无益的内容的模型,自动评估指标常常无法识别这些行为。随着模型能力的提高,人类反馈对于评估和改进模型具有无可估量的价值本综述旨在概述近期利用人类反馈改进自然语言生成的研究。首先,我们引入一个全面的反馈形式化,并将现有研究按照这种形式化进行分类和组织。接下来,我们讨论反馈的格式和目标,涵盖了两种利用反馈(用于训练或解码)的方法:直接使用反馈或训练反馈模型。我们还讨论了现有的人类反馈数据收集数据集,以及反馈收集的相关问题。最后,我们对AI反馈这一新兴领域进行了概述,该领域利用大型语言模型根据一系列原则进行判断,尽量减少对人类干预的需求。

1. 引言

要使生成系统得到广泛应用,它们必须生成的文本不仅流畅且高质量,而且要与人类的期望和规范紧密相符(Vamplew等人,2018;Hendrycks等人,2020;Kenton等人,2021a;Turner等人,2022;Ngo,2022)。实现这样雄心勃勃的目标需要现代大型语言模型(LLM)超越传统训练方法。这方面的最近改进主要集中在纳入人类反馈(Bai等人,2022b;Ouyang等人,2022;OpenAI,2023a)。这种反馈作为一种指导力量,引导LLM实现所期望的结果,就像物理机械中的反馈机制一样(Åström和Murray,2021)。通常,最先进的语言生成系统是通过使用最大似然估计(MLE)在大量数据上训练概率性的、自回归的LLM获得的。然而,用于训练这些模型的数据通常来自互联网,常常包含噪音、社会偏见和错误(Bolukbasi等人,2016;Dodge等人,2021)。当这种情况与最大化给定前面的词汇产生下一个词汇的概率的目标相结合时,可能导致目标行为的误设定(Kenton等人,2021b),并可能导致生成有毒、不准确和无益的内容(Sheng等人,2019;Bender等人,2021)。使这个问题更加严重的是,这些模型通常使用自动度量评估,它们将生成的文本与某个“参考”文本进行表层特征(如词汇重叠)比较,这些特征通常与人类感知到的文本质量不相关(Schluter,2017;Mathur等人,2020;Gehrmann等人,2022a),特别是当模型针对它们进行优化时(Paulus等人,2017;Amrhein和Sennrich,2022)。评估困难部分是因为对于许多任务来说,没有唯一的正确答案,因为相同的交际意图可以用多种方式传达。

利用人类评估来评估模型生成文本的质量是一种热门方法。关键的是,考虑到人类感知的质量可以帮助缩小机器生成文本和人类生成文本之间的差距,并有助于应对古德哈特定律带来的挑战:“当一个衡量标准成为目标时,它就不再是一个好的衡量标准”(Goodhart,1984)。这一认识激发了人们利用人类对模型生成输出的反馈来改进自然语言生成系统的兴趣,并导致了第一个广泛使用的通用语言助手的出现(OpenAI,2023a)。人类反馈不仅提高了系统性能,还作为一种机制,使系统与期望的结果或目标保持一致(Rosenblueth等人,1943;Wiener,1948)。

反馈作为一个概念,包含了广泛的含义和解释(Wiener,1948);然而,可以识别出一些普遍特征,如其格式、其预期结果以及它作为模型开发过程的一部分的使用方式。在本调查中,我们关注人类反馈在改进语言生成中的作用。我们首先对人类反馈的概念进行形式化,并创建一个文献中不同类型反馈的分类法,并说明它们是如何被使用的(§2)。我们讨论如何根据反馈的格式和目标描述反馈,从期望的模型行为角度(§3)。我们讨论直接针对人类反馈优化模型的方法,例如使用人类奖励函数进行强化学习(§4)。然后,我们转向绕过直接反馈优化成本的方法,首先训练反馈模型来近似人类反馈,然后使用这些代理模型改进生成(§5)。我们讨论现有的人类反馈数据集,这些数据集通常如何收集,以及收集过程可能对模型行为的影响(§6)。最后,我们讨论一项最近的减少收集人类反馈需求的工作,通过利用大型语言模型的AI反馈(§7).

现在我们确定四个关键轴,根据它们我们可以对人工反馈的使用进行分类:

**反馈的格式是什么?**人工反馈的格式可以不同,包括二元判断、数字分数、顺序排名或定性的自然语言解释。

**它的目标是什么?**根据我们模型的用例,反馈可以有各种目的,从评估模型性能和准确性到防止毒性和有害行为。

**什么时候使用?**人工反馈可以融入到训练阶段,直接优化模型参数。或者,它可以在推理时用于指导解码过程。

**它是如何建模的?**虽然理想情况下,我们将尽可能使用来自人类的直接反馈,但其收集的高昂成本意味着,使用近似人类偏好的代理模型通常是有用的。

反馈格式

当我们想通过人工反馈改进语言生成系统时,需要做出的一个重要决定是以何种格式收集这些反馈。格式的选择影响到反馈的表现力、收集的便利性,以及我们如何使用它来改进系统。特别是,反馈格式的复杂性是一个重要因素:更简单的格式通常更容易收集和用作训练/解码过程的一部分,但比更“复杂”的格式包含更少的信息,并且可能无法捕获用于改进系统的重要信息。格式的选择还影响到人类提供反馈的难度、其一致性/一致性以及反馈的合理性水平(Ghosal等人,2023)。表1中总结了反馈的类型和示例。

目标

收集反馈的目的是使模型的行为与某个(通常定义不明确的)目标行为保持一致:我们可能希望我们的摘要模型生成包含所有核心信息的摘要,即使这意味着它们有点长;在商业机器翻译中,要格外注意确保模型不会翻译错误关键业务信息;在对话代理中,我们可能希望模型能够生成礼貌且无害的回应。这种对齐目标在AI安全和对齐文献中得到了广泛研究(Bostrom,2014;Amodei等人,2016;Bommasani等人,2021)。此外,Kenton等人(2021b)讨论了语言代理(自然语言生成模型)中由于错误指定的对齐目标(例如,来自训练数据中的噪声标签)而产生的一些行为问题,Leike等人(2018)提出了使用反馈模型来解决指定该目标的困难。Bai等人(2022a)明确地将“对齐”语言模型的问题划分为提高其有用性和增加其无害性。大多数工作隐含地考虑了针对性能因素(例如,针对任务中的整体性能或遵循指示的能力)或无害因素(例如,不产生有毒文本或提供可能导致伤害的信息)的反馈使用。

什么时候使用?

在理想情况下,我们将直接利用人类反馈来改进生成:人类将为训练或解码程序提供反馈,一旦收集到人工反馈,一种使用方法是直接优化模型参数。然而,这要求反馈是“可优化的”,即可能表示为一个优化问题,基于此我们可以获得改进的模型。例如,如果反馈是一个数值分数(f∈R),我们可以创建以下优化问题:

根据训练机制的不同,可以将其分为三类,分别称为基于反馈的模仿学习、联合反馈建模和强化学习(RL)。 虽然直接优化模型参数提供了更好的控制,但修改它们可能并不总是可行的,特别是在LLM的情况下。此外,在模型训练期间可能无法获得反馈,限制了参数调整的范围。在这种情况下,在解码过程中利用人工反馈对提高LLM的性能起着关键作用。这种类型的反馈来自于实际场景中LLM和用户之间的交互,使模型能够从他们的错误中学习,并提供了在不改变模型参数的情况下进行改进的机会。此外,反馈作为一种指导机制,允许模型通过利用其现有能力产生更理想的输出。

如何建模?

一般情况下,直接使用人工反馈来改进模型行为是不可行的:要求人工为每个模型输出提供反馈既昂贵又耗时。获取人工反馈的另一种方法是开发可以预测或近似反馈的模型。尽管这些模型可能并不完美,但它们提供了在训练后以低成本提供反馈的优势,从而使依赖反馈的技术能够扩展。在训练一个反馈模型之后,我们可以使用它来改进生成,几乎与我们使用人工反馈一样:要么在生成模型的训练过程中利用这个反馈模型,要么在解码过程中合并反馈模型。

反馈模型在有效利用反馈推进生成技术方面起到了关键作用。然而,它们严重依赖于人类输入:例如,Gao等人(2022)发现,在各种偏好模型尺寸中,使用少于1000次比较仅能导致微小改进,结果近似于随机。此外,采用静态反馈可能导致一致性和准确性方面的挑战,因为反馈的整合会改变模型输出分布。AI生成的反馈是一项新兴研究领域,侧重于利用大型语言模型自身的能力来评估和改进其输出,提高模型性能而无需持续人类干预。在这个领域,已经出现了两种主要方法:自我AI反馈和外部AI反馈。

结论

在本文中,我们概述了最近利用人类反馈来改进自然语言生成的研究,强调了不同的定义、收集和利用方法,以及各自的优缺点。大型语言模型的最新发展强调了人类反馈的必要性,以确保模型具有理想的行为并生成有益且无害的文本。我们希望这份调查能帮助研究人员了解当前的技术水平,并发现新的和现有的反馈来源以及利用它们的方法。

成为VIP会员查看完整内容
73

相关内容

ChatGPT(全名:Chat Generative Pre-trained Transformer),美国OpenAI 研发的聊天机器人程序 [1] ,于2022年11月30日发布 。ChatGPT是人工智能技术驱动的自然语言处理工具,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文任务。 [1] https://openai.com/blog/chatgpt/
ChatAug: 利用ChatGPT进行文本数据增强
专知会员服务
80+阅读 · 2023年3月4日
ChatGPT 背后的“功臣”——RLHF 技术详解
专知会员服务
168+阅读 · 2023年2月21日
【神经语言生成:形式化,方法与评价,70页pdf】
专知会员服务
35+阅读 · 2020年8月8日
毫末智行,首推自动驾驶「ChatGPT」
机器之心
6+阅读 · 2023年4月12日
揭秘ChatGPT情感对话能力
专知
15+阅读 · 2023年4月9日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2023年6月16日
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
408+阅读 · 2023年3月31日
VIP会员
相关VIP内容
ChatAug: 利用ChatGPT进行文本数据增强
专知会员服务
80+阅读 · 2023年3月4日
ChatGPT 背后的“功臣”——RLHF 技术详解
专知会员服务
168+阅读 · 2023年2月21日
【神经语言生成:形式化,方法与评价,70页pdf】
专知会员服务
35+阅读 · 2020年8月8日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
微信扫码咨询专知VIP会员