近期,多功能大规模语言模型(LLMs)的激增在很大程度上依赖于通过偏好学习将越来越强大的基础模型与人类意图对齐,从而在广泛的背景下增强LLMs的适用性和有效性。尽管已经进行了众多相关研究,但关于如何将人类偏好引入LLMs的视角仍然有限,这可能阻碍了对人类偏好与LLMs之间关系的深入理解以及其局限性的实现。在这篇综述中,我们从偏好中心的角度回顾了在人类偏好学习领域针对LLMs的探索进展,涵盖了偏好反馈的来源和形式、偏好信号的建模和使用以及对齐LLMs的评估。
我们首先根据数据来源和形式对人类反馈进行分类。然后总结了人类偏好建模的技术,并比较了不同模型派别的优缺点。此外,我们根据利用人类偏好信号的目标展示了各种偏好使用方法。最后,我们总结了评估LLMs在人类意图对齐方面的一些流行方法,并讨论了我们对LLMs人类意图对齐的展望。
大规模语言模型(LLMs)[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]对人工智能(AI)产生了突破性的影响,改变了人们对AI系统理解和应用人类语言潜力的看法。这些具有大规模参数(主要超过100亿)的神经网络语言模型最初在从各种来源收集的大规模语料库上进行了预训练,其中相当一部分来源于互联网[11]。通过模仿人类在文本数据中使用自然语言的方式进行预训练,基础LLMs获得了强大而通用的语言技能[1, 12]。另一方面,观察发现基础LLMs在理解或恰当地回应多样化的人类指令方面存在困难[13],因为预训练中的模仿过程并未强制基础LLMs按照人类意图来执行指令[13, 14]。来自互联网的预训练语料库中残留的一些有毒、有偏见或事实错误的内容甚至会导致基础LLMs的不当模仿,产生不理想的生成结果[15, 16, 17, 18, 19, 20]。在现实生活中的实际应用中,基础LLMs必须进化得更加符合人类意图,而不是模仿预训练语料库中可能存在噪声的行为。
人类偏好学习[21]可以通过根据输出结果中反映人类偏好的反馈信息优化LLMs,有效地使LLMs与人类意图对齐,从而指定人类的意图[22]。最近涌现的大量进化后的LLMs能够生成适当的响应以应对各种人类指令,验证了这一方法的有效性[2, 6, 8, 9, 13]。目前,关于人类偏好学习的综述大多集中于狭义的人类偏好学习方法或广义的语言模型(LM)对齐方法。关于人类偏好学习的综述主要集中于强化学习(RL),这可能不适用于LLMs,也不包含与非RL偏好学习方法相关的见解[23, 24]。关于LM对齐[25, 26, 27, 28]以及一般AI系统对齐[22]或超越语言的大模型[29]的综述,主要将人类偏好学习视为解决对齐问题的工具。这些综述缺乏对偏好学习,特别是偏好建模方法的系统回顾和讨论,而偏好建模方法对于捕捉人类意图以实现LM对齐至关重要[13]。为了进一步探索更有效的偏好学习方法以实现更好的LLM对齐,我们对适用于语言模型的人类偏好学习方法进行了全面综述,从偏好学习的角度审视LLM对齐方法。通过分析偏好学习框架内的各种对齐方法,我们勾勒出将人类偏好引入LLMs的全貌,从各个方面提供关于人类偏好学习的见解,适用于各个领域。 具体而言,如图1所示,我们引入了人类偏好学习在LLMs中的各个方面,包括偏好反馈的来源和形式、偏好建模、偏好信号的使用以及整合人类偏好的LLMs的评估:
本综述的其余部分组织如下。我们在第二部分开始介绍本综述的背景,介绍人类偏好学习在LLMs中的发展历程。然后,我们从第三部分到第七部分介绍人类偏好学习在LLMs中的各个方面,包括反馈来源(第三部分)、反馈形式(第四部分)、偏好建模(第五部分)、偏好使用(第六部分)和评估(第七部分)。最后但同样重要的是,我们在第八部分总结了人类偏好学习,并讨论了我们对未来的展望。