摘要

本文综述了在快速发展的领域中,如何通过强化学习(RL)增强大型语言模型(LLMs)的研究。强化学习是一种使LLMs能够通过基于输出质量的奖励反馈来提高其性能的技术,从而生成更准确、一致、并在语境上更合适的回应。本文系统回顾了最新的强化学习增强LLMs的研究,试图整合并分析这一快速发展的领域的研究成果,帮助研究人员理解当前的挑战和进展。具体来说,我们:(1)详细介绍了强化学习的基本原理;(2)介绍了流行的强化学习增强的大型语言模型;(3)回顾了基于奖励模型的两种广泛使用的强化学习技术:来自人类反馈的强化学习(RLHF)和来自AI反馈的强化学习(RLAIF);(4)探索了直接偏好优化(DPO)方法,这是一组绕过奖励模型、直接使用人类偏好数据来调整LLM输出以符合人类期望的方法。我们还将指出现有方法的挑战和不足,并提出一些进一步改进的方向。

1. 引言

大型语言模型(Jiang et al., 2023; OpenAI, 2023; Dubey et al., 2024)是经过大规模文本数据预训练的复杂语言模型,使其能够对多种输入生成连贯流畅的回应。然而,这些预训练的大型语言模型的互动能力可能不一致,有时会产生虽然技术上正确,但可能有害、偏见、误导或与用户需求无关的回应。因此,在将其应用于各种自然语言任务之前,将预训练大型语言模型的输出与人类偏好对齐至关重要(Wang et al., 2023b; Wan et al., 2023; Sun et al., 2023c,b; Giray, 2023; Zhang, 2023; Long, 2023; Sun, 2023; Gao et al., 2023; Paranjape et al., 2023; Sun et al., 2023a; Diao et al., 2023; Wang et al., 2023a; Zhang et al., 2023b; Sun et al., 2023d; Liu et al., 2024d; Yao et al., 2024; Liu et al., 2024c; Lee et al., 2024; Kambhampati, 2024; Wang et al., 2024c)。 此前,将预训练的大型语言模型的输出与人类偏好对齐的广泛采用的方法是监督微调(SFT)(Hu et al., 2021; Mishra et al., 2021; Wang et al., 2022; Du et al., 2022; Dettmers et al., 2023; Taori et al., 2023; Zhang et al., 2023a; Chiang et al., 2023; Xu et al., 2023; Peng et al., 2023; Mukherjee et al., 2023; Li et al., 2023; Ding et al., 2023; Luo et al., 2023; Wang et al., 2024d; Zhou et al., 2024)。这种方法通过(指令,答案)对进一步训练LLMs,其中“指令”代表给模型的提示,“答案”是符合指令的目标输出。SFT有助于引导LLMs生成符合特定特征或领域知识的回应,使得人类能够与LLMs进行交互。尽管SFT有效,但它也有局限性:在训练过程中,模型被限制为学习我们提供的特定答案,并且使用困惑度(PPL)等指标来惩罚同义词的使用。一方面,这可能阻碍LLM的泛化能力,因为任务如写作和总结有多种有效的表述方式。另一方面,它可能导致在与人类偏好对齐时表现不佳,因为训练过程中没有直接融入人类反馈。 为了缓解上述问题,采用了强化学习(RL)来将LLM的输出与人类偏好对齐,强化学习过程可分为三个步骤:(1)首先,在微调之前,训练一个奖励模型(或奖励函数),以近似人类偏好并为不同的LLM输出评分;(2)然后,在每次微调迭代中,给定一个指令,LLM生成多个回应,每个回应都由训练好的奖励模型评分;(3)最后,使用强化学习的优化技术——策略优化,基于这些偏好评分更新LLM的权重,以改进预测。用强化学习微调LLM可以同时解决上述问题。一方面,强化学习不再限制模型仅学习一个特定答案,而是根据各种偏好评分调整LLM,奖励任何有效且措辞恰当的回应。另一方面,奖励模型被设计为近似人类偏好,从而使得可以直接在人工偏好上训练,并增强LLM的创造力。 本文将整合强化学习(RL)在大型语言模型(LLMs)中的最新研究成果,试图分析并总结这一快速发展的领域,帮助研究人员理解当前的研究进展、挑战和前景。具体来说:

  • 第二部分介绍强化学习(RL)的基本原理及关键术语,并概述强化学习如何适应LLM的管道。
  • 第三部分介绍了强化学习增强的流行且强大的大型语言模型。
  • 第四部分概述了基于人类反馈的强化学习(RLHF)的过程,这是一种将强化学习与人类反馈结合的训练方法,用以将LLMs与人类的价值观、偏好和期望对齐。
  • 第五部分回顾了基于AI反馈的强化学习(RLAIF)的研究,RLAIF作为RLHF的有力补充,利用AI系统提供反馈,提供了可扩展性、一致性和成本效益的优势。
  • 第六部分分析了RLHF和RLAIF所面临的挑战。
  • 第七部分讨论了直接偏好优化(DPO)研究,这是一系列绕过奖励模型、直接利用人类偏好数据将LLM输出与人类期望对齐的方法。
  • 第八部分总结了当前的挑战,并讨论了进一步改进的机会。

强化学习在大型语言模型中的应用

我们已经概述了强化学习(RL)的基本框架;现在,我们将深入探讨如何使用RL微调大型语言模型(LLMs)的过程。此方法旨在将LLM与期望的行为对齐,提升其性能,并确保其输出既有效又可靠。

在强化学习(RL)中,有六个关键组件:代理(Agent)、环境(Environment)、状态(State)、动作(Action)、奖励(Reward)和策略(Policy)。要将RL应用于微调大型语言模型(LLMs),第一步是将这些组件映射到LLM框架中。 LLMs在预测下一个词元(next-token prediction)方面非常高效,它们将一系列词元作为输入,并根据给定的上下文预测下一个词元。从RL的角度来看,我们可以将LLM本身视为策略(Policy)。当前的文本序列代表状态(State),根据这个状态,LLM生成一个动作(Action)——即下一个词元。这个动作会更新状态,形成一个新的状态,其中包含新增的词元。在生成完整的文本序列后,使用预训练的奖励模型来评估LLM输出的质量,从而决定奖励(Reward)。 图2 展示了Ouyang等人(2022)提出的LLM强化学习框架。Ouyang等人(2022)首先使用通过监督学习训练的指令微调模型,使其能够生成结构化的响应。接着,Ouyang等人(2022)应用了以下两个步骤: 步骤1:收集比较数据并训练奖励模型

Ouyang等人(2022)收集了一个数据集,包含指令微调模型输出之间的比较,标注者指出对于给定输入,他们更喜欢哪个输出。然后,收集到的数据集用于训练一个奖励模型(Reward Model, RM),以预测人类偏好的输出。 步骤2:使用PPO优化策略对抗奖励模型

Ouyang等人(2022)将奖励模型的输出作为标量奖励,并通过PPO算法(Schulman等人,2017)对指令微调模型进行微调,优化该奖励。

强化学习增强的流行大型语言模型

近期流行的强大功能的大型语言模型(LLMs)几乎都利用强化学习(RL)来进一步增强其在后期训练过程中的表现。这些模型所采用的强化学习方法通常可以分为两大类: 1. 传统的RL方法,如基于人类反馈的强化学习(RLHF)基于AI反馈的强化学习(RLAIF)。这些方法需要训练一个奖励模型,并且涉及复杂且通常不稳定的过程,使用如近端策略优化(PPO)(Schulman 等人,2017)等算法来优化策略模型。像InstructGPT(Ouyang 等人,2022)、GPT-4(OpenAI,2023)和Claude 3(Anthropic,2024)等模型都采用了这一方法。 1. 简化的方法,如直接偏好优化(DPO)(Rafailov 等人,2024)和奖励感知偏好优化(RPO)(Adler 等人,2024)。这些方法摒弃了奖励模型,提供了一种稳定、性能强大且计算效率高的解决方案。像Llama 3(Dubey 等人,2024)、Qwen 2(Yang 等人,2024a)和Nemotron-4 340B(Adler 等人,2024)等模型都采用了这一方法。

在这一部分,我们将详细描述每个模型,首先简要概述这些强化学习增强的大型语言模型,并解释强化学习如何在它们的后期训练过程中应用。有关这些强化学习增强的LLMs的概览见表1

RLHF:基于人类反馈的强化学习

基于人类反馈的强化学习(RLHF)是一种训练方法,它将强化学习(RL)与人类反馈相结合,以将大型语言模型(LLMs)与人类的价值观、偏好和期望对齐。RLHF包含两个主要组件: 1. 收集人类反馈以训练奖励模型:在人类评估者提供反馈时,他们通过根据质量、相关性等因素对LLM的输出进行评分或排名。这些反馈随后用于训练一个奖励模型,该模型用于预测输出的质量,并作为RL过程中的奖励函数。 1. 使用人类反馈进行偏好优化:训练好的奖励模型指导LLM输出的优化,以最大化预测奖励,从而使LLM的行为与人类的偏好对齐。

接下来,我们将通过近期的研究来阐述这两个组件。

成为VIP会员查看完整内容
0

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
大规模语言模型的个性化:综述
专知会员服务
36+阅读 · 11月4日
小型语言模型综述
专知会员服务
42+阅读 · 10月29日
边缘大型语言模型综述:设计、执行与应用
专知会员服务
37+阅读 · 10月21日
多模态持续学习的最新进展:综合综述
专知会员服务
39+阅读 · 10月10日
扩散模型与表示学习:综述
专知会员服务
44+阅读 · 7月2日
UCL& UC Berkeley | 深度强化学习中的泛化研究综述
专知会员服务
60+阅读 · 2021年11月22日
专知会员服务
50+阅读 · 2021年9月25日
基于模型的强化学习综述
专知
33+阅读 · 2022年7月13日
层级强化学习概念简介
CreateAMind
17+阅读 · 2019年6月9日
Attention!注意力机制模型最新综述
专知
65+阅读 · 2019年4月8日
领域自适应学习论文大列表
专知
71+阅读 · 2019年3月2日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
基于深度学习的NLP 32页最新进展综述,190篇参考文献
人工智能学家
27+阅读 · 2018年12月4日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
深度学习超参数搜索实用指南
云栖社区
28+阅读 · 2018年10月14日
统计学常用数据类型
论智
18+阅读 · 2018年7月6日
国家自然科学基金
25+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
15+阅读 · 2008年12月31日
A Survey of Large Language Models
Arxiv
406+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2023年3月26日
Arxiv
145+阅读 · 2023年3月24日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关VIP内容
大规模语言模型的个性化:综述
专知会员服务
36+阅读 · 11月4日
小型语言模型综述
专知会员服务
42+阅读 · 10月29日
边缘大型语言模型综述:设计、执行与应用
专知会员服务
37+阅读 · 10月21日
多模态持续学习的最新进展:综合综述
专知会员服务
39+阅读 · 10月10日
扩散模型与表示学习:综述
专知会员服务
44+阅读 · 7月2日
UCL& UC Berkeley | 深度强化学习中的泛化研究综述
专知会员服务
60+阅读 · 2021年11月22日
专知会员服务
50+阅读 · 2021年9月25日
相关资讯
基于模型的强化学习综述
专知
33+阅读 · 2022年7月13日
层级强化学习概念简介
CreateAMind
17+阅读 · 2019年6月9日
Attention!注意力机制模型最新综述
专知
65+阅读 · 2019年4月8日
领域自适应学习论文大列表
专知
71+阅读 · 2019年3月2日
多模态多任务学习新论文
专知
46+阅读 · 2019年2月9日
基于深度学习的NLP 32页最新进展综述,190篇参考文献
人工智能学家
27+阅读 · 2018年12月4日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
深度学习超参数搜索实用指南
云栖社区
28+阅读 · 2018年10月14日
统计学常用数据类型
论智
18+阅读 · 2018年7月6日
相关基金
国家自然科学基金
25+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
15+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员