随着大型语言模型(LLMs)的快速发展,使策略模型与人类偏好保持一致变得愈发重要。直接偏好优化(DPO)作为一种不依赖强化学习(RL)的替代方法,逐渐成为对齐的有前途的途径,替代了基于人类反馈的强化学习(RLHF)。尽管 DPO 在多方面取得了进展,并且其内在的局限性也备受关注,但目前文献中尚缺乏对这些方面的深入综述。在这项工作中,我们对 DPO 的挑战和机遇进行了全面回顾,涵盖了理论分析、变体、相关偏好数据集和应用。具体而言,我们根据关键研究问题对近期的 DPO 研究进行了分类,以全面了解 DPO 的现状。此外,我们提出了多个未来研究方向,以为研究社区提供有关模型对齐的见解。

1 引言

通过使用预测下一个词的目标,基于大规模、高质量语料库进行预训练,耗费大量计算资源,大型语言模型(LLMs)[OpenAI, 2022; Touvron等, 2023a; OpenAI, 2024a; Jiang等, 2023]将广泛的世界知识内化于其内部参数中,展现了令人印象深刻的语言理解和生成能力。此外,LLMs 已经扩展到支持多模态输入,包括语言和视觉,从而催生了大型视觉语言模型(LVLMs)[OpenAI, 2023a; Liu等, 2024a; Team等, 2023; Bai等, 2023]。这些基础模型作为通用解决方案,在广泛的语言和视觉语言任务中表现优异,标志着向人工通用智能(AGI)迈出了重要的一步。 随着这些基础模型规模的扩大和性能的提升,它们仍然难以完全遵循用户的指令(显式目标)并实现“有帮助、诚实、无害”(隐式目标),这归因于预训练阶段使用的下一个词预测任务的目标不完全对齐[Leike等, 2018; Askell等, 2021; OpenAI, 2023b]。因此,在典型的后训练阶段,会进行偏好优化(例如,从人类反馈中进行强化学习,RLHF),在响应级别上对预训练的语言模型进行对齐,以确保它们与用户的意图保持一致,并且保持有帮助、诚实和无害[Ouyang等, 2022a; Dai等, 2024; Sun等, 2023]。RLHF 首先在收集的人工偏好数据上训练显式奖励模型。随后,RLHF使用强化学习算法(例如,近端策略优化(PPO; Schulman等, 2017a])微调策略模型(即目标微调的LLM),以生成能够最大化由奖励模型评分的响应奖励的响应,但不偏离参考模型太远,受KL散度约束。然而,RLHF需要精心调整超参数和大量计算资源来维持强化学习训练的稳定性。此外,一些研究还指出与此显式奖励建模相关的一些挑战,例如奖励滥用[Casper等, 2023]、奖励错误指定[Pan等, 2022]和分布外泛化问题[Tien等, 2023]。 为了避免上述RLHF的限制,提出了多种不依赖强化学习的偏好优化方法。Yuan等[2023]、Dong等[2023]、Liu等[2024b]、Song等[2024]提出从策略模型中采样多个响应,并使用经过良好训练的奖励模型进行评分。然后,在没有使用强化学习算法的情况下,直接在最优的响应(称为拒绝采样)或通过应用排序损失微调策略模型。另一方面,从RL中带有KL约束的奖励最大化目标出发,直接偏好优化(DPO; Rafailov等, 2023)推导出其学习目标,特别是基于离线偏好数据的简单最大似然目标,直接在策略模型和参考模型上进行建模,从而绕过了显式奖励模型训练阶段,并消除了强化学习优化的需要。实际上,DPO的优化目标等同于Bradley-Terry模型[Bradley和Terry, 1952a],其中隐式奖励函数由策略模型本身参数化。与RLHF相比,DPO在多种应用中表现出稳定、高效且计算轻量的优势[Rafailov等, 2023; Ethayarajh等, 2024; Ivison等, 2024]。 最近的一些研究表明,尽管避免了计算成本高昂的强化学习,DPO仍然面临一些重大挑战。例如,DPO中的隐式奖励建模可能导致偏向分布外响应的策略[Xu等, 2024a; Saeidi等, 2024],离线DPO在经验上不如在线对齐方法[Ivison等, 2024],经过对齐的模型可能会经历所谓的“对齐成本”[Lin等, 2024a; Lu等, 2024a]。因此,近期提出了多种改进版的DPO,包括KTO[Ethayarajh等, 2024]、IPO[Azar等, 2023]、CPO[Xu等, 2024b]、ORPO[Hong等, 2024]、simPO[Meng等, 2024],以及其他方法[Lu等, 2024b; Xiao等, 2024; Zeng等, 2024]。随着DPO的快速发展,迫切需要一篇综合性综述,帮助研究人员识别该领域中的新兴趋势和挑战。我们观察到一些关于LLM对齐的同时进行的研究与我们的工作相关[Ji等, 2023; Wang等, 2023a; Shen等, 2023]。然而,现有的综述文章主要关注LLMs的整体对齐,包括指令微调和RLHF。它们涉及DPO的部分不足以捕捉这一领域当前快速发展的态势。此外,这些综述往往关注于语言模型的对齐,未能提供对DPO特定的应用和数据集的深入介绍。 为了弥补这一空白,我们在本文中对DPO的最新进展进行了全面综述,涵盖了相关的偏好数据集、理论分析、变体和应用。具体而言,我们根据以下研究问题对当前的DPO研究进行分类:

  • 隐式奖励建模的效果。DPO通过建立从奖励函数到最优策略的直接映射,避免了训练显式奖励模型。因此,研究人员已经研究了DPO中隐式奖励建模的泛化能力[Lin等, 2024b; Li等, 2024a; Yang等, 2024a; Jia, 2024]。
  • KL惩罚系数与参考模型的影响。RL和DPO的优化目标都涉及KL散度正则化,它限制了策略模型保持在参考模型的特定范围内。因此,最近的一些研究探讨了KL惩罚系数和参考模型选择的影响[Liu等, 2024c; Xu等, 2024a; Feng等, 2024; Rafailov等, 2024a]。
  • 不同反馈的效果。DPO使用点对点奖励和成对偏好数据提供奖励信号。然而,获得高质量的成对偏好数据既昂贵又耗时,影响了可扩展性。此外,实例级优化可能未充分利用偏好数据的潜力。因此,一些研究使用其他形式的反馈(例如,列表级、二元、分步、词级等)作为优化的奖励信号[Dong等, 2023; Yuan等, 2023; Ethayarajh等, 2024; Zeng等, 2024; Chen等, 2024a; Xu等, 2024b]。
  • 在线DPO。与在线RLHF相比,DPO利用预收集的偏好数据,属于离线偏好优化方法。一些研究强调了在线和离线算法之间的性能差距[Tang等, 2024; Wang等, 2024a]。为了解决这一问题,最近的研究探索了DPO的迭代和在线变体,以及有效收集新偏好数据集的策略[Xu等, 2024c; Guo等, 2024a; Yuan等, 2024a; Chen等, 2024b]。
  • 奖励滥用。奖励滥用是强化学习中的一个长期问题,其中策略获得高奖励,但未能实现实际目标[Dubois等, 2024; Singhal等, 2023]。近期研究发现,无论是RLHF还是DPO,奖励滥用都普遍存在,策略利用潜在的捷径(例如响应长度和风格)开发特定的响应模式以“欺骗”奖励模型[Kabir等, 2024; Wang等, 2023b; Park等, 2024]。为克服这一限制,提出了一些方法以避免此类弱点被利用[Park等, 2024; Yuan等, 2024b; Meng等, 2024; Liu等, 2024d]。
  • 对齐成本。偏好优化的目标是使模型与人类偏好保持一致。然而,先前的研究发现了所谓的“对齐成本”现象,即在对齐目标上的改进可能导致与基线模型相比的性能下降[Ouyang等, 2022a]。因此,一些研究调查了对齐成本并提出了减少其影响的方法[Lin等, 2024a; Lou等, 2024a; Guo等, 2024b]。

我们希望这篇综述能够帮助研究人员抓住该领域中的新趋势和挑战,探索DPO在对齐LLMs和多模态LLMs(MLLMs)中的潜力,并为构建更具可扩展性和普适性的DPO做出贡献。具体而言,我们认为未来的研究应优先开发更先进的DPO变体,这些变体能够:(i)超越实例级反馈,捕捉更细粒度和准确的奖励;(ii)通过数据、学习目标和奖励展示出与在线RLHF相比具有竞争力或更强的泛化能力;并且(iii)促进复杂应用的发展,如深度推理系统(例如OpenAI o1 [OpenAI, 2024b])、混合模态模型(例如Chameleon [Team, 2024])。 本文其余部分的组织结构如下。(§ 2)介绍了RLHF和DPO的背景知识。(§ 3)介绍了DPO的研究问题和不同变体。DPO使用的数据集和应用分别在(§ 4)和(§ 5)中介绍。(§ 6)讨论了DPO的机遇和挑战。最后在(§ 7)中给出了简短的结论。

成为VIP会员查看完整内容
3

相关内容

大规模语言模型的人类偏好学习综述
专知会员服务
39+阅读 · 6月19日
基于内在质量约束的文本生成和评价综述
专知会员服务
17+阅读 · 6月9日
基础语言模型在持续学习中的最新进展:综述
专知会员服务
34+阅读 · 6月9日
大型语言模型的高效提示方法综述
专知会员服务
68+阅读 · 4月2日
因果学习在可信赖推荐系统中的应用综述
专知会员服务
16+阅读 · 2月15日
大型语言模型图表示学习:技术的全面综述
专知会员服务
48+阅读 · 2月14日
《多模态大模型少样本自适应》综述
专知会员服务
90+阅读 · 1月4日
Transformer推理的全栈优化综述
专知会员服务
82+阅读 · 2023年3月4日
【WWW2021】归一化硬样本挖掘的双重注意匹配网络
专知会员服务
17+阅读 · 2021年3月31日
数据受限条件下的多模态处理技术综述
专知
15+阅读 · 2022年7月16日
基于模型的强化学习综述
专知
27+阅读 · 2022年7月13日
时空数据挖掘:综述
专知
24+阅读 · 2022年6月30日
最新《图嵌入组合优化》综述论文,40页pdf
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
无人机集群、蜂群与蜂群算法
无人机
88+阅读 · 2018年9月25日
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
15+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
152+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
390+阅读 · 2023年3月31日
Arxiv
19+阅读 · 2023年3月17日
Arxiv
68+阅读 · 2022年9月7日
Arxiv
18+阅读 · 2021年3月16日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
VIP会员
相关VIP内容
大规模语言模型的人类偏好学习综述
专知会员服务
39+阅读 · 6月19日
基于内在质量约束的文本生成和评价综述
专知会员服务
17+阅读 · 6月9日
基础语言模型在持续学习中的最新进展:综述
专知会员服务
34+阅读 · 6月9日
大型语言模型的高效提示方法综述
专知会员服务
68+阅读 · 4月2日
因果学习在可信赖推荐系统中的应用综述
专知会员服务
16+阅读 · 2月15日
大型语言模型图表示学习:技术的全面综述
专知会员服务
48+阅读 · 2月14日
《多模态大模型少样本自适应》综述
专知会员服务
90+阅读 · 1月4日
Transformer推理的全栈优化综述
专知会员服务
82+阅读 · 2023年3月4日
【WWW2021】归一化硬样本挖掘的双重注意匹配网络
专知会员服务
17+阅读 · 2021年3月31日
相关资讯
数据受限条件下的多模态处理技术综述
专知
15+阅读 · 2022年7月16日
基于模型的强化学习综述
专知
27+阅读 · 2022年7月13日
时空数据挖掘:综述
专知
24+阅读 · 2022年6月30日
最新《图嵌入组合优化》综述论文,40页pdf
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
深度学习与计算机视觉任务应用综述
深度学习与NLP
50+阅读 · 2018年12月18日
无人机集群、蜂群与蜂群算法
无人机
88+阅读 · 2018年9月25日
相关基金
国家自然科学基金
41+阅读 · 2015年12月31日
国家自然科学基金
15+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
相关论文
Arxiv
152+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
390+阅读 · 2023年3月31日
Arxiv
19+阅读 · 2023年3月17日
Arxiv
68+阅读 · 2022年9月7日
Arxiv
18+阅读 · 2021年3月16日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
微信扫码咨询专知VIP会员