随着大型语言模型(LLMs)的快速发展,使策略模型与人类偏好保持一致变得愈发重要。直接偏好优化(DPO)作为一种不依赖强化学习(RL)的替代方法,逐渐成为对齐的有前途的途径,替代了基于人类反馈的强化学习(RLHF)。尽管 DPO 在多方面取得了进展,并且其内在的局限性也备受关注,但目前文献中尚缺乏对这些方面的深入综述。在这项工作中,我们对 DPO 的挑战和机遇进行了全面回顾,涵盖了理论分析、变体、相关偏好数据集和应用。具体而言,我们根据关键研究问题对近期的 DPO 研究进行了分类,以全面了解 DPO 的现状。此外,我们提出了多个未来研究方向,以为研究社区提供有关模型对齐的见解。
通过使用预测下一个词的目标,基于大规模、高质量语料库进行预训练,耗费大量计算资源,大型语言模型(LLMs)[OpenAI, 2022; Touvron等, 2023a; OpenAI, 2024a; Jiang等, 2023]将广泛的世界知识内化于其内部参数中,展现了令人印象深刻的语言理解和生成能力。此外,LLMs 已经扩展到支持多模态输入,包括语言和视觉,从而催生了大型视觉语言模型(LVLMs)[OpenAI, 2023a; Liu等, 2024a; Team等, 2023; Bai等, 2023]。这些基础模型作为通用解决方案,在广泛的语言和视觉语言任务中表现优异,标志着向人工通用智能(AGI)迈出了重要的一步。 随着这些基础模型规模的扩大和性能的提升,它们仍然难以完全遵循用户的指令(显式目标)并实现“有帮助、诚实、无害”(隐式目标),这归因于预训练阶段使用的下一个词预测任务的目标不完全对齐[Leike等, 2018; Askell等, 2021; OpenAI, 2023b]。因此,在典型的后训练阶段,会进行偏好优化(例如,从人类反馈中进行强化学习,RLHF),在响应级别上对预训练的语言模型进行对齐,以确保它们与用户的意图保持一致,并且保持有帮助、诚实和无害[Ouyang等, 2022a; Dai等, 2024; Sun等, 2023]。RLHF 首先在收集的人工偏好数据上训练显式奖励模型。随后,RLHF使用强化学习算法(例如,近端策略优化(PPO; Schulman等, 2017a])微调策略模型(即目标微调的LLM),以生成能够最大化由奖励模型评分的响应奖励的响应,但不偏离参考模型太远,受KL散度约束。然而,RLHF需要精心调整超参数和大量计算资源来维持强化学习训练的稳定性。此外,一些研究还指出与此显式奖励建模相关的一些挑战,例如奖励滥用[Casper等, 2023]、奖励错误指定[Pan等, 2022]和分布外泛化问题[Tien等, 2023]。 为了避免上述RLHF的限制,提出了多种不依赖强化学习的偏好优化方法。Yuan等[2023]、Dong等[2023]、Liu等[2024b]、Song等[2024]提出从策略模型中采样多个响应,并使用经过良好训练的奖励模型进行评分。然后,在没有使用强化学习算法的情况下,直接在最优的响应(称为拒绝采样)或通过应用排序损失微调策略模型。另一方面,从RL中带有KL约束的奖励最大化目标出发,直接偏好优化(DPO; Rafailov等, 2023)推导出其学习目标,特别是基于离线偏好数据的简单最大似然目标,直接在策略模型和参考模型上进行建模,从而绕过了显式奖励模型训练阶段,并消除了强化学习优化的需要。实际上,DPO的优化目标等同于Bradley-Terry模型[Bradley和Terry, 1952a],其中隐式奖励函数由策略模型本身参数化。与RLHF相比,DPO在多种应用中表现出稳定、高效且计算轻量的优势[Rafailov等, 2023; Ethayarajh等, 2024; Ivison等, 2024]。 最近的一些研究表明,尽管避免了计算成本高昂的强化学习,DPO仍然面临一些重大挑战。例如,DPO中的隐式奖励建模可能导致偏向分布外响应的策略[Xu等, 2024a; Saeidi等, 2024],离线DPO在经验上不如在线对齐方法[Ivison等, 2024],经过对齐的模型可能会经历所谓的“对齐成本”[Lin等, 2024a; Lu等, 2024a]。因此,近期提出了多种改进版的DPO,包括KTO[Ethayarajh等, 2024]、IPO[Azar等, 2023]、CPO[Xu等, 2024b]、ORPO[Hong等, 2024]、simPO[Meng等, 2024],以及其他方法[Lu等, 2024b; Xiao等, 2024; Zeng等, 2024]。随着DPO的快速发展,迫切需要一篇综合性综述,帮助研究人员识别该领域中的新兴趋势和挑战。我们观察到一些关于LLM对齐的同时进行的研究与我们的工作相关[Ji等, 2023; Wang等, 2023a; Shen等, 2023]。然而,现有的综述文章主要关注LLMs的整体对齐,包括指令微调和RLHF。它们涉及DPO的部分不足以捕捉这一领域当前快速发展的态势。此外,这些综述往往关注于语言模型的对齐,未能提供对DPO特定的应用和数据集的深入介绍。 为了弥补这一空白,我们在本文中对DPO的最新进展进行了全面综述,涵盖了相关的偏好数据集、理论分析、变体和应用。具体而言,我们根据以下研究问题对当前的DPO研究进行分类:
我们希望这篇综述能够帮助研究人员抓住该领域中的新趋势和挑战,探索DPO在对齐LLMs和多模态LLMs(MLLMs)中的潜力,并为构建更具可扩展性和普适性的DPO做出贡献。具体而言,我们认为未来的研究应优先开发更先进的DPO变体,这些变体能够:(i)超越实例级反馈,捕捉更细粒度和准确的奖励;(ii)通过数据、学习目标和奖励展示出与在线RLHF相比具有竞争力或更强的泛化能力;并且(iii)促进复杂应用的发展,如深度推理系统(例如OpenAI o1 [OpenAI, 2024b])、混合模态模型(例如Chameleon [Team, 2024])。 本文其余部分的组织结构如下。(§ 2)介绍了RLHF和DPO的背景知识。(§ 3)介绍了DPO的研究问题和不同变体。DPO使用的数据集和应用分别在(§ 4)和(§ 5)中介绍。(§ 6)讨论了DPO的机遇和挑战。最后在(§ 7)中给出了简短的结论。