尽管大型无监督语言模型(LMs)可以学习广泛的世界知识和一些推理技能,但由于其训练是完全无监督的,因此难以实现对其行为的精确控制。现有的方法通过收集模型生成结果相对质量的人类标签,并对无监督的语言模型进行微调以符合这些偏好,通常使用来自人类反馈的强化学习(RLHF)。然而,RLHF是一个复杂且常常不稳定的过程,首先需要拟合一个反映人类偏好的奖励模型,然后使用强化学习微调大型无监督语言模型,以最大化这个估计的奖励,同时避免偏离原始模型太远。在本文中,我们引入了一种新的RLHF奖励模型参数化方法,可以以闭合形式提取相应的最优策略,使我们能够仅通过一个简单的分类损失来解决标准的RLHF问题。我们称之为直接偏好优化(DPO)的算法是稳定、高效且计算负担轻微的,消除了在微调过程中从语言模型采样或进行大量超参数调整的需求。我们的实验表明,DPO可以微调语言模型,使其与人类偏好对齐的效果与现有方法相当或更好。值得注意的是,使用DPO进行微调在控制生成结果情感方面超过了基于PPO的RLHF,并且在摘要和单轮对话的响应质量上匹敌或优于现有方法,同时实现和训练过程显著简化。

成为VIP会员查看完整内容
41

相关内容

《检索增强语言模型》最新教程,133页ppt
专知会员服务
61+阅读 · 3月11日
【AAAI2024】面向序列推荐的插件扩散模型
专知会员服务
25+阅读 · 1月9日
LLM驱动的指令遵循:进展,213页ppt
专知会员服务
66+阅读 · 2023年12月30日
专知会员服务
77+阅读 · 2021年5月30日
【AAAI2021】知识迁移的机器学习成员隐私保护,57页ppt
专知会员服务
27+阅读 · 2021年2月9日
图节点嵌入(Node Embeddings)概述,9页pdf
专知
15+阅读 · 2020年8月22日
多模态深度学习综述,18页pdf
专知
48+阅读 · 2020年3月29日
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
26+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
407+阅读 · 2023年3月31日
Arxiv
21+阅读 · 2023年3月17日
Arxiv
18+阅读 · 2021年3月16日
Arxiv
10+阅读 · 2020年11月26日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
VIP会员
相关VIP内容
《检索增强语言模型》最新教程,133页ppt
专知会员服务
61+阅读 · 3月11日
【AAAI2024】面向序列推荐的插件扩散模型
专知会员服务
25+阅读 · 1月9日
LLM驱动的指令遵循:进展,213页ppt
专知会员服务
66+阅读 · 2023年12月30日
专知会员服务
77+阅读 · 2021年5月30日
【AAAI2021】知识迁移的机器学习成员隐私保护,57页ppt
专知会员服务
27+阅读 · 2021年2月9日
相关基金
国家自然科学基金
11+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
26+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
相关论文
A Survey of Large Language Models
Arxiv
407+阅读 · 2023年3月31日
Arxiv
21+阅读 · 2023年3月17日
Arxiv
18+阅读 · 2021年3月16日
Arxiv
10+阅读 · 2020年11月26日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
微信扫码咨询专知VIP会员