虽然大规模无监督语言模型(LMs)学习了广泛的世界知识和一些推理技能,但由于其训练的完全无监督性质,要精确控制它们的行为是困难的。现有的方法为了获得这种可操控性,会收集人类对模型生成内容相对质量的标签,并对无监督LM进行微调,使其与这些偏好一致,这通常涉及到利用人类反馈的强化学习(RLHF)。然而,RLHF是一个复杂且经常不稳定的过程,首先拟合一个反映人类偏好的奖励模型,然后使用强化学习对大型无监督LM进行微调,以最大化这个估计的奖励,同时不过分偏离原始模型。在本文中,我们介绍了RLHF中奖励模型的一种新参数化,它能够以闭合形式提取相应的最优策略,使我们能够仅使用简单的分类损失来解决标准的RLHF问题。由此产生的算法,我们称之为直接偏好优化(DPO),稳定、高效能、计算轻量,消除了在微调过程中从LM采样或进行大量超参数调整的需要。我们的实验表明,DPO可以微调LMs以与人类偏好一致,其效果与现有方法相当或更好。值得注意的是,使用DPO进行微调在控制生成内容的情感方面超过了基于PPO的RLHF,并且在摘要和单轮对话的响应质量方面达到或提高,同时在实现和训练上大大简化。

https://www.zhuanzhi.ai/paper/2a9192cb492ed106fe8632dcabd1e2c4

成为VIP会员查看完整内容
40

相关内容

【WWW2024】RecDCL: 双重对比学习用于推荐
专知会员服务
16+阅读 · 1月30日
【AAAI2024】公平感知的Transformer模型结构剪枝
专知会员服务
41+阅读 · 2023年12月27日
【ICML2022】在线决策Transformer
专知会员服务
32+阅读 · 2022年7月27日
【NeurIPS2021】对比主动推理
专知会员服务
26+阅读 · 2021年10月21日
专知会员服务
14+阅读 · 2021年5月21日
【NeurIPS2020】点针图网络,Pointer Graph Networks
专知会员服务
39+阅读 · 2020年9月27日
【CIKM2020】神经逻辑推理,Neural Logic Reasoning
专知会员服务
49+阅读 · 2020年8月25日
【Google-CMU】元伪标签的元学习,Meta Pseudo Labels
专知会员服务
31+阅读 · 2020年3月30日
【AAAI2021】对比聚类,Contrastive Clustering
专知
24+阅读 · 2021年1月30日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
15+阅读 · 2023年6月6日
Arxiv
134+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
328+阅读 · 2023年3月31日
Arxiv
10+阅读 · 2021年3月30日
Arxiv
37+阅读 · 2021年2月10日
Deep Face Recognition: A Survey
Arxiv
17+阅读 · 2019年2月12日
Arxiv
53+阅读 · 2018年12月11日
VIP会员
相关VIP内容
【WWW2024】RecDCL: 双重对比学习用于推荐
专知会员服务
16+阅读 · 1月30日
【AAAI2024】公平感知的Transformer模型结构剪枝
专知会员服务
41+阅读 · 2023年12月27日
【ICML2022】在线决策Transformer
专知会员服务
32+阅读 · 2022年7月27日
【NeurIPS2021】对比主动推理
专知会员服务
26+阅读 · 2021年10月21日
专知会员服务
14+阅读 · 2021年5月21日
【NeurIPS2020】点针图网络,Pointer Graph Networks
专知会员服务
39+阅读 · 2020年9月27日
【CIKM2020】神经逻辑推理,Neural Logic Reasoning
专知会员服务
49+阅读 · 2020年8月25日
【Google-CMU】元伪标签的元学习,Meta Pseudo Labels
专知会员服务
31+阅读 · 2020年3月30日
相关基金
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
相关论文
Arxiv
15+阅读 · 2023年6月6日
Arxiv
134+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
328+阅读 · 2023年3月31日
Arxiv
10+阅读 · 2021年3月30日
Arxiv
37+阅读 · 2021年2月10日
Deep Face Recognition: A Survey
Arxiv
17+阅读 · 2019年2月12日
Arxiv
53+阅读 · 2018年12月11日
微信扫码咨询专知VIP会员