直接偏好优化：一种新的RLHF方法，87页ppt - 专知VIP

会员服务 ·

23

直接偏好优化（DPO） · 人类反馈强化学习 (RLHF) ·

2024 年 6 月 10 日

直接偏好优化：一种新的RLHF方法，87页ppt

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

尽管大型无监督语言模型（LMs）可以学习广泛的世界知识和一些推理技能，但由于其训练是完全无监督的，因此难以实现对其行为的精确控制。现有的方法通过收集模型生成结果相对质量的人类标签，并对无监督的语言模型进行微调以符合这些偏好，通常使用来自人类反馈的强化学习（RLHF）。然而，RLHF是一个复杂且常常不稳定的过程，首先需要拟合一个反映人类偏好的奖励模型，然后使用强化学习微调大型无监督语言模型，以最大化这个估计的奖励，同时避免偏离原始模型太远。在本文中，我们引入了一种新的RLHF奖励模型参数化方法，可以以闭合形式提取相应的最优策略，使我们能够仅通过一个简单的分类损失来解决标准的RLHF问题。我们称之为直接偏好优化（DPO）的算法是稳定、高效且计算负担轻微的，消除了在微调过程中从语言模型采样或进行大量超参数调整的需求。我们的实验表明，DPO可以微调语言模型，使其与人类偏好对齐的效果与现有方法相当或更好。值得注意的是，使用DPO进行微调在控制生成结果情感方面超过了基于PPO的RLHF，并且在摘要和单轮对话的响应质量上匹敌或优于现有方法，同时实现和训练过程显著简化。

成为VIP会员查看完整内容

43

相关内容

直接偏好优化（DPO）

直接偏好优化（DPO）

【CVPR2024】渐进式语义引导视觉变换器用于零样本学习

【CVPR2024】渐进式语义引导视觉变换器用于零样本学习

专知会员服务

19+阅读 · 2024年4月13日

《检索增强语言模型》最新教程，133页ppt

《检索增强语言模型》最新教程，133页ppt

专知会员服务

64+阅读 · 2024年3月11日

【AAAI2024】面向序列推荐的插件扩散模型

【AAAI2024】面向序列推荐的插件扩散模型

专知会员服务

27+阅读 · 2024年1月9日

LLM驱动的指令遵循:进展，213页ppt

LLM驱动的指令遵循:进展，213页ppt

专知会员服务

70+阅读 · 2023年12月30日

NeurIPS 2023教程: 在超参数化模型时代重新考虑过拟合，231页ppt

NeurIPS 2023教程: 在超参数化模型时代重新考虑过拟合，231页ppt

专知会员服务

49+阅读 · 2023年12月13日

【AAAI2023】基于检索增强语言模型的高效可扩展NLP，72页ppt

【AAAI2023】基于检索增强语言模型的高效可扩展NLP，72页ppt

专知会员服务

57+阅读 · 2023年2月20日

【ICML2021】具有超参数重要性的可解释的自动图表示学习

专知会员服务

26+阅读 · 2021年7月18日

可解释的自然语言处理方法简介

专知会员服务

81+阅读 · 2021年5月30日

【AAAI2021】知识迁移的机器学习成员隐私保护，57页ppt

【AAAI2021】知识迁移的机器学习成员隐私保护，57页ppt

专知会员服务

28+阅读 · 2021年2月9日

【AAAI2020】基于属性指导和纯视觉的注意力对齐的小样本识别

【AAAI2020】基于属性指导和纯视觉的注意力对齐的小样本识别

专知会员服务

15+阅读 · 2021年1月14日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

最新《知识驱动的文本生成》综述论文，44页pdf

最新《知识驱动的文本生成》综述论文，44页pdf

专知

25+阅读 · 2020年10月14日

【KDD2020-Tutorial】深度学习异常检测，180页ppt

【KDD2020-Tutorial】深度学习异常检测，180页ppt

专知

49+阅读 · 2020年8月28日

图节点嵌入(Node Embeddings)概述，9页pdf

图节点嵌入(Node Embeddings)概述，9页pdf

专知

15+阅读 · 2020年8月22日

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

专知

36+阅读 · 2020年5月2日

多模态深度学习综述，18页pdf

多模态深度学习综述，18页pdf

专知

50+阅读 · 2020年3月29日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

专知

71+阅读 · 2020年2月29日

【学界】Google用更少标签生成图像，还提出一个用于训练评估GAN的库

【学界】Google用更少标签生成图像，还提出一个用于训练评估GAN的库

GAN生成式对抗网络

23+阅读 · 2019年4月10日

语义Web知识库补全关键技术研究

国家自然科学基金

14+阅读 · 2017年12月31日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

非参数核方法的样本外扩展研究

国家自然科学基金

2+阅读 · 2015年12月31日

不确定知识图谱中面向结构查询的众包清洗研究

国家自然科学基金

4+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

8+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

基于决策模型和预备电位的运动想象BCI研究

国家自然科学基金

3+阅读 · 2015年12月31日

变换结构方程模型的非参数贝叶斯分析

国家自然科学基金

3+阅读 · 2014年12月31日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

216+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

476+阅读 · 2023年3月31日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

A survey and taxonomy of loss functions in machine learning

Arxiv

26+阅读 · 2023年1月13日

Deep learning: a statistical viewpoint

Arxiv

18+阅读 · 2021年3月16日

Meta-learning in natural and artificial intelligence

Arxiv

10+阅读 · 2020年11月26日

Hyper-SAGNN: a self-attention based graph neural network for hypergraphs

Hyper-SAGNN: a self-attention based graph neural network for hypergraphs

Arxiv

17+阅读 · 2019年11月6日

Augmentation for small object detection

Augmentation for small object detection

Arxiv

11+阅读 · 2019年2月19日

Interpretable machine learning: definitions, methods, and applications

Interpretable machine learning: definitions, methods, and applications

Arxiv

19+阅读 · 2019年1月14日

VIP会员

相关主题

直接偏好优化（DPO）

人类反馈强化学习 (RLHF)

相关VIP内容

【CVPR2024】渐进式语义引导视觉变换器用于零样本学习

【CVPR2024】渐进式语义引导视觉变换器用于零样本学习

专知会员服务

19+阅读 · 2024年4月13日

《检索增强语言模型》最新教程，133页ppt

《检索增强语言模型》最新教程，133页ppt

专知会员服务

64+阅读 · 2024年3月11日

【AAAI2024】面向序列推荐的插件扩散模型

【AAAI2024】面向序列推荐的插件扩散模型

专知会员服务

27+阅读 · 2024年1月9日

LLM驱动的指令遵循:进展，213页ppt

LLM驱动的指令遵循:进展，213页ppt

专知会员服务

70+阅读 · 2023年12月30日

NeurIPS 2023教程: 在超参数化模型时代重新考虑过拟合，231页ppt

NeurIPS 2023教程: 在超参数化模型时代重新考虑过拟合，231页ppt

专知会员服务

49+阅读 · 2023年12月13日

【AAAI2023】基于检索增强语言模型的高效可扩展NLP，72页ppt

【AAAI2023】基于检索增强语言模型的高效可扩展NLP，72页ppt

专知会员服务

57+阅读 · 2023年2月20日

【ICML2021】具有超参数重要性的可解释的自动图表示学习

专知会员服务

26+阅读 · 2021年7月18日

可解释的自然语言处理方法简介

专知会员服务

81+阅读 · 2021年5月30日

【AAAI2021】知识迁移的机器学习成员隐私保护，57页ppt

【AAAI2021】知识迁移的机器学习成员隐私保护，57页ppt

专知会员服务

28+阅读 · 2021年2月9日

【AAAI2020】基于属性指导和纯视觉的注意力对齐的小样本识别

【AAAI2020】基于属性指导和纯视觉的注意力对齐的小样本识别

专知会员服务

15+阅读 · 2021年1月14日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】数据驱动决策中的激励、信息与不确定性

DGP双粒度提示框架：图增强大模型助力欺诈检测

【ICCV2025】ESSENTIAL：用于视频类增量学习的情景记忆与语义记忆整合

唯快不破：大型语言模型高效架构综述

相关资讯

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

最新《知识驱动的文本生成》综述论文，44页pdf

最新《知识驱动的文本生成》综述论文，44页pdf

专知

25+阅读 · 2020年10月14日

【KDD2020-Tutorial】深度学习异常检测，180页ppt

【KDD2020-Tutorial】深度学习异常检测，180页ppt

专知

49+阅读 · 2020年8月28日

图节点嵌入(Node Embeddings)概述，9页pdf

图节点嵌入(Node Embeddings)概述，9页pdf

专知

15+阅读 · 2020年8月22日

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

最新《可解释深度学习XDL》2020研究进展综述大全，54页pdf

专知

36+阅读 · 2020年5月2日

多模态深度学习综述，18页pdf

多模态深度学习综述，18页pdf

专知

50+阅读 · 2020年3月29日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

专知

71+阅读 · 2020年2月29日

【学界】Google用更少标签生成图像，还提出一个用于训练评估GAN的库

【学界】Google用更少标签生成图像，还提出一个用于训练评估GAN的库

GAN生成式对抗网络

23+阅读 · 2019年4月10日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

14+阅读 · 2017年12月31日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

非参数核方法的样本外扩展研究

国家自然科学基金

2+阅读 · 2015年12月31日

不确定知识图谱中面向结构查询的众包清洗研究

国家自然科学基金

4+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

8+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

基于决策模型和预备电位的运动想象BCI研究

国家自然科学基金

3+阅读 · 2015年12月31日

变换结构方程模型的非参数贝叶斯分析

国家自然科学基金

3+阅读 · 2014年12月31日

相关论文

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

216+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

476+阅读 · 2023年3月31日

Data-centric Artificial Intelligence: A Survey

Arxiv

24+阅读 · 2023年3月17日

A survey and taxonomy of loss functions in machine learning

Arxiv

26+阅读 · 2023年1月13日

Deep learning: a statistical viewpoint

Arxiv

18+阅读 · 2021年3月16日

Meta-learning in natural and artificial intelligence

Arxiv

10+阅读 · 2020年11月26日

Hyper-SAGNN: a self-attention based graph neural network for hypergraphs

Hyper-SAGNN: a self-attention based graph neural network for hypergraphs

Arxiv

17+阅读 · 2019年11月6日

Augmentation for small object detection

Augmentation for small object detection

Arxiv

11+阅读 · 2019年2月19日

Interpretable machine learning: definitions, methods, and applications

Interpretable machine learning: definitions, methods, and applications

Arxiv

19+阅读 · 2019年1月14日

微信扫码咨询专知VIP会员