Reinforcement learning from human feedback (RLHF) is a variant of reinforcement learning (RL) that learns from human feedback instead of relying on an engineered reward function. Building on prior work on the related setting of preference-based reinforcement learning (PbRL), it stands at the intersection of artificial intelligence and human-computer interaction. This positioning provides a promising approach to enhance the performance and adaptability of intelligent systems while also improving the alignment of their objectives with human values. The success in training large language models (LLMs) has impressively demonstrated this potential in recent years, where RLHF has played a decisive role in directing the model's capabilities towards human objectives. This article provides an overview of the fundamentals of RLHF, exploring how RL agents interact with human feedback. While recent focus has been on RLHF for LLMs, our survey covers the technique across multiple domains. We provide our most comprehensive coverage in control and robotics, where many fundamental techniques originate, alongside a dedicated LLM section. We examine the core principles that underpin RLHF, how algorithms and human feedback work together, and the main research trends in the field. Our goal is to give researchers and practitioners a clear understanding of this rapidly growing field.


翻译:基于人类反馈的强化学习(RLHF)是强化学习(RL)的一种变体,它通过人类反馈进行学习,而非依赖人工设计的奖励函数。该方法建立在偏好强化学习(PbRL)相关研究的基础上,处于人工智能与人机交互的交叉领域。这一研究定位为提升智能系统的性能与适应性提供了前景广阔的研究路径,同时也有助于使系统目标与人类价值观更好对齐。近年来大规模语言模型(LLM)训练的成功显著印证了该技术的潜力——RLHF在引导模型能力契合人类目标方面发挥了决定性作用。本文系统梳理了RLHF的基础理论框架,深入探讨了RL智能体如何与人类反馈进行交互。尽管近期研究焦点集中于LLM领域的RLHF应用,本综述涵盖了该技术在多个领域的研究进展。我们在控制与机器人学领域(许多基础技术发源于此)提供了最全面的论述,并设专章讨论LLM应用。通过剖析RLHF的核心原理、算法与人类反馈的协同机制以及该领域的主要研究趋势,本文旨在为研究人员与实践者提供对这一快速发展领域的清晰认知。

0
下载
关闭预览

相关内容

基于人工反馈的强化学习综述
专知会员服务
65+阅读 · 2023年12月25日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2025年12月31日
Arxiv
0+阅读 · 2025年12月31日
VIP会员
相关基金
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2009年12月31日
国家自然科学基金
11+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员