来自人类反馈的强化学习(RLHF) 已成为部署最新机器学习系统的重要技术手段和叙事工具。 在本书中,我们希望为具备一定数量背景的读者提供对核心方法的温和入门。 本书从 RLHF 的起源讲起——既包括近年来的相关文献,也包括经济学、哲学与最优控制等多个学科的交汇与融合。 随后,我们通过定义、问题建模、数据收集以及文献中常见的数学工具,为读者搭建理解基础。 我们将详细介绍当前主流的算法,并探讨 RLHF 的未来前沿方向。 来自人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)是一种将人类信息融入人工智能系统的技术。RLHF 最初作为一种解决难以明确定义问题的方法而出现。它的早期应用多见于控制问题以及强化学习(RL)传统领域中。RLHF 因 ChatGPT 的发布以及随后大型语言模型(LLMs)和其他基础模型的迅猛发展而广为人知。 RLHF 的基本流程包括三个步骤: 首先,需要训练一个能够理解并响应用户提问的语言模型(详见第9章); 其次,需要收集人类偏好数据,以用于训练反映人类偏好的奖励模型(详见第7章); 最后,使用选定的强化学习优化器,通过采样生成内容并根据奖励模型评分,来优化语言模型(详见第3章与第11章)。 本书将详细介绍这一流程中关键的决策点以及基础的实现示例。 随着技术的成熟,RLHF 已被成功应用于多个领域,任务复杂性也随之提升。RLHF 的早期突破性实验涵盖了深度强化学习 [1]、文本摘要 [2]、指令跟随 [3]、网页信息解析与问答 [4] 以及“对齐”任务 [5]。图1展示了早期 RLHF 方法的概览。 在现代语言模型的训练中,RLHF 通常是后训练(post-training)的一部分。后训练是一套更完整的方法与最佳实践,旨在提升语言模型在下游任务中的实用性 [6]。后训练主要包括以下三种优化方法: 1. 指令/监督微调(IFT/SFT):教授模型如何理解格式和基本的指令跟随能力,主要关注语言中的特征学习。 1. 偏好微调(PreFT):使模型更符合人类偏好,同时也略微提升模型的能力,主要涉及语言风格和难以量化的细微人类偏好。 1. 强化微调(RFT):最新的一类后训练方法,提升模型在可验证任务中的表现。

本书聚焦于第二部分——偏好微调。相较于指令微调,其复杂度更高;而相比于强化微调,其发展更为成熟。尽管如此,RLHF 这个术语在日常语境中已逐渐涵盖了整个后训练过程。自 ChatGPT 发布后,RLHF 就被广义地用于描述所有后训练技术。而 RLHF 的基础远不止人类偏好,本书将对所有相关主题做出介绍。

成为VIP会员查看完整内容
28

相关内容

【新书】大型语言模型:概念、技术与应用
专知会员服务
83+阅读 · 2024年9月8日
【2023新书】大型语言模型:语言理解和生成, 191页pdf
专知会员服务
235+阅读 · 2023年11月2日
【干货书】R语言探索性数据分析,218页pdf
专知会员服务
62+阅读 · 2021年9月14日
【2023新书】机器学习集成方法,354页pdf
专知
40+阅读 · 2023年4月11日
国家自然科学基金
27+阅读 · 2015年12月31日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Arxiv
169+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
457+阅读 · 2023年3月31日
Arxiv
76+阅读 · 2023年3月26日
Arxiv
168+阅读 · 2023年3月24日
Arxiv
24+阅读 · 2023年3月17日
VIP会员
相关基金
国家自然科学基金
27+阅读 · 2015年12月31日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员