通过人类反馈的强化学习(RLHF)已极大地提高了大型机器学习模型在实际应用中的性能和用户体验。但是,这种方法对大多数学术研究者而言仍然遥不可及。

我们的教程涵盖了一个成功的RLHF项目的两个核心部分:RLHF背后的核心机器学习技术,以及用于收集人类反馈数据的人在循环中的方法。作为家庭作业,您将进行您的第一个RLHF实验,执行一个简单的创造性任务,为用户请求的项目制作前5名的列表(例如,感恩节餐点的顶级想法)。

技术概述将RLHF过程分解为三个主要阶段:为基本策略进行语言建模,对人类偏好进行建模,以及使用RL进行优化。本教程的这一部分将是技术性的,并将描述潜在的研究问题、陷阱以及成功项目的技巧。

人类标注用于RLHF

在这一部分,我们将讨论收集人工生成的文本和进行人类偏好评分的挑战。我们将关注RLHF的人类注释的三个方面:

数据标注的基础。介绍使用众包进行数据标签的方法,以及将人类输入整合到ML系统中。我们将讨论如何避免常见的陷阱,并向大众提供良好的说明。

收集人类增强的文本。我们将讨论收集人类增强文本的挑战,这些文本对于训练指令任务的初始语言模型至关重要。

收集人类评分。我们将为您展示获得用于训练奖励模型的提示完成的人类评分的三种方法。

**

**

讲者:

Nathan Lambert 是 HuggingFace 的研究科学家和 RLHF 团队负责人。他在加利福尼亚大学伯克利分校获得了博士学位,主要研究机器学习与机器人技术的交叉领域。他的导师是伯克利自主微系统实验室的 Kristofer Pister 教授和 Meta AI Research 的 Roberto Calandra。在攻读博士期间,Nathan 很幸运地在 Facebook AI 和 DeepMind 实习。由于他为改善社区规范所做的努力,Nathan 被授予了加州大学伯克利分校电子工程与计算机科学系的 Demetri Angelakos Memorial Achievement Award for Altruism。Dmitry Ustalov, Head of Ecosystem Development

成为VIP会员查看完整内容
86

相关内容

【PODS2023】从查询语言的视角看图学习,111页ppt
专知会员服务
25+阅读 · 2023年7月22日
【KDD2022教程】多模态自动机器学习教程,130页ppt
专知会员服务
76+阅读 · 2022年8月19日
【MIT-韩松】微型化机器学习与高效深度学习,127页ppt
专知会员服务
59+阅读 · 2021年10月29日
专知会员服务
46+阅读 · 2020年8月23日
【ICML2020】基于模型的强化学习方法教程,279页ppt
专知会员服务
127+阅读 · 2020年7月20日
国家自然科学基金
25+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
407+阅读 · 2023年3月31日
Arxiv
68+阅读 · 2023年3月26日
Arxiv
146+阅读 · 2023年3月24日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【PODS2023】从查询语言的视角看图学习,111页ppt
专知会员服务
25+阅读 · 2023年7月22日
【KDD2022教程】多模态自动机器学习教程,130页ppt
专知会员服务
76+阅读 · 2022年8月19日
【MIT-韩松】微型化机器学习与高效深度学习,127页ppt
专知会员服务
59+阅读 · 2021年10月29日
专知会员服务
46+阅读 · 2020年8月23日
【ICML2020】基于模型的强化学习方法教程,279页ppt
专知会员服务
127+阅读 · 2020年7月20日
相关基金
国家自然科学基金
25+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员