100页HuggingFace等《通过人类反馈的强化学习（RLHF）》教程讲解 - 专知VIP

会员服务 ·

51

人类反馈强化学习 (RLHF) · HuggingFace ·

2023 年 12 月 3 日

100页HuggingFace等《通过人类反馈的强化学习（RLHF）》教程讲解

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

通过人类反馈的强化学习（RLHF）已极大地提高了大型机器学习模型在实际应用中的性能和用户体验。但是，这种方法对大多数学术研究者而言仍然遥不可及。

我们的教程涵盖了一个成功的RLHF项目的两个核心部分：RLHF背后的核心机器学习技术，以及用于收集人类反馈数据的人在循环中的方法。作为家庭作业，您将进行您的第一个RLHF实验，执行一个简单的创造性任务，为用户请求的项目制作前5名的列表（例如，感恩节餐点的顶级想法）。

技术概述将RLHF过程分解为三个主要阶段：为基本策略进行语言建模，对人类偏好进行建模，以及使用RL进行优化。本教程的这一部分将是技术性的，并将描述潜在的研究问题、陷阱以及成功项目的技巧。

人类标注用于RLHF

在这一部分，我们将讨论收集人工生成的文本和进行人类偏好评分的挑战。我们将关注RLHF的人类注释的三个方面：

数据标注的基础。介绍使用众包进行数据标签的方法，以及将人类输入整合到ML系统中。我们将讨论如何避免常见的陷阱，并向大众提供良好的说明。

收集人类增强的文本。我们将讨论收集人类增强文本的挑战，这些文本对于训练指令任务的初始语言模型至关重要。

收集人类评分。我们将为您展示获得用于训练奖励模型的提示完成的人类评分的三种方法。

**

**

讲者：

Nathan Lambert 是 HuggingFace 的研究科学家和 RLHF 团队负责人。他在加利福尼亚大学伯克利分校获得了博士学位，主要研究机器学习与机器人技术的交叉领域。他的导师是伯克利自主微系统实验室的 Kristofer Pister 教授和 Meta AI Research 的 Roberto Calandra。在攻读博士期间，Nathan 很幸运地在 Facebook AI 和 DeepMind 实习。由于他为改善社区规范所做的努力，Nathan 被授予了加州大学伯克利分校电子工程与计算机科学系的 Demetri Angelakos Memorial Achievement Award for Altruism。Dmitry Ustalov， Head of Ecosystem Development

成为VIP会员查看完整内容

87

相关内容

人类反馈强化学习 (RLHF)

人类反馈强化学习 (RLHF)

XAI如何用于金融？NTU等最新《金融可解释人工智能》全面综述

XAI如何用于金融？NTU等最新《金融可解释人工智能》全面综述

专知会员服务

64+阅读 · 2023年9月24日

132页HuggingFace等《通过人类反馈的强化学习（RLHF）》教程讲解

132页HuggingFace等《通过人类反馈的强化学习（RLHF）》教程讲解

专知会员服务

77+阅读 · 2023年8月27日

【PODS2023】从查询语言的视角看图学习，111页ppt

【PODS2023】从查询语言的视角看图学习，111页ppt

专知会员服务

26+阅读 · 2023年7月22日

【KDD2022教程】多模态自动机器学习教程，130页ppt

【KDD2022教程】多模态自动机器学习教程，130页ppt

专知会员服务

78+阅读 · 2022年8月19日

【IJCAI2022教程】可微分优化:将结构信息集成到训练流程中，173页ppt

【IJCAI2022教程】可微分优化:将结构信息集成到训练流程中，173页ppt

专知会员服务

24+阅读 · 2022年7月29日

【MIT-韩松】微型化机器学习与高效深度学习，127页ppt

【MIT-韩松】微型化机器学习与高效深度学习，127页ppt

专知会员服务

61+阅读 · 2021年10月29日

UIUC《深度学习理论》硬核课程书，Matus 教授最新讲解，131页pdf

UIUC《深度学习理论》硬核课程书，Matus 教授最新讲解，131页pdf

专知会员服务

64+阅读 · 2021年1月8日

【普林斯顿】最新《监督学习数学视角理解》报告，64页ppt

【普林斯顿】最新《监督学习数学视角理解》报告，64页ppt

专知会员服务

45+阅读 · 2020年11月30日

【KDD2020-Tutorial】数据驱动无止境学习问答系统，142页PPT

专知会员服务

47+阅读 · 2020年8月23日

【ICML2020】基于模型的强化学习方法教程，279页ppt

【ICML2020】基于模型的强化学习方法教程，279页ppt

专知会员服务

129+阅读 · 2020年7月20日

ChatGPT背后的语境学习技术是什么？霍普金斯最新NLP课程《In-context Learning》详解，63页ppt

ChatGPT背后的语境学习技术是什么？霍普金斯最新NLP课程《In-context Learning》详解，63页ppt

专知

2+阅读 · 2023年4月7日

ChatGPT背后的对齐用户指令技术是什么？霍普金斯最新NLP课程《自监督模型对齐用户意图》详解，54页ppt

ChatGPT背后的对齐用户指令技术是什么？霍普金斯最新NLP课程《自监督模型对齐用户意图》详解，54页ppt

专知

4+阅读 · 2023年4月6日

【2022新书】联邦学习：方法和应用的综合概述，531页pdf

【2022新书】联邦学习：方法和应用的综合概述，531页pdf

专知

28+阅读 · 2022年7月14日

【开放书】MLOps导论：构建企业机器学习生产系统，185页pdf

【开放书】MLOps导论：构建企业机器学习生产系统，185页pdf

专知

51+阅读 · 2021年4月8日

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

专知

58+阅读 · 2020年7月2日

【干货书】Python机器学习导论，340页pdf数据科学家指南

【干货书】Python机器学习导论，340页pdf数据科学家指南

专知

97+阅读 · 2020年6月4日

【牛津大学&DeepMind】自监督学习教程，141页ppt

【牛津大学&DeepMind】自监督学习教程，141页ppt

专知

16+阅读 · 2020年5月29日

深度学习自然语言处理概述，116页ppt，Jiří Materna

深度学习自然语言处理概述，116页ppt，Jiří Materna

专知

37+阅读 · 2020年3月10日

ICCV 2019教程《面向计算机视觉的可解释机器学习》，附280页PPT下载

ICCV 2019教程《面向计算机视觉的可解释机器学习》，附280页PPT下载

专知

33+阅读 · 2019年11月1日

57页清华大学孙茂松组《知识表示学习》综述论文

57页清华大学孙茂松组《知识表示学习》综述论文

专知

27+阅读 · 2018年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

37+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

14+阅读 · 2015年12月31日

T-S模糊神经网络的容错同步性分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

46+阅读 · 2015年12月31日

基于记忆学习与免疫系统的仿生控制研究

国家自然科学基金

7+阅读 · 2015年12月31日

企业内正式与非正式网络互动及其对组织适应性影响和权变机理研究：CAS视角的分析

国家自然科学基金

1+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

基于模型驱动的并发建模语言Apla+设计及其可靠性研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

174+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

223+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

494+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

152+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

81+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

179+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

85+阅读 · 2023年3月21日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

VIP会员

相关主题

人类反馈强化学习 (RLHF)

相关VIP内容

XAI如何用于金融？NTU等最新《金融可解释人工智能》全面综述

XAI如何用于金融？NTU等最新《金融可解释人工智能》全面综述

专知会员服务

64+阅读 · 2023年9月24日

132页HuggingFace等《通过人类反馈的强化学习（RLHF）》教程讲解

132页HuggingFace等《通过人类反馈的强化学习（RLHF）》教程讲解

专知会员服务

77+阅读 · 2023年8月27日

【PODS2023】从查询语言的视角看图学习，111页ppt

【PODS2023】从查询语言的视角看图学习，111页ppt

专知会员服务

26+阅读 · 2023年7月22日

【KDD2022教程】多模态自动机器学习教程，130页ppt

【KDD2022教程】多模态自动机器学习教程，130页ppt

专知会员服务

78+阅读 · 2022年8月19日

【IJCAI2022教程】可微分优化:将结构信息集成到训练流程中，173页ppt

【IJCAI2022教程】可微分优化:将结构信息集成到训练流程中，173页ppt

专知会员服务

24+阅读 · 2022年7月29日

【MIT-韩松】微型化机器学习与高效深度学习，127页ppt

【MIT-韩松】微型化机器学习与高效深度学习，127页ppt

专知会员服务

61+阅读 · 2021年10月29日

UIUC《深度学习理论》硬核课程书，Matus 教授最新讲解，131页pdf

UIUC《深度学习理论》硬核课程书，Matus 教授最新讲解，131页pdf

专知会员服务

64+阅读 · 2021年1月8日

【普林斯顿】最新《监督学习数学视角理解》报告，64页ppt

【普林斯顿】最新《监督学习数学视角理解》报告，64页ppt

专知会员服务

45+阅读 · 2020年11月30日

【KDD2020-Tutorial】数据驱动无止境学习问答系统，142页PPT

专知会员服务

47+阅读 · 2020年8月23日

【ICML2020】基于模型的强化学习方法教程，279页ppt

【ICML2020】基于模型的强化学习方法教程，279页ppt

专知会员服务

129+阅读 · 2020年7月20日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身自主无人水下航行器技术如何变革水下作战并重塑海军竞争

《俄乌战争中的无人系统：新的战争方式与新兴趋势——来自前线的印象》报告

《海上自主水面船舶远程操作中心：安全可持续运行的多维度分析》

相关资讯

ChatGPT背后的语境学习技术是什么？霍普金斯最新NLP课程《In-context Learning》详解，63页ppt

ChatGPT背后的语境学习技术是什么？霍普金斯最新NLP课程《In-context Learning》详解，63页ppt

专知

2+阅读 · 2023年4月7日

ChatGPT背后的对齐用户指令技术是什么？霍普金斯最新NLP课程《自监督模型对齐用户意图》详解，54页ppt

ChatGPT背后的对齐用户指令技术是什么？霍普金斯最新NLP课程《自监督模型对齐用户意图》详解，54页ppt

专知

4+阅读 · 2023年4月6日

【2022新书】联邦学习：方法和应用的综合概述，531页pdf

【2022新书】联邦学习：方法和应用的综合概述，531页pdf

专知

28+阅读 · 2022年7月14日

【开放书】MLOps导论：构建企业机器学习生产系统，185页pdf

【开放书】MLOps导论：构建企业机器学习生产系统，185页pdf

专知

51+阅读 · 2021年4月8日

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

专知

58+阅读 · 2020年7月2日

【干货书】Python机器学习导论，340页pdf数据科学家指南

【干货书】Python机器学习导论，340页pdf数据科学家指南

专知

97+阅读 · 2020年6月4日

【牛津大学&DeepMind】自监督学习教程，141页ppt

【牛津大学&DeepMind】自监督学习教程，141页ppt

专知

16+阅读 · 2020年5月29日

深度学习自然语言处理概述，116页ppt，Jiří Materna

深度学习自然语言处理概述，116页ppt，Jiří Materna

专知

37+阅读 · 2020年3月10日

ICCV 2019教程《面向计算机视觉的可解释机器学习》，附280页PPT下载

ICCV 2019教程《面向计算机视觉的可解释机器学习》，附280页PPT下载

专知

33+阅读 · 2019年11月1日

57页清华大学孙茂松组《知识表示学习》综述论文

57页清华大学孙茂松组《知识表示学习》综述论文

专知

27+阅读 · 2018年12月31日

相关基金

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

37+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

14+阅读 · 2015年12月31日

T-S模糊神经网络的容错同步性分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

46+阅读 · 2015年12月31日

基于记忆学习与免疫系统的仿生控制研究

国家自然科学基金

7+阅读 · 2015年12月31日

企业内正式与非正式网络互动及其对组织适应性影响和权变机理研究：CAS视角的分析

国家自然科学基金

1+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

基于模型驱动的并发建模语言Apla+设计及其可靠性研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

174+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

223+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

494+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

152+阅读 · 2023年3月29日

Nature Language Reasoning, A Survey

Arxiv

81+阅读 · 2023年3月26日

Knowledge Graphs: Opportunities and Challenges

Arxiv

179+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

85+阅读 · 2023年3月21日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员