【教程】通过人类反馈的强化学习，77页ppt - 专知VIP

会员服务 ·

22

人类反馈强化学习 (RLHF) · 深度强化学习 ·

2024 年 10 月 5 日

【教程】通过人类反馈的强化学习，77页ppt

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

通过人类反馈的强化学习

Luis Serrano, PhD | 《Grokking Machine Learning》作者，Serrano Academy创始人 | 幻灯片虽然大型语言模型（LLMs）在生成文本方面非常成功，但微调模型仍然依赖于人类反馈，通常通过带有人类反馈的强化学习（RLHF）进行。在这些AI幻灯片中，您将探索微调中的一个非常重要的步骤，其中涉及人类对输出结果进行评估。为了通过人类反馈改进模型，RLHF是一种广泛使用的方法。

成为VIP会员查看完整内容

38

相关内容

人类反馈强化学习 (RLHF)

人类反馈强化学习 (RLHF)

【新书】构建大型语言模型，370页pdf

【新书】构建大型语言模型，370页pdf

专知会员服务

109+阅读 · 2024年9月16日

【ACL2024教程】大型语言模型对抗攻击的脆弱性，200多页ppt

【ACL2024教程】大型语言模型对抗攻击的脆弱性，200多页ppt

专知会员服务

34+阅读 · 2024年8月14日

【IJCAI2024教程】公平强化学习，115页ppt

【IJCAI2024教程】公平强化学习，115页ppt

专知会员服务

30+阅读 · 2024年8月6日

大模型如何做检索？WWW2024教程《生成式信息检索》附115页ppt

大模型如何做检索？WWW2024教程《生成式信息检索》附115页ppt

专知会员服务

35+阅读 · 2024年5月21日

【MLSS2024教程】深度学习理论，151页ppt

【MLSS2024教程】深度学习理论，151页ppt

专知会员服务

63+阅读 · 2024年3月17日

【干货书】优化与学习的随机梯度技术，238页pdf

【干货书】优化与学习的随机梯度技术，238页pdf

专知会员服务

54+阅读 · 2021年11月22日

【经典书】模式识别导论，561页pdf

【经典书】模式识别导论，561页pdf

专知会员服务

84+阅读 · 2021年6月30日

【ECML/PKDD20教程】图表示学习与应用，200页ppt

【ECML/PKDD20教程】图表示学习与应用，200页ppt

专知会员服务

91+阅读 · 2020年10月18日

【干货书】机器学习Primer，122页pdf

【干货书】机器学习Primer，122页pdf

专知会员服务

109+阅读 · 2020年10月5日

【ICML2020】基于模型的强化学习方法教程，279页ppt

【ICML2020】基于模型的强化学习方法教程，279页ppt

专知会员服务

129+阅读 · 2020年7月20日

【2023新书】机器学习集成方法，354页pdf

【2023新书】机器学习集成方法，354页pdf

专知

40+阅读 · 2023年4月11日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

【干货书】优化算法，232页pdf

【干货书】优化算法，232页pdf

专知

26+阅读 · 2022年9月8日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【PKDD2020教程】可解释人工智能XAI:算法到应用，200页ppt

【PKDD2020教程】可解释人工智能XAI:算法到应用，200页ppt

专知

16+阅读 · 2020年10月13日

对比自监督学习

对比自监督学习

深度学习自然语言处理

35+阅读 · 2020年7月15日

【牛津大学&DeepMind】自监督学习教程，141页ppt

【牛津大学&DeepMind】自监督学习教程，141页ppt

专知

16+阅读 · 2020年5月29日

【WWW2020-华为诺亚方舟论文】元学习推荐系统MetaSelector

【WWW2020-华为诺亚方舟论文】元学习推荐系统MetaSelector

专知

11+阅读 · 2020年2月10日

【ISWC2019教程】可扩展可持续知识图谱构建，251页ppt

【ISWC2019教程】可扩展可持续知识图谱构建，251页ppt

专知

11+阅读 · 2019年12月2日

【CIKM2019教程】新加坡国立大学：基于图学习与推理的推荐系统，附133页ppt

【CIKM2019教程】新加坡国立大学：基于图学习与推理的推荐系统，附133页ppt

专知

62+阅读 · 2019年11月4日

不完全信息下的投资组合选择模型研究：一个时间一致性的视角

国家自然科学基金

5+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

34+阅读 · 2015年12月31日

组合测试用例优先排序算法及选择策略研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

13+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

45+阅读 · 2015年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

3+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

大规模格结构数据管理关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

Towards computational methods for category theory

Arxiv

0+阅读 · 2024年11月8日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

219+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

84+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

484+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

151+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

62+阅读 · 2023年3月29日

Knowledge Graphs: Opportunities and Challenges

Arxiv

175+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

VIP会员

相关主题

人类反馈强化学习 (RLHF)

深度强化学习

相关VIP内容

【新书】构建大型语言模型，370页pdf

【新书】构建大型语言模型，370页pdf

专知会员服务

109+阅读 · 2024年9月16日

【ACL2024教程】大型语言模型对抗攻击的脆弱性，200多页ppt

【ACL2024教程】大型语言模型对抗攻击的脆弱性，200多页ppt

专知会员服务

34+阅读 · 2024年8月14日

【IJCAI2024教程】公平强化学习，115页ppt

【IJCAI2024教程】公平强化学习，115页ppt

专知会员服务

30+阅读 · 2024年8月6日

大模型如何做检索？WWW2024教程《生成式信息检索》附115页ppt

大模型如何做检索？WWW2024教程《生成式信息检索》附115页ppt

专知会员服务

35+阅读 · 2024年5月21日

【MLSS2024教程】深度学习理论，151页ppt

【MLSS2024教程】深度学习理论，151页ppt

专知会员服务

63+阅读 · 2024年3月17日

【干货书】优化与学习的随机梯度技术，238页pdf

【干货书】优化与学习的随机梯度技术，238页pdf

专知会员服务

54+阅读 · 2021年11月22日

【经典书】模式识别导论，561页pdf

【经典书】模式识别导论，561页pdf

专知会员服务

84+阅读 · 2021年6月30日

【ECML/PKDD20教程】图表示学习与应用，200页ppt

【ECML/PKDD20教程】图表示学习与应用，200页ppt

专知会员服务

91+阅读 · 2020年10月18日

【干货书】机器学习Primer，122页pdf

【干货书】机器学习Primer，122页pdf

专知会员服务

109+阅读 · 2020年10月5日

【ICML2020】基于模型的强化学习方法教程，279页ppt

【ICML2020】基于模型的强化学习方法教程，279页ppt

专知会员服务

129+阅读 · 2020年7月20日

热门VIP内容

开通专知VIP会员享更多权益服务

NeurIPS 2025 | 自动化所新作速览（一）

大型语言模型（LLM）赋能的知识图谱构建：综述

NeurIPS 2025 | 自动化所新作速览（二）

领域特定文本分类中的预训练语言模型新进展：系统综述

相关资讯

【2023新书】机器学习集成方法，354页pdf

【2023新书】机器学习集成方法，354页pdf

专知

40+阅读 · 2023年4月11日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

【干货书】优化算法，232页pdf

【干货书】优化算法，232页pdf

专知

26+阅读 · 2022年9月8日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【PKDD2020教程】可解释人工智能XAI:算法到应用，200页ppt

【PKDD2020教程】可解释人工智能XAI:算法到应用，200页ppt

专知

16+阅读 · 2020年10月13日

对比自监督学习

对比自监督学习

深度学习自然语言处理

35+阅读 · 2020年7月15日

【牛津大学&DeepMind】自监督学习教程，141页ppt

【牛津大学&DeepMind】自监督学习教程，141页ppt

专知

16+阅读 · 2020年5月29日

【WWW2020-华为诺亚方舟论文】元学习推荐系统MetaSelector

【WWW2020-华为诺亚方舟论文】元学习推荐系统MetaSelector

专知

11+阅读 · 2020年2月10日

【ISWC2019教程】可扩展可持续知识图谱构建，251页ppt

【ISWC2019教程】可扩展可持续知识图谱构建，251页ppt

专知

11+阅读 · 2019年12月2日

【CIKM2019教程】新加坡国立大学：基于图学习与推理的推荐系统，附133页ppt

【CIKM2019教程】新加坡国立大学：基于图学习与推理的推荐系统，附133页ppt

专知

62+阅读 · 2019年11月4日

相关基金

不完全信息下的投资组合选择模型研究：一个时间一致性的视角

国家自然科学基金

5+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

34+阅读 · 2015年12月31日

组合测试用例优先排序算法及选择策略研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

13+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

45+阅读 · 2015年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

3+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

大规模格结构数据管理关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

相关论文

Towards computational methods for category theory

Arxiv

0+阅读 · 2024年11月8日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

219+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

84+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

484+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

151+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

62+阅读 · 2023年3月29日

Knowledge Graphs: Opportunities and Challenges

Arxiv

175+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员