通过人类反馈的强化学习

Luis Serrano, PhD | 《Grokking Machine Learning》作者,Serrano Academy创始人 | 幻灯片 虽然大型语言模型(LLMs)在生成文本方面非常成功,但微调模型仍然依赖于人类反馈,通常通过带有人类反馈的强化学习(RLHF)进行。在这些AI幻灯片中,您将探索微调中的一个非常重要的步骤,其中涉及人类对输出结果进行评估。为了通过人类反馈改进模型,RLHF是一种广泛使用的方法。

成为VIP会员查看完整内容
35

相关内容

【新书】构建大型语言模型,370页pdf
专知会员服务
101+阅读 · 9月16日
【IJCAI2024教程】公平强化学习,115页ppt
专知会员服务
28+阅读 · 8月6日
【MLSS2024教程】深度学习理论,151页ppt
专知会员服务
57+阅读 · 3月17日
【干货书】优化与学习的随机梯度技术,238页pdf
专知会员服务
52+阅读 · 2021年11月22日
【经典书】模式识别导论,561页pdf
专知会员服务
81+阅读 · 2021年6月30日
【ECML/PKDD20教程】图表示学习与应用,200页ppt
专知会员服务
90+阅读 · 2020年10月18日
【干货书】机器学习Primer,122页pdf
专知会员服务
106+阅读 · 2020年10月5日
【ICML2020】基于模型的强化学习方法教程,279页ppt
专知会员服务
127+阅读 · 2020年7月20日
【2023新书】机器学习集成方法,354页pdf
专知
38+阅读 · 2023年4月11日
【干货书】优化算法,232页pdf
专知
25+阅读 · 2022年9月8日
基于模型的强化学习综述
专知
33+阅读 · 2022年7月13日
对比自监督学习
深度学习自然语言处理
34+阅读 · 2020年7月15日
国家自然科学基金
25+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
158+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
407+阅读 · 2023年3月31日
Arxiv
146+阅读 · 2023年3月24日
Arxiv
21+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【新书】构建大型语言模型,370页pdf
专知会员服务
101+阅读 · 9月16日
【IJCAI2024教程】公平强化学习,115页ppt
专知会员服务
28+阅读 · 8月6日
【MLSS2024教程】深度学习理论,151页ppt
专知会员服务
57+阅读 · 3月17日
【干货书】优化与学习的随机梯度技术,238页pdf
专知会员服务
52+阅读 · 2021年11月22日
【经典书】模式识别导论,561页pdf
专知会员服务
81+阅读 · 2021年6月30日
【ECML/PKDD20教程】图表示学习与应用,200页ppt
专知会员服务
90+阅读 · 2020年10月18日
【干货书】机器学习Primer,122页pdf
专知会员服务
106+阅读 · 2020年10月5日
【ICML2020】基于模型的强化学习方法教程,279页ppt
专知会员服务
127+阅读 · 2020年7月20日
相关基金
国家自然科学基金
25+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员