大语言模型(LLM)的对齐问题仍是强化学习领域中最关键的挑战之一。正如 DeepSeek-R1 等模型的成功所展示的那样,提升对齐效果不仅依赖于更优的模型架构,还需对强化学习(RL)和奖励建模有更深入的理解。本教程将探讨逆向强化学习(Inverse Reinforcement Learning, IRL)与大语言模型对齐之间的关联,为研究人员和实践者提供一条结构化的研究路径。 我们将 LLM 对齐建模为一个逆强化学习问题,对比传统强化学习与从人类数据中推断奖励的逆向方法。教程重点聚焦于奖励模型,探讨其如何从不同类型的数据中构建,包括数学推理、二元反馈、偏好数据以及示范行为等。 在理论之外,我们还将探讨基础设施与实践实现,展示如何在几分钟内高效评估基于 IRL 的 LLM 对齐思路。最后,教程将结合稀疏奖励强化学习的相关经验,介绍奖励塑形(reward shaping)、责任归因(credit assignment)以及自对弈(self-play)中获得的启示。 通过本教程,参与者将从理论和实践两个维度深入理解基于 IRL 的大语言模型对齐方法,并掌握高效构建更好对齐模型的核心工具。

成为VIP会员查看完整内容
12

相关内容

【EMNLP2023教程】自然语言生成,249页ppt
专知会员服务
60+阅读 · 2023年12月9日
【EMNLP2023教程】自然语言处理可视化,200页ppt
专知会员服务
53+阅读 · 2023年12月6日
【ACL2023教程】自然语言的复杂推理,240多页ppt
专知会员服务
55+阅读 · 2023年7月13日
【ICDM2022教程】多目标优化与推荐,173页ppt
专知会员服务
46+阅读 · 2022年12月24日
【干货书】分布式机器学习的优化算法,137页pdf
专知会员服务
74+阅读 · 2022年12月14日
【ICML2022教程】智能交互式学习,80页ppt
专知会员服务
46+阅读 · 2022年7月21日
专知会员服务
78+阅读 · 2021年7月23日
斯坦福CS236-深度生成模型2019-全套课程资料分享
深度学习与NLP
20+阅读 · 2019年8月20日
入门 | 从Q学习到DDPG,一文简述多种强化学习算法
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
473+阅读 · 2023年3月31日
Arxiv
18+阅读 · 2021年3月16日
Arxiv
10+阅读 · 2021年2月26日
Arxiv
26+阅读 · 2019年3月5日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
VIP会员
相关VIP内容
【EMNLP2023教程】自然语言生成,249页ppt
专知会员服务
60+阅读 · 2023年12月9日
【EMNLP2023教程】自然语言处理可视化,200页ppt
专知会员服务
53+阅读 · 2023年12月6日
【ACL2023教程】自然语言的复杂推理,240多页ppt
专知会员服务
55+阅读 · 2023年7月13日
【ICDM2022教程】多目标优化与推荐,173页ppt
专知会员服务
46+阅读 · 2022年12月24日
【干货书】分布式机器学习的优化算法,137页pdf
专知会员服务
74+阅读 · 2022年12月14日
【ICML2022教程】智能交互式学习,80页ppt
专知会员服务
46+阅读 · 2022年7月21日
专知会员服务
78+阅读 · 2021年7月23日
相关基金
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
相关论文
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
473+阅读 · 2023年3月31日
Arxiv
18+阅读 · 2021年3月16日
Arxiv
10+阅读 · 2021年2月26日
Arxiv
26+阅读 · 2019年3月5日
Augmentation for small object detection
Arxiv
11+阅读 · 2019年2月19日
微信扫码咨询专知VIP会员