强化学习(Reinforcement Learning, RL)方法在模拟环境和游戏中已取得显著成果,但直到最近才开始被应用于解决现实世界的问题。这在一定程度上是因为强化学习方法本身存在不稳定性、样本效率较低,以及在现实任务中难以将奖励准确归因到长序列中的具体步骤等挑战。为应对这些问题,本论文提出了一系列方法,涵盖问题建模、表征学习、有效的奖励归因机制,以及高质量多步轨迹的可扩展构建。 为了将这些理论原则落地,我将介绍两类能够解决现实世界挑战的强化学习智能体,分别应用于两个截然不同的领域:芯片设计与语言建模。 首先,我将介绍 AlphaChip,这是一种深度强化学习方法,能够在数小时内生成超越人类水平的芯片布局,而不再需要人类耗时数周甚至数月的设计过程。AlphaChip 是最早部署于现实工程问题的强化学习方法之一,已被用于设计过去四代 Google TPU 芯片的布局,同时也被 Alphabet 内部和外部的芯片制造商广泛采用。 接下来,我将介绍 Step-Wise Reinforcement Learning(SWiRL),这是一种结合强化学习与合成数据生成的方法,可提升大型语言模型(Large Language Models, LLMs)在多步推理和工具使用方面的能力。 最后,我将提出一个用于评估基于LLM的强化学习智能体在复杂多步推理任务中性能的新数据集,并探讨该前沿领域中的若干开放问题与未来机遇。

成为VIP会员查看完整内容
1

相关内容

斯坦福大学(StanfordUniversity)位于加利福尼亚州,临近旧金山,占地35平方公里,是美国面积第二大的大学。它被公认为世界上最杰出的大学之一,相比美国东部的常春藤盟校,特别是哈佛大学、耶鲁大学,斯坦福大学虽然历史较短,但无论是学术水准还是其他方面都能与常春藤名校相抗衡。斯坦福大学企业管理研究所和法学院在美国是数一数二的,美国最高法院的9个大法官,有6个是从斯坦福大学的法学院毕业的。
【斯坦福博士论文】非平稳环境中的深度强化学习算法
专知会员服务
28+阅读 · 2024年12月9日
牛逼哄哄的图卷积神经网络将带来哪些机遇?
计算机视觉life
49+阅读 · 2019年3月25日
论文浅尝 | 基于多模态关联数据嵌入的知识库补全
开放知识图谱
12+阅读 · 2018年12月13日
论文浅尝 | 远程监督关系抽取的生成式对抗训练
开放知识图谱
17+阅读 · 2018年7月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Arxiv
170+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
467+阅读 · 2023年3月31日
Arxiv
18+阅读 · 2021年3月16日
Arxiv
10+阅读 · 2020年11月26日
Arxiv
26+阅读 · 2019年3月5日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
微信扫码咨询专知VIP会员