【斯坦福博士论文】用于序贯决策的强化学习：从芯片设计到语言建模 - 专知VIP

会员服务 ·

1

斯坦福大学 (Stanford University) · 博士论文 · 序列决策 · 强化学习 · 芯片设计 ·

【斯坦福博士论文】用于序贯决策的强化学习：从芯片设计到语言建模

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

强化学习（Reinforcement Learning, RL）方法在模拟环境和游戏中已取得显著成果，但直到最近才开始被应用于解决现实世界的问题。这在一定程度上是因为强化学习方法本身存在不稳定性、样本效率较低，以及在现实任务中难以将奖励准确归因到长序列中的具体步骤等挑战。为应对这些问题，本论文提出了一系列方法，涵盖问题建模、表征学习、有效的奖励归因机制，以及高质量多步轨迹的可扩展构建。为了将这些理论原则落地，我将介绍两类能够解决现实世界挑战的强化学习智能体，分别应用于两个截然不同的领域：芯片设计与语言建模。首先，我将介绍 AlphaChip，这是一种深度强化学习方法，能够在数小时内生成超越人类水平的芯片布局，而不再需要人类耗时数周甚至数月的设计过程。AlphaChip 是最早部署于现实工程问题的强化学习方法之一，已被用于设计过去四代 Google TPU 芯片的布局，同时也被 Alphabet 内部和外部的芯片制造商广泛采用。接下来，我将介绍 Step-Wise Reinforcement Learning（SWiRL），这是一种结合强化学习与合成数据生成的方法，可提升大型语言模型（Large Language Models, LLMs）在多步推理和工具使用方面的能力。最后，我将提出一个用于评估基于LLM的强化学习智能体在复杂多步推理任务中性能的新数据集，并探讨该前沿领域中的若干开放问题与未来机遇。

成为VIP会员查看完整内容

1

相关内容

斯坦福大学 (Stanford University)

斯坦福大学 (Stanford University)

斯坦福大学（StanfordUniversity）位于加利福尼亚州，临近旧金山，占地35平方公里，是美国面积第二大的大学。它被公认为世界上最杰出的大学之一，相比美国东部的常春藤盟校，特别是哈佛大学、耶鲁大学，斯坦福大学虽然历史较短，但无论是学术水准还是其他方面都能与常春藤名校相抗衡。斯坦福大学企业管理研究所和法学院在美国是数一数二的，美国最高法院的9个大法官，有6个是从斯坦福大学的法学院毕业的。

【博士论文】深度学习中的推理不一致性及其缓解方法

【博士论文】深度学习中的推理不一致性及其缓解方法

专知会员服务

22+阅读 · 4月5日

【斯坦福博士论文】非平稳环境中的深度强化学习算法

【斯坦福博士论文】非平稳环境中的深度强化学习算法

专知会员服务

28+阅读 · 2024年12月9日

【牛津大学博士论文】基于元学习和对称性的数据高效深度学习探索

【牛津大学博士论文】基于元学习和对称性的数据高效深度学习探索

专知会员服务

28+阅读 · 2024年10月27日

【斯坦福博士论文】数据高效的强化学习：在复杂环境中决定学习什么

【斯坦福博士论文】数据高效的强化学习：在复杂环境中决定学习什么

专知会员服务

38+阅读 · 2024年9月22日

【斯坦福博士论文】数据高效强化学习: 决定在复杂的环境中学习什么

【斯坦福博士论文】数据高效强化学习: 决定在复杂的环境中学习什么

专知会员服务

34+阅读 · 2024年7月16日

【CMU博士论文】鲁棒机器学习：在分布变化下的检测、评估和适应

【CMU博士论文】鲁棒机器学习：在分布变化下的检测、评估和适应

专知会员服务

24+阅读 · 2024年7月2日

【ETHZ博士论文】有限数据中的元学习先验：从理论到实践

【ETHZ博士论文】有限数据中的元学习先验：从理论到实践

专知会员服务

35+阅读 · 2024年6月4日

【CMU博士论文】高效的深度神经网络终身学习：架构、训练和数据的优化

【CMU博士论文】高效的深度神经网络终身学习：架构、训练和数据的优化

专知会员服务

39+阅读 · 2024年4月24日

【斯坦福博士论文】合作博弈论在可解释机器学习中的应用

【斯坦福博士论文】合作博弈论在可解释机器学习中的应用

专知会员服务

42+阅读 · 2023年9月19日

【斯坦福】基于模型的深度学习:论深度学习与优化的交集

【斯坦福】基于模型的深度学习:论深度学习与优化的交集

专知会员服务

45+阅读 · 2022年5月10日

【2022新书】元学习(Meta Learning ): 自动机器学习与数据挖掘

【2022新书】元学习(Meta Learning ): 自动机器学习与数据挖掘

专知

20+阅读 · 2022年3月7日

图神经网络如何时序化？看Twitter最新《动态图深度学习:时序图网络TGN》研究，附论文与PPT下载

图神经网络如何时序化？看Twitter最新《动态图深度学习:时序图网络TGN》研究，附论文与PPT下载

专知

17+阅读 · 2021年1月24日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

15+阅读 · 2020年12月9日

【ICML2020-南大周志华老师组】针对未见类未标记数据的安全深度半监督学习

【ICML2020-南大周志华老师组】针对未见类未标记数据的安全深度半监督学习

专知

46+阅读 · 2020年7月5日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

专知

76+阅读 · 2019年10月20日

【学界】CVPR 2019 | 基于级联语义引导下的多通道注意力选择图像翻译

【学界】CVPR 2019 | 基于级联语义引导下的多通道注意力选择图像翻译

GAN生成式对抗网络

10+阅读 · 2019年8月17日

牛逼哄哄的图卷积神经网络将带来哪些机遇？

牛逼哄哄的图卷积神经网络将带来哪些机遇？

计算机视觉life

49+阅读 · 2019年3月25日

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

计算机视觉life

19+阅读 · 2018年12月27日

论文浅尝 | 基于多模态关联数据嵌入的知识库补全

论文浅尝 | 基于多模态关联数据嵌入的知识库补全

开放知识图谱

12+阅读 · 2018年12月13日

论文浅尝 | 远程监督关系抽取的生成式对抗训练

论文浅尝 | 远程监督关系抽取的生成式对抗训练

开放知识图谱

17+阅读 · 2018年7月12日

大规模分数阶微分系统的高性能并行算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于进化算法的大规模本体匹配问题研究

国家自然科学基金

2+阅读 · 2015年12月31日

广义低秩矩阵重构算法及其应用研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于神经网络的无约束0-1二次规划全局最优算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

高阶图像去噪模型的快速数值算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

170+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

100+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

212+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

467+阅读 · 2023年3月31日

Revolutionizing Modern Networks: Advances in AI, Machine Learning, and Blockchain for Quantum Satellites and UAV-based Communication

Arxiv

32+阅读 · 2023年3月21日

A survey and taxonomy of loss functions in machine learning

Arxiv

25+阅读 · 2023年1月13日

Deep learning: a statistical viewpoint

Arxiv

18+阅读 · 2021年3月16日

Meta-learning in natural and artificial intelligence

Arxiv

10+阅读 · 2020年11月26日

How to train your MAML

Arxiv

26+阅读 · 2019年3月5日

Interpretable machine learning: definitions, methods, and applications

Interpretable machine learning: definitions, methods, and applications

Arxiv

19+阅读 · 2019年1月14日

VIP会员

相关主题

斯坦福大学 (Stanford University)

相关VIP内容

【博士论文】深度学习中的推理不一致性及其缓解方法

【博士论文】深度学习中的推理不一致性及其缓解方法

专知会员服务

22+阅读 · 4月5日

【斯坦福博士论文】非平稳环境中的深度强化学习算法

【斯坦福博士论文】非平稳环境中的深度强化学习算法

专知会员服务

28+阅读 · 2024年12月9日

【牛津大学博士论文】基于元学习和对称性的数据高效深度学习探索

【牛津大学博士论文】基于元学习和对称性的数据高效深度学习探索

专知会员服务

28+阅读 · 2024年10月27日

【斯坦福博士论文】数据高效的强化学习：在复杂环境中决定学习什么

【斯坦福博士论文】数据高效的强化学习：在复杂环境中决定学习什么

专知会员服务

38+阅读 · 2024年9月22日

【斯坦福博士论文】数据高效强化学习: 决定在复杂的环境中学习什么

【斯坦福博士论文】数据高效强化学习: 决定在复杂的环境中学习什么

专知会员服务

34+阅读 · 2024年7月16日

【CMU博士论文】鲁棒机器学习：在分布变化下的检测、评估和适应

【CMU博士论文】鲁棒机器学习：在分布变化下的检测、评估和适应

专知会员服务

24+阅读 · 2024年7月2日

【ETHZ博士论文】有限数据中的元学习先验：从理论到实践

【ETHZ博士论文】有限数据中的元学习先验：从理论到实践

专知会员服务

35+阅读 · 2024年6月4日

【CMU博士论文】高效的深度神经网络终身学习：架构、训练和数据的优化

【CMU博士论文】高效的深度神经网络终身学习：架构、训练和数据的优化

专知会员服务

39+阅读 · 2024年4月24日

【斯坦福博士论文】合作博弈论在可解释机器学习中的应用

【斯坦福博士论文】合作博弈论在可解释机器学习中的应用

专知会员服务

42+阅读 · 2023年9月19日

【斯坦福】基于模型的深度学习:论深度学习与优化的交集

【斯坦福】基于模型的深度学习:论深度学习与优化的交集

专知会员服务

45+阅读 · 2022年5月10日

热门VIP内容

开通专知VIP会员享更多权益服务

《军事网络工具中运用生成式人工智能的伦理与对抗风险》最新报告

视觉语言大模型的幻觉综述：成因、评估与治理

《面相高速武器冲击评估的靶区参考算法》

大模型时代下的智能空战指挥决策问题

相关资讯

【2022新书】元学习(Meta Learning ): 自动机器学习与数据挖掘

【2022新书】元学习(Meta Learning ): 自动机器学习与数据挖掘

专知

20+阅读 · 2022年3月7日

图神经网络如何时序化？看Twitter最新《动态图深度学习:时序图网络TGN》研究，附论文与PPT下载

图神经网络如何时序化？看Twitter最新《动态图深度学习:时序图网络TGN》研究，附论文与PPT下载

专知

17+阅读 · 2021年1月24日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

15+阅读 · 2020年12月9日

【ICML2020-南大周志华老师组】针对未见类未标记数据的安全深度半监督学习

【ICML2020-南大周志华老师组】针对未见类未标记数据的安全深度半监督学习

专知

46+阅读 · 2020年7月5日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

专知

76+阅读 · 2019年10月20日

【学界】CVPR 2019 | 基于级联语义引导下的多通道注意力选择图像翻译

【学界】CVPR 2019 | 基于级联语义引导下的多通道注意力选择图像翻译

GAN生成式对抗网络

10+阅读 · 2019年8月17日

牛逼哄哄的图卷积神经网络将带来哪些机遇？

牛逼哄哄的图卷积神经网络将带来哪些机遇？

计算机视觉life

49+阅读 · 2019年3月25日

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

计算机视觉life

19+阅读 · 2018年12月27日

论文浅尝 | 基于多模态关联数据嵌入的知识库补全

论文浅尝 | 基于多模态关联数据嵌入的知识库补全

开放知识图谱

12+阅读 · 2018年12月13日

论文浅尝 | 远程监督关系抽取的生成式对抗训练

论文浅尝 | 远程监督关系抽取的生成式对抗训练

开放知识图谱

17+阅读 · 2018年7月12日

相关基金

大规模分数阶微分系统的高性能并行算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于进化算法的大规模本体匹配问题研究

国家自然科学基金

2+阅读 · 2015年12月31日

广义低秩矩阵重构算法及其应用研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于神经网络的无约束0-1二次规划全局最优算法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

高阶图像去噪模型的快速数值算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

170+阅读 · 2023年4月20日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

100+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

212+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

467+阅读 · 2023年3月31日

Revolutionizing Modern Networks: Advances in AI, Machine Learning, and Blockchain for Quantum Satellites and UAV-based Communication

Arxiv

32+阅读 · 2023年3月21日

A survey and taxonomy of loss functions in machine learning

Arxiv

25+阅读 · 2023年1月13日

Deep learning: a statistical viewpoint

Arxiv

18+阅读 · 2021年3月16日

Meta-learning in natural and artificial intelligence

Arxiv

10+阅读 · 2020年11月26日

How to train your MAML

Arxiv

26+阅读 · 2019年3月5日

Interpretable machine learning: definitions, methods, and applications

Interpretable machine learning: definitions, methods, and applications

Arxiv

19+阅读 · 2019年1月14日

微信扫码咨询专知VIP会员