尽管极度样本效率低下,但基于策略的强化学习(即策略梯度)已成为解决决策问题的基本工具。随着基于GPU的模拟技术的最新进展,收集大量用于强化学习训练的数据的能力呈指数级增长。然而,我们展示了当前的强化学习方法(例如PPO)在并行环境的利用方面存在瓶颈,其性能在达到一定点后会饱和。为了解决这个问题,我们提出了一种新的基于策略的强化学习算法,能够通过将大规模环境分块并通过重要性采样将它们融合回去,来有效利用这些环境。我们称这种算法为SAPG。SAPG在各种具有挑战性的环境中表现出显著更高的性能,而在这些环境中,传统的PPO和其他强基线方法未能达到高性能表现。更多信息请访问:https://sapg-rl.github.io。

成为VIP会员查看完整内容
18

相关内容

【KDD2024】CAFO:基于特征的时间序列分类解释
专知会员服务
23+阅读 · 6月5日
【IJCAI2024】Gradformer:具有指数衰减的图变换器
专知会员服务
16+阅读 · 4月25日
【ICCV2023】StyleDiffusion:基于扩散模型的可控解缠风格迁移
【CVPR2023】正则化二阶影响的持续学习
专知会员服务
17+阅读 · 2023年4月22日
【NeurIPS 2022】扩散模型的深度平衡方法
专知会员服务
39+阅读 · 2022年11月5日
专知会员服务
14+阅读 · 2021年9月11日
专知会员服务
25+阅读 · 2021年9月9日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【CVPR 2020 Oral】小样本类增量学习
专知
16+阅读 · 2020年6月26日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
157+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
398+阅读 · 2023年3月31日
Arxiv
66+阅读 · 2023年3月26日
Arxiv
139+阅读 · 2023年3月24日
Arxiv
20+阅读 · 2023年3月17日
VIP会员
相关VIP内容
【KDD2024】CAFO:基于特征的时间序列分类解释
专知会员服务
23+阅读 · 6月5日
【IJCAI2024】Gradformer:具有指数衰减的图变换器
专知会员服务
16+阅读 · 4月25日
【ICCV2023】StyleDiffusion:基于扩散模型的可控解缠风格迁移
【CVPR2023】正则化二阶影响的持续学习
专知会员服务
17+阅读 · 2023年4月22日
【NeurIPS 2022】扩散模型的深度平衡方法
专知会员服务
39+阅读 · 2022年11月5日
专知会员服务
14+阅读 · 2021年9月11日
专知会员服务
25+阅读 · 2021年9月9日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员