题目: Leveraging Procedural Generation to Benchmark Reinforcement Learning

摘要:

在这份报告中,介绍了Procgen基准测试,这是一套由16个程序生成的类似游戏的环境,旨在对样本效率和增强学习中的泛化进行基准测试。我们相信社区将从高质量的培训环境中受益,我们提供了使用这个基准的详细实验协议。并且以经验证明,不同的环境分布对于充分培训和评估RL代理是至关重要的,从而激发了过程内容生成的广泛使用。然后,我们使用这个基准来研究缩放模型大小的影响,发现更大的模型显著地提高了样本效率和泛化。

个人简介:

Karl Cobbe目前是OpenAI的一名研究科学家。2014年,他以优异的成绩获得了斯坦福大学计算机科学学士学位。他最初加入OpenAI时是一名研究员,在约翰•舒尔曼(John Schulman)的指导下工作。他的研究主要集中在深度强化学习中的泛化和迁移。Karl对利用过程生成来创建不同的训练环境特别感兴趣,以便更好地研究当前算法的局限性和导致过拟合的因素。

成为VIP会员查看完整内容
10

相关内容

基准测试是指通过设计科学的测试方法、测试工具和测试系统,实现对一类测试对象的某项性能指标进行定量的和可对比的测试。
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
130+阅读 · 2020年5月14日
《强化学习—使用 Open AI、TensorFlow和Keras实现》174页pdf
专知会员服务
139+阅读 · 2020年3月1日
元学习—Meta Learning的兴起
专知
44+阅读 · 2019年10月19日
强化学习十大原则
专知
12+阅读 · 2018年9月17日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
OpenAI提出Reptile:可扩展的元学习算法
深度学习世界
7+阅读 · 2018年3月9日
干货 | 利用深度强化学习进行对话生成
黑龙江大学自然语言处理实验室
4+阅读 · 2017年8月30日
利用深度强化学习进行对话生成
PaperWeekly
9+阅读 · 2017年8月23日
Arxiv
9+阅读 · 2019年4月19日
Hierarchical Deep Multiagent Reinforcement Learning
Arxiv
8+阅读 · 2018年9月25日
Paraphrase Generation with Deep Reinforcement Learning
Arxiv
11+阅读 · 2018年7月8日
Relational Deep Reinforcement Learning
Arxiv
10+阅读 · 2018年6月28日
Arxiv
5+阅读 · 2018年4月22日
VIP会员
相关VIP内容
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
130+阅读 · 2020年5月14日
《强化学习—使用 Open AI、TensorFlow和Keras实现》174页pdf
专知会员服务
139+阅读 · 2020年3月1日
相关资讯
元学习—Meta Learning的兴起
专知
44+阅读 · 2019年10月19日
强化学习十大原则
专知
12+阅读 · 2018年9月17日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
OpenAI提出Reptile:可扩展的元学习算法
深度学习世界
7+阅读 · 2018年3月9日
干货 | 利用深度强化学习进行对话生成
黑龙江大学自然语言处理实验室
4+阅读 · 2017年8月30日
利用深度强化学习进行对话生成
PaperWeekly
9+阅读 · 2017年8月23日
相关论文
Arxiv
9+阅读 · 2019年4月19日
Hierarchical Deep Multiagent Reinforcement Learning
Arxiv
8+阅读 · 2018年9月25日
Paraphrase Generation with Deep Reinforcement Learning
Arxiv
11+阅读 · 2018年7月8日
Relational Deep Reinforcement Learning
Arxiv
10+阅读 · 2018年6月28日
Arxiv
5+阅读 · 2018年4月22日
微信扫码咨询专知VIP会员