强化学习(RL)方法的进展与挑战环境的发展密切相关,这些环境测试了当前方法的极限。虽然现有的RL环境要么足够复杂,要么基于快速模拟,但它们很少同时具备这两点。此外,RL的研究主要集中在可以接近白板的环境上,也就是说,不需要将任何领域或世界知识转移到模拟环境之外的代理。我将谈论《NetHack学习环境》(NLE),这是一个可扩展的、程序生成的、随机的、丰富的和具有挑战性的研究环境,基于流行的单人终端游戏《NetHack》。我们认为,《NetHack》足够复杂,能够推动对探索、规划、技能习得和语言条件下的RL等问题的长期研究,同时大大减少收集大量经验所需的计算资源。有趣的是,这款游戏甚至对人类玩家来说都是极具挑战性的,因为人类玩家通常需要多年时间才能第一次解决这一问题,他们通常会求助于外部自然语言知识资源,如《NetHack Wiki》,以提高自己的技能。在演讲的最后,我还将介绍我们最近在大规模文本知识源的条件作用方面的工作,以及这些技术如何为将来在更复杂、更真实的环境中实现高效的样本RL铺平道路。

https://nlp.stanford.edu/seminar/details/timrocktaschel.shtml

成为VIP会员查看完整内容
27

相关内容

【斯坦福CS224N硬核课】 问答系统,陈丹琦讲解,79页ppt
专知会员服务
72+阅读 · 2021年2月23日
TextCNN大牛Kim《深度无监督学习句法结构分析》,88页ppt
专知会员服务
28+阅读 · 2021年1月13日
专知会员服务
78+阅读 · 2020年12月22日
最新《自监督表示学习》报告,70页ppt
专知会员服务
85+阅读 · 2020年12月22日
少即是多?非参数语言模型,68页ppt
专知会员服务
20+阅读 · 2020年11月22日
【ICML2020】强化学习中基于模型的方法,279页ppt
专知会员服务
43+阅读 · 2020年10月26日
NAACL 2019自然语言处理亮点
专知
15+阅读 · 2019年6月15日
OpenAI发布Neural MMO :大型多智能体游戏环境
大数据文摘
5+阅读 · 2019年3月5日
前沿知识特惠团《OpenAI强化学习实战》
炼数成金订阅号
3+阅读 · 2018年12月4日
OpenAI 发布完整版游戏强化学习研究平台 Gym Retro
OpenAI强化学习实战
炼数成金订阅号
9+阅读 · 2018年5月14日
【学界】伯克利吴翼&FAIR田渊栋等人提出强化学习环境Hourse3D
GAN生成式对抗网络
5+阅读 · 2018年1月13日
Arxiv
0+阅读 · 2021年6月15日
A Sketch-Based System for Semantic Parsing
Arxiv
4+阅读 · 2019年9月12日
Symbolic Priors for RNN-based Semantic Parsing
Arxiv
3+阅读 · 2018年9月20日
VIP会员
相关主题
相关VIP内容
【斯坦福CS224N硬核课】 问答系统,陈丹琦讲解,79页ppt
专知会员服务
72+阅读 · 2021年2月23日
TextCNN大牛Kim《深度无监督学习句法结构分析》,88页ppt
专知会员服务
28+阅读 · 2021年1月13日
专知会员服务
78+阅读 · 2020年12月22日
最新《自监督表示学习》报告,70页ppt
专知会员服务
85+阅读 · 2020年12月22日
少即是多?非参数语言模型,68页ppt
专知会员服务
20+阅读 · 2020年11月22日
【ICML2020】强化学习中基于模型的方法,279页ppt
专知会员服务
43+阅读 · 2020年10月26日
相关资讯
NAACL 2019自然语言处理亮点
专知
15+阅读 · 2019年6月15日
OpenAI发布Neural MMO :大型多智能体游戏环境
大数据文摘
5+阅读 · 2019年3月5日
前沿知识特惠团《OpenAI强化学习实战》
炼数成金订阅号
3+阅读 · 2018年12月4日
OpenAI 发布完整版游戏强化学习研究平台 Gym Retro
OpenAI强化学习实战
炼数成金订阅号
9+阅读 · 2018年5月14日
【学界】伯克利吴翼&FAIR田渊栋等人提出强化学习环境Hourse3D
GAN生成式对抗网络
5+阅读 · 2018年1月13日
微信扫码咨询专知VIP会员