强化学习(RL)方法的进展与挑战环境的发展密切相关,这些环境测试了当前方法的极限。虽然现有的RL环境要么足够复杂,要么基于快速模拟,但它们很少同时具备这两点。此外,RL的研究主要集中在可以接近白板的环境上,也就是说,不需要将任何领域或世界知识转移到模拟环境之外的代理。我将谈论《NetHack学习环境》(NLE),这是一个可扩展的、程序生成的、随机的、丰富的和具有挑战性的研究环境,基于流行的单人终端游戏《NetHack》。我们认为,《NetHack》足够复杂,能够推动对探索、规划、技能习得和语言条件下的RL等问题的长期研究,同时大大减少收集大量经验所需的计算资源。有趣的是,这款游戏甚至对人类玩家来说都是极具挑战性的,因为人类玩家通常需要多年时间才能第一次解决这一问题,他们通常会求助于外部自然语言知识资源,如《NetHack Wiki》,以提高自己的技能。在演讲的最后,我还将介绍我们最近在大规模文本知识源的条件作用方面的工作,以及这些技术如何为将来在更复杂、更真实的环境中实现高效的样本RL铺平道路。
https://nlp.stanford.edu/seminar/details/timrocktaschel.shtml