前沿追踪 | 强化学习月度十大动态 2109 期：AI100报告，RL中的探索方法综述等

RLChina强化学习社区整理了 2021 年 9 月强化学习十大学术动态，涵盖强化学习相关领域的论文、会议、教程、竞赛等内容，全面覆盖 RL theory，multi-agent RL，imitation RL，offline RL，RL application，AGI 等强化学习关键领域。

Stanford发表AI 100报告综述近五年AI领域关键进展与核心问题随着人工智能技术的快速兴起，其逐渐展现出了对人类和社会等诸多方面的影响。报告《Gathering Strength, Gathering Storms：The One Hundred Year Study on Artificial Intelligence (AI100)》汇集了近五年人工智能领域的关键成果，并梳理了当前技术发展面临的核心问题。报告以14个关键问题为主线，其中问题2：AI领域最重要的进展是什么?基于强化学习的游戏和机器人技术入选；问题5：更通用的人工智能前景如何？持续学习与多任务学习，通用强化学习，人工智能中的常识问题被视为当前的核心挑战。报告中提出了大量极具价值的问题，也给出了部分专家理解的答案，但瞬息万变的AI领域，只有时间能给淘选出更具价值的答案，这也许就是AI 100年取名的内涵。【论文链接】：https://ai100.stanford.edu/sites/g/files/sbiybj18871/files/media/file/AI100Report_MT_10.pdf
McGill大学综述强化学习中的探索方法探索是强化学习算法的重要组成部分，智能体需要学习如何预测和控制未知且带有随机性的环境。强化学习智能体主要依赖于探索来获取学习过程中所需的信息数据，而缺乏足够的信息会阻碍有效的学习。论文《A Survey of Exploration Methods in Reinforcement Learning》综述了强化学习中的现代探索方法，并对探索方法按是否利用reward信息，是否需要存储数据等要素系统性地将现有的126种方法分为了11小类，并分析了其实践层面的优势与缺点，以及是否具有理论层面的regret bound保证。【论文链接】：https://arxiv.org/pdf/2109.00157.pdf
Facebook AI 开源开放世界强化学习沙盒环境MiniHack 强化学习领域的算法进展往往与有效的仿真器基线密切相关，但现有的基线往往包括整局的游戏，其中设计探索、记忆机制，贡献分配等多项研究内容。针对这一问题，Facebook开源了基于NetHack的环境与测试任务生成框架，该环境框架可以帮助研究者为特定的某个研究问题定义一系列广泛的任务，并通过调整任务的复杂性和丰富性参数来轻松地控制任务的生成，而无需任何繁琐的工程实现。【论文链接】：https://ai.facebook.com/blog/minihack-a-new-sandbox-for-open-ended-reinforcement-learning/
CMU提出基于信息压缩的鲁棒预测控制算法强化学习面临的诸多挑战，如鲁棒性能，泛化性能等，都与信息压缩密切相关。尽管对监督学习中信息压缩作用的分析已经很完善，但标准强化学习算法缺乏明确的压缩机制。基于强化学习的特性，论文《Robust Predictable Control》提出了一种学习简单策略的算法RPC。该方法将信息瓶颈、基于模型的强化学习以及bits-back coding的思想结合到一个算法中，同时优化了潜在空间模型和策略，使得策略避开模型估计不准确的状态。实验证明RPC比以前的方法实现了更紧密的压缩，得到了比标准信息瓶颈高5倍的回报，同时算法的鲁棒性能和泛化性能也有了更高的提升。【论文链接】：https://arxiv.org/pdf/2109.03214.pdf
马普所在线开放机器人集群的以复现灵巧操作的研究灵巧操作机器臂仍是机器人领域的开放问题，但是相关硬件的准入门槛高，不同设备上的研究也难以相互比较。论文《A Robot Cluster for Reproducible Research in Dexterous Manipulation》为了促进相关领域的研究，设计并开放了托管在马普所的类似于计算集群的机器人集群平台，每个平台都有支持灵巧操作的三指机器臂，世界各地的研究者都能申请远程访问。该平台希望举办统一标准的机器人竞赛来促进相关研究，并且开源收集到的数据集服务更多的研究，也支持研究者基于平台完成自己的相关工作，降低了研究的硬件门槛。【论文链接】：https://arxiv.org/pdf/2108.08612.pdf
UCL & KCL提出多智能体强化学习下带安全约束的置信域策略优化算法能满足安全约束的强化学习算法对于真实环境中的部署有着重要意义。作者基于论文《Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning》，在不需要对值函数的分解性施加任何强制性假设的基础上，提出了第一个提升多智体策略单调提升性(monotonic improvement guarantee)的置信域策略优化算法(trust-region method) ，即HAPPO和HATRPO算法。在此基础上，论文《Multi-Agent Constrained Policy Optimisation》将决策的安全性作为优化的约束，提出了 MACPO 和 MAPPO-Lagrangian 算法，在理论上保证了每次迭代中值函数的单调提升的同时，满足安全性约束。【论文链接】: https://arxiv.org/abs/2110.02793
DeepMind开源强化学习轨迹记录工具 EnvLogger 离线强化学习和模仿学习都离不开大量的轨迹采样数据作为训练数据集，而目前强化学习相比监督学习还缺少数据集规范来促进数据共享与算法复现。在这一背景下，DeepMind开源项目《EnvLogger: A tool for recording RL trajectories》引入了强化学习数据集(RLDS)的概念与代码实现，用于在强化学习序列决策的背景下进行轨迹数据的记录、回放、操作与共享。RLDS生态提供了工具来记录智能体或专家的决策序列，并输出标准化的轨迹数据集，不仅使数据集更容易复现，也使新的算法能更容易地在更广泛的数据集上运行，从而促进新的研究。生成的数据集也能通过TFDS在社区中进行共享与传播。【论文链接】：https://deepmind.com/research/open-source/EnvLogger-A-tool-for-recording-RL-trajectories
ICLR 2022会议截稿，所有投稿已公开开放获取 ICLR 2021在10月6日截稿，本次会议共有3404篇有效投稿，仅两天后所有论文已经可以在openreview.net公开获取，其中与强化学习相关的文章约有600篇。ICLR(International Conference on Learning Representations)是创始于2013年的年轻学术会议，虽然仅举办8届，但是已经成为了机器学习领域被广泛认可的顶级学术会议。ICLR能迅速崛起不仅与大牛背书，主题热门有关，其公开透明的开放评审的机制(Open Review)也是独树一帜的重要标志。【项目链接】：https://openreview.net/group?id=ICLR.cc/2022/Conference#all-submissions
Kaggle Lux AI资源收集比赛开赛 Lux AI资源收集比赛《Lux AI Challenge Season 1》于8月16日开赛，比赛持续到12月。在比赛中，两支相互竞争的队伍控制着一支由“资源采集者”和“城市建筑”组成的队伍，他们收集资源来为自己的城市提供燃料，主要目标是在回合制游戏的最后拥有尽可能多的“城市建筑”。两支队伍都拥有关于整个游戏状态的完整信息，并需要利用这些信息来优化资源收集，与对手竞争稀缺资源，并建造城市以获得分数。比赛的奖金共10000美元。目前已有725参赛队员组成的639支队伍参加比赛。【比赛介绍】：https://www.kaggle.com/c/lux-ai-2021/
DeepMind与UCL联合开办的的2021年强化系列讲座上线 2021年的强化学习系列讲座由DeeMind研究员和UCL学者Hado van Hasselt, Diana Borsa 和 Matteo Hessel等人共同开设，旨在为学生们提供现代强化学习方法的综合介绍。讲座内容共13讲，包括基础的强化学习内容，如马尔可夫决策过程，基于样本的学习算法(如(double)Q-learning, SARSA)，深度强化学习等；还探索了更高级的研究主题，如off-policy学习、multi-step更新、eligibility trace，以及在实现深度强化学习算法(如Rainbow DQN)时的概念和工程实践考虑等。【报名链接】： https://deepmind.com/learning-resources/reinforcement-learning-series-2021