首发于前沿追踪

前沿追踪 | 强化学习月度十大动态 2106 期:Decision Transformer,通用人工智能,芯片设计等

导读

本推文整理了 2021 年 6 月强化学习十大学术动态,涵盖强化学习相关领域的论文、会议、竞赛、观点等内容,全面覆盖RL theory,multi-agent RL,offline RL,RL application,AGI 等强化学习关键领域。关注RL china公众号(名称:RLCN),及时获取前沿论文解读、学术动态、学者访谈、产业新闻等内容。


1. DeepMind 发文讨论强化学习作为通用人工智能的解决方案的可行性

在生物界中,智能的表现是极具多样性的,包括语言能力、感知能力、学习能力、模仿能力、社交能力等等,但涌现这些智能背后的原因值得探究。论文《Reward is Enough》提出一种假设:智能和与其具体表现形式以被理解为促进最大化某些奖励的行为。因此,奖励最大化这一通用目标足以驱动智能体表现出自然智能和人工智能研究的大部分能力,而不必为每种能力定义特定的问题形式。论文还认为基于强化学习的尝试与纠正的学习框架为通用人工智能提供了一个解决方案。

【论文链接】deepmind.com/research/p

2. Google 在 Nature 发文通过强化学习算法进行芯片布图规划

芯片布图规划是设计计算机芯片物理布局的工程任务。尽管经过了 50 年的研究,芯片布图规划仍未能实现自动化,设计工程师需要数月的高强度工作才能生产出可制造的布局。因此论文《A graph placement methodology for fast chip design》提出了深度强化学习算法进行芯片布图规划,主要开发了一种基于边的图卷积神经网络来学习丰富且可迁移的芯片布局表征,该算法在不到 6 小时的时间内就能自动生成芯片布局方案,在所有关键指标,包括功耗、性能和芯片面积,都优于或可比那些由专家设计的芯片布局方案,预计可在下一代 TPU 的设计中节省上千小时人力。

【论文链接】: nature.com/articles/s41

3. UCB 提出 Decision Transformer Transformer 应用于强化学习

Transformer架构在自然语言等序列建模问题中取得了突出进展,发展出 GPT-x 和 BERT 等模型。论文《Decision Transformer: Reinforcement Learning via Sequence Modeling》将强化学习抽象为一个条件序列建模问题,使得强化学习任务也能利用 Transformer 架构的简洁性与可拓展性。论文提出了 Decision Transformer 算法,不同于过去的强化学习算法拟合值函数或者计算策略梯度,该算法通过给定期望奖励的条件自回归模型,输入历史状态动作奖励,直接利用因果掩码 Transformer (causally masked Transformer)输出最优动作序列。尽管想法非常简单,算法在无模型离线强化学习设定下的 Atari, OpenAI Gym, 和Key-to-Door 任务上取得了最佳表现。本月论文《Reinforcement Learning as One Big Sequence Modeling Problem》在这一主题下也值得参考。

【论文链接】:arxiv.org/pdf/2106.0134

4. 康奈尔大学探索在深度强化学习中使用更深的神经网络

相比于部分 CV 和 NLP 研究通过提升模型深度和改进网络架构获取性能提升,强化学习中往往只使用简单的多层感知机,依靠改进算法获得性能提升。而论文《Towards Deeper Deep Reinforcement Learning》研究了将简单的多层感知机替换为更大规模的先进网络架构如何影响强化学习智能体的表现。在 SAC 算法下,论文基于实验验证了简单地替换更大规模的网络反而使得训练不稳定且性能较差。但实验表明并不是强化学习的数据集较小,导致过拟合,造成性能下降,而 SAC 算法中 actor 通过 critic 计算梯度的内在不稳定性才是罪魁祸首。因此论文提出了一种平滑的方法来缓解这一问题,提升了大模型训练下的稳定性,从而大大提升了算法的效果。

【论文链接】:arxiv.org/pdf/2106.0115

5. Deepmind 在拟人仿真足球中研究从微观动作控制到宏观协作的整合

踢足球时,运动员的运动由神经控制的肌肉与关节产生,但是这些微观层面的控制目标却是在更大尺度的时空上达到运动员间的协作,而目前整合微观控制与宏观协作的研究却很少。论文《From Motor Control to Team Play in Simulated Humanoid Football》将模仿学习、单智能体、多智能体强化学习整合起来解决仿真环境中的拟人足球。训练分为多个阶段,智能体首先在微观学会控制身体进行奔跑与转向,然后在介观层面学会带球与射门,最后在宏观层面学会团队协作。论文还研究了在不同抽象层次上行为的涌现,构成了在多智能体多尺度下整合决策场景下的一个完整的工作。

【论文链接】:arxiv.org/pdf/2105.0109

6. Facebook 开源家庭服务场景的高效仿真器平台与新基准

训练机器人在真实的家庭环境下完成一系列有用的任务极具价值,但高效易行的途径是首先在仿真器中进行训练。因此在论文《Habitat 2.0: Training Home Assistants to Rearrange their Habitat》中 Facebook 开源了一个用于在交互式 3D 环境和复杂物理场景中训练虚拟机器人的仿真平台 Habitat 2.0。该仿真器提供了大量真实环境中可执行的操作,并且在 8 卡GPU节点上每秒可仿真超过 25000 步,是目前公开可获取的最快速高效的仿真器。同时 Habitat 中提供了一系列的家庭服务测试基准任务,包括整理房间,准备食品,摆放桌椅等,为不同算法间的比较和开发提供了新场景。

【论文链接】arxiv.org/abs/2106.1440

7. Bengio, Lecun, Hinton 联合发文讨论面向人工智能的深度学习

论文《Deep Learning for AI》中人工智能三大巨头再次联合发文回顾了深度学习的起源与基本概念,梳理了当前的一些突破性进展,最后讨论了深度学习走向人工智能仍然面临的挑战。在突破性进展方面,论文梳理了 soft 注意力机制与 transformer 架构、自监督与无监督学习、对比学习、变分自编码器等方面的前沿进展。论文也指出未来深度学习走向人工智能所面临的从同质的神经元层到代表实体的神经元组,适应多个时间尺度,展现更高层次认知等诸多待解决的挑战。

【论文链接】:dl.acm.org/doi/abs/10.1

8. 2021 年 ICML workshop 时间表公布,五场与强化学习相关

2021 年度 ICML workshop 时间表已经发布,7 月 18 日到 7 月 24 日中将举办 36 场 workshop 活动,主题覆盖自动机器学习、差分隐私、因果推断、可解释学习、鲁棒性与不确定性等主。其中五场与强化学习直接相关,分别是:Reinforcement Learning for Real Life,Unsupervised Reinforcement Learning,Workshop on Reinforcement Learning Theory,Real World RL: Azure Personalizer & Vowpal Wabbit,Human-AI Collaboration in Sequential Decision-Making。

【论坛链接】:icml.cc/Conferences/202

9. 北京智源大会召开,两场强化学习相关分论坛值得关注

2021 北京智源大会于 6 月 1 日至 6 月 3 日召开,围绕人工智能的大主题,共计举办了 4 场全体大会,29 场学科专题分论坛,以及 4 场领域教程讲座,会议邀请到 2 位图灵奖得主在内的 200 位国内外人工智能领域的领军学者分享报告,子主题包括智能体系架构与芯片、智能信息检索与挖掘、人工智能伦理、机器学习等。其中 “决策智能科学场景暨滴滴决策智能仿真开放平台”和“强化学习与决策智能论坛”分论坛与强化学习领域关系较为密切。

【原文链接】:2021.baai.ac.cn/schedul

10. 中文开源强化学习入门教程《Easy-RL》

虽然强化学习的资源不少,但是目前中文领域内的教程仍然比较有限。《Easy-RL》作为中文教程包括了系统讲解、章节习题、算法实战等三大部分,对于习惯中文讲解的强化学习初学者是很好的理论结合实践的入门材料。教程整合了李宏毅老师的《深度强化学习》,周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料,内容涵盖强化学习的基本理论,基于值函数的方法,基于策略梯度的方法,基于演员评论家的算法等。

【教程链接】:datawhalechina.github.io


往期回顾:

编辑于 2021-10-15 13:31