它让DeepMind、Meta等巨头深陷其中：一文回顾2021年强化学习历程

会员服务 ·

它让DeepMind、Meta等巨头深陷其中：一文回顾2021年强化学习历程

2021 年 11 月 11 日 新智元

新智元报道

编辑：LRS

【新智元导读】强化学习可以说是最贴近人类学习过程的AI了，通过不断试错进行反馈。由于强化学习在各大领域都取得了非凡成就，也引得巨头们纷纷入局，发论文、办开源节，一文带你回顾2021年各大巨头的工作。

目前机器学习中噱头最高，最吸引人的的领域之一就是强化学习，它的应用范围十分广泛，从数据处理、机器人、制造、推荐系统、能源到围棋、电子游戏等无所不能。

强化学习（RL）与其他算法的不同之处在于它不依赖于历史数据集，它像人类一样通过反复试验学习，也更接近人类的学习过程。

强化学习理论受到行为主义心理学启发，侧重在线学习并试图在探索-利用（exploration-exploitation）间保持平衡。不同于监督学习和非监督学习，强化学习不要求预先给定任何数据，而是通过接收环境对动作的奖励（反馈）获得学习信息并更新模型参数。

强化学习问题在信息论、博弈论、自动控制等领域有得到讨论，被用于解释有限理性条件下的平衡态、设计推荐系统和机器人交互系统。

一些复杂的强化学习算法在一定程度上具备解决复杂问题的通用智能，可以在围棋和电子游戏中达到人类水平。

过去几年在理解和改进RL方面取得了更快的进展，科技界的那些big name，无论是Facebook、Google、Deepmind、Amazon还是Microsoft，他们都在投入大量的时间、金钱和精力来推动RL的创新。

首先是机器人领域，为了使机器人对人类更有用，它们需要执行各种各样的任务。但即使是对使用离线（offline）强化学习的任务进行训练，也需要大量的时间和巨大的计算成本。

为了解决这个问题，谷歌推出过MT-OPT和可操作模型（Actionable Models）。MT-OPT是一个用于自动数据采集和多任务RL训练的多任务RL系统，后者是一个用于采集真实机器人上各种任务的场景的数据采集机制，能够展示多任务RL的应用成果。

他们还可以帮助机器人更快地学习新任务。

而作为强化学习领域的领导者，DeepMind今年也发布了一些工作，例如它发布了RGB-stacking，可以作为视觉机器人操作的benchmark，主要使用强化学习的方式来训练机器人手臂以平衡和堆叠不同形状的物体。

由于用到的物体是多种多样的，并且所进行的经验评估的数量也使这一强化学习型项目独树一帜。

整个学习pipeline分为三个阶段：

1、使用一个现成可用的RL算法进行仿真训练

2、在只使用真实观察的新策略来仿真训练

3、使用该策略在真实机器人上收集数据，并由此提出改进策略。

在序列学习（Sequential Learning）方面，由于序列决策过程的实现（implementation）对那些致力于强化学习的人至关重要，所以为了简化这一过程，社交媒体巨头Facebook（现在叫Meta）推出了SaLinA。

SaLinA是PyTorch的扩展，在有监督和无监督的情况下都可以使用，并且能够与多CPU和多GPU兼容，这种方法可以在涉及大规模训练样本的系统中使用。

IBM 也在2021年加入了强化学习领域的战场。它发布了一个基于文本的游戏环境TextWorld Commonse（TWC），以解决强化学习注入常识的问题。该方法可以用于训练和评估具有特定常识的强化学习agent，这些知识涉及物体、属性和affordances，主要通过引入几个基线RL agent来解决序列决策问题。

在自监督学习（self-supervised learning）领域，也可以看到了新的学习方法的出现。Google发布了一种称为可逆感知（Reversibility-Aware） RL的方法，在自我监督的RL过程中添加了一个单独的可逆性估计组件。

例如在一个实验中，当玻璃从桌子高度掉下来撞到地板上时，它会碎。在这种情况下，玻璃从位置A（桌子的高度）到位置B（楼的高度），无论试验次数多少，A总是先于B碎。因此，当随机抽样事件对时，找到前置B的对的概率为1，这就表明是一个不可逆转的顺序。

相反，假设一个橡胶球掉下来。在这种情况下，球将从A开始，下降到B，然后（大约）返回到A，也就是会弹跳一次。因此，当对事件进行采样时，找到前缀B仅为0.5的对的概率（与随机对显示在前缀A之前的B的概率相同），并指示出一个可逆的序列。

Google表示，这种方法提高了RL agent在包括Sokoban益智游戏在内多个任务上的性能。

强化学习对游戏也有着重要的影响。2021年年中，在强化学习机制的帮助下，深度学习模型可以在不借助任何人工干预的情况下自主进行竞技游戏。

之前的项目如 Alphazero在围棋、Shogi和Go上击败过世界冠军，但他们仍然需要对每一个游戏中单独接受训练，如果不从头开始重复RL程序，就无法学习新的游戏。

通过新的方法，agent能够快速适应新环境，更加灵活地应对新的游戏。这项研究的核心部分是深入研究RL在训练agent时，神经网络扮演的作用。

Google也一直致力于在游戏领域使用RL，2021年初时发布了一种不断进化的强化学习算法，展示了如何通过使用图表示（graph representation）和应用AutoML社区的优化技术来学习可分析解释和可生成的RL算法。

它使用正则化的进化（Regularized Evolution）来对一组简单的训练环境中的计算图进行演化，能够有助于在复杂的视觉环境（如Atari游戏）中更好地使用RL算法。

随着RL 技术的发展，这一领域的也必然会在学生和专业社区中共同成长。

为了满足日益增长的需求，微软组织了强化学习开源节，向同学们介绍开源强化学习程序和软件开发。

来自伦敦大学学院（UCL）的深度学习研究团队为学生提供了现代强化学习的全面介绍，旨在使学生对马尔可夫决策过程、基于样本的学习算法、深度强化学习等主题有一个详细的了解。

虽然在过去几年里强化学习取得了重大进展，但强化学习还有很长的路要走。对于某些行业来说，强化学习的使用可能是会对行业产生重大影响。随着更多的研究进入RL，可以期待在不久的将来看到新的重大突破。

参考资料：

https://analyticsindiamag.com/what-happened-in-reinforcement-learning-in-2021/

登录查看更多

知识荟萃

精品入门和进阶教程、论文和代码整理等

查看相关VIP内容、论文、资讯等

牛津大学、谷歌等十余位学者《自动强化学习》撰文综述

专知会员服务

57+阅读 · 2022年2月11日

牛津大学发布60页最新《强化学习金融应用进展》综述论文

专知会员服务

116+阅读 · 2021年12月12日

模仿学习: 进展，分类和机会

专知会员服务

48+阅读 · 2021年7月2日

「元强化学习」报告，斯坦福Chelsea Finn讲解，52页ppt，Meta Reinforcement Learning

专知会员服务

42+阅读 · 2021年1月11日

多Agent深度强化学习综述(中文版)，21页pdf

专知会员服务

114+阅读 · 2020年12月31日

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

专知会员服务

93+阅读 · 2020年9月28日

【牛津大学&DeepMind】自监督学习教程，141页ppt

专知会员服务

181+阅读 · 2020年5月29日

【综述】自动驾驶领域中的强化学习，附18页论文下载

专知会员服务

176+阅读 · 2020年2月8日

【AAAI2020教程】强化学习中的Exploration-Exploitation in Reinforcement Learning

专知会员服务

101+阅读 · 2020年2月8日

【新书】Python强化学习-基于Tensorflow与Keras和OpenAI Gym实战, 177页pdf

专知会员服务

184+阅读 · 2020年1月17日

AI键盘侠来了：DeepMind开始训练智能体像人一样「玩」电脑

机器之心

0+阅读 · 2022年2月24日

前所未有：用AI控制核聚变，DeepMind再登Nature

学术头条

0+阅读 · 2022年2月17日

万字长文！DeepMind科学家总结2021年的15个高能研究

新智元

0+阅读 · 2022年2月12日

Alphabet量子公司横空出世！Sandbox将与谷歌、DeepMind成姊妹

新智元

0+阅读 · 2022年1月12日

11年，从亏损6个亿到盈利6千万！DeepMind不止于AlphaGo和AlphaFold

新智元

0+阅读 · 2021年10月31日

【自监督学习】OpenAI科学家一文详解自监督学习

产业智能官

25+阅读 · 2020年3月18日

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

机器之心

20+阅读 · 2019年5月3日

强化学习精品书籍

平均机器

26+阅读 · 2019年1月2日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【强化学习】如何开启强化学习的大门？

产业智能官

13+阅读 · 2017年9月10日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

多用途载人航天器时间触发系统的容错和柔性调度方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

7+阅读 · 2015年12月31日

手与刺激之间距离对视觉认知加工的影响及其机制

国家自然科学基金

0+阅读 · 2014年12月31日

基于神经网络和强化学习的车辆装配系统中的多载量小车实时调度方法

国家自然科学基金

4+阅读 · 2014年12月31日

基于深度学习的时序3D深度图动作语义理解

国家自然科学基金

2+阅读 · 2013年12月31日

基于路径依赖理论的制造企业服务化转型内生机制研究

国家自然科学基金

1+阅读 · 2013年12月31日

深海环境局部自主焊接机器人任务空间三维视觉重建与路径规划技术研究

国家自然科学基金

1+阅读 · 2013年12月31日

自动化学科发展动态与基金项目成果报道

国家自然科学基金

0+阅读 · 2011年12月31日

具有模仿与强化学习机制的智能机器人

国家自然科学基金

2+阅读 · 2009年12月31日

CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement Learning

Arxiv

0+阅读 · 2022年4月18日

GL-CLeF: A Global-Local Contrastive Learning Framework for Cross-lingual Spoken Language Understanding

Arxiv

0+阅读 · 2022年4月18日

CILDA: Contrastive Data Augmentation using Intermediate Layer Knowledge Distillation

Arxiv

0+阅读 · 2022年4月15日

AutoGPart: Intermediate Supervision Search for Generalizable 3D Part Segmentation

Arxiv

0+阅读 · 2022年4月15日

Methodical Advice Collection and Reuse in Deep Reinforcement Learning

Arxiv

1+阅读 · 2022年4月14日

Attention Mechanisms in Computer Vision: A Survey

Arxiv

58+阅读 · 2021年11月15日

Cold-start Sequential Recommendation via Meta Learner

Arxiv

15+阅读 · 2020年12月10日

Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning

Arxiv

34+阅读 · 2019年10月24日

Deep Reinforcement Learning: An Overview

Arxiv

17+阅读 · 2018年11月26日

Notes on Deep Learning for NLP

Arxiv

22+阅读 · 2018年8月30日

VIP会员