人类一败涂地！DeepMind再次制霸Atari游戏，比两年前快了200倍

会员服务 ·

人类一败涂地！DeepMind再次制霸Atari游戏，比两年前快了200倍

2022 年 9 月 19 日 新智元

新智元报道

编辑：David

【新智元导读】DeepMind又对Atari游戏下手了，这回秒的是自己，把两年前的大杀四方的Atari 57模型提速了200倍！

构建在各种任务中表现良好的「通用智能体」，一开始就是强化学习的重要目标。这个问题一直是大量工作的研究对象，其性能评估经常通过观察Atari 57基准中包含的各种环境的分数来衡量。

Agent57是DeepMind在2020年搞的一个Atari游戏智能体，史上首次在所有57个游戏中超过了人类基准表现，但这是以数据效率为代价的，需要近800亿帧的经验训练才能实现。

两年过去，DeepMind觉得这个智能体有「亿点点」慢了，不如以它为基础，提提速，降一降训练量，效果还不下降？

于是DeepMind的一篇新论文，带来了一个新的智能体：MEME，所需的训练经验更少，从而实现为原来的Agent57「提速200倍」的小目标。

以Agent57为起点，DeepMind采用了一系列不同的策略，以实现超越人类基准所需经验的200倍减少。我们调查了在减少数据制度时遇到的一系列不稳定因素和瓶颈，并提出了有效的解决方案，以建立一个更加强大和高效的智能体。

研究人员表示，这个新方法的四个关键部分是：

(1)一种近似的信任区域方法，它能够从在线网络中稳定地引导。

(2) 实行损失和优先权的归一化方案，在学习一组具有广泛规模的价值函数时提高了鲁棒性。

(3) 提出一个改进结构，采用NFNets的技术利用更深的网络，不需要规范化层

(4) 一种政策提炼方法，用于平滑瞬时贪婪政策的超时。

Atari游戏「克星」Agent57：首次全面超越人类

Agent57是第一个在所有57个Atari游戏中获得高于人类平均水平分数的算法，通用性顶满，这是DeepMind在2020年搞出来的。

不过这种通用性是以降低数据效率为代价的；在一些游戏中，需要数百亿次的环境互动才能获得高于人类平均水平的表现，在所有游戏中一共尝试了超过780亿帧，才战胜了人类的基准水平。

厉害是厉害，但是两年前搞出的东西，放到今天看不是太慢了点呢。

这回DeepMind的目标是开发一个与Agent57一样通用的智能体，但只需要少得多的环境互动，就能达到同样的效果。

智能体在每个游戏中超越人类基线所需的环境框架数量（取对数），数值越低越好。

一种方法是在与环境进行有限的互动后再测量性能，另一种方法是以尽可能少的互动来，实现训练目标的最终性能。

DeepMind的目标是打造一个Agent57的通用性一样高的新智能体，同时具有更高的数据效率，因此主要使用于后一种方法。

「Agent57改」MEME：提速200倍

研究人员提出了一种新的智能体MEME，这是一种基于内存的高效探索智能体，MEME建立在Agent57的基础上，结合了三个主要想法。

(i) 一个基于循环重放分布式DQN（R2D2）的分布式深度强化学习框架

(ii) 用一系列的策略和永不放弃（NGU）的内在奖励机制进行探索。

(iii) 一个元控制器，通过从一系列政策中选择，在整个训练过程中动态地调整贴现因子并平衡探索和开发。

新的MEME智能体旨在提高Agent57的数据效率，主要针对Agent57的4个方面进行改善，分别是：

实现与罕见事件相关的学习信号的快速传播（A），在不同的价值尺度下稳定学习（B），改进神经网络结构（C），在快速变化的政策下使更新更加稳健（D）。

为了达到这四个目标，DeepMind采取了以下方法，与上述四点目的对应。

A1: 用在线网络进行引导

为了在保持稳定性的同时加速信号传播，我们使用了在线网络引导，并通过为价值更新引入一个近似的信任区域来稳定学习，使我们能够过滤哪些样本对损失的贡献。

其他方法还包括：

A2:有公差的目标计算。

B1:损失和优先权归一化。

B2:交叉混合训练。

C1 无归一化的躯干网络

C2 带有综合损失的共享躯干

D 通过策略提炼的鲁棒行为

这些方法旨在提高Agent57的数据效率，但这种效率的提高不能以终端性能为代价。出于这个原因，仅用10亿环境帧的预算来训练智能体。

使用这个预算可以渐进式验证智能体性能的保持效果，也就是说，在提高数据效率时，智能体会收敛并保持稳定。

训练量降98%，秒杀Agent57，更别说人类了

上面是在2亿帧环境训练下，以及10亿、200亿、900亿帧环境训练下，不同智能体在257个Atari游戏中表现。

上面是与老大哥Agent57的结果比较。

其中左图为游戏得分表现高于人类基准的游戏数量。右图为不同的交互预算下，每场比赛的人类归一化分数，从高到低排序。

新智能体MEME在3.9亿帧尝试就超过了人类基准，比Agent57快了两个数量级，并且在将训练预算从90B减少到1B的情况下，取得了类似的最终表现。

和Agent57比完了，再和人比比？

下面的蓝色柱子是MEME的表现，红线是人类玩家表现，纵轴仍然是对数。

可以看到，最高的一个游戏已经接近人类表现的1000倍，但平均表现比人类强出100倍是妥妥的了。

参考资料：

https://arxiv.org/pdf/2003.13350.pdf

https://www.deepmind.com/blog/agent57-outperforming-the-human-atari-benchmark

登录查看更多

相关内容

Atari

关注 0

《多智能体任务规划》2022博士论文

专知会员服务

285+阅读 · 2022年11月20日

DeepMind发69页长文掀开AlphaZero的黑盒：神经网络学到的知识和人类基本相似！

专知会员服务

35+阅读 · 2021年12月7日

【NeurIPS2021】对比主动推理

专知会员服务

30+阅读 · 2021年10月21日

【CMU博士论文】机器人深度强化学习，128页pdf

专知会员服务

133+阅读 · 2020年8月27日

【牛津大学】深度残差强化学习，Deep Residual Reinforcement Learning

专知会员服务

85+阅读 · 2020年2月18日

DeepMind用新AI超越自己：提速200倍，在所有雅达利游戏上胜过人类

量子位

1+阅读 · 2022年9月20日

一个AI玩41个游戏，谷歌最新多游戏决策Transformer综合表现分是DQN的两倍

量子位

1+阅读 · 2022年7月23日

DeepMind 押注博弈人工智能系统，在扑克、国际象棋、围棋等游戏中表现出色

AI前线

3+阅读 · 2022年2月16日

谁说阿尔法狗们只会下棋玩游戏？DeepMind用它们给油管视频做压缩

机器之心

0+阅读 · 2022年2月12日

DeepMind：用PopArt进行多任务深度强化学习

论智

29+阅读 · 2018年9月14日

深空环境下绳系卫星动力学建模与控制研究

国家自然科学基金

0+阅读 · 2013年12月31日

高性能CPU中动态逻辑电路的低功耗方法学研究

国家自然科学基金

0+阅读 · 2012年12月31日

大数据环境下的社会媒体理解与检索

国家自然科学基金

1+阅读 · 2012年12月31日

环境友好的叠加网络理论与协作技术研究

国家自然科学基金

0+阅读 · 2012年12月31日

水平套管井非轴对称声场模拟与固井质量评价方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

TESSP: Text-Enhanced Self-Supervised Speech Pre-training

Arxiv

0+阅读 · 2022年11月24日

Single-agent to Multi-agent in Deep Reinforcement-learning

Arxiv

0+阅读 · 2022年11月9日

CURL: Contrastive Unsupervised Representations for Reinforcement Learning

Arxiv

17+阅读 · 2020年4月28日

Q-value Path Decomposition for Deep Multiagent Reinforcement Learning

Arxiv

26+阅读 · 2020年2月10日

Emu: Enhancing Multilingual Sentence Embeddings with Semantic Specialization

Arxiv

10+阅读 · 2019年9月15日

VIP会员