DeepMind用新AI超越自己：提速200倍，在所有雅达利游戏上胜过人类

会员服务 ·

DeepMind用新AI超越自己：提速200倍，在所有雅达利游戏上胜过人类

2022 年 9 月 20 日 量子位

羿阁发自凹非寺
量子位 | 公众号 QbitAI

DeepMind又对雅达利游戏下手了！

这次，他们最新推出的智能体MEME，在效果不变的前提下，比两年前的Agent57提速了200倍！

Agent57，是DeepMind在2020年搞的一个智能体，史上首次在所有57个雅达利游戏中超过了人类基准表现。

但它有一个致命缺陷是效率低：需要近800亿帧的数据训练才能实现。

现在，MEME的出现完美解决了这一问题。

有网友看完表示：这就是真正的样本高效吧。

话不多说，赶紧来一睹为快吧。

新的智能体：MEME

Agent57，作为首个在所有雅达利游戏中超越人类基准表现的智能体，性能上已足够先进。

但问题是，要想达到这一目标，背后需要780亿帧的庞大的经验训练，这在时间和成本上都是一笔大开支。

因此，以Agent57为起点，DeepMind采用了一系列不同的策略，来实现训练效率上的提升。

他们调查了在减少数据制度时遇到的一系列不稳定因素和瓶颈，并提出了有效的解决方案，最后建立一个更加强大和高效的智能体：MEME。

新的MEME智能体主要针对Agent57的4个方面进行改善，分别是：

A.实现与罕见事件相关的学习信号的快速传播；

B.在不同的价值尺度下稳定学习；

C.改进神经网络结构；

D.在快速变化的政策下使更新更加稳健。

为了达到这四个目标，DeepMind采取了以下方法，与上述四点相对应。

A1.用在线网络进行引导；
A2.有公差的目标计算；
B1.损失和优先权归一化；
B2.交叉混合训练；
C1.无归一化的躯干网络；
C2.带有综合损失的共享躯干；
D.通过策略提炼的鲁棒行为。

这些方法旨在提高Agent57的数据效率，但这种效率的提高不能以牺牲终端性能为代价。

因此，为了检验经过上述步骤的智能体MEME的效率和性能，研究团队分别在2亿、10亿、200亿、900亿帧环境进行了训练。

通过下图可以直观的看出，新智能体MEME在3.9亿帧时就超过了人类基准，比Agent57快了两个数量级，并且在将参数量从90B减少到1B的情况下，取得了类似的最终表现。

可以说相比Agent57而言，MEME既提升了效率，又保持了性能。

研究团队

MEME的研究团队来自DeepMind。

其中三位Adrià Puigdomènech Badia、Steven Kapturowski、Charles Blundell也是之前Agent57的论文作者。

值得一提的是，Steven Kapturowski在两篇论文中都是一作。

他毕业于美国科罗拉多大学博尔德分校，曾在苹果、微软、Glassdoor等公司工作过，现在是DeepMind的一名高级研究工程师。

参考链接：
[1]https://arxiv.org/pdf/2209.07550.pdf
[2]https://arxiv.org/pdf/2003.13350.pdf
[3]https://www.linkedin.cn/incareer/in/stevenkapturowski

— 完 —

「2022人工智能年度评选」火热报名中

现在，量子位「2022人工智能年度评选」已经正式启幕，评选将从企业、人物、产品/解决方案三大维度设置5类奖项。

更多关于评选标准、榜单报名欢迎扫描下方二维码～

点这里关注我 👇 记得标星噢 ~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

登录查看更多

相关内容

Agent

关注 15

强化学习如何预训练？上交大腾讯最新《深度强化学习预训练》综述，41页pdf阐述DRL预训练在线离线方法

专知会员服务

67+阅读 · 2022年11月9日

【伯克利博士论文】学习在动态环境中泛化，103页pdf

专知会员服务

72+阅读 · 2022年10月12日

【ECCV2022】对比视觉Transformer的在线持续学习

专知会员服务

23+阅读 · 2022年7月29日

【CMU博士论文】通过记忆的元强化学习，118页pdf

专知会员服务

48+阅读 · 2022年6月23日

基于强化学习的空战动作生成

专知会员服务

137+阅读 · 2022年6月19日

【CMU博士论文】通过记忆的元强化学习

专知会员服务

57+阅读 · 2021年10月16日

【ICML2021】学习权衡不完美的示范

专知会员服务

15+阅读 · 2021年9月23日

预训练模型最新综述：过去、现在和未来，43页pdf

专知会员服务

84+阅读 · 2021年6月20日

【ICML2021】学习一个通用模板的少样本数据集泛化

专知会员服务

26+阅读 · 2021年5月23日

【重磅】斯坦福《2019人工智能指数报告》出炉，291页pdf了解AI态势进展

专知会员服务

60+阅读 · 2019年12月12日

DeepMind提出「算法蒸馏」：可探索的预训练强化学习Transformer

极市平台

2+阅读 · 2022年11月3日

用魔法打败魔法！一个叫板顶级人类棋手的围棋AI输给了它的同类

机器之心

0+阅读 · 2022年11月3日

再掀强化学习变革！DeepMind提出「算法蒸馏」：可探索的预训练强化学习Transformer

新智元

0+阅读 · 2022年11月2日

DeepMind新作：无需权重更新、提示和微调，transformer在试错中自主改进

机器之心

1+阅读 · 2022年10月28日

人类一败涂地！DeepMind再次制霸Atari游戏，比两年前快了200倍

新智元

0+阅读 · 2022年9月19日

一个AI玩41个游戏，谷歌最新多游戏决策Transformer综合表现分是DQN的两倍

量子位

1+阅读 · 2022年7月23日

在虚拟世界里探索，李飞飞的「具身AI」离大脑更接近了

新智元

4+阅读 · 2022年6月29日

李飞飞高徒新作！30万小时视频教会AI在《我的世界》里打败末影龙

新智元

0+阅读 · 2022年6月28日

速度高达百万帧/秒，颜水成团队开源RL环境并行模拟器，大幅节省CPU资源

机器之心

0+阅读 · 2021年11月15日

DeepMind：用PopArt进行多任务深度强化学习

论智

29+阅读 · 2018年9月14日

建筑生命周期评价的时间有效性研究

国家自然科学基金

1+阅读 · 2013年12月31日

海量数据处理中面向任务加速的数据调度策略研究

国家自然科学基金

2+阅读 · 2013年12月31日

合作竞争模式下异质多动态智能体系统群集行为与协调控制

国家自然科学基金

4+阅读 · 2013年12月31日

基于检测器数据的道路网络交通运行状态可靠性在线分析与预测方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

常温醇环境中离子交换原位还原制备Pd-核壳型玻璃微珠催化剂

国家自然科学基金

0+阅读 · 2012年12月31日

参与式感知系统中基于众包的动态群组构造方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

网络化环境下面向态势感知的多无人机协同控制与管理方法

国家自然科学基金

24+阅读 · 2011年12月31日

中国健康与养老追踪调查

国家自然科学基金

3+阅读 · 2011年12月31日

具有模仿与强化学习机制的智能机器人

国家自然科学基金

2+阅读 · 2009年12月31日

多Agent对抗环境中联盟形成问题的研究

国家自然科学基金

8+阅读 · 2008年12月31日

Enhancing team performance with transfer-learning during real-world human-robot collaboration

Arxiv

0+阅读 · 2022年11月23日

A Survey on Explainable Reinforcement Learning: Concepts, Algorithms, Challenges

Arxiv

28+阅读 · 2022年11月15日

Pretraining in Deep Reinforcement Learning: A Survey

Arxiv

21+阅读 · 2022年11月8日

Trustworthy Reinforcement Learning Against Intrinsic Vulnerabilities: Robustness, Safety, and Generalizability

Arxiv

30+阅读 · 2022年9月16日

Deep Reinforcement Learning for Multi-Agent Interaction

Arxiv

45+阅读 · 2022年8月2日

A Survey on Deep Reinforcement Learning for Data Processing and Analytics

Arxiv

24+阅读 · 2022年2月4日

Reinforcement Learning based Air Combat Maneuver Generation

Arxiv

91+阅读 · 2022年1月14日

AI Accelerator Survey and Trends

Arxiv

28+阅读 · 2021年9月18日

Self-correcting Q-Learning

Arxiv

11+阅读 · 2020年12月2日

Backdoor Learning: A Survey

Arxiv

14+阅读 · 2020年10月26日

VIP会员