DeepMind用新AI超越自己:提速200倍,在所有雅达利游戏上胜过人类

2022 年 9 月 20 日 量子位
羿阁 发自 凹非寺
量子位 | 公众号 QbitAI

DeepMind又对雅达利游戏下手了!

这次,他们最新推出的智能体MEME,在效果不变的前提下,比两年前的Agent57提速了200倍

Agent57,是DeepMind在2020年搞的一个智能体,史上首次在所有57个雅达利游戏中超过了人类基准表现。

但它有一个致命缺陷是效率低:需要近800亿帧的数据训练才能实现。

现在,MEME的出现完美解决了这一问题。

有网友看完表示:这就是真正的样本高效吧。

话不多说,赶紧来一睹为快吧。

新的智能体:MEME

Agent57,作为首个在所有雅达利游戏中超越人类基准表现的智能体,性能上已足够先进。

但问题是,要想达到这一目标,背后需要780亿帧的庞大的经验训练,这在时间和成本上都是一笔大开支。

因此,以Agent57为起点,DeepMind采用了一系列不同的策略,来实现训练效率上的提升。

他们调查了在减少数据制度时遇到的一系列不稳定因素和瓶颈,并提出了有效的解决方案,最后建立一个更加强大和高效的智能体:MEME。

新的MEME智能体主要针对Agent57的4个方面进行改善,分别是:

A.实现与罕见事件相关的学习信号的快速传播

B.在不同的价值尺度下稳定学习

C.改进神经网络结构

D.在快速变化的政策下使更新更加稳健

为了达到这四个目标,DeepMind采取了以下方法,与上述四点相对应。

A1.用在线网络进行引导;
A2.有公差的目标计算;
B1.损失和优先权归一化;
B2.交叉混合训练;
C1.无归一化的躯干网络;
C2.带有综合损失的共享躯干;
D.通过策略提炼的鲁棒行为。

这些方法旨在提高Agent57的数据效率,但这种效率的提高不能以牺牲终端性能为代价。

因此,为了检验经过上述步骤的智能体MEME的效率和性能,研究团队分别在2亿、10亿、200亿、900亿帧环境进行了训练。

通过下图可以直观的看出,新智能体MEME在3.9亿帧时就超过了人类基准,比Agent57快了两个数量级,并且在将参数量从90B减少到1B的情况下,取得了类似的最终表现。

可以说相比Agent57而言,MEME既提升了效率,又保持了性能。

研究团队

MEME的研究团队来自DeepMind。

其中三位Adrià Puigdomènech Badia、Steven Kapturowski、Charles Blundell也是之前Agent57的论文作者。

值得一提的是,Steven Kapturowski在两篇论文中都是一作。

他毕业于美国科罗拉多大学博尔德分校,曾在苹果、微软、Glassdoor等公司工作过,现在是DeepMind的一名高级研究工程师。

参考链接:
[1]
https://arxiv.org/pdf/2209.07550.pdf
[2]https://arxiv.org/pdf/2003.13350.pdf
[3]https://www.linkedin.cn/incareer/in/stevenkapturowski

「2022人工智能年度评选」火热报名中

现在,量子位「2022人工智能年度评选」已经正式启幕,评选将从企业、人物、产品/解决方案三大维度设置5类奖项。

更多关于评选标准、榜单报名欢迎扫描下方二维码~


点这里关注我 👇 记得标星噢 ~


一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~  



登录查看更多
0

相关内容

【伯克利博士论文】学习在动态环境中泛化,103页pdf
专知会员服务
71+阅读 · 2022年10月12日
【ECCV2022】对比视觉Transformer的在线持续学习
专知会员服务
21+阅读 · 2022年7月29日
【CMU博士论文】通过记忆的元强化学习,118页pdf
专知会员服务
46+阅读 · 2022年6月23日
基于强化学习的空战动作生成
专知会员服务
131+阅读 · 2022年6月19日
【CMU博士论文】通过记忆的元强化学习
专知会员服务
53+阅读 · 2021年10月16日
专知会员服务
14+阅读 · 2021年9月23日
专知会员服务
82+阅读 · 2021年6月20日
专知会员服务
25+阅读 · 2021年5月23日
DeepMind:用PopArt进行多任务深度强化学习
论智
29+阅读 · 2018年9月14日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
22+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
8+阅读 · 2008年12月31日
Arxiv
21+阅读 · 2022年11月8日
Arxiv
28+阅读 · 2021年9月18日
Arxiv
11+阅读 · 2020年12月2日
Arxiv
14+阅读 · 2020年10月26日
VIP会员
相关VIP内容
【伯克利博士论文】学习在动态环境中泛化,103页pdf
专知会员服务
71+阅读 · 2022年10月12日
【ECCV2022】对比视觉Transformer的在线持续学习
专知会员服务
21+阅读 · 2022年7月29日
【CMU博士论文】通过记忆的元强化学习,118页pdf
专知会员服务
46+阅读 · 2022年6月23日
基于强化学习的空战动作生成
专知会员服务
131+阅读 · 2022年6月19日
【CMU博士论文】通过记忆的元强化学习
专知会员服务
53+阅读 · 2021年10月16日
专知会员服务
14+阅读 · 2021年9月23日
专知会员服务
82+阅读 · 2021年6月20日
专知会员服务
25+阅读 · 2021年5月23日
相关基金
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
4+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
22+阅读 · 2011年12月31日
国家自然科学基金
3+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
8+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员