更进一步!谷歌的 AI 自己就能玩多人游戏了

2018 年 2 月 16 日 DeepTech深科技

长按识别二维码,报名2018十大突破技术全球直播首发,原定大年初一的直播解读改期为2月21日16:00(大年初六)。


近日,据谷歌 DeepMind 团队透露,他们已经找到能够迅速训练深度学习网络的新方法——那就是将先进的算法和老派视频游戏给整合起来。


DeepMind 是 AlphaGo 的研发团队,他们相信机器能像人类一样学习。他们在ID Software公司的《雷神之锤》(Quake III)和运行57款雅达利游戏(Atari games)的街机模式学习环境(arcade learning environment,ALE)上搭建了DMLab-30训练套装,研发了一款科幻级别的训练系统,称之为Importance Weighted Actor-Learner Architectures(IMPALA)。


通过 IMPALA,AI 系统快速播放一系列电子游戏,并从一组“玩家”中提取训练信息并传递给一组“学习者”。




一般说来,深度学习网络的工作模式类似于在游戏引擎间穿梭的独立玩家的玩法。开发者会告诉电脑,控制器输入了哪些内容,而电脑则会像拿着手柄的人类一样玩游戏。


通过 IMPALA,系统不仅能比其他算法提高 10 倍效率,还能同时玩多个游戏。就像多名玩家(30名或以上)共用一个“博格”(borg)大脑,一起摸索《雷神之锤》的玩法,共享所有经验。


这是人类在DMLab-30测试环境中的表现:




这是机器使用IMPALA时的表现情况:




人工智能开发人员面临的最大挑战之一就是训练神经网络所需的时间和处理能力。传统编程要人匆匆敲出一连串代码,最终才变成程序。可是自主化机器(autonomous machines)不同,自主化机器需要规则,通过不断的尝试,最终发现处理现实世界的问题的方法。


由于我们并不能放任机器人执行任务时不受约束,模拟也便成为了其发展的首个重点。因此,深度强化学习(deep reinforcement learning)对上下文自主性(contextual autonomy)的任务至关重要。


比方说,无人驾驶汽车平时加速或减速可以自行判断,进行选择,却不能够拥有是否要开进某家便利店的选项。它要知道什么样的决策是它可以做的,什么不可以,以及在模拟环境中又应如何进行决策。


IMPALA 解决的另一个问题是可扩展性。调整算法和优化(tune things)以缩短训练时间是一回事,但是要在一天结束时成功训练人工智能又是另一回事,毕竟它靠的可不是时间记录。


要想让目前的神经网络达到足够高的成功率,从而对任何可能存在潜在危害或损害人类库存的自主化机器进行编译系统上的调整,他们需要处理训练环境里的数十亿帧(图片)。


根据研究者的说法,“只要有足够基于CPU的角色模型(actors),IMPALA就能达到 250000 帧/秒或 210 亿帧/天。”这让 DeepMind 团队的AI在执行这类任务时,可以达到我们所了解的最快速度。


而更令人震惊的可能是IMPALA 白皮书的说法,它表示:AI 的性能要比以往的 AI 系统和人类更胜一筹。


-End-


编辑:梁嘉祺

来源:

https://thenextweb.com/artificial-intelligence/2018/02/08/deepmind-taught-ai-how-to-multitask-using-video-games/


登录查看更多
0

相关内容

【牛津大学&DeepMind】自监督学习教程,141页ppt
专知会员服务
179+阅读 · 2020年5月29日
【Google】利用AUTOML实现加速感知神经网络设计
专知会员服务
29+阅读 · 2020年3月5日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
谷歌足球游戏环境使用介绍
CreateAMind
33+阅读 · 2019年6月27日
谷歌的 PlaNet 强化学习网络
AI研习社
4+阅读 · 2019年5月11日
使用强化学习训练机械臂完成人类任务
AI研习社
13+阅读 · 2019年3月23日
如何用人工智能秒杀超级马里奥游戏
AI100
5+阅读 · 2018年1月8日
一张图看懂AlphaGo Zero
AI前线
6+阅读 · 2017年11月17日
AI都干过什么让人细思极恐的事?
全球创新论坛
4+阅读 · 2017年9月15日
【强化学习】如何开启强化学习的大门?
产业智能官
13+阅读 · 2017年9月10日
Arxiv
3+阅读 · 2019年10月31日
Arxiv
21+阅读 · 2019年8月21日
Arxiv
7+阅读 · 2018年12月26日
Multi-task Deep Reinforcement Learning with PopArt
Arxiv
4+阅读 · 2018年9月12日
Relational Deep Reinforcement Learning
Arxiv
10+阅读 · 2018年6月28日
Arxiv
3+阅读 · 2018年6月14日
Arxiv
6+阅读 · 2018年4月21日
VIP会员
相关资讯
谷歌足球游戏环境使用介绍
CreateAMind
33+阅读 · 2019年6月27日
谷歌的 PlaNet 强化学习网络
AI研习社
4+阅读 · 2019年5月11日
使用强化学习训练机械臂完成人类任务
AI研习社
13+阅读 · 2019年3月23日
如何用人工智能秒杀超级马里奥游戏
AI100
5+阅读 · 2018年1月8日
一张图看懂AlphaGo Zero
AI前线
6+阅读 · 2017年11月17日
AI都干过什么让人细思极恐的事?
全球创新论坛
4+阅读 · 2017年9月15日
【强化学习】如何开启强化学习的大门?
产业智能官
13+阅读 · 2017年9月10日
相关论文
Arxiv
3+阅读 · 2019年10月31日
Arxiv
21+阅读 · 2019年8月21日
Arxiv
7+阅读 · 2018年12月26日
Multi-task Deep Reinforcement Learning with PopArt
Arxiv
4+阅读 · 2018年9月12日
Relational Deep Reinforcement Learning
Arxiv
10+阅读 · 2018年6月28日
Arxiv
3+阅读 · 2018年6月14日
Arxiv
6+阅读 · 2018年4月21日
Top
微信扫码咨询专知VIP会员