更进一步！谷歌的 AI 自己就能玩多人游戏了 - 专知

会员服务 ·

0

更进一步！谷歌的 AI 自己就能玩多人游戏了

2018 年 2 月 16 日 DeepTech深科技

长按识别二维码，报名2018十大突破技术全球直播首发，原定大年初一的直播解读改期为2月21日16:00(大年初六)。

近日，据谷歌 DeepMind 团队透露，他们已经找到能够迅速训练深度学习网络的新方法——那就是将先进的算法和老派视频游戏给整合起来。

DeepMind 是 AlphaGo 的研发团队，他们相信机器能像人类一样学习。他们在ID Software公司的《雷神之锤》（Quake III）和运行57款雅达利游戏（Atari games）的街机模式学习环境（arcade learning environment，ALE）上搭建了DMLab-30训练套装，研发了一款科幻级别的训练系统，称之为Importance Weighted Actor-Learner Architectures（IMPALA）。

通过 IMPALA，AI 系统快速播放一系列电子游戏，并从一组“玩家”中提取训练信息并传递给一组“学习者”。

一般说来，深度学习网络的工作模式类似于在游戏引擎间穿梭的独立玩家的玩法。开发者会告诉电脑，控制器输入了哪些内容，而电脑则会像拿着手柄的人类一样玩游戏。

通过 IMPALA，系统不仅能比其他算法提高 10 倍效率，还能同时玩多个游戏。就像多名玩家（30名或以上）共用一个“博格”（borg）大脑，一起摸索《雷神之锤》的玩法，共享所有经验。

这是人类在DMLab-30测试环境中的表现：

这是机器使用IMPALA时的表现情况：

人工智能开发人员面临的最大挑战之一就是训练神经网络所需的时间和处理能力。传统编程要人匆匆敲出一连串代码，最终才变成程序。可是自主化机器（autonomous machines）不同，自主化机器需要规则，通过不断的尝试，最终发现处理现实世界的问题的方法。

由于我们并不能放任机器人执行任务时不受约束，模拟也便成为了其发展的首个重点。因此，深度强化学习（deep reinforcement learning）对上下文自主性（contextual autonomy）的任务至关重要。

比方说，无人驾驶汽车平时加速或减速可以自行判断，进行选择，却不能够拥有是否要开进某家便利店的选项。它要知道什么样的决策是它可以做的，什么不可以，以及在模拟环境中又应如何进行决策。

IMPALA 解决的另一个问题是可扩展性。调整算法和优化（tune things）以缩短训练时间是一回事，但是要在一天结束时成功训练人工智能又是另一回事，毕竟它靠的可不是时间记录。

要想让目前的神经网络达到足够高的成功率，从而对任何可能存在潜在危害或损害人类库存的自主化机器进行编译系统上的调整，他们需要处理训练环境里的数十亿帧（图片）。

根据研究者的说法，“只要有足够基于CPU的角色模型（actors），IMPALA就能达到 250000 帧/秒或 210 亿帧/天。”这让 DeepMind 团队的AI在执行这类任务时，可以达到我们所了解的最快速度。

而更令人震惊的可能是IMPALA 白皮书的说法，它表示：AI 的性能要比以往的 AI 系统和人类更胜一筹。

-End-

编辑：梁嘉祺

来源：

https://thenextweb.com/artificial-intelligence/2018/02/08/deepmind-taught-ai-how-to-multitask-using-video-games/

登录查看更多

0

相关内容

IMPALA

机器学习如何用于芯片系统设计？Jeff Dean推荐Google最新《机器学习系统芯片设计》70页ppt为你讲解

机器学习如何用于芯片系统设计？Jeff Dean推荐Google最新《机器学习系统芯片设计》70页ppt为你讲解

专知会员服务

61+阅读 · 2020年5月31日

【牛津大学&DeepMind】自监督学习教程，141页ppt

【牛津大学&DeepMind】自监督学习教程，141页ppt

专知会员服务

181+阅读 · 2020年5月29日

强化学习的对比无监督表示，CURL: Contrastive Unsupervised Representations for Reinforcement Learning

强化学习的对比无监督表示，CURL: Contrastive Unsupervised Representations for Reinforcement Learning

专知会员服务

41+阅读 · 2020年4月11日

规则就够用？还是必须上机器学习？这46页ppt教你如何把规则引擎和机器学习融会贯通

规则就够用？还是必须上机器学习？这46页ppt教你如何把规则引擎和机器学习融会贯通

专知会员服务

57+阅读 · 2020年3月22日

【Google】利用AUTOML实现加速感知神经网络设计

【Google】利用AUTOML实现加速感知神经网络设计

专知会员服务

30+阅读 · 2020年3月5日

【AAAI2020教程】强化学习中的Exploration-Exploitation in Reinforcement Learning

专知会员服务

101+阅读 · 2020年2月8日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

【新书】Python强化学习-基于Tensorflow与Keras和OpenAI Gym实战, 177页pdf

【新书】Python强化学习-基于Tensorflow与Keras和OpenAI Gym实战, 177页pdf

专知会员服务

184+阅读 · 2020年1月17日

【强化学习】深度强化学习初学者指南

【强化学习】深度强化学习初学者指南

专知会员服务

182+阅读 · 2019年12月14日

【斯坦福大学李飞飞高徒朱玉可博士毕业论文和PPT，158页pdf与96页slides】闭合感知-动作循环:实现通用机器人的自治，能够理解并与现实世界交互的通用机器人构建智能

【斯坦福大学李飞飞高徒朱玉可博士毕业论文和PPT，158页pdf与96页slides】闭合感知-动作循环:实现通用机器人的自治，能够理解并与现实世界交互的通用机器人构建智能

专知会员服务

104+阅读 · 2019年10月22日

谷歌足球游戏环境使用介绍

谷歌足球游戏环境使用介绍

CreateAMind

33+阅读 · 2019年6月27日

谷歌的 PlaNet 强化学习网络

谷歌的 PlaNet 强化学习网络

AI研习社

4+阅读 · 2019年5月11日

使用强化学习训练机械臂完成人类任务

使用强化学习训练机械臂完成人类任务

AI研习社

13+阅读 · 2019年3月23日

前沿 | 没有地图也能导航：DeepMind展示全新AI导航技术

前沿 | 没有地图也能导航：DeepMind展示全新AI导航技术

机器之心

5+阅读 · 2018年4月4日

【AI玩跳一跳终极奥义】首个端到端神经网络，看AI在玩游戏时注意什么

【AI玩跳一跳终极奥义】首个端到端神经网络，看AI在玩游戏时注意什么

新智元

5+阅读 · 2018年1月11日

如何用人工智能秒杀超级马里奥游戏

如何用人工智能秒杀超级马里奥游戏

AI100

5+阅读 · 2018年1月8日

一张图看懂AlphaGo Zero

一张图看懂AlphaGo Zero

AI前线

6+阅读 · 2017年11月17日

教程 | 深度强化学习入门：用TensorFlow构建你的第一个游戏AI

教程 | 深度强化学习入门：用TensorFlow构建你的第一个游戏AI

机器之心

6+阅读 · 2017年11月16日

AI都干过什么让人细思极恐的事？

AI都干过什么让人细思极恐的事？

全球创新论坛

4+阅读 · 2017年9月15日

【强化学习】如何开启强化学习的大门？

【强化学习】如何开启强化学习的大门？

产业智能官

13+阅读 · 2017年9月10日

Entity Context and Relational Paths for Knowledge Graph Completion

Arxiv

29+阅读 · 2020年2月17日

Co-Generation with GANs using AIS based HMC

Arxiv

3+阅读 · 2019年10月31日

Latent Relation Language Models

Arxiv

21+阅读 · 2019年8月21日

Learning to Walk via Deep Reinforcement Learning

Arxiv

7+阅读 · 2018年12月26日

Multi-task Deep Reinforcement Learning with PopArt

Multi-task Deep Reinforcement Learning with PopArt

Arxiv

4+阅读 · 2018年9月12日

Relational Deep Reinforcement Learning

Relational Deep Reinforcement Learning

Arxiv

10+阅读 · 2018年6月28日

Relation Networks for Object Detection

Arxiv

4+阅读 · 2018年6月14日

Generative Stock Question Answering

Arxiv

6+阅读 · 2018年4月21日

Sounderfeit: Cloning a Physical Model with Conditional Adversarial Autoencoders

Arxiv

4+阅读 · 2018年2月22日

Appearance-and-Relation Networks for Video Classification

Arxiv

3+阅读 · 2017年11月24日

VIP会员

相关主题

相关VIP内容

机器学习如何用于芯片系统设计？Jeff Dean推荐Google最新《机器学习系统芯片设计》70页ppt为你讲解

机器学习如何用于芯片系统设计？Jeff Dean推荐Google最新《机器学习系统芯片设计》70页ppt为你讲解

专知会员服务

61+阅读 · 2020年5月31日

【牛津大学&DeepMind】自监督学习教程，141页ppt

【牛津大学&DeepMind】自监督学习教程，141页ppt

专知会员服务

181+阅读 · 2020年5月29日

强化学习的对比无监督表示，CURL: Contrastive Unsupervised Representations for Reinforcement Learning

强化学习的对比无监督表示，CURL: Contrastive Unsupervised Representations for Reinforcement Learning

专知会员服务

41+阅读 · 2020年4月11日

规则就够用？还是必须上机器学习？这46页ppt教你如何把规则引擎和机器学习融会贯通

规则就够用？还是必须上机器学习？这46页ppt教你如何把规则引擎和机器学习融会贯通

专知会员服务

57+阅读 · 2020年3月22日

【Google】利用AUTOML实现加速感知神经网络设计

【Google】利用AUTOML实现加速感知神经网络设计

专知会员服务

30+阅读 · 2020年3月5日

【AAAI2020教程】强化学习中的Exploration-Exploitation in Reinforcement Learning

专知会员服务

101+阅读 · 2020年2月8日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

【新书】Python强化学习-基于Tensorflow与Keras和OpenAI Gym实战, 177页pdf

【新书】Python强化学习-基于Tensorflow与Keras和OpenAI Gym实战, 177页pdf

专知会员服务

184+阅读 · 2020年1月17日

【强化学习】深度强化学习初学者指南

【强化学习】深度强化学习初学者指南

专知会员服务

182+阅读 · 2019年12月14日

【斯坦福大学李飞飞高徒朱玉可博士毕业论文和PPT，158页pdf与96页slides】闭合感知-动作循环:实现通用机器人的自治，能够理解并与现实世界交互的通用机器人构建智能

【斯坦福大学李飞飞高徒朱玉可博士毕业论文和PPT，158页pdf与96页slides】闭合感知-动作循环:实现通用机器人的自治，能够理解并与现实世界交互的通用机器人构建智能

专知会员服务

104+阅读 · 2019年10月22日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】数据驱动决策中的激励、信息与不确定性

DGP双粒度提示框架：图增强大模型助力欺诈检测

【ICCV2025】ESSENTIAL：用于视频类增量学习的情景记忆与语义记忆整合

唯快不破：大型语言模型高效架构综述

相关资讯

谷歌足球游戏环境使用介绍

谷歌足球游戏环境使用介绍

CreateAMind

33+阅读 · 2019年6月27日

谷歌的 PlaNet 强化学习网络

谷歌的 PlaNet 强化学习网络

AI研习社

4+阅读 · 2019年5月11日

使用强化学习训练机械臂完成人类任务

使用强化学习训练机械臂完成人类任务

AI研习社

13+阅读 · 2019年3月23日

前沿 | 没有地图也能导航：DeepMind展示全新AI导航技术

前沿 | 没有地图也能导航：DeepMind展示全新AI导航技术

机器之心

5+阅读 · 2018年4月4日

【AI玩跳一跳终极奥义】首个端到端神经网络，看AI在玩游戏时注意什么

【AI玩跳一跳终极奥义】首个端到端神经网络，看AI在玩游戏时注意什么

新智元

5+阅读 · 2018年1月11日

如何用人工智能秒杀超级马里奥游戏

如何用人工智能秒杀超级马里奥游戏

AI100

5+阅读 · 2018年1月8日

一张图看懂AlphaGo Zero

一张图看懂AlphaGo Zero

AI前线

6+阅读 · 2017年11月17日

教程 | 深度强化学习入门：用TensorFlow构建你的第一个游戏AI

教程 | 深度强化学习入门：用TensorFlow构建你的第一个游戏AI

机器之心

6+阅读 · 2017年11月16日

AI都干过什么让人细思极恐的事？

AI都干过什么让人细思极恐的事？

全球创新论坛

4+阅读 · 2017年9月15日

【强化学习】如何开启强化学习的大门？

【强化学习】如何开启强化学习的大门？

产业智能官

13+阅读 · 2017年9月10日

相关论文

Entity Context and Relational Paths for Knowledge Graph Completion

Arxiv

29+阅读 · 2020年2月17日

Co-Generation with GANs using AIS based HMC

Arxiv

3+阅读 · 2019年10月31日

Latent Relation Language Models

Arxiv

21+阅读 · 2019年8月21日

Learning to Walk via Deep Reinforcement Learning

Arxiv

7+阅读 · 2018年12月26日

Multi-task Deep Reinforcement Learning with PopArt

Multi-task Deep Reinforcement Learning with PopArt

Arxiv

4+阅读 · 2018年9月12日

Relational Deep Reinforcement Learning

Relational Deep Reinforcement Learning

Arxiv

10+阅读 · 2018年6月28日

Relation Networks for Object Detection

Arxiv

4+阅读 · 2018年6月14日

Generative Stock Question Answering

Arxiv

6+阅读 · 2018年4月21日

Sounderfeit: Cloning a Physical Model with Conditional Adversarial Autoencoders

Arxiv

4+阅读 · 2018年2月22日

Appearance-and-Relation Networks for Video Classification

Arxiv

3+阅读 · 2017年11月24日

大家都在搜

CMU博士论文

无人机集群

软件无线电

久别重逢话双塔

无人机测控通信自组网技术综述

微信扫码咨询专知VIP会员