视频 | 进化策略让AI开挂，玩游戏不断给自己续命

2018 年 6 月 3 日 AI科技评论

针对部分具有挑战性的深度强化学习问题，比如雅达利游戏，已经有研究表明，进化策略（Evolution Strategies）是强化学习的可行替代方案。

这里是，雷锋字幕组编译的Two minutes paper专栏，每周带大家用碎片时间阅览前沿技术，了解AI领域的最新研究成果。

原标题 This Evolving AI Finds Bugs in Games - Two Minute Papers #250

翻译 | 孙启超整理 | 凡江

强化学习会通过在系统中选择一系列的行为，把分数提到最高水平。我们可以将这类技术运用于训练一种可以打爆各种各样游戏的人工智能，例如在 Q bert 游戏中，人工智能每走一步，都要计算出合适的操作来控制这个橙色的光标，并在不碰到紫色敌人的情况下，点亮所有的立方体。

针对部分具有挑战性的深度强化学习问题，比如雅达利游戏，已经有研究表明，进化策略（Evolution Strategies）是强化学习的可行替代方案。本期论文所提出的进化策略，目标不仅是训练一个代理而是并行训练所有代理，这种方法效率很高，就像大自然的进化那样，优胜劣汰，表现最好的代理产生新的后代。

Open AI 最近的研究结果表明，比起深度强化学习的各种通用手段，自然进化策略也不失为一种好的替代手段。本期论文使用的进化策略证明了，即便是年代久远的进化策略，最后的成绩也非常喜人。

更酷的是，在经过 5 个小时的训练后，我们发现该算法不仅能掌控游戏，还能通过很多有创造性的方式完胜 Q bert 中的机器人玩家。

当它下落牺牲自己来引诱紫点时，出了个小故障，令我们惊喜的是，当从这个位置下落的时候，它应该是丢一条命，但因为这是个 BUG，所以没有死掉。

厉害~ AI 给自己续命

还有一个非常酷的技术就是为了等待对手它会在那个位置来回跳，然后突然跳到另外一条路径上。

它发现并利用了另一个很严重的 BUG，据我所知这个 BUG 以前从来没有发生过，在完成第一阶段后。它开始以一种看似随机的方式在周围跳跃。过了一会我们看到游戏并没有进入下个阶段，那些方格开始闪烁，人工智能可以想要多少分就拿多少分。

分数蹭蹭往上涨

通过进化策略，AI 可以轻轻松松搞定诸如像雅达利这样的游戏，甚至还能发现 Bug，简直是开了挂一般的存在。

视频原址：https://www.youtube.com/watch?v=wm8tK91k37U&t=105s

论文原址：

https://arxiv.org/pdf/1802.08842.pdf

添加雷锋字幕组微信号（leiphonefansub）为好友，备注「我要加入」，To be an AI Volunteer ！

对了，我们招人了，了解一下？

BAT资深算法工程师独家研发课程

最贴近生活与工作的好玩实操项目

班级管理助学搭配专业的助教答疑

学以致用拿offer，学完即推荐就业

扫码或点击阅读原文了解一下！

┏(＾0＾)┛欢迎分享，明天见！

登录查看更多

知识荟萃

精品入门和进阶教程、论文和代码整理等

查看相关VIP内容、论文、资讯等

如何写论文？这份《科研论文撰写策略》看下

专知会员服务

147+阅读 · 2020年6月15日

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

121+阅读 · 2020年5月18日

【CVPR2020-Facebook AI】单样本自适应域脸生成，One-Shot Domain Adaptation

专知会员服务

29+阅读 · 2020年4月6日

DeepMind科学家Trask《Grokking Deep Learning》图书及代码, 带你无障碍深度学习，高中数学OK

专知会员服务

93+阅读 · 2020年2月29日

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

【斯坦福新课】CS234：强化学习，附课程PPT下载

专知会员服务

124+阅读 · 2020年1月15日

《DeepMind深度学习与强化学习进阶》850页ppt课件与视频开放（附下载）

专知会员服务

147+阅读 · 2019年12月25日

【论文推荐中科院自动化所】视频游戏中深度强化学习的研究综述，A Survey of Deep Reinforcement Learning in Video

专知会员服务

48+阅读 · 2019年12月24日

【强化学习】深度强化学习初学者指南

专知会员服务

182+阅读 · 2019年12月14日

新书分享：强化学习最新书稿《强化学习导论》（Reinforcement Learning An Introduction）第二版出炉

专知会员服务

118+阅读 · 2019年10月25日

AI魔方大师：1.2秒解魔方超世界纪录2倍，平均移动28步

智东西

3+阅读 · 2019年7月17日

《常用算法之智能计算 (四) 》：遗传算法

数盟

4+阅读 · 2018年12月21日

机器学习：从入门到晋级

云栖社区

4+阅读 · 2018年11月21日

视频 | 波士顿动力进化【8min】

机器学习算法与Python学习

4+阅读 · 2018年11月15日

论强化学习的根本缺陷

AI科技评论

11+阅读 · 2018年7月24日

Atari联合创始人去世，为什么游戏对AI很重要？

新智元

3+阅读 · 2018年6月4日

零基础搞懂强化学习？这份视频攻略不算迟

AI研习社

6+阅读 · 2018年4月25日

强化学习的入门之旅

机器学习研究会

7+阅读 · 2018年2月12日

教程 | 深度强化学习入门：用TensorFlow构建你的第一个游戏AI

机器之心

6+阅读 · 2017年11月16日

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

Risk-Aware Active Inverse Reinforcement Learning

Arxiv

8+阅读 · 2019年1月8日

Deep Reinforcement Learning: An Overview

Arxiv

17+阅读 · 2018年11月26日

Reward learning from human preferences and demonstrations in Atari

Arxiv

8+阅读 · 2018年11月15日

The Bottleneck Simulator: A Model-based Deep Reinforcement Learning Approach

Arxiv

11+阅读 · 2018年7月12日

A Tour of Reinforcement Learning: The View from Continuous Control

Arxiv

6+阅读 · 2018年6月25日

Relational Deep Reinforcement Learning

Arxiv

5+阅读 · 2018年6月5日

Generative Stock Question Answering

Arxiv

6+阅读 · 2018年4月21日

Sim-to-Real Optimization of Complex Real World Mobile Network with Imperfect Information via Deep Reinforcement Learning from Self-play

Arxiv

4+阅读 · 2018年4月17日

An Interpretable Reasoning Network for Multi-Relation Question Answering

Arxiv

4+阅读 · 2018年3月8日

DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning

Arxiv

20+阅读 · 2018年1月8日

VIP会员

视频 | 进化策略让AI开挂，玩游戏不断给自己续命

相关内容

知识荟萃

更多