Uber公司设计新型AI算法,有望对机器人工作产生巨大影响

2018 年 11 月 29 日 DeepTech深科技

点击图片查看详情↑


在蒙特祖玛的复仇(Montezuma's Revenge)和玛雅人的冒险(Pitfall!)这两款游戏里,如果有一个算法能记住游戏里的探索过程,那么这个算法就能帮助计算机和机器人更好地学习和适应真实世界


由怀俄明大学的副教授 Jeff Clune 领导,来自优步在旧金山的人工智能研究团队,提供了一种新型的机器学习算法刚刚攻克了一些对人工智能来说非常困难的电子游戏。

 

(图片来源:麻省理工科技评论)


熟悉的人知道,人工智能算法已经在古老、优雅的策略游戏——围棋中击败了世界上最优秀的人类选手,围棋已经是是可以想象到的最困难的游戏之一。但是,来自上个世纪的 8 位计算机游戏时代的两个经典像素游戏——蒙特祖玛的复仇和玛雅人的冒险,一直困扰着人工智能研究人员

 

这看似矛盾的背后其实是有原因的。蒙特祖玛的复仇和玛雅人的冒险虽然看似简单,但对本来就擅长征服电子游戏的强化学习来说仍是一大挑战。DeepMind 是谷歌母公司 Alphabet 的子公司,专注于人工智能领域,以其算法能够以专业玩家的水准来学习几个经典的电子游戏的而著名。强化学习算法在大多数游戏里效果都不错,因为它们可以根据正反馈(得分升高)调整他们的行为。强化学习的成功使人们产生了希望,认为人工智能算法可以自己教会自己做各种有用的事情,而这目前对机器来说是不可能做到的。

 

蒙特祖玛的复仇和玛雅人的冒险的问题是所需要的奖励(rewards)信号很少。两个游戏都涉及典型场景:主角要探索充满致命生物和陷阱的方块世界,在游戏中许多所必需的行为都无助于提高分数,只在长时间完成特定的一系列动作之后才会收到奖励信号。普通的强化学习算法甚至过不去蒙特祖玛的复仇和玛雅人的冒险的第一关,他们得分完全为零。

 

但是来自优步在旧金山的人工智能研究团队的算法,在一个给算法提供线索很少的环境中展示了一种完全不同的机器学习方法。这种方法引出了一些有趣的实际应用,Clune 和他的团队在 11 月 26 日发布的博客文章中写道,这可能可以应用在机器人学习中这是因为未来的机器人需要弄清楚在一个只提供较少的奖励的复杂的环境中应该做些什么

 

Uber 于 2016 年 12 月建立人工智能实验室,其目标是实现可能对其业务有用的基础性突破。更好的强化学习算法最终可用于自动驾驶和优化车辆路线等项目上

 

很多人工智能研究人员经常通过指导强化学习算法不定时随机探索、同时为探索过程增加奖励——也就是所谓的”内在动机”(intrinsic motivation), 来试图解决蒙特祖玛的复仇与玛雅人的冒险遇到的问题。

 

但 Uber 的研究人员认为,这种方法忽略了人类探索好奇心的一个重要角度。“我们认为目前的”内在动机”算法的一个主要弱点是 detachment,”他们写道,“算法忘记了他们访问过的有价值的区域,他们不会回到那些区域,看看是否会产生新的状态。”

 

该团队设计了新的强化学习算法,称为 Go-Explore,这种算法可以记住之前的状态,并会在随后返回特定区域或重复特定任务,看看这样做是否会使效果变好。研究人员还发现,通过让人类玩家突出有趣或重要的区域来增加一些领域信息时,可以大大加快算法的学习过程。这一过程非常重要,因为在真实环境中,有很多情况是需要算法和人一起工作来解决一项艰巨的任务的。

 

他们的算法在蒙特祖玛的复仇中平均得分为 400,000 分——比人类玩家的平均值高出一个数量级。在玛雅人的冒险游戏中,平均得分为 21,000,同样远远超过大多数人类玩家。

 

“这些结果令人印象深刻,”研究强化学习的斯坦福大学助理教授 Emma Brunskill 说,“令人惊讶和兴奋的是,这些算法产生了如此巨大的优势。”

 

其他人工智能研究人员也一直在努力攻克这些电子游戏。10 月,旧金山的非营利组织——OpenAI 的一个团队,展示了一种能够在蒙特祖玛的复仇游戏中取得重大进展的算法

 

就在最近,斯坦福大学的 Brunskill 小组在玛雅人的冒险游戏方面也取得了一些的进展,他们使用的方法与 Uber 团队类似。

 

现在人工智能算法可以解决这些视频游戏,真正的挑战是从街机游戏中脱离出来,解决现实问题

 

Brunskill 同意这种算法可能对机器人技术产生重大影响。但是她表示,在其他现实世界的情况中,特别是那些涉及人类行为建模的情况,要远远困难得多。“想看看这种方法对于更复杂的环境表现的如何,这将非常有趣,”她说。


 -End-


编辑:李根 责编:李禹蒙

参考:

https://www.technologyreview.com/s/612470/uber-has-cracked-two-classic-80s-video-games-by-giving-an-ai-algorithm-a-new-type-of-memory/


---------

#世界首例免疫艾滋病的基因编辑婴儿#事件持续发酵,CRISPR发现者Doudna近日在港接受DT君采访时对此事件“表示失望”其实早在她写这本书时,就已表明了自己的立场“必须加以规范和限制”。此外在这本书里她还详细讲述了CRISPR的前世今生。相信可以帮助大家更好的理解这项技术,从而正确客观的看待事件本身。



扫码加入DeepTech读书会

听CRISPR发现者讲述基因编辑技术


登录查看更多
0

相关内容

《强化学习》简介小册,24页pdf
专知会员服务
272+阅读 · 2020年4月19日
《强化学习—使用 Open AI、TensorFlow和Keras实现》174页pdf
专知会员服务
136+阅读 · 2020年3月1日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
强化学习的未来——第一部分
AI研习社
9+阅读 · 2019年1月2日
论强化学习的根本缺陷
AI科技评论
11+阅读 · 2018年7月24日
时代聚焦AI安全——可解释性
云栖社区
9+阅读 · 2018年1月21日
【深度强化学习】深度强化学习揭秘
产业智能官
20+阅读 · 2017年11月13日
Arxiv
136+阅读 · 2018年10月8日
Hierarchical Deep Multiagent Reinforcement Learning
Arxiv
8+阅读 · 2018年9月25日
Arxiv
11+阅读 · 2018年4月25日
VIP会员
Top
微信扫码咨询专知VIP会员