业界｜阿里推出多智能体双向协调网络BicNet，玩《星际争霸》堪比人类

2017 年 4 月 3 日 AI科技评论

过去十年中，人工智能取得了长足的进步，在图像和语音识别上已经在某种程度上超越了人类。而通过反馈奖励，单个的AI智能体也能在雅达利这样的视频游戏和围棋中战胜人类。

但人类真正的智能还包括了社会和集体智能，这也是实现通用智能必不可少的。就像虽然单个蚂蚁的智能有限，但通过协作它们能狩猎，能筑巢，能发动战争。毫无疑问，人工智能的下一个挑战就是让大规模的AI智能体学习人类水平的协作与竞争。

协作的一个例子就是星际这样的即时战略游戏。AI科技评论消息，最近阿里巴巴与伦敦大学的研究人员们，就在一篇论文中展示了如何用星际争霸作为测试场景，让智能体协同工作，在多对一和多对多中打败敌人。

掩护攻击

这项研究主要关注星际中的微管理任务，每个玩家控制自己的单位，在不同的地形条件下歼灭对手。星际这样的游戏对计算机来说可能是最困难的，因为它们的复杂程度比围棋要高得多。这种大型多智能体系统学习面临的主要挑战是，参数空间会随着参与人数的增加而呈指数级增长。

研究人员让多智能体把星际中的战斗当作零和随机游戏来学习。为了形成可扩展且有效的通讯协议，研究者引入了一个多智能体双向协调网络BiCNet，智能体可以通过它来交流。另外，研究中还引入了动态分组和参数共享的概念，来解决扩展性问题。

边打边跑策略

BiCNet可以处理不同地形下的不同类型的战斗，且对战时双方都有不同数量的AI智能体。

分析显示，在没有任何诸如人类示范或标签数据的监督时，BiCNet也能学习各类协调策略，而这些策略与经验丰富的玩家所展现出来的很相似，比如在不引发冲突的情况下移动，边打边跑等基本策略，以及掩护攻击与适度集中火力等高级技巧。

另外，BiCNet还可以轻易适应异构智能体任务。在实验中，研究者根据不同的场景对网络进行了评估，发现它表现优异，在大规模现实应用中有潜在价值。

研究中还发现，指定的奖励与学习策略之间存在很强的相关性。研究人员计划进一步研究这种关系，研究策略如何在智能体网络中传递，以及是否会出现特定的语言。另外，双方都通过深度多智能体模型来操作时，纳什均衡的的探讨也很有意义。

论文阅读：https://arxiv.org/pdf/1703.10069.pdf

如果你对人工智能感兴趣并有志从事相关领域，那么这个课程也许能帮你入门真切感受AI的落地，并且有机会和知名技术大牛面对面交流、进入人工智能公司参观交流，真正和AI一线从业者深入探讨。了解课程详情可扫描海报上的二维码，联系客服留言AI科技评论读者，有惊喜折扣放送。

AI科技评论招聘季全新启动！

很多读者在思考，“我和AI科技评论的距离在哪里？”，答案就是：一封求职信。

AI科技评论自创立以来，围绕学界和业界鳌头，一直为读者提供专业的AI学界，业界，开发者内容报道。我们与学术界一流专家保持密切联系，获得第一手学术进展；我们深入巨头公司AI实验室，洞悉最新产业变化；我们覆盖A类国际学术会议，发现和推动学术界和产业界的不断融合。

而你只要加入我们，就有机会和我们一起记录这个风起云涌的人工智能时代！

如果你有下面任何两项，请投简历给我们：

＊英语好，看论文毫无压力

＊计算机科学或者数学相关专业毕业，好钻研

＊新闻媒体相关专业，好社交

＊态度好，学习能力强

简历投递：

北京：lizongren@leiphone.com

深圳：guoyixin@leiphone.com

登录查看更多

相关内容

智能体

关注 60

智能体，顾名思义，就是具有智能的实体，英文名是Agent。

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知会员服务

81+阅读 · 2020年7月2日

【德勤】新基建战略规划及投资新机会，16页pdf，新型基础建设投资机遇的初步解读

专知会员服务

98+阅读 · 2020年5月18日

《强化学习》简介小册，24页pdf

专知会员服务

280+阅读 · 2020年4月19日

【强化学习】深度强化学习初学者指南

专知会员服务

184+阅读 · 2019年12月14日

【综述】多智能体深度强化学习综述，附49页PDF

专知会员服务

214+阅读 · 2019年8月30日

ACL 2019 | AI2等提出自动知识图谱构建模型COMET，接近人类表现

机器之心

18+阅读 · 2019年7月7日

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

不用地图如何导航？DeepMind提出新型双路径强化学习「智能体」架构

极市平台

3+阅读 · 2018年4月11日

【学界】伯克利吴翼&FAIR田渊栋等人提出强化学习环境Hourse3D

GAN生成式对抗网络

5+阅读 · 2018年1月13日

Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector

Arxiv

17+阅读 · 2020年3月31日

Reinforced Self-Attention Network: a Hybrid of Hard and Soft Attention for Sequence Modeling

Arxiv

3+阅读 · 2018年7月5日

Self-Attention with Relative Position Representations

Arxiv

27+阅读 · 2018年4月12日

A Question-Focused Multi-Factor Attention Network for Question Answering

Arxiv

6+阅读 · 2018年1月25日

An Interpretable Reasoning Network for Multi-Relation Question Answering

Arxiv

17+阅读 · 2018年1月15日

VIP会员