【强化学习】AI玩转「吃鸡」游戏,会避障导航、帮队友望风,这是强化学习训练的猎户座α

2020 年 2 月 5 日 产业智能官

作者:张倩

转载自:机器之心,未经允许不得二次转载

吃鸡类游戏很多人都玩过,但你在里面遇见过 AI 吗?最近,西山居正在研发一款名为《荣耀之海》的吃鸡类游戏,针对这款游戏,超参数科技研发了一款 3D 生存类 AI——猎户座α它通过从零开始的强化学习训练,具备了复杂 3D 环境感知、物资搜索/使用、作战、团队配合等能力。该团队的创始人是原腾讯 AI Lab 总经理刘永升,团队其他部分成员之前也参与过腾讯「绝艺」、「绝悟」游戏 AI 的研发。


《荣耀之海》是一款什么游戏?


《荣耀之海》是西山居自主研发的新一代多人在线战术竞技游戏。 游戏主打时下最火热的「吃鸡」玩法,百名玩家通过海上与陆上的大逃杀决出胜者。


在游戏中,25 支四人小队通过跳伞降落到某个区域,玩家需要在海洋与岛屿间搜集武器、防具、道具等各种资源。 随着游戏的进行,地图上的安全区域将逐渐缩小,战斗爆发得也更加频繁,玩家需要配合队友,通过灵活多变的海陆策略,击杀其他队伍的玩家、生存到最后。



对于 AI 来说,《荣耀之海》在 环境复杂度、AI 拟人度 等方面对智能体的设计提出了很大挑战。


在环境复杂度方面,目前 AI 已攻克的游戏,大部分是运行在 2D 空间内。 即使是 3D 空间的 DeepMind 雷神之锤 3 AI,也是基于上世代的游戏内核,地图简单、智能体数量少。 相比之下,《荣耀之海》的 3D 环境较为复杂,地图较为庞大,玩家也比较多。


在 AI 拟人度方面,从开发商和玩家的角度,AI 并不只是越强越好,还要求越像人越好。 作为一款吃鸡类游戏的 AI,猎户座α必须足够像人才能激发玩家的兴趣。


猎户座α表现如何?


现阶段,超参数团队的研究聚焦于一个迷你对局(mini-game)——在 230 米*230 米岛屿上、时限 6 分钟内、组队 2V2,最终存活的一方获胜。 除这些限制外,其他游戏元素与完整游戏完全相同。


研究人员发现,在这个迷你对局中,猎户座α从零开始逐渐学会了在 3D 环境中生存所需的全方位能力。


1)AI 学会了通过 搜集物资和跑毒 来照顾好自己:


AI 出生后会快速搜集物资,观察到毒圈外有高级物资时,选择快速出去拾取后再尽快返回安全区。


AI 具有避障导航能力,可以通过翻窗快速进出房屋搜集物资。


2)AI 也学会了通过 寻找掩体、灵活走位、武器使用 等方式,以及记忆等认知能力,在竞争对抗中提升自己的生存能力:


AI 在对战中会合理利用掩体,并保持灵活的走位躲避攻击。


进入肉搏后,AI 会切换为近战武器,拉开距离后再切换回远程武器。


3)AI 还学会了发挥 团队配合 的力量,与队友 互相掩护 ,在不同的战斗环境中采取针对性的战略战术,最大化自身优势:


某个 AI 被击倒后,AI 队友立刻实施救援,救活后会帮忙望风等队友打药。


在团队作战中,AI 分散站位并拉开枪线,集中火力优先消灭单个敌人。


消灭敌人取得人数优势后,AI 强势冲锋,依次经过楼梯进入房间,击杀剩余敌人。


在 AI 的训练过程中,研究者还观测到了许多与人类生存进化过程相似的地方。


人类在进化过程中,先学会采集食物补充能量、应对恶劣天气,然后学会各种工具的使用,掌握记忆等高级认知能力,进而学会与族群内同伴分工合作、与其他族群竞争对抗。 AI 通过多智能体的自我训练的方式,也表现出了类似的进化现象。 随着训练局数的增加,AI 逐渐涌现出了 物资搜集、物资使用、空间感知、认知能力和复杂策略 等智能行为。


AI 的进化过程


AI 玩转「吃鸡」类游戏难在哪儿?


《荣耀之海》作为一款 3D 游戏,复杂度相比一般 2D 游戏已经上了一个台阶,而吃鸡类游戏的超大地图、百人同局等要素又进一步增加了技术难度。


总体来说,猎户座α在《荣耀之海》中面临的挑战包括以下几个方面:


实时性与长期性


玩家不仅要做出实时的操作决策,还要做出长期的规划决策,平衡兼顾两者。 具体到《荣耀之海》来说,为了最终获胜,整局游戏通常需要进行 30 分钟以上,对应的决策步数在 7000 步以上。


非完美信息


围棋等棋类游戏虽然也很难,但玩家能看到完整的棋局,也就能获取决策所需的完美信息。 但在这种多人竞技非完美信息游戏中,玩家只能看到一定视角范围内的信息,无法看到被障碍物遮挡住的部分。 因此,玩家需要有效探索不可见的信息,并具备记忆能力。


复杂的状态空间


《荣耀之海》中的 3D 环境比 2D 环境包括更多的信息,例如带深度的 复杂空间结构 庞大的地图 (10 公里*10 公里)、 众多的玩家 (100 人)、 丰富的元素 (大量建筑、障碍、物资等),对环境感知和探索提出了巨大挑战。


复杂的动作空间


要玩转这种「吃鸡」类游戏,猎户座α需要同时操作移动方向、视角方向、攻击、姿态(站、蹲、趴、跳)、交互(拾取、打药、换弹)等一系列操作,产生复杂的组合动作空间。 据估算,离散化后的可行动作数量可以达到 10^7。


战略与战术


玩家需要对瞬息万变的环境和局势做出快速准确的判断,采取丰富的战略和战术,例如火力掩护、拉枪线、抢点、卡毒圈、封烟救援等等。


多人博弈


玩家不仅需要与队友进行密切的合作和通信,还需要与其他队伍在资源搜集、武装交火时进行对抗。 与两人博弈相比,多人博弈的情况会更加复杂多变。


猎户座α是怎么做的?


不使用人类玩家数据,完全自我学习


「猎户座α」采用了深度强化学习方法,从零开始,通过与环境的交互和试错,学会观察世界、执行动作、合作与竞争策略。AI 没有使用任何人类玩家的对战数据,完全基于自我对战(self-play)的方式进行学习
使用非完美信息


AI 观测的状态信息包括玩家/物资的实体信息、深度图、雷达图、小地图,以及宏观标量信息。与人类一样,AI 观测到的状态是非完美的——即 只能看到一定视角范围内的信息,看不到视野外或是被障碍物遮挡住的信息。


与直接用 RGB 图像作为特征相比,研究人员采用的方式省去了图像目标检测和识别的过程,专注在 AI 的决策过程。 此外,雷达图和小地图相当于自动驾驶中的高精度地图,深度图相当于深度摄像机捕捉到的信息。
限制 AI 手速


AI 的动作输出分为移动方向、水平/俯仰朝向、身体姿态、物资拾取/使用、武器切换、攻击等任务,多个任务可以同时执行,形成巨大的复合动作空间。


人类玩家在操作时,会存在反应时间的限制,APM(每分钟操作次数)也会有上限。 为了与人类一致,研究人员对 AI 也进行了相应限制。


考虑到网络传输延时、特征提取和模型预测的耗时,AI 从「观测到 1 帧状态」到「产生 1 次动作」需要 120ms 的延时。在此基础上,他们额外增加了 100ms 延时。同时, AI 每秒最多执行 4 次动作、每次最多包含 3 个动作
多个深度模型共同协作


每个智能体是一个深度神经网络模型,输入状态信息,输出预测的动作指令。研究者通过 Transformer  模型处理玩家、物资等实体信息,通过  ResNet  处理深度图、雷达图、小地图等图像信息,通过  MLP  模型处理宏观标量信息,然后通过  LSTM  模型实现记忆能力。


为实现多智能体合作,猎户座α采用了分布式的策略网络和中心式的价值网络,并引入了策略网络之间的通信机制。


AI 模型结构示意图
自研通用分布式强化学习引擎 Delta


「猎户座α」的训练在超参数自研的通用分布式强化学习引擎 Delta 上进行。该引擎通过大量弹性 CPU 资源产生训练数据,通过 GPU 资源更新神经网络模型参数,并且可以通过监控组件监控 AI 的训练过程。在该项目中, 「猎户座α」训练一天相当于人类玩家打了 10 万年 。该引擎可以部署在任何公有云上,目前已经支持了多款游戏的 AI 训练。


分布式强化学习引擎 Delta 架构示意图


需要指出的是,虽然猎户座α已经取得了一些进展,但目前的方案还存在诸多限制和待解决的问题。 例如,AI 只能在单个岛屿上进行陆战对抗; AI 仅在 2 支队伍之间进行博弈; AI 掌握的物资和武器还比较有限。


研究人员表示,他们将逐步克服以上难题,最终让 AI 在完整地图上进行 100 人的吃鸡对战。


超参数科技是一家怎样的公司?


超参数科技是一家专注于游戏 AI 探索的初创公司,主攻机器学习、强化学习、大系统工程等领域,为游戏公司提供 AI 解决方案。 获晨兴资本、 高榕资本 A 轮融资。


该公司创始人刘永升是原腾讯  AI Lab 总经理、T4 技术专家 。同时,他也是腾讯围棋 AI「绝艺」、王者荣耀 AI「绝悟」团队负责人。「绝艺」曾在今年 8 月斩获世界智能围棋公开赛冠军,而「绝悟」也在今年 8 月份的吉隆坡王者荣耀最高规格电竞赛事 KPL 世冠杯半决赛中击败职业玩家联队,晋升王者荣耀电竞职业水平。


超参数科技创始人刘永升。


除了创始人之外,超参数科技的其他团队成员也有多位来自腾讯 AI Lab 和 IEG 游戏的人工智能科学家、技术骨干以及海内外顶尖院校的精英伙伴。



该公司坚信 AGI 的产生来自于对生物智能进化过程的仿真模拟,而非截面式的复制。 为了更逼真地实现这种模拟,他们选择电子游戏作为实验环境,并在此过程中反哺游戏本身。


他们致力于将 AI 能力和游戏场景进行深度结合,为游戏公司提供人工智能解决方案,帮助游戏厂商提升开发效率、开启全新玩法,在游戏设计、开发、运营等多个环节创造价值。


先进制造业+工业互联网




产业智能官  AI-CPS


加入知识星球“产业智能研究院”:先进制造业OT(自动化+机器人+工艺+精益)和工业互联网IT(云计算+大数据+物联网+区块链+人工智能)产业智能化技术深度融合,在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的产业智能化平台;实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。


产业智能化平台作为第四次工业革命的核心驱动力,将进一步释放历次科技革命和产业变革积蓄的巨大能量,并创造新的强大引擎; 重构设计、生产、物流、服务等经济活动各环节,形成从宏观到微观各领域的智能化新需求,催生 新技术、新产品、新产业、新业态和新模式; 引发经济结构重大变革,深刻改变人类生产生活方式和思维模式,实现社会生产力的整体跃升。

产业智能化技术分支用来的今天,制造业者必须了解如何将“智能技术”全面渗入整个公司、产品、业务等商业场景中, 利用工业互联网形成数字化、网络化和智能化力量,实现行业的重新布局、企业的重新构建和焕然新生。

版权声明产业智能官(ID:AI-CPS推荐的文章,除非确实无法确认,我们都会注明作者和来源,涉权烦请联系协商解决,联系、投稿邮箱:erp_vip@hotmail.com。




登录查看更多
1

相关内容

金山软件公司西山居工作室1995年5月成立于珠海,是国内最早的游戏工作室。1996年1月,西山居发布了中国大陆第一款商业游戏——《中关村启示录》,标志着金山公司正式进入游戏领域。在过去的10年间,西山居凭借其雄厚的研发实力,以及对游戏文化内涵、画面、音乐等方面的深刻理解,共制作了11款经典游戏产品,许多产品至今仍为玩家所津津乐道,特别是被媒体称为中国游戏第一品牌的《剑侠情缘》系列,在国产游戏中更是拥有极强的生命力和号召力。
《强化学习—使用 Open AI、TensorFlow和Keras实现》174页pdf
专知会员服务
136+阅读 · 2020年3月1日
专知会员服务
234+阅读 · 2020年1月23日
2019必读的十大深度强化学习论文
专知会员服务
57+阅读 · 2020年1月16日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
强化学习的入门之旅
机器学习研究会
6+阅读 · 2018年2月12日
【学界】伯克利吴翼&FAIR田渊栋等人提出强化学习环境Hourse3D
GAN生成式对抗网络
5+阅读 · 2018年1月13日
DeepMind发布《星际争霸 II》深度学习环境
人工智能学家
8+阅读 · 2017年9月22日
Arxiv
8+阅读 · 2019年3月28日
Arxiv
4+阅读 · 2017年11月4日
VIP会员
Top
微信扫码咨询专知VIP会员