第二届腾讯“开悟”大赛初赛放榜，强化学习研究还能这么快乐

会员服务 ·

第二届腾讯“开悟”大赛初赛放榜，强化学习研究还能这么快乐

2021 年 11 月 11 日 腾讯AI实验室

感谢阅读腾讯AI Lab微信号第132篇文章。本文将介绍第二届腾讯「开悟」多智能体强化学习大赛初赛晋级名单及参赛团队情况。

一场发生在王者峡谷的赛事，背后竟然是清华、北大、中科大、电子科技大学……等20多所名校的学生和老师？

这不是一场简单的电竞赛事，而是一场AI领域的科研赛事——由腾讯AI Lab、王者荣耀、腾讯高校合作、腾讯游戏学院等联合举办，由腾讯云计算提供底层资源支持的第二届腾讯“开悟”多智能体强化学习大赛（简称“开悟”大赛）。

不同于常规电竞比赛，选手们并不是亲手操作英雄去战斗，他们的定位更类似于教练，通过编写的程序利用AI进行对抗。赛事基于“开悟”AI开放研究平台举行，依托于腾讯太极机器学习平台，选手可获取“开悟”提供的算法、算力、脱敏数据等资源。

就在上周，“开悟”大赛在官网发布了初赛成绩。10支队伍脱颖而出，晋级复赛。

队伍成绩已公布于赛事官网 aiarena.tencent.com

AI也会「骚操作」

初赛的目标并不复杂：参赛队伍需要训练AI学会露娜、鲁班七号、橘右京等三位英雄，并在1v1墨家机关道地图中战胜对手的同一英雄，打爆对方的水晶。除了“召唤师”是AI以外，整体规则与《王者荣耀》游戏一致。

你可能要说：就这？但达成这个目标，对AI来说并不简单。

《王者荣耀》是一款需要玩家根据复杂多变的战场情况进行实时反应，制定策略的游戏，要求玩家掌握并融合实时感知、分析、理解、推理、决策等多种能力。因此，如何设计AI的行为权重、操作触发条件，以及决策是否正确的反馈机制则成为了比赛制胜的关键。

在初赛赛题中，就考查了智能体解决方案，模型结构设计，强化学习算法设计和训练方式探索等AI强化学习领域的硬核知识点。

初赛阶段，主办方希望让参赛者能够比较轻松地上手，并在“开悟”平台上体验到AI强化学习训练的完整流程。因此，赛事主办方为参赛队伍提供了一份benchmark，包括了训练所需要的所有环境配置以及基础的算法框架代码，让选手无需关心复杂的游戏逻辑以及搭建训练环境，就能快速掌握训练流程，并专注于核心算法的优化。得益于此，初赛大部分学生都顺利完成了赛题并提交了自己训练出来的模型。

在初赛的一场露娜1V1中，我们看到了一次可媲美真实玩家对战的AI精彩对决。

“欢迎来到王者荣耀。”随着语音响起，战斗正式打响。双方狭路相逢，在短暂交手试探后，便默契分开，各自靠小兵发育。

接下来，在没有把握完成击杀的情况下，双方并没有选择穷追猛打，而是点到为止的交手了几次，都在血量告急时暂时退避，战况暂时陷入了胶着。

蓝方率先抓住了机会，该出手时就出手，越塔完成了首次击杀。

到了后期战事越发激烈，双方你来我往，互不让步。

最终，蓝方靠着前期积攒的优势，对着红方发起了最后一击。虽然红方露娜在还剩最后一丝血皮时试图撤出战场，但难以力挽狂澜。最终，以蓝方露娜击破红方水晶塔获胜。

可以看到，经过短短两个月的学习和研发，学生们已经交出了可圈可点的答卷。当然，这离不开老师和同学们大量的心血投入。

像电竞教练一样训练AI

自AlphaGo一鸣惊人后，越来越多AI研究团队意识到，游戏是AI的最佳训练场之一：若AI能在如此复杂的环境中，学会人一样实时感知、分析、理解、推理、决策到行动，就可能在多变、复杂的真实环境中发挥更大作用。

在游戏环境中开发AI，这对清华大学计算机系队的陈华玉同学并不陌生，在清华校内就有类似的比赛。但他没有想到，有一天能够将自己的专业与所喜爱的《王者荣耀》游戏结合起来。

在收到老师通知之后，他马上决定参加赛事，并承担起了拉人组队的工作。除了喜欢游戏以外，更主要的原因是“开悟”整合游戏环境、算法、算力、脱敏数据等资源，能够提供一个研究强化学习算法的理想环境。

“之前一直没有机会去做，因为它需要一个非常大的平台，以及大量的计算资源，以个人的能力去做会很困难。”陈华玉说，与他有相同想法的同学很多，招人信息发出去后，马上收到了20多份简历。

当然，“开悟”大赛的玩法和普通的游戏局并不一样。来自深圳大学的唐致烨同学是第二次参赛，去年止步于初赛的他今年格外上心，在开赛前就开始研究腾讯AI Lab过往几篇关于“绝悟”（达到王者荣耀职业电竞水平的策略协作型AI）的论文。

“我们在赛事过程中更像是一个电竞教练。”他这样评价参加“开悟”大赛的体验。“我们要分析玩家在游戏时会考虑哪些因素，然后对这些因素进行思考，也会请擅长王者的队友看视频辅助调参数，挺有趣的。”

陈华玉和唐致烨的队伍都进入了复赛。在对自己队伍的初赛表现进行复盘时，两位都认为，在面对一个比较复杂的研究项目时，队伍内部的分工合作很重要。“有人负责开发，有人负责动作空间，有人专门负责实验。”他们形容，这和玩游戏时的组队奋战有点像，5个人运用不同的“职业”特长，走在不同的路线上，最终一起攻破水晶。

而在老师的眼中，同学们在比赛中展现出的学习热情更让人惊喜。清华计算机队的指导老师阎栋表示：“现在的这些同学们非常喜欢王者荣耀，利用兴趣驱动去做事，也能提升主动学习积极性。”

尽管平台还有许多需要不断迭代优化的空间，但老师们对它寄予厚望。深大指导老师王旭就非常期待与“开悟”平台的进一步合作：“我期待平台能够进一步开放，与专业课进一步深度结合，形成一个类似于训练或者教育的平台。”

事实上，为普及多智能体强化学习研究，“开悟”早已向高校抛出了橄榄枝。今年4月，腾讯“开悟”联合国内多所高校成立了人工智能科教联盟，并携手高校、科研院所、产业园区、投资机构组建人工智能科创联合体。

王老师的期望也即将变成现实。今年8月，腾讯宣布与四所国内一流高校（北京大学、电子科技大学、清华大学、中国科学技术大学）的老师合作开发基于“开悟”平台的人工智能实践课程，理论授课包括但不限于机器学习、强化学习、多智能体决策等相关的知识点，运用王者荣耀作为实践验证场景，以更轻松的方式，传授同学们AI相关知识。未来，这一课程将逐步推广向更多有意接入的高校。

我们目标是星辰大海

在接下来的两个月内，选手们将迎来更高难度的复赛——3v3团体战。这一课题意味着选手需要在设计AI时，考虑到多个智能体之间的配合协作。

此外，复赛长平攻防战使用的地图，也比初赛的墨家机关道更复杂。场地分为上野区、下野区和中路三部分，且新增了草丛（可隐藏角色的地图区域）、野怪（击杀可掉落金币）等元素，意味着AI拥有了更大的状态空间，且需要考虑不同定位的英雄的奖励函数设计，难度再次升级。

更高难度的挑战，正是参赛者们所期待的。陈华玉至今印象最深刻的，还是初赛期间所遇到的难题，以及解决这些问题时巨大的成就感：“当发现我们想出的数据，真的有助于算法改进的时候，这种感觉还挺好的。”

研究的快乐，也让唐致烨想要探索更遥远的地方：“在比赛过程中，我发现强化学习是挺有意思的一个领域，我未来可能也会往这个方向去走。”

“开悟”的目标则看得更远：赛事希望更高难度的挑战，能帮助参赛者沉淀更多的强化学习研究经验，从而为AI与现实场景的结合创造更多可能。

基于游戏虚拟场景，训练AI的通用能力，让更智能的AI在各领域服务人类，是游戏AI研究的核心目标。举个例子，假如AI在王者峡谷中，能够快速分析瞬息万变的环境和对手并作出决策，这个能力运用于同样复杂的真实城市路况，就是自动驾驶AI的雏形；当AI学会了如何控制5个队友配合互助，或许就能在工业环境中操作多个机器人，完成复杂的生产任务。

作为国内“AI+游戏”方向的先行探路者，腾讯AI Lab已基于“绝悟”、“绝艺”等多项前沿成果，初步将其AI技术应用于游戏、医疗等产业。

在“助力产学研，共享AI新生态”愿景的引领下，“开悟”希望能够成为这些年轻人们走向星辰大海的第一块阶梯。随着他们的成长，AI将加速与医疗、工业、农业、交通等更多场景融合，并逐步成为全真互联世界的基建设施，构建未来数字生活新体验。