「绝悟」AI 再次亮相GDC，展示人机协作与内容生成能力

2022 年 3 月 25 日 腾讯AI实验室

感谢阅读腾讯AI Lab微信号第139篇文章。本文将介绍腾讯「绝悟」再次参加GDC 2022（Game Developers Conference，游戏开发者大会），分享AI在玩家教学、关卡生成两方面应用案例。

全球游戏行业年度盛会“2022游戏开发者大会”（英文：Game Developers Conference，简称GDC）于近日举办。腾讯 AI Lab 在大会上展示了 AI+游戏两项进展，包括「绝悟」AI 应用于玩家教学，及算法自动生成关卡，展示了AI技术丰富玩家体验、降低制作成本的能力。这两项进展也代表了腾讯 AI Lab 向 AI 深入游戏产业全链路布局更近一步。

AI技术在游戏全链路的研究与应用包含两部分，在横向上，覆盖游戏制作、运营及周边生态全生命周期，提升游戏品质，丰富玩家体验；在纵向上，AI正拓展更多元的游戏品类。在去年GDC大会上，腾讯AI Lab就展示了AI在不同类型游戏上的应用成果，包括提高游戏开发效率、打造新玩法、辅助游戏平衡性测试等案例经验。点此回顾：「绝悟」参展游戏开发者大会，AI深入游戏产业全链路

与此同时，AI 在游戏场景中不断提升通用智能，也将有助于解决现实世界真实问题，并推进迈向虚实融合未来。

腾讯AI Lab：AI技术在游戏产业全链路中的研究与应用能力

「绝悟」AI玩家教学

提升人机协作能力

「绝悟」是腾讯Al Lab研发的决策智能Al，已在MOBA、FPS、RTS、3D开放世界等多类复杂策略游戏中取得了国际顶尖的研究成果。基于不断提升的复杂长期决策和团队协作能力，绝悟也已应用于多款游戏，赋能游戏制作与运营环节。

和王者荣耀共同研发的「王者绝悟」已表现出媲美人类顶尖职业选手的决策能力。如「王者绝悟」能把一身本领传授玩家，将能帮助玩家快速提升竞技水平。这需要AI具备形式丰富的信息交流与协作能力。但此前竞技型的「王者绝悟」是基于智能体间的建模训练而成，这种建模方式导致AI难以理解人类玩家意图，因此无法实现对玩家的交流指导。

人机协作技术解决了这一问题，成功让「王者绝悟」实现AI教学。在游戏内“绝悟试炼”玩法中，「王者绝悟」身兼队友及老师，与玩家在真实对战环境中交流协作，并在过程中向玩家传授职业级的策略与操作技术，帮助玩家迅速熟悉英雄操作与游戏玩法。数据显示，在引入「王者绝悟」AI教学后，玩家单局游戏主动沟通的次数提高了56%，提高了PVE玩法的可玩性。

具体到技术方案，人机协作要应对AI与玩家之间理解、沟通、协作三个层面的挑战：

● 「王者绝悟」通过自对弈探索策略，与玩家“师出不同门”，两者在策略和行为上存在差异，如何让AI理解玩家意图？

● 玩家与玩家之间通过语音文字等交流，但AI描述信息的方式与人类截然不同，如何让双方有效沟通？

● 当玩家和AI的策略不同时，如何合理地进行协作？

为了解决这些问题，我们使用了之前提出的MGG算法（Learning Diverse Policies in MOBA Games via Macro-Goals，Neurips 2021收录）来搭建仿真的人机协作环境。MGG使用分层建模的思想，将任务分解为宏观策略建模和微观操作建模。其中，宏观策略模型负责战略层面的长期规划，微观操作模型则在宏观策略的指导下进行实时决策。然后，我们通过构建基于专家知识的宏观策略模型，来引导AI学习玩家的策略，并让AI在自对弈训练中与不同策略的队友进行组队，从而能更好地理解玩家的意图。

实现人机“同频”之后，接下来是沟通和协作的问题。首先我们用基于专家策略的AI模型模拟玩家，再使用各种不同策略的AI模型分别模拟对手和队友，从而搭建起一个高度仿真的人机协作的环境。然后，我们在宏观策略层面建模了信息交流，通过构建通用的通信协议“元指令”来描述战略意图，实现AI与玩家的交流。

同时，我们还训练了一个指令选择器，利用长期奖励和自对弈来评估“元指令”的价值，从而完成合理的协作。「王者绝悟」在人机教学中主要有两种协作模式，一种是被动式协作，即玩家发送指令给AI队友，AI队友使用指令选择器评估价值，执行其中有价值的指令并向玩家反馈。另一种是主动式协作，AI队友用职业级的宏观策略作为元指令发送给玩家，指导玩家去哪里、做什么。

来看看人机协作的实战效果。在玩家发出各种指令后，AI会根据血量、距离等实际情况，评估指令的合理性，选择执行或拒绝。同时，AI还能执行一系列的多指令任务（如集合 - 抢夺资源 - 撤退），完成更复杂的协作。

随着人工智能技术的发展，人机协作将成为未来重要模式，“理解-沟通-协作”是实现这一目标的通用问题。「王者绝悟」在王者荣耀人机教学场景下的应用探索，不仅适用于大多数MOBA游戏，为玩家带来价值，也是对未来更多现实场景中人机协作方向的有利探索。

AI自动生成游戏关卡

推进虚实融合未来

游戏内容通常包括角色、地图、建筑、关卡、世界等，而游戏内容的制作成本很高，一般来说，一款大型游戏需要数百人花费几年时间开发。程序化内容生成（Procedural Content Generation，PCG）近年来成为游戏行业的一大热点，即通过程序算法自动生成游戏内容，提高制作效率。

由于消耗速度远快于生产，程序化生成游戏关卡的需求尤为突出。比如你可能花几分钟就完成一关《超级马里奥兄弟》，游戏制作方却需要几天或几周的时间来开发。此前行业已有基于构造、基于搜索和基于模型等方法，但这些方法生成的关卡通常缺少对实际游戏体验的建模，例如：难度、节奏等。

利用AI bot技术自动生成游戏关卡的优势明显，AI bot可以作为人类玩家的代理，代替人类进行大规模地关卡评估和测试，降低人力成本；还能提供更多语义信息，减少对训练数据的依赖；以及根据语义信息提升生成关卡的游戏体验。

腾讯AI Lab正探索将AI自动生成关卡技术应用于2D、3D等类型的游戏之中。在本次大会上，我们以一款自研的2D小游戏作为案例，只需要不到一百个训练关卡作为输入，AI即可在几个小时内生成一千多个可玩的、高质量、多样化的关卡。

具体到技术方案，AI的第一个任务是生成可玩的关卡。我们可以借助AI bot跑图并筛选出可玩的关卡，这里的核心是如何训练一个通关能力强、泛化能力好的AI bot，它可以评估大量没有见过的关卡。在特征上，我们使用以AI bot为中心的相对位置特征，去除了绝对坐标相关的特征，防止模型过拟合；在数据上，我们使用大量生成的关卡作为AI bot的训练关卡，提高泛化能力；在模型上，我们使用PPO算法和RND算法让AI bot更稳更快地探索通关。最后利用AI bot跑图测试滤掉不可玩的关卡。

第二步，在可玩的基础上，AI要提升关卡的质量，高质量的关卡是指符合游戏设计规范、美学、乐趣等，更重要的是需要和种子关卡的游戏体验是一致的。我们可以通过AI bot跑图模拟对局结果，可以获取体验相关的特征，例如：每帧的承伤、子弹位置等，然后基于种子关卡和少量人类标注数据训练评估器模型。最后结合MCTS算法和评估器模型进行搜索，相比随机搜索，MCTS生成的关卡的评估得分提升约50%

最后，重复相似的关卡会直接影响玩家的体验，因此AI还要能识别并去除相似的关卡。我们采用的是无监督训练模型自编码器，该方法不需要依赖有标注的数据，在自编码器的基础上，我们加入了AI bot跑图的语义信息作为监督信号，让自编码器的隐层去预测跑图结果，这样可以使得关卡编码向量除了刻画关卡的视觉信息之外，还可以刻画游戏体验的语义信息。最后通过自编码器学习到的关卡编码向量进行相似度计算，从而过滤掉相似的关卡。