蒙特卡洛树搜索加冕《指环王》! 游戏越复杂，AI越厉害

2021 年 10 月 12 日 THU数据派

  
  
    
   
   
     
    
    
      
     
     
       
      
      
        
       
       
          
          来源：新智元 
         
      
      
        
     
     
       
    
    
      
   
   
     
  
  
    
  
  
    
   
   
     
    
    
      
     
     
       
      
      
        

     
     
       
    
    
      
    
    
      
     
     
       
      
      
        
       
       
          
            本文约1558字，建议阅读4分钟 
           
           本文介绍 
           了一款基于蒙特卡洛树搜索 (MCTS) 算法的以团队协作为中心的经典卡牌游戏。

【导读】AI又来征服游戏了，这次的目标是《指环王》！这是一款以团队协作为中心的经典卡牌游戏。新模型基于蒙特卡洛树搜索 (MCTS) 算法，游戏难度越高越厉害！

AI再次入侵游戏领域！

与之前的即时策略类、对战类游戏不同，这次的目标是在国外非常流行的卡牌游戏《指环王》。

说起来，自从AlphaGo横空出世，击败人类最优秀的职业围棋手之后，AI开始在越来越多战略游戏中与人类对战。

机器学习算法和其他计算工具开始变得越来越先进，许多计算机科学家开始通过训练他们在不同的游戏中与人类竞争来测试他们的能力。

实际上，在过去10年左右的时间里，开发人员已经训练了许多模型在战略游戏、棋盘游戏、电脑游戏和纸牌游戏中与人类对战。其中一些AI取得了显著成果，击败了公认的人类冠军和游戏专家。

比如，Deepmind的AlphaStar模型就在《星际争霸2》中超过了 99.8% 人类玩家水平，达到了最高的宗师级段位。

近日，华沙理工大学的研究人员最近着手开发一种 基于蒙特卡洛树搜索 (MCTS) 算法的技术 ，可以玩由 Fantasy Flight Games 于 2011 年发布的《指环王》 (LotR) 经典纸牌游戏。

MCTS 算法是一种通用的 启发式决策方法 ，可以在随机游戏（playouts）中来优化给定游戏或场景中的搜索解决方案空间。研究人员在 arXiv 的一篇最新论文中介绍了他们的 MCTS 技术。

“我们是《指环王》游戏的粉丝，但我们发现没有现有AI可以玩这个游戏，”进行这项研究的两位研究人员 Bartosz Sawicki 和 Konrad Godlewski 表示。“尽管如此，我们还是发现了树搜索方法在类似的纸牌游戏中的应用，比如万智牌或《炉石传说》。”

《指环王》为什么之前没有AI来尝试呢？

主要原因是开发这款游戏的AI具有很高的挑战性。这是一款合作纸牌游戏，游戏策略的解决方案空间巨大，逻辑结构复杂，并且有随机事件发生的可能性。这些特点使得游戏的规则和策略很难通过计算方法获得。

“ 2016 年围棋人机大战，是人类玩家有机会和 AI 竞争的最后时刻 。”Sawicki 和 Godlewski 解释说。“我们论文的目标是为《指环王》游戏寻找蒙特卡洛树搜索的代理。”

与其他著名的纸牌游戏，如《炉石传说》和万智牌相比，《指环王》的游戏模式有着很大的不同。事实上，《指环王》的 中心策略是团队合作，而不是与其他玩家竞争 。

游戏中的决策过程非常复杂，游戏玩法包括多个阶段，其中大部分玩法策略要取决于前一阶段的结果。

尽管面临这些挑战，Sawicki 和Godlewiski 还是能够开发出一种可以玩 LotR 的基于 MCTS 的方法。然后，他们在游戏模拟器上进行了一系列测试，评估了他们开发的技术。

“我们的 MCTS 玩家的胜率明显高于基于规则的人类专家级玩家，”Sawicki 和 Godlewski 说。“此外，我们的方法将领域知识添加到扩展策略和 MCTS 中，进一步提高了模型的整体效率。”

这一成果证明，通过结合不同的人工智能和计算技术，AI模型可以实现复杂和协作式的策略游戏的精通。尽管如此，采用MCTS 来处理这些复杂的游戏也有很大的局限性。

“主要问题是 MCTS 将游戏逻辑与AI 算法相结合，所以在构建游戏树时必须知道合法的走法，不过，调试具有显著分支因素的游戏树是一场噩梦。

在很多情况下，程序可以运行顺利，但游戏胜率为零，我们不得不手动检查整个游戏树。” Sawicki 和 Godlewski 解释道。

未来，这项技术可以被《指环王》游戏爱好者与 AI 合作玩游戏。还可以激发其他人工智能工具的开发，这些工具可以玩复杂的、战略性、多阶段的游戏。

另外，这项研究未来还打算探索《指环王》游戏中训练的深度强化学习 (RL) 代理的潜力和性能。

研究人员表示：“目前的工作重点是使用强化学习来进一步提高 AI 在游戏中的性能。给定一个游戏状态，神经网络返回一个由环境（即游戏模拟器）执行的动作。

这很困难，因为不同状态下动作的数量不同，而策略网络只能有一个固定的数量输出。到目前为止，我们的结果很有希望。”

参考链接：

https://arxiv.org/pdf/2109.12001.pdf

https://techxplore.com/news/2021-10-monte-carlo-tree-algorithms-lord.html

活动推荐

2021英伟达初创企业展示诚邀创业精英报名

10月25日报名截止

—— END ——

登录查看更多

相关内容

蒙特卡洛树搜索

关注 0

【ICML2021】DouZero: 首个达到人类水平的开源斗地主AI

专知会员服务

26+阅读 · 2021年6月25日

【斯坦福-NLP-seminar】知识密集强化学习，72页ppt，Facebook TIM

专知会员服务

29+阅读 · 2021年4月27日

【DeepMind】基于模型的强化学习，174页ppt，Model-Based Reinforcement Learning

专知会员服务

89+阅读 · 2021年1月12日

【RLChina2020公开课】Lecture-11.pdf【多智能体学习与游戏AI前沿】

专知会员服务

27+阅读 · 2020年8月6日

【强化学习】深度强化学习初学者指南

专知会员服务

184+阅读 · 2019年12月14日

DeepMind三人组挑战股市，曾开发出首个战胜职业玩家的德州扑克AI

新智元

0+阅读 · 2022年4月16日

玩桥牌，8位人类世界冠军，都输给了AI

学术头条

0+阅读 · 2022年3月31日

Nature封面：人类又输给了AI，这次是玩《GT赛车》游戏

THU数据派

0+阅读 · 2022年2月10日

弯道极限超车、击败人类顶级玩家，索尼AI赛车手登上Nature封面

机器之心

0+阅读 · 2022年2月10日

使用强化学习训练机械臂完成人类任务

AI研习社

13+阅读 · 2019年3月23日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

随机图的点可区别染色算法及其在复杂网络中的应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

凸可分半定规划的数值算法

国家自然科学基金

0+阅读 · 2013年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

基于谓词规划树的规划方法的研究

国家自然科学基金

1+阅读 · 2009年12月31日

A sojourn-based approach to semi-Markov Reinforcement Learning

Arxiv

0+阅读 · 2022年4月20日

Active Learning with Weak Labels for Gaussian Processes

Arxiv

2+阅读 · 2022年4月18日

Characterizing metastable states with the help of machine learning

Arxiv

0+阅读 · 2022年4月15日

Approximating Gradients for Differentiable Quality Diversity in Reinforcement Learning

Arxiv

0+阅读 · 2022年4月15日

Temporal Graph Networks for Deep Learning on Dynamic Graphs

Arxiv

37+阅读 · 2020年10月9日

VIP会员