DeepMind最新研究：“AI足球运动员”诞生，运球、抢断、传球、射门无所不能

2022 年 9 月 3 日 THU数据派

  
  
    
   
   
     
    
    
      
     
     
       
      
      
        
       
       
          
          来源：学术头条 
         
      
      
        
     
     
       
    
    
      
   
   
     
  
  
    
  
  
    
   
   
     
    
    
      
     
     
       
      
      
        
       
       
          
            本文为约2573字，建议阅读5分钟 
           
           本文介绍了 
           DeepMind 研究团队就首次发布的一个可以完成带球突破、身体对抗等多种动作，然后精准射门的“AI  
           足球运动员”。

足球，是一项全球流行的球类运动，讲究身体对抗与团队配合。

在现实生活中，不管踢不踢，踢得好还是踢得不好，每当看（听）到“足球”这个词，人们都会似懂非懂地聊上几句。

确实，足球这一运动，有太多的新闻，并不稀奇。

但是，如果一个人工智能（AI）学会了踢足球，而且踢得还不错，那算不算一件比较稀奇的事情呢？毕竟，当前的 AI 有时连“500 年前的美国总统是不是林肯”这样的问题都回答不上来。

9 月 1 日，来自英国人工智能公司 DeepMind 的研究团队就首次介绍了这样一个可以完成带球突破、身体对抗等多种动作，然后精准射门的“AI 足球运动员”。

图｜“AI 玩家”正在进行 2V2 对抗比赛（动图制作素材来源：Science Robotics）

尽管偶尔不讲规则，比如比赛中没有角球、点球和任意球等定位球（set piece），但研究团队认为，这一研究推动了人工系统向人类水平运动智能向前迈进。

相关研究论文以“From motor control to team play in simulated humanoid football”为题，已发表在科学期刊 Science Robotics 上。

AI 是怎么学会踢足球的？

众所周知，标准的足球比赛由两支队伍各派 11 名队员参与，包括 10 名球员及 1 名守门员，在球场上互相对抗和进攻。

除了守门员可以在己方禁区内利用手部触球外，其他球员只能运用手部以外的身体部位碰触球（开界外球例外），比赛的最终目的则是尽可能地将足球踢入对方的球门内。

因此，无论是在现实比赛中，还是在网络游戏上，足球都是一个既考验个人技巧，又需要团队成员默契协作的运动，完成一次出色的传球或一次精准的射门并不容易，“需要解决人类和动物们都会面临的诸多问题”。

据论文描述，尽管 DeepMind 团队在此次研究中 简化了游戏规则 ，并将两队球员人数限定在了 2-3 人，但结果显示，AI 玩家可以在事先不了解足球规则的情况下学会踢球、运球和射门等技能，并在模拟游戏中完成 2V2 和 3V3 的足球比赛。

“TA 们在一个动作技能和高水平目标导向行为紧密结合的环境中实现了综合控制。” 论文共同一作、共同通讯作者 Siqi Liu 及其团队写道。

图｜“AI 玩家”完成运球、抢断和传球等一系列动作（动图制作素材来源：Science Robotics）

如上图，在一场 2V2 的比赛中，红队球员先后完成了跑动、逼抢和传球等一系列动作，整个动作十分自然流畅，且充满压迫性。

那么，“足球小白”是如何变身“优秀足球运动员”的？

原因在于研究团队提出的 3 步机器学习框架 。

首先，AI 玩家需要通过观看人类运动视频学会行走，因为最开始的 AI 玩家并不知道要在足球场上做什么。

图｜训练前（动图制作素材来源：Science Robotics）

然后，在知道自己做什么之后，AI 玩家可以借助强化学习算法学会踢足球。

图｜训练 3 天后（动图制作素材来源：Science Robotics）

最后，AI 玩家更进一步，基于另外一种强化学习算法学会如何进行团队协作和更高难度的运动控制。

图｜训练 50 天后（动图制作素材来源：Science Robotics）

可见，当训练中的 AI 玩家不断接受环境奖励，并作出正确反馈，其踢足球水平就会得到增加。

由“足球小白”变身“优秀足球运动员”，AI 又秀了一把。

但是，依然不够

在描述认知科学和 AI 基础的经典言论中，图灵奖得主 Allen Newell 认为，从毫秒级的肌肉抽搐，到数百毫秒级的认知决策，再到长期的目标导向行为，人类行为跨越了多个组织层次。

更高级别的行为往往与外界环境和其他主体更复杂的互动相关联，而如何在多空间和时间尺度上表现出智能行为，是物理实体人工智能长期面临的挑战之一。

DeepMind 团队的这项研究，通过强化学习算法等 AI 技术，为 AI 玩家赋予了灵活的运动控制和多智能体协作能力， 是一个有关如何在多智能体环境下学习多尺度综合决策的优秀案例 。

图｜对抗、推搡（动图制作素材来源：Science Robotics）

当然，这项研究也具有一定的局限性。

例如，由于参与比赛的 AI 玩家数量相对较少，相比于现实世界还是缺少一定的复杂度，并不能说明 AI 可以玩更复杂的足球比赛。如果在未来的工作中增加 AI 玩家数量，可能就会产生更有趣的团队策略。

另外，由于时间较短，节奏较快，AI 玩家也没有被赋予调整节奏、保持精力、决定阵型或替换更偏向防守或进攻的球员的能力。

此外，研究团队也表示，他们的方法不适合直接在机器人硬件上学习，研究成果也不会快速从模拟世界转移应用到现实世界。

但是，研究成果确实证明了基于学习的方法在生成复杂运动策略方面的潜力，也解决了模拟训练中出现的模拟到真实迁移的主要挑战之一。

在论文的最后，研究团队这样写道，“ 如何在敏捷机器人硬件上实现类似复杂程度的多尺度运动智能，将是令人兴奋的研究方向之一 ”。

未来，AI 的强大将超乎想象。对此，你怎么看？

参考资料：

www.science.org/doi/10.1126/scirobotics.abo0235

——END——