新baseline来了！"AI球球大作战: Go-Bigger多智能体挑战赛" 等你来战！

2021 年 12 月 28 日 CVer

2021年11月，全球首届“ AI 球球大作战：Go-Bigger多智能体决策智能挑战赛”已正式开赛。作为面向全球技术开发者和在校学生的科技类竞赛活动，本次比赛旨在推动决策智能相关领域的技术人才培养，打造全球领先、原创、开放的决策AI开源技术生态。

本次比赛由OpenDILab（开源决策智能平台）主办，上海人工智能实验室作为学术指导，商汤科技、巨人网络、上汽集团人工智能实验室联合主办，全球高校人工智能学术联盟、浙江大学上海高等研究院、上海交通大学清源研究院联合协办，OSCHINA、深度强化学习实验室作为支持，PaperWeekly、机器学习算法与自然语言处理作为合作媒体。

比赛共设冠军、亚军各1名，优胜奖4名，共同瓜分15万赛事奖金。预计明年3月封闭天梯测试，并在4月发布及公示获胜结果。

⭐️ Go-Bigger比赛主页链接:

https://www.datafountain.cn/competitions/549

⭐️ Challenge Repo Github 链接:

https://github.com/opendilab/GoBigger-Challenge-2021

⭐️ DI-engine Repo Github 链接:

https://github.com/opendilab/DI-engine

⭐️ GoBigger Repo Github 链接:

https://github.com/opendilab/GoBigger

本篇文章主要介绍Go-Bigger多智能体挑战赛的新版baseline特性，以及全新的特征工程抽象过程。

Gobigger-Explore是2021年GoBigger Multi-Agent Decision Intelligence Challenge的基线 0.2.0版本。此版本基于 DI-engine进行设计，旨在提供一种简单的入门级方法。

参赛选手可以通过 扩展基线方法来构建智能体，如采用更有效的强化学习算法设计更丰富的特征抽象方法，以及更高效的网络模型等等。

此外，DI-engine的模块化结构有利于参赛选手轻松读懂代码，并且 DI-engine提供了丰富的强化学习算法供参赛者使用。对于熟悉多智能体决策AI问题的研究人员来说，这个基线算法可以带来较大的帮助。

⭐️ Gobigger-Explore Repo Github链接：

https://github.com/opendilab/Gobigger-Explore

相比于上一个版本，在V0.2.0版本中，我们在完善了训练pipeline基础上，设计了 全新的特征工程以及网络结构来提升训练以及收敛速度，利用不定长的特征来提升数据利用率。

我们在8核处理器、GPU V100上训练1-2天，与基于规则的Bot进行了100场PK较量，我们取得了75%的胜率。参赛者可根据自己的配置适当调节batchsize以及ReplayBuffer大小，即可完成复现。

对于Gobigger环境的介绍，可以查看我们的前面的推送，链接如下：

五分钟教你在Go-Bigger中设计自己的游戏AI智能体

下面将为大家介绍 全新的特征抽象过程，在Gobigger环境中，球体的种类分为食物球(food ball), 孢子球(spore ball), 玩家球(clone ball)以及荆棘球(thorn ball)。

1.对全局信息进行编码

在Pygame中，默认坐标原点为左上角。如下图所示，图中红色矩形为全局视野，绿色矩形为局部视野
全局信息由两部分组成，一部分是时间信息，另一部分是边缘信息
时间信息是对距离比赛结束的剩余时间进行特征抽象
边缘信息是对局部视野与整个地图边缘之间距离的特征抽象

代码实现如下：

2.对clone球ID信息预处理

对每个clone球team ID进行预处理，clone球所属team的ID始终为0，其他队伍的 id依次为1、2、··· team_num-1
对每个clone球Player ID进行预处理，clone球所属Player的ID始终为0，同一个队伍其他玩家的Player ID依次为1、2 ··· player_num_per_team - 1

代码实现如下：

3.对food信息进行编码

为方便计算，面积计算采用半径的平方,省去常数项。同时，我们将food和spore都看作为食物球
food map将局部视野进行切分为h*w个小格子,每个小格子的大小为16*16
food map[0,:,:]表示落在每个小格子中food的累积面积
food map[1,:,:]表示落在每个小格子中当前id的clone ball的累积面积
food grid将局部视野进行切分为h*w个小格子,每个小格子的大小为8*8
food grid表示每个小格子中food相对于所属格子的左上角的偏移量以及food的半径
food relation 的维度是[len(clone),7*7+1,3]。其中[:,7*7,3]表示每个clone ball的7*7网格邻域中food的信息，包括偏移量以及网格中food面积平方和。

因为覆盖率很低，在这里做了一个近似，food的位置信息以最后一个为准。[len(clone):,1,3]表示每个clone ball自身的偏移量以及面积。

代码实现如下：

对clone进行编码

对clone ball进行编码，包括位置、半径、玩家名称的one-hot编码以及clone ball的速度编码

代码实现如下：

4.对关系进行编码

ball_1 与ball_2 的相对位置大小关系,(x1-x2,y1-y2)
ball_1 与ball_2 的距离,即o1与o2之间的距离dis
ball_1 与ball_2 的吞并是一个球的圆心出现在另一个球中，即发生吞并
ball_1 与ball_2 是否相互吞并,即一个球的圆形边缘与另一个球圆心之间的距离
ball_1 与ball_2 分裂后相互吞并，即分裂后最远的分裂球的圆形边缘与另一个球圆心之间的距离
ball_1 与ball_2 吃与被吃关系，即两球之间的半径大小关系
ball_1 与ball_2 分裂后吃与被吃关系，即分裂后两球之间的半径大小关系
ball_1 与ball_2 各自的半径做映射, 分别为m*n个r1 和m*n个r2, m表示ball_1的数量，n表示ball_2的数量

代码实现如下：

5.模型设计

网络结构主要采用MLP以及Pooling层
mask的作用，记录padding后的有效信息。需结合代码理解更佳
Baseline中的model设计并不是最好的，选手可以尽情脑洞

6.RL策略

采用最经典的DQN算法+离散动作空间（4*4笛卡尔积）
在OpenDILab中，已经实现了一些必备的DQN组件，比如,经验回放队列（replay buffer），为了平衡探索和利用所用的eps-greedy等等

7.标准对局怎么打

我们开源了训练的log信息，检查点文件以及评估的视频。

⭐️ 百度云链接：（提取码：u4i6）

https://pan.baidu.com/share/init?surl=1sBoLWBEN33iNycs8y7fsw

安装必要的依赖库

      
      
        
       
       
         # Install DI-engine
       
       
             git clone https://github.com/opendilab/DI-engine.git
       
       
             cd YOUR_PATH/DI-engine/
       
       
             pip install -e . --user
       
       
         

       
       
             # Install Env Gobigger
       
       
             git clone https://github.com/opendilab/GoBigger.git
       
       
             cd YOUR_PATH/GoBigger/
       
       
             pip install -e . --user

开始训练

     
     
       
      
      
        # Download baseline
      
      
            git clone https://github.com/opendilab/Gobigger-Explore.git
      
      
            cd my_submission/entry/
      
      
            python gobigger_vsbot_baseline_main.py

评估并保存视频

     
     
       
      
      
        cd my_submission/entry/
      
      
        python gobigger_vsbot_baseline_eval.py --ckpt YOUR_CKPT_PATH

8.Tips

采用连续动作空间或者混合动作空间使得智能体操作更加丝滑
设计新的Reward奖励使得智能体变得攻守兼备
采用合适的策略使得智能体学会相互配合以及更高级的动作

扫码即可了解更多开源信息~

登录查看更多

相关内容

多智能体

关注 49

【NeurIPS 2021】基于次模优化的规则学习算法框架

专知会员服务

34+阅读 · 2021年11月30日

多智能体深度强化学习：综述

专知会员服务

170+阅读 · 2021年8月3日

计算机理论顶会STOC 2021奖项出炉，滕尚华等华人学者获奖

专知会员服务

8+阅读 · 2021年7月22日

【ICML2021】DouZero: 首个达到人类水平的开源斗地主AI

专知会员服务

26+阅读 · 2021年6月25日

【CVPR 2021】变换器跟踪TransT: Transformer Tracking

专知会员服务

22+阅读 · 2021年4月20日

多Agent深度强化学习综述(中文版)，21页pdf

专知会员服务

114+阅读 · 2020年12月31日

【ICML2020-上海交大】多智能体确定性Q-Learning， Multi-Agent Determinantal Q-Learning

专知会员服务

38+阅读 · 2020年6月3日

2019必读的十大深度强化学习论文

专知会员服务

59+阅读 · 2020年1月16日

【北京智源大会2019】增强人类智能：从搜索引擎到智能任务助理（ Augmenting Human Intelligence: From Search Engines to Intelligent Task Assistants ）

专知会员服务

20+阅读 · 2019年11月22日

【综述】多智能体深度强化学习综述，附49页PDF

专知会员服务

214+阅读 · 2019年8月30日

历史最高分！腾讯「绝悟」AI 斩获 NeurIPS MineRL 竞赛冠军

腾讯AI实验室

0+阅读 · 2021年12月10日

首届AI球球大作战：Go-Bigger多智能体决策智能挑战赛火热开赛

机器之心

0+阅读 · 2021年12月7日

全球首届“AI球球大作战：Go-Bigger多智能体决策智能挑战赛”开启

PaperWeekly

0+阅读 · 2021年11月29日

五分钟教你在Go-Bigger中设计自己的游戏AI智能体

THU数据派

5+阅读 · 2021年11月5日

总奖金40万元，图神经网络赛道baseline发布！教你用DGL做图任务

图与推荐

1+阅读 · 2021年10月21日

蒙特卡洛树搜索加冕《指环王》! 游戏越复杂，AI越厉害

THU数据派

0+阅读 · 2021年10月12日

2021 MAXP大赛 | 图机器学习赛道，奖金40W

图与推荐

0+阅读 · 2021年10月10日

中科院自动化所“及第”多智能体开源开放平台，邀你开启AI晋级之路

中国科学院自动化研究所

0+阅读 · 2021年10月8日

临机之道，谁能应变？欢迎参加2021“庙算杯”人机对抗测试赛！

中国科学院自动化研究所

3+阅读 · 2021年6月18日

DAI2020 SMARTS 自动驾驶挑战赛(深度强化学习)

深度强化学习实验室

15+阅读 · 2020年8月15日

面向“海上丝绸之路”的南海航线安全评价智能体模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于冷效应功能导向的城市生态用地空间粒度界定与布局调控研究——以深圳、重庆、石家庄为例

国家自然科学基金

0+阅读 · 2015年12月31日

面向任务成功性的可修系统重要度分析及优化

国家自然科学基金

0+阅读 · 2014年12月31日

凸可分半定规划的数值算法

国家自然科学基金

0+阅读 · 2013年12月31日

地理场景协同的多摄像机目标跟踪模型

国家自然科学基金

1+阅读 · 2013年12月31日

集成多智能体和复杂网络技术的城市扩展模拟研究

国家自然科学基金

1+阅读 · 2013年12月31日

盲环境中基于触觉信息的灵巧手实时抓取策略的研究

国家自然科学基金

1+阅读 · 2012年12月31日

自适应学习的多摄像机目标跟踪

国家自然科学基金

1+阅读 · 2012年12月31日

基于多智能体启发式算法的土地利用空间配置模拟研究- - 以长株潭城市群为例

国家自然科学基金

0+阅读 · 2011年12月31日

基于GPU/CPU协同计算的城市建筑群震害模拟

国家自然科学基金

0+阅读 · 2011年12月31日

SAAC: Safe Reinforcement Learning as an Adversarial Game of Actor-Critics

Arxiv

1+阅读 · 2022年4月20日

Tight Last-Iterate Convergence of the Extragradient Method for Constrained Monotone Variational Inequalities

Arxiv

0+阅读 · 2022年4月20日

Shallow camera pipeline for night photography rendering

Arxiv

1+阅读 · 2022年4月19日

Example-based Synthesis of Static Analysis Rules

Arxiv

0+阅读 · 2022年4月19日

AI for human assessment: What do professional assessors need?

Arxiv

0+阅读 · 2022年4月18日

Simple but Effective: CLIP Embeddings for Embodied AI

Arxiv

1+阅读 · 2022年4月15日

Characterizing the Efficiency vs. Accuracy Trade-off for Long-Context NLP Models

Arxiv

0+阅读 · 2022年4月15日

Fine-Grained Neural Network Explanation by Identifying Input Features with Predictive Information

Arxiv

10+阅读 · 2021年10月4日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Feature Denoising for Improving Adversarial Robustness

Arxiv

15+阅读 · 2018年12月9日

VIP会员