自动化所开源轻量易读易扩展分布式博弈学习训练框架MSAgent,发布谷歌足球联盟训练基准AI

2021 年 12 月 27 日 中国科学院自动化研究所




CASIA


解锁更多智能之美


近年来,决策智能在复杂博弈领域取得了以AlphaGo为代表的一系列重大突破,已成为国家新一代人工智能的重要发展方向。人工智能技术正在实现从感知智能到决策智能的跃迁,被广泛应用于提升智慧城市、交通管理、能源管理、双碳战略、医药生物、自动驾驶等领域的管理效能,正在深刻影响着社会经济活动。


Dota2(左)和StarCraft(右)游戏

在此背景下,中科院自动化所正式开源轻量易读易扩展的分布式博弈学习训练框架MSAgent,并基于此发布谷歌足球联盟训练基准AI,旨在支持大规模博弈学习训练,推动决策智能应用发展,发展博弈决策领域生态。


博弈决策面临的挑战


当前博弈决策技术研究主要集中在二人零和博弈问题,特别是一些复杂的不完美信息博弈,存在的技术挑战包括指数爆炸性增长的信息集数量、巨大的观测以及动作空间、稀疏奖励、长时决策、传递性策略集合和非传递性策略集合共存等等。

首先,以AlphaStar、OpenAI Five为代表性的AI技术验证了通过简单的自博弈在非传递性策略集合中找到纳什均衡解难度极大,高泛化性与鲁棒性的决策AI在训练过程中需要构建多样性策略集合。

AlphaStar训练示意图

OpenAI Five训练示意图

对此,DeepMind有一个形象的"陀螺模型"描述,陀螺的宽代表策略的多样性,陀螺的高则代表技能水平,为了达到最终的纳什均衡,必须依赖足够多的策略集合。

DeepMind: Real World Games Look Like Spinning Tops


其次,训练游戏AI存在着依赖大规模分布式训练、大量环境并行、海量数据传输(包括但不限于交互轨迹以及模型参数等等),针对采样、推理、学习三个子任务的解耦与优化(包括但不限于采样效率的提升),以及高效的梯度计算与参数更新模式等挑战。亟需研发高性能训练框架来降低在技术层面训练AI的难度和成本。


轻量易读支持大规模博弈学习训练的MSAgent框架

针对上述难题,为促进研究人员最大程度聚焦算法研究本身,自动化所研发了一套轻量易读的基于微服务模式的分布式博弈学习训练框架MSAgent。该框架简化了分布式强化学习训练的开发难度,用户只需要基于框架提供的接口编写服务脚本与环境脚本,分别指定脚本路径以及启动数量等相关参数,就可以一键启动训练。MSAgent大大提高了易用性,方便部署至大规模集群,支持大规模博弈学习训练。

MSAgent框架的高效性与易用性可以总结为以下几点:

1.支持联盟训练模式: 基于pfsp的对手选择机制以及采用内存型数据库作为模型池,以实现更高速响应请求与更低延迟的读写。

2.模块化的设计理念与微服务范式: 将强化学习的actor,learner,environment完全拆分,各个组件都可以被自定制并封装成相应服务,以微服务架构实现服务注册,服务扩展与服务发现。

3.高效的梯度更新方式: 相比于PS计算模型容易出现局部热点导致加速恶化的情况,采用了RING-ALLREDUCE模型,以充分利用集群中节点间带宽。

4.高吞吐和高并发特性: 同时支持同步任务和异步任务,采用消息队列与任务队列的理念,结合消息路由机制高效完成任务调度与执行。


MSAgent框架应用案例

足球游戏具有足够丰富的场景和多智能体模式,需要AI学习在队友之间传球,克服对手防守进球以及在进攻与防守策略之间做平衡,提供了极具挑战性的决策问题,是当前困扰世界顶尖 AI 研究团队的难题之一,吸引了众多研究者们积极探索。其中,谷歌于2019年提出了Google Research Football 强化学习环境。MSAgent框架天然适合该类问题求解。

基于该框架,团队开发并发布了谷歌足球的联盟训练基准AI,便利研究者在此基准AI上结合自身算力资源和算法条件开发自己的谷歌足球AI,推动该问题的求解。

MSAgent框架也同样适用于双人格斗游戏。团队在双人格斗游戏和足球场景下的测试结果表示框架可以有效支持基于联盟训练的智能体算法研发,并可便捷扩展到大规模集群上。

格斗累计回报示意图

足球胜率示意图

游戏领域的应用只是冰山一角,以强化学习为代表的博弈决策智能在众多领域都拥有巨大的应用潜力。举例来说,在股票市场交易中, 基于强化学习的金融系统可以进一步优化股票回报;个性化用户体验的在线推荐中,可兼顾买卖双方进行训练,有效改进在线推荐效果;在线广告位投标中,可优化竞价过程以获取投放位置、受众与收益的平衡点。作为国家新一代人工智能的重要发展方向,博弈决策智能的研究和发展方兴未艾,也将为人工智能技术更广泛应用提供基础。

项目地址:

https://github.com/CodeBot416/decision-ai

欢迎大家批评指正。




团队介绍

该项目主要研发人员为王柏琳、李庆明、杨凯杰等人,项目得到张俊格、黄凯奇老师的联合指导。团队近年来主要致力于博弈决策智能相关理论、算法、平台以及智能体的研究,是国内较早开展星际争霸AI研究的队伍,并获得了2017年星际争霸大赛国际第四,2018年星际争霸大赛国际第三的成绩。团队研发的人机对抗AI训练场也已全网开放,是首个支撑兵棋推演AI和无限注德州扑克AI研发与训练的开放平台。


人机对抗AI训练场:

http://turingai.ia.ac.cn/training_center

参考资料:

学界 | 中科院开源星际争霸2宏观运营研究数据集MSC

2017年度星际争霸AI竞赛中科院自动化所第4,Facebook第6

2018 AIIDE星际争霸AI全球挑战赛结果出炉!中科院季军,三星拔得头筹






欢迎后台留言、推荐您感兴趣的话题、内容或资讯!

如需转载或投稿,请后台私信。

登录查看更多
1

相关内容

类脑超大规模深度神经网络系统
专知会员服务
49+阅读 · 2022年1月21日
深度学习中的单阶段小目标检测方法综述
专知会员服务
42+阅读 · 2021年11月23日
专知会员服务
46+阅读 · 2021年2月2日
《AI新基建发展白皮书》,国家工信安全中心
专知会员服务
182+阅读 · 2021年1月23日
专知会员服务
100+阅读 · 2021年1月1日
专知会员服务
46+阅读 · 2020年11月20日
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
89+阅读 · 2020年9月28日
类脑超大规模深度神经网络系统
专知
2+阅读 · 2022年1月21日
自动化所团队揭示多尺度动态编码,助力脉冲网络实现高效强化学习
中国科学院自动化研究所
0+阅读 · 2021年12月13日
DeepMind提出强化学习新方法,可实现人机合作
人类专业玩家水平!自动化所研发轻量型德州扑克AI程序AlphaHoldem
中国科学院自动化研究所
0+阅读 · 2021年12月10日
可定制算法和环境,这个开源强化学习框架火了
机器之心
1+阅读 · 2021年11月20日
一键部署分布式训练,微软“群策 MARO”上新集群管理助手
微软研究院AI头条
0+阅读 · 2021年5月14日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
5+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Towards PAC Multi-Object Detection and Tracking
Arxiv
0+阅读 · 2022年4月15日
VIP会员
相关VIP内容
类脑超大规模深度神经网络系统
专知会员服务
49+阅读 · 2022年1月21日
深度学习中的单阶段小目标检测方法综述
专知会员服务
42+阅读 · 2021年11月23日
专知会员服务
46+阅读 · 2021年2月2日
《AI新基建发展白皮书》,国家工信安全中心
专知会员服务
182+阅读 · 2021年1月23日
专知会员服务
100+阅读 · 2021年1月1日
专知会员服务
46+阅读 · 2020年11月20日
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
89+阅读 · 2020年9月28日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
5+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员