感谢阅读腾讯AI Lab微信号第143篇文章。本文将公布第二届「腾讯开悟多智能体强化学习大赛」决赛成果。
腾讯正在联动高校,利用王者荣耀的复杂环境,为推动通用人工智能研究创造各种可能性。
4月14日,第二届「腾讯开悟多智能体强化学习大赛」(以下称「大赛」)决赛在成都落幕,来自20多所顶尖高校的AI研发团队,经过半年来的比拼,共有4支团队进入决赛。经过现场激烈角逐,来自清华大学计算机系的学生团队获得本届大赛冠军。
决赛四强排行榜
本届大赛由腾讯AI Lab、王者荣耀、腾讯新文创总部、腾讯高校合作、腾讯游戏学堂等共同发起。腾讯「开悟」AI开放研究平台依托于腾讯太极机器学习平台,为参赛团队提供了研究资源、全栈打通的闭环科研验证环境和辅助管理服务;算力方面,腾讯云遨驰异构计算平台,基于遨驰分布式云操作系统的新一代全球领先的异构加速引擎技术,为本届AI大赛全程提供资源及技术支持。
据开悟平台技术专家介绍,各队在算法模型设计、奖励函数设计以及训练方式等方面,分别进行了探索尝试,训练出了较高强度的AI,并且在对战中表现出了独特的战略风格。
本次赛事的四强队伍,来自清华大学自动化系的王博源同学在分享中表示:「我们在参赛过程中极大地促进了合作能力,为今后的科研做好了铺垫」;来自西安交通大学的王子儒同学更是表示,本次参赛经历让队员们坚定了未来从事的科研方向。
在决赛直播中,四位队长分享了团队的技术思路及参赛感想
「开悟」平台开放AI能力
让参赛者聚焦算法研究
本届赛事沿用过往面向高校的邀请赛制,进一步扩大了开放规模,邀请20多所国内外知名高校参赛。参赛队伍需要在指定的时间内,在给定的资源下训练出最优模型,并最终部署好使用最优模型的AI服务器,提交系统完成1V1、3V3对局挑战。
在赛事各阶段,每支参赛队伍都可获得等量的训练资源。这意味着参赛者无法通过无限加大算力来提升AI能力,而是需要不断优化模型。同时,为了让参赛者将目光聚焦于算法本身,赛事禁止参赛者为AI编写规则,AI只能通过行为反馈来优化自身策略。
目前AI学界面临的四大挑战:算法、数据、算力、场景。研究场景稀缺、没有数据、算法测试困难、算力昂贵等问题一直困扰高校AI研究团队;随着高校对强化学习算法研究的不断深入,计算资源的需求量也水涨船高。除了机器资源本身,高校也缺乏容易上手的AI开放实验平台。
腾讯正在将自身的AI能力开放给AI研究者,致力于成为国内科研的助推器。
「开悟」是腾讯牵头构建的AI多智能体与复杂决策开放研究平台,依托腾讯AI Lab和「王者荣耀」在算法、算力和实验场景方面的核心优势,旨在为学术研究人员和算法开发者开放国内领先、国际一流研究与应用探索平台。
其中,王者荣耀为高校AI研究提供了一种现实可用的场景。这款移动端的MOBA类游戏,具有高复杂度、高挑战性、强协作性的特点。据统计,在王者5V5对局中,玩家的动作状态空间高达10的20000次方,远远大于围棋及其他简单游戏,甚至超过整个宇宙的原子总数(10的80次方)。
决赛直播现场对局画面
持续扩大开放范围
发力AI人才教育
赛事之外,腾讯「开悟」AI开放研究平台正持续扩大开放范围,发力AI人才教育。
今年3月,成都大运会「数智竞技」邀请赛正式启动,该邀请赛由大运会执委会主办、腾讯承办,邀请全球12所高校的学生于开悟平台上进行AI技术博弈,最终成绩将于今年7月大运会期间发布。
腾讯新文创总部自2020年落户成都,不断探索区域科技创新、文化创新,与城市的整体力量合作,大运会世界大学生数智竞技邀请赛和第二届「开悟"Al大赛落地蓉城,是立足成都,讲好科技故事的创新实践。通过与互联网企业的协作以及连接新型数字文化载体,推动建设人工智能开放交流的「科技+体育」新体系。
今年上半年,「开悟」平台还基于两届赛事的积累,与北京大学、清华大学、电子科技大学、中国科学技术大学四所国内高校合作开发了创新课程,进一步帮助高校学生在实践中理解强化学习知识,目前相关课程已经陆续开课。
从短期来看,若AI能在类似「王者荣耀」这样复杂的环境中,学会人一样实时感知、分析、理解、推理、决策到行动,就可能在多变、复杂的真实环境中发挥更大作用。下一个AI里程碑可能会在复杂策略游戏中诞生。
长远来说,AI攻克游戏的能力将有助于解决真实世界的复杂问题。借助开悟平台,腾讯AI Lab和王者荣耀希望联动更多有兴趣的高校和学者参与,共同在游戏环境中探讨和研究这些难题,并寻找AI新技术覆盖更多场景的可能性,服务医疗、工业、农业、交通等行业。
* 欢迎转载,请注明来自腾讯AI Lab微信(tencent_ailab)