师从俞扬教授,中国团队再次夺冠!3个月登顶这个最难顶级决策类算法竞赛

师从俞扬教授,中国团队再次夺冠!3个月登顶这个最难顶级决策类算法竞赛

编辑:QQ、好困

【新智元导读】L2RPN-ICAPS放榜啦!法国电网公司、美国电力研究学会、美国西北太平洋国家实验室等国际能源机构和著名学术机构联合举办,国内外数十支队伍参赛,多家研究机构参与,最终且看冠军花落谁家!


随着全球能源危机的持续加剧,电力系统安全稳定问题日益突出,电网调控面临前所未有的挑战,如何借助人工智能新技术解决调控困境成为电网优化调度领域亟需解决的问题,为此全球顶级决策类竞赛L2RPN-ICAPS应运而生。


2021年是该系列竞赛的第四届,前三届参赛冠军依次是:GEIRI North America, AI & System Analytics、KAIST、百度。


挑战难度逐年增加,今年举办的L2RPN-ICAPS2021竞赛,除了延续上一届比赛中对电网的调控决策外,还新增了报警决策,即当电网在即将崩溃前,需要提前输出报警信号,为电网事故预留足够的挽救时间。


竞赛吸引了国内外众多人工智能研究机构以及电网领域专家,历经三个多月的激烈角逐,最终南栖仙策参赛团队脱颖而出,夺得L2RPN-ICAPS2021竞赛冠军。这是南栖仙策首次参加国际算法竞赛,即拔得头筹,展现了南栖仙策参赛团队强大的技术实力和发展潜力。


01 L2RPN系列比赛介绍


L2RPN系列竞赛旨在探究如何利用AI技术对电网进行自动化运维。至L2RPN-ICAPS 2021,L2RPN系列竞赛共举办4届。


● 第一届:L2PRN-IJCNN 2019

该届比赛主要针对小型电网,可修改拓扑结构的动作仅为3120个,无新能源供电端,不可修改供电端发电量,且不遭受意外攻击,竞赛目标为在满足电网自身供电平衡、电网不出现震荡等硬约束的情况下调控电网,最大化电网正常工作时长。


● 第二届:L2PRN-WCCI 2020

该届比赛需要调控的电网规模极大增加,可修改的拓扑动作高达7万个,参赛选手需要在电网随时可能遭受意外攻击的情况下设计调控算法,最大化电网在各个场景下的正常工作时间。


● 第三届:L2PRN-NeurIPS 2020

此次竞赛在上一届的基础上,加入了可修改供电端发电量的动作,同时竞赛分为两个Track, Track 1为鲁棒性赛道,竞赛目标为在电网不确定性的外部攻击的情况下,尽可能延长电网在不同工况下的工作时间,Track 2为泛化性赛道,参数选手需要调控的电网规模较Track 1更大,新能源供电端较Track 1更多,竞赛目标为设计基于强化学习的技术,在多个场景下最大化电网供电时长。


● 第四届:L2PRN-ICAPS 2021

本次竞赛在上一届的基础上新增加了报警环节,即当电网在即将崩溃前,需要提前输出报警信号给人类专家,将控制权转交给人类专家,同时保证预留了足够的挽救时间(本次竞赛假设如果转接时机合适,人类专家能挽救整个系统)。


可见,L2PRN比赛挑战难度逐年增加,每一届比赛都需要在上一届的基础上提供更全面、更优化的解决方案。


02 竞赛背景




注:图片素材来源于网络


随着社会经济快速发展,用电需求不断提升,促使电网规模不断扩大,传统的电网调度支持系统已难以满足现代智能电网的调控需求。


与此同时,全球性的能源革命推动新能源成为电力系统的电源主体,然而大规模新能源的间歇性、波动性将对电网调控的灵活性、安全性、稳定性带来极大冲击。为顺应未来电网发展趋势,需通过现代智能技术的使用实现调度支持系统性能的有效提高。


电力调度控制中心作为指挥中枢包含了海量数据、规则、专家经验,传统调度控制大多依靠实际工作经验和人工分析方法,随着调控中心数据种类及数量的不断增多导致方案间缺乏逻辑模型,需调控人员具备丰富的知识关联经验,增加工作量的同时阻碍了自动化及智能化水平的提高,因此在电网调控领域应用人工智能有利于:


① 实现电网特性及行为的分析,广泛应用的新能源及分布式电源增加了电网运行及用户用电行为的不确定性,传统的物理建模方法 (即基于物理系统的数学建模) 难以对当前电网形态 (如电动汽车、屋顶光伏) 的单体进行建模分析,而通过机器学习能够针对电网整体特性以海量历史数据为依据完成聚类分析过程,包括对用户用电行为进行评估和预测以提高负荷预测准确度,为确保电网的实时平衡提供支撑。


② 学习和模拟调控知识经验,包括设备检修、故障处置等在内的日常调度操作通常有固定的以积累的调控运行经验和知识为主的规程,在实际操作处置过程中重复性较高。通过人工智能技术 (知识图谱等) 可使学习和模拟规程、经验及其到调度控制分析软件中的嵌入过程得以有效实现。




注:图片素材来源于网络


由RTE(法国电网公司)、EPRI(美国电力研究学会)、PNNL(美国西北太平洋国家实验室)等国际能源机构联合代尔夫特理工、伊利诺伊州立大学等著名学术机构于规划领域顶级会议ICAPS 2021联合举办的L2RPN ( Learning To Run a Power Network Challenge ) 2021竞赛吸引了国内外数十支队伍参赛,比赛也有众多国内外电网领域专家以及AI研究机构参与。


本次赛事的举办目的是探索以强化学习技术为代表的AI决策技术在电网调度领域的应用,希望结合强化学习技术实现电网调度的自动化控制,保障整个电网系统在各种突发状况下都能稳定运行。


和去年相比,今年的赛题将2020年的 Track 1 鲁棒性挑战和 Track 2 的泛化性挑战合二为一,需要考虑电网系统在受到不同攻击时如何应对,以及传统火电和风能、太阳能等新能源电力的配合,使电网在不同季节、不同工况下运转。此外,今年还额外引入了“报警”机制。


今年,南栖仙策参赛团队对竞赛内容深度剖析,基于演化学习、强化学习和规划等多种技术,进行了大量的尝试,最终,在经历近三个月的激烈角逐后,夺得此次竞赛冠军。


03 竞赛任务


本次L2RPN-ICAPS 2021竞赛主要任务是在不同复杂工况下,设计基于强化学习的电网控制策略对电网进行运维,即当智能体观测到电网的状态后,采取对应动作(如改变电网拓扑结构、改变供电端的发电量等),输入环境改变环境状态,维持电网长时间稳定运行,防止断电。


图1是本次竞赛电网示意图,电网可调控的离散动作空间高达6万多个,控制策略每 5 min 可以执行一次动作(也可以选择不做动作),每条轨迹持续一周,且电网调控过程中,面临意外攻击带来的断线,因此需要设计鲁棒的控制策略,并配合火电以及风电、核电等新能源电力,处理这些随机攻击。




图1:L2RPN-ICAPS2021竞赛电网示意图


与去年L2RPN-NeurIPS 2020不同,本届竞赛中新增加了报警环节,即当电网在即将崩溃前,需要提前输出报警信号给人类专家,将控制权转交给人类专家,同时保证预留了足够的挽救时间(本次竞赛假设如果转接时机合适,人类专家能挽救整个系统)。具体报警得分曲线如图 2 所示:




图2:报警得分曲线


在图2中,横轴代表报警时刻,纵轴代表报警得分,蓝色曲线代表报警得分与报警时刻的曲线图,黄色曲线代表当报警区域正确时的得分曲线图。由图2可知当提前报警时刻在3步到11步(每步为5分钟) 时得分为正,太早报警或者太晚报警得分为负,总的得分计算公式如下





如上式可知,在工况 e 下的得分由70%的控制得分,30%的报警得分组成。同时,报警有次数限制:在一条轨迹开始时有两次报警的机会,随着电网健壮运行,最多可获得额外一次报警机会,若报警时刻未落在报警得分区间,则视为无效报警,且浪费一次报警机会。


因此,电网策略不仅需要调控电网使得电网安全鲁棒运行,而且需要设计可以提前在恰当时刻报警的策略,从而大幅增加了竞赛的难度。


04 竞赛结果




图3:测试集竞赛评测榜单(竞赛最终榜单)


如图3所示,南栖仙策参赛队伍(xd_silly)在控制得分(operational cost)和报警得分(attention cost)的分数排名上都位居榜首。在竞赛最终榜单上,南栖仙策以总分57.45的总分,夺得竞赛冠军,并高出第二名接近10分,其中报警得分以51.94遥遥领先第二名近20分。


报警得分为正的队伍仅为4支,可见加入报警机制,需要策略模型对未来的调度结果有一定的评估能力,带来了新的挑战 (报警时机完全错开时,报警分为-200)。




图4:泛化性分析直方图


此外,如图4所示,南栖仙策在验证集竞赛评测榜单上的分数以及最后测试集竞赛评测榜单上的分数均位于第一,且两个榜单上的分数差距很小,体现了本次南栖仙策所提交的方案具有良好的稳定性。


05 夺冠方案


南栖仙策夺冠方案


为了应对上述问题,南栖仙策参赛团队采取以下解决方案:


首先,利用大量仿真搜索,选择能有效挽救电网的动作集合,将高达6万多维的电网调控动作集合降到数百维,然后训练策略网络,并结合专家知识对电网进行调控。


同时,设计了一种基于多步规划的电网状态模拟方法,以及专家组合动作搜索策略,从而能够及时地对电网危险状态进行调控,并根据赛方提供的的单步仿真器和我们设计的多步电网状态模拟方法,评估当前状态是否需要报警,从而选择执行相应的动作(包括单步动作、多步动作和报警)。


该方案给出了结合报警机制的 AI-人类协作问题的一个较优可行解,为电网智能调控提供了全新的解决方案。


06 参赛队员


王超杰,南栖仙策算法工程师,博士毕业于西安电子科技大学,新加坡南洋理工大学博士后。曾在ICML, NeurIPS, AAAI, ACL等CCF-A类会议上发表七篇论文。


谢文涛,南栖仙策算法工程师,硕士毕业于中国科学院大学,本科毕业于南京理工大学。曾在IEEE TrustCom发表论文。


张兴远,南栖仙策算法工程师,硕士和本科毕业于哈尔滨工业大学。曾在IEEE Transactions on Multimedia发表论文。


秦熔均,南栖仙策联合创始人、CTO,南京大学LAMDA博士生,师从俞扬教授,主要研究方向为强化学习与博弈学习。


关于南栖


南栖仙策(POLIXIR)是南京大学人工智能创新研究院技术孵化企业,南栖仙策的核心技术是通过推演亿万种决策的不同结果,找到通向未来的最优路径,实现现实世界自主决策系统。南栖仙策已构建了独特的开放环境自主决策核心技术,完成了创造虚拟、推演结果和智能决策的落地流程,实现了从 0 到 1 的突破。除了面向能源行业打造的一系列智能解决方案之外,南栖仙策已在汽车制造、物流、国防、营销等多个实际场景业务中实现智能决策的落地。未来,南栖仙策会将智能决策技术应用到各行各业,加速各行业决策智能化升级。


关于招聘






或点击阅读原文获取招聘信息。

发布于 2021-11-05 14:56