作者 | 陈大鑫、青暮
经过上千个国际顶级团队几个月的激烈角逐,KDD CUP 2020 大赛结果终于在其官网上公布,其中,来自中国的团队如国立台湾大学、美团点评、北航、第四范式、东南大学、上海交大、国科大、清华大学包揽全部奖项的冠亚军!
ACM SIGKDD,被中国计算机学会(CCF)推荐为A类国际学术会议,至今已举办26届。其中KDD CUP是由ACM知识发现和数据挖掘特别兴趣小组(领先的数据科学家专业组织)组织的年度国际数据挖掘和知识发现竞赛。素有“大数据领域世界杯”之誉,是目前数据挖掘领域最高水平、最具影响力、规模最大的国际顶级赛事。
由于各种数据科学竞赛类型的日益普及,KDD CUP今年一共开设三个项目共四个赛道的比赛,分别是:
1、常规机器学习竞赛轨道(ML赛道1) “现代化电子商务平台挑战”(Challenges for Modern E-Commerce Platform)
2、常规机器学习竞赛轨道(ML赛道2) “学术图上的对抗性攻击和防御”(Adversarial Attacks and Defense on Academic Graph)
3、AutoML机器学习竞赛轨道(AutoML赛道) “用于图表征学习的AutoML”(AutoML for Graph Representation Learning)
4、强化学习竞赛赛道(RL赛道) “在移动点播平台上学习调度和重定位”(Learning to Dispatch and Reposition on a Mobility-on-Demand Platform)
机器学习赛道一“现代化电子商务平台挑战”由阿里巴巴、阿里巴巴达摩院、杜克大学、清华大学和UIUC赞助,竞赛选手需要通过考虑不同类型的复杂信息来学习高质量的跨模态表示,以及模态之间的紧密关系。然后,所学习的表示可以用于计算表示之间的相似度得分,并选择与文本相关的图像/视频。最后,将在测试数据集上评估每个提交的解决方案,该数据集将评估检索到的产品与真实值之间的对应关系。
任务1:现代化电子商务平台挑战:多模态召回(Multimodalities Recall )
任务2:现代化电子商务平台挑战:去偏差(Debiasing)
冠军团队:WinnieTheBest(国立台湾大学)
季军团队:aister(美团点评)
冠军思路
冠军思路包含三个步骤:预处理、训练模型架构和后处理。其中,预处理构建了用于模型训练的特征,后处理对模型进行集成,模型应用了两种类型的架构,分别是MCAN和VisualBERT。MCAN全称Deep Modular Co-Attention Networks,模型由几个级联MCA层构成。在VisualBERT中,图像块和查询中的单词被组合作为Transformer的输入。
季军团队:TheAvengers(北京航空航天大学)
机器学习赛道二“学术图上的对抗攻击和防御”由BienData赞助。该赛道要求参赛者提交原始数据集的修改版本,以作为一种攻击形式,其外观应与原始图相似,但在基准模型上分类准确性较低。参赛者应准备好数据及并保存在比赛系统的后端。然后,所有团队都必须提交攻击和防御的解决方案。组织者将与所有团队的所有进攻方案和防御方案进行比赛,并得出排行榜。
关键词:生成对抗网络(GAN),图结构化数据,图嵌入
冠军团队:SPEIT-卓工 (上海交通大学、上海交大-巴黎高科卓越工程师学院)
亚军团队:ADVERSAIRES (中山大学、杭州电子科技大学 )
季军团队:DaftStone ( 中国科学技术大学)
攻击方案包含两个步骤,第一步是对抗邻接矩阵生成,第二步是增强特征梯度攻击。其中,第一步基于图数据的拓扑性质,从而可以实现更加一般的攻击,并且仅需要一次生成,在大规模图的攻击上更加高效;第二步会训练一个替代模型作为目标,这里利用了攻击可迁移性,使用的训练方法是对对抗损失进行反向传播,并使用Adadelta优化器。
防御方案包含三个步骤,第一步是特征去噪,第二步是特征转换,第三步是训练拓扑适应GCN。在第二步中,会改变特征空间以减轻迁移攻击;在第三步中,GCN实现了很高的分类准确率,并且对于其它模型生成的对抗图具有鲁棒性。
AutoML机器学习赛道 “用于图表征学习的AutoML”由第四范式、ChaLearn、斯坦福大学和Google共同协办,该赛道邀请参赛者部署用于图表示学习的AutoML解决方案,其中节点分类作为评估学习的表示形式的质量的任务。
每个团队都有五个公共数据集来开发AutoML解决方案。组织方提供了五个反馈数据集,以使参与者能够评估他们的解决方案。这些解决方案将在没有人为干预的情况下使用五个新的数据集进行评估,优胜者将根据表现的最终排名进行选择。
关键字:图表示学习,图结构化数据,图嵌入,AutoML
冠军团队:aister(美团点评、中国科学院大学、清华大学 )
冠军方案整体框架图示:
方案采用了多级鲁棒集成方法:
强化学习赛道 “在移动点播平台上学习调度和重定位”由滴滴出行与DiDi AI Labs合作赞助,该赛道要求参与者应用机器学习工具来确定新颖的解决方案,用于在移动点播(MoD)平台上的订单分派(订单匹配)和车辆重新定位(车队管理)。具体地说,竞赛着眼于如何应用机器学习解决方案来提高MoD平台的效率。
今年 ,KDD Cup 2020 强化学习挑战赛(RL Track)难度陡增,与去年KDD Cup强化学习挑战赛的分类问题以及过往多应用在体育竞技类比赛性质不同,此次挑战赛聚焦于更加真实且问题极为复杂的业务场景,以解决共享出行领域优化难题——智能化按需共享出行平台。主办方希望参赛团队尝试应用强化学习解决方案提出智能算法策略,在确保用户体验的基础上,进一步提高出行效率和司机收入,将强化学习的价值进一步放大。
此次比赛主办方共设计了订单分配和车辆调度两个任务,参赛团队需设计开发算法来指定在派单窗口内的订单和司机的匹配,并指引一批空闲司机开往指定目的地。最终结果排名以所有司机的平均日均收入为评判标准。
此次挑战赛邀请了全球上千支参赛团队,其中不乏国际顶尖高等院校以及科技巨头的身影。最
终,北京航空航天大学童咏昕教授研究组与第四范式
联合团队以巨大的分数优势斩获KDD Cup 2020强化学习挑战赛Dispatch冠军,这也是国内AI公司首次染指该项赛事的冠军。
冠军:Polar Bear(北京航空航天大学、第四范式)
季军:Team Hail Mary ( Lyft )
为了最大化平台上所有司机日均收入,在计算每个订单的收益时,北航联合第四范式团队采用基于强化学习的方法,不仅能考虑当前时刻的收入,还能兼顾未来可能的收益。同时,结合剪枝与C++实现的高效二分图匹配算法,能够在2秒的规定时限内,及时找到合适的订单分配方案,保证乘客的用户体验。最终团队以2359108.54的高分在Dispatch任务上夺冠。
Repopsition任务获奖团队
冠军团队:TLab(普渡大学、东南大学)
亚军团队:wait a minute(南京大学LAMDA组)
季军团队:NTTDOCOMO LABS(日本NTTdocomo实验室)
参赛者需要解决网约车平台的订单匹配与车辆调度问题,其中订单匹配任务需要每两秒钟进行一次匹配,车辆调度任务则需要在成都8000余个六边形网格内进行运力调度。相关算法可将乘客潜在出行需求与合适的司机相匹配,从而更高效地利用空置车辆,提高车辆周转率,提升用户体验与司机收入水平,优化系统运营效率。
现有的多智能体强化学习方法将每一辆车看作是一个智能体,在进行仿真时,车辆按照调度算法前往目的地或者进行有偏随机游走,并没有考虑司机的偏好。针对现有方法的不足,刘志远指导的TLab团队(成员包括刘洋博士、吴凡优博士、吕呈硕士))对现有方法进行了系统、全面的优化,进一步设计了一种更符合逻辑的单智能体深度强化学习方法。
例如,该方法 将单智能体作为智能“调度中心” ,车辆发出调度请求后,“调度中心”进行全局运力调度。结合此前在大规模时空预测中的经验,进一步对研究区域进行筛选并自定义了一个N×N的网格,将全局信息(整个城市订单、车辆、价值的时空分布)和局部信息(车辆当前位置等)作为state。采用了一个经过剪枝的全局action space, 防止车辆陷入局部最优 。
(本段内容来自东南大学官网&公众号)
https://www.kdd.org/kdd2020/kdd-cup
https://kddvirtual2020.vfairs.com/
https://www.kdd.org/kdd2020/files/KDD_Cup_Day_Program.pdf
https://mp.weixin.qq.com/s/vqLw9Wj7qqAa19x8y2BAfA
https://www.seu.edu.cn/2020/0803/c17406a341189/page.htm
AI科技评论联合博文视点赠送周志华教授“森林树”十五本,在“周志华教授与他的森林书”一文留言区留言,谈一谈你和集成学习有关的学习、竞赛等经历。
AI 科技评论将会在留言区选出15名读者,每人送出《集成学习:基础与算法》一本。
活动规则:
1. 在“周志华教授与他的森林书”一文留言区留言,留言点赞最高的前 15 位读者将获得赠书。获得赠书的读者请联系 AI 科技评论客服(aitechreview)。
2. 留言内容会有筛选,例如“选我上去”等内容将不会被筛选,亦不会中奖。
3. 本活动时间为2020年8月23日 - 2020年8月30日(23:00),活动推送内仅允许中奖一次。
阅读原文,直达“ KDD”小组,了解更多会议信息!