PAKDD 2019 AutoML3+ 挑战赛在 4 月 17 日公布了最终结果。Feedback phase 和 AutoML phase 的 Top3 排名相同,深兰科技 DeepBlueAI 团队斩获第一名,微软亚洲研究院、北航的 ML Intelligence 团队位居二名,清华大学组建的 Meta_Learners 团队获得第三名。
Feedback phase 排行榜
一家 AI 创业企业、一家研究机构、一支高校团队位居前三,可见 AutoML 在 AI 领域的强大影响力,吸引了产学研各界的精英纷纷投入研究,不愧深度学习“新一代王者”的称号。
而 DeepBlueAI 团队的登顶,从某种程度反映了AI技术的成熟和转折:AI应用的落地,将是未来业界关注的重心。
01
AutoML:AI 技术创新新方向
通常情况下,深度学习模型是由机器学习专家精心设计出来的,这个过程需要花费大量的时间和经验。
基于此,谷歌大脑研究人员在 2017 年 5 月提出了 AutoML,其理念是将深度学习里复杂的算法部分剥离,研究者可以基于 AI 子系统,更高效地将数据用于算法训练,从而能够加快推出面向各行业的 AI 应用。
这一思路将大量机器学习专家从繁重的架构设计中解脱了出来,因而很快受到业界欢迎。过去两年来,业界将 AutoML 视作一种通用的机器学习技术平台进行了大量研究。
作为数据挖掘领域历史最悠久、最领先的国际会议之一,PAKDD 举办的 AutoML3+ 赛事,反映的是 AutoML 在业界日新月异的开发中所取得的最新进展。
据了解,本次赛事采用真实应用程序中收集的大规模数据集。相比于与之前的 AutoML 比赛,本次比赛的重点是概念漂移,即不再局限于简单的 i.i.d. 假设。
这要求参与者设计一种能够完全自主开发预测模型的计算机程序,利用有限的资源和时间,在终身机器学习环境下进行模型训练和评估。
赛事将对各个团队的算法可扩展性、不同的特征类型、概念漂移、终身环境四大维度进行挑战。
02
DeepBlueAI 夺冠看 AutoML 进展
从赛事公布的信息来看,深兰科技 DeepBlueAI 团队的 AutoML 框架,包括自动特征工程、自动特征选择、自动模型调参、自动模型融合等八个步骤。
在我们看来,其对 AutoML 技术的提升在三个方面尤其得到了体现。
一是自动特征工程,能够提出各类特征做特征间的高阶组合,自动提取跨时间、样本以及特征的高阶组合,以及提取重要特征进行高阶组合,避免了指数级的特征组合,且能挖掘三阶甚至四阶不同类型的特征组合,有效地提升模型性能。
二是基于序列后向选择算法等算法,对特征进行精确过滤,极大地加速了后续的模型训练和预测速度。同时对重要性极高的特征进行筛选,能够快速地筛选掉过拟合特征,从而大幅度提高模型性能。
三是进行自适应数据采样,兼具效率和效果。在数据采样的时候,仍然保留大量的高比例样本,并且将其分批,在加入模型中训练时,让模型轮流训练这些批次,这样能够尽可能保留更多的原始数据的信息,同时缓解了类别不平衡问题。
上述 AutoML 技术突破,对AI应用在各个垂直行业的落地,将产生积极的影响。
尤其考虑到深兰科技本身作为一家AI创业“独角兽”,已经在智能驾驶、智能制造、智能机器人、智能语音等九大领域有了不少实际应用案例。
作为本次赛事冠军,对比 Feedback phase 的 Top3 队伍的 AUC 指标,深兰科技 DeepBlueAI 团队在 Set1、Set3、Set4、Set5 的 4 个数据集上分别领先各 Set 第二名 0.57%、1.91%、1.22%、4.18%,Set2 只比最好的低 0.05%。
AUC 指标是一项相对而言很难提升的指标,通常在竞赛中 top 队伍只能在该指标上拉开千分位、万分位的差距,而 DeepBlueAI 团队在 Set1,3,4,5 这 4 个不同任务上平均领先第二名 1.97%,具有非常明显的优势。在 AutoML phase中,DeepBlueAI 团队总成绩也排名第一。
03
AI 的中国实践
本届赛事不仅反映出 AutoML 的最新技术进展,也显示出中国在 AutoML 领域的整体性突破。
近年来,中国在 AI 领域取得了令人瞩目的飞跃,不仅出现了本届冠军深兰科技这样的多家独角兽企业,同时在AI应用方面也如火如荼。AI作为一种通用技术和各行业数字化转型的重要技术被广泛认可。
IDC 公司 2017 年曾预计,未来五年 AI 将提升各行业运转效率,其中教育业提升 82%,零售业 71%,制造业 64%,金融业 58%。
基于对 AutoML 技术的开发突破,深兰科技得以在领先的系统框架下,打造一个个AI子系统和终端产品。
目前,深兰科技已推出了一系列 AI 产品方案,例如熊猫智能公交车、熊猫扫路车、深兰洗地机器人、深兰高铁兜售机器人、深兰物流机器人、脑肌对话仪、深兰手脉闸机、追声等一系列“黑科技”产品。
深兰产品在联合国地理大会的应用
“人工智能已经过了讲故事的时代,现在就是要看商业落地!” 2018 年 5 月 10 日,上海市委书记李强在调研深兰科技时表示。
进入 2019 年,对 AutoML 等 AI 基础架构的研究突破,成为深兰科技产品研发、在垂直行业迅速铺开的关键。
据悉,深兰科技正在布局 AI 脑科学、基因 AI 测序平台、智能语义等新技术、新应用科研,将 AI 的中国落地推向一个新高度。