刚成立三年的第四范式凭什么拿下NIPS的AutoML大赛承办权？

2018 年 7 月 7 日 AI前线

策划编辑 | Vincent

采访 & 撰稿 | Vincent

编辑 | Natalie

AI 前线导读： 去年，人工智能国际顶级学术会议 NIPS2017 在 CiML workshop 上曾特别推介一场旨在研究“自动机器学习程序开发”的数据挖掘大赛——AutoML Chanllenge 2018（终身自动机器学习）。前不久，NIPS2018 正式宣布，AutoML Chanllenge 2018 的大赛承办权由中国 AI 公司第四范式获得。而早在去年 11 月，第四范式就已在亚太顶级学术会议 PAKDD 上成功举办了 AutoML 大赛。

在与顶级科研院所与诸多国际巨头的竞争中，第四范式是如何拿下 NIPS 比赛的举办权？AutoML 在第四范式的未来布局中又担当怎样的角色？日前，AI 前线对第四范式资深机器学习架构师、AutoML 技术专家涂威威进行了专访，请他来谈一谈 AutoML 技术的现状与未来。

更多优质内容请关注微信公众号“AI 前线”（ID：ai-front）

“先知”先觉的第四范式

AutoML 是 Automated/Automatic Machine Learning 的缩写，是要让机器自动完成建模、自动调参的工作。众所周知，很多 AI 应用的背后都有一支强大的顶尖机器学习专家团队，在人才有限的情况下，能够降低 AI 对专家人才依赖的 AutoML 技术开始成为趋势。

在涂威威看来，目前机器学习在推荐系统、在线广告、金融市场分析、计算机视觉、语言学、生物信息学等诸多领域取得了成功，这些成功强烈依赖于背后的机器学习专家——专家参与了几乎所有的机器学习阶段，包括将现实世界问题转换为机器学习问题、收集数据、进行特征工程、选择或设计模型架构、调整模型超参数、评估模型性能、在线系统中部署机器学习系统等，这些任务的复杂性往往超出了非机器学习专家的能力范围。事实上，过于依赖机器学习专家的能力，并不利于 AI 的普及。

另一方面，FLAG、BAT 等科技巨头依靠其顶尖的机器学习专家团队来支撑机器学习的各种应用。然而，对于很多传统企业、中小型企业等，组建这样的机器学习专家团队是异常困难的，他们需要面临 机器学习专家人才短缺，人才抢夺激烈，团队管理成本高昂等问题。

如果想要机器学习这样的先进生产力能够赋能更多的企业，需要可以在很少甚至几乎没有专业知识的情况下轻松使用这些方法，减少机器学习应用对专家人才的强依赖。涂威威认为：AutoML 就是为了使得整个机器学习过程更加自动化，减少人类专家在整个机器学习过程中的参与。他说：“目前来看，不管是对机器学习技术的进一步发展，还是机器学习产业应用的全面落地，AutoML 都是至关重要的技术。 ”

第四范式早在 2015 年成立之初就确立了“AI for Everyone ”的公司愿景，并开始研究 AutoML 技术，一年之后，他们对外发布了名为“第四范式先知”的人工智能平台，并将 AutoML 技术封装其中。涂威威告诉 AI 前线，第四范式三年前开始发展可以自动数据预处理、自动特征工程、自动算法选择和算法配置等等的 AutoML 技术，能够让用户在没有机器学习研究背景的情况下开发机器学习模型、或是缩短数据科学家用来创建模型的时间和精力投入，其目的就是让企业真正掌握自建 AI 的能力。

效果和使用门槛决定一个 AutoML 平台的好坏

虽然 AutoML 技术有诸多的优势，但是，随着该技术的普及，市场上终会冒出一些打着 AutoML 旗号的伪技术，所以如何评价 AutoML 平台对于企业来说是十分重要的。

涂威威告诉 AI 前线：“AutoML 平台最终评价无非是两方面，一方面是效果，一方面是使用门槛。”他说道，效果上是相对容易客观评价的，同样的输入，同样的计算资源，看最终的效果指标，或者相同的输入，看达到某一个效果指标所需要的计算资源对比等等；另一方面是使用门槛，这个包括很多方面计算门槛、数据门槛、部署门槛、上线门槛、用户交互门槛、二次开发门槛等，展开说明如下：

计算门槛 是指对计算资源的需求，如果一个 AutoML 平台需要 Google 级别的计算资源才可以实际使用，那这个平台对大部分企业都毫无意义。
数据门槛 是指 AutoML 平台对数据量、数据质量和数据形式的要求，是否能进一步降低数据量的需求，以及对数据质量的需求，这对实际落地是至关重要的。有效数据收集成本高昂，同时，实际数据中可能会包含噪声，原始数据可能处于非常“原始”的状态，无法处理这些数据的 AutoML 平台势必会增加对实际落地应用的人才需求，另外实际业务中的数据可能是表数据、图像数据、自然语言数据，AutoML 平台是否能有效处理不同类型数据的问题，比如表数据的 AutoML、图像数据的 AutoCV 和自然语言数据的 AutoNLP 问题，也是评价 AutoML 平台能力的重要指标。
部署门槛 是指实际部署到生产的难度有多大，和实际系统的数据流对接是否顺畅，是否容易维护，这些是 AutoML 平台真正落地必须要满足的。
上线门槛 是指 AutoML 平台以及 AutoML 平台的产出是否能真正应用到实际的业务系统当中，这里面包括了模型上线提供预测服务，同时，能利用新积累的数据进行自学习以及不断提升效果，这些也是整个机器学习应用所必须的。
用户交互门槛 是门槛中最容易被人感知的，是否有充分以及便捷的交互方式，比如是否有图形化界面、RESTful API 等等。
由于 AutoML 是一个研究前沿领域，在 AutoML 技术上会不断有新方法出现，能否方便地进行 二次开发 也是一个 AutoML 平台需要考虑的问题。

“一个优秀的 AutoML 平台需要同时保证足够的效果和足够低的使用门槛，能够非常容易地与实际业务系统对接，对于上面提到的使用门槛解决得越多越好。 ”涂威威补充道。

当前 AutoML 平台离“万能”还有一段距离

AutoML 成为热门技术方向，同时也面临着一些难题，这些难题有很大一方面来自于 不同数据之间解决问题手段的可迁移性 / 可复制性，解决不同问题的手段相似性或者可迁移性 / 可复制性越高，自动化越容易，反之越难。

目前 AutoML 产品的目标数据主要有两类，一类是图像数据，一类是表数据。

图像数据

深度学习取得的最大的成功来自于图像领域，相比于传统图像分析处理做法最核心的点在于“自动”学习层次化特征，以前的图像分析都是需要人工设计很多种从原始像素提取特征的方法，需要很多专家经验，深度学习很好地解决了这个问题，使得特征可学习，将人工特征设计转变成了人工神经网络结构设计，对于图像领域的自动机器学习，很自然的一个想法就是，是否能进一步将人工神经网络结构设计里面的“人工”去掉。

谷歌、微软、第四范式等针对图像数据的 AutoML 产品的核心点是自动化图像领域的神经网络结构设计，他们针对的主要数据是图像数据。图像数据之间的相似性较大，原始输入都是像素，问题解决方案可迁移性可复用性也较大，使得 AutoML 在图像数据上相对更加容易落地。

表数据

与图像数据原始输入都是像素不同的是，表数据是抽象数据，不同的表数据之间没有很强的相似性，不同表数据各列的含义千差万别，另外表数据还跟实际业务密切相关，其中有很多时序性、概念漂移、数据包含噪声等等不同于传统机器学习的特性需要解决，因此表数据问题上 AutoML 落地的难度也会大很多，仅仅是自动神经网络结构设计是远远不够的。

目前谷歌、微软在这方面成果相对较少，MIT 的自动特征是在这类问题上一个很不错的尝试，他们主要解决的问题是数据分布在多个表中，如何自动化地将这多个表的数据转化成最终机器学习所需要的单个表数据，但是除了这个问题，实际表数据的 AutoML 落地还需要解决更多的难题。在国内，第四范式在这类问题上是最早有成熟产品落地的，比如模型自带自动化特征的线性分形分类器，自动特征组合工具 FeatureGo，自动时序树模型工具 HE-TreeNet 等等，今年也会有更多更强大的自动化机器学习产品发布。

除此之外，涂威威还补充道：对于自然语言处理中的知识自动提取等也需要自动化的机器学习技术，这是目前很多 AutoML 产品所不涉及的。

展望：AutoML 已成为下一个技术热点

目前谷歌、微软等大厂纷纷入局 AutoML，面对竞争压力，涂威威并没有太多担心，他表示第四范式在迁移学习领域世界领先——联合创始人、首席科学家杨强教授在迁移学习领域论文引用数排名第一，创始人戴文渊排名第三，排名第二的是吴恩达。而迁移学习会是第四范式发力 AutoML 的强大助推器。

据了解，第四范式的 AutoML 技术已经投入实际工业使用，在疾病预判、金融反欺诈、个性化推荐等业务场景中，第四范式现在是由机器、而非算法人员去生产模型，并获得较大的效果提升。第四范式 AutoML 技术在国际上也已经崭露头角。此前范式主办了第二届国际 AutoML 比赛；与南京大学和北京大学也即将在人工智能会议 PRICAI 上联合主办国内首届 AutoML Workshop，此外，第四范式也正在参与筹备机器学习顶级期刊 JMLR 上的 AutoML Special Issue。

虽然在技术和落地上占优，第四范式也仍然面临着一些问题，最根本的不足还是大众认知的障碍。这也是很多 AI 技术公司面临的问题：很多行业都对 AI 感兴趣，有人今天觉得人脸识别是 AI，明天变成了语音交互是 AI。涂威威认为，企业真正需要的 AI 应该是业务决策层的 AI。

“AI 能做的远不止建立一、两个模型，在企业转型到位的情况下，有数百个决策过程可以被提升。”涂威威说：“第四范式给企业带来的价值，不仅是给出一个成熟的 AI 模型，也不仅是帮助企业去做模型，更关键的是能帮助企业拥有自主创建并应用 AI 的能力，而且是快速地、低成本、大规模应用 AI 的能力。而 AutoML 将在其中发挥举足轻重的作用。”第四范式希望能够通过 AutoML，为更多的企业和应用赋能 AI，最终实现 AI for Everyone 的愿景。

采访嘉宾