深度森林打破神经网络垄断，AutoML让AI本身自动化：WAIC国际前沿算法峰会落幕

2019 年 8 月 31 日 机器之心

机器之心原创

作者：李泽南

「今天的智能化应用越来越离不开 GPU、TensorFlow 这样的硬件和框架了。但如果我们发现神经网络之外更好的模型，深度神经网络的垄断自然就会被打破。」在由第四范式承办的国际前沿算法峰会上，南京大学教授周志华这样说道。

备受瞩目的 WAIC 2019 世界人工智能大会进入第二天，本次大会上不仅有马云和马斯克有关人类未来的对话，也有机器学习之父 Tom Mitchell、港科大教授杨强、南京大学教授周志华、北大教授王立威等人为我们带来的，有关 AI 算法前沿技术的硬核讨论。

在昨天下午第四范式承办的国际前沿算法峰会上，多位 AI 领域顶尖科学家就无监督学习、AutoML、联邦学习、深度森林等机器学习的前沿方向分享了业内的最新观点，其中一些颇具前瞻性的思想让在座的观众，以及大批站着听完演讲的观众们都觉得不虚此行。

今天人工智能的发展可以仰赖芯片强大的算力，大数据对于 AI 模型的支持，而算法作为机器的「灵魂」，则定义了 AI 的未来。

面向无监督学习

在这次活动中，卡耐基梅隆大学（CMU）计算机学院院长，《机器学习》作者 Tom Mitchell 也介绍了自己有关无监督学习的研究。

Mitchell 教授目前在 CMU 的研究组正在探索一个被称为 NELL（Nerver Ending Language Learner）的项目，旨在让计算机 24 小时不停搜集网络上的公开内容，并试图标记出重要的信息，以此希望算法能够不断自我提升理解能力。

当我们观察这一项目时，可以发现在 NELL 当中有十个已标注的类型，而通过机器自动学习的未标注数据则超过 2500 万个。

「事实上计算机是可以做到无监督学习的，它们每天都在提升水平，」Mitchell 表示。「我们从传统的单一函数学习框架扩展到了多函数的方法。今天，我们已经拥有 4000 余种分类方法，实现了前所未有的准确性。」

AutoML 和联邦迁移学习

AI 发展到今天面临很多挑战，尤其是数据挑战。数据孤岛、小数据、用户隐私的保护等导致数据的割裂，让 AI 技术很难发挥出价值。为了解决这一问题，国际人工智能学会理事长，香港科技大学教授，香港人工智能及机器人学会创会理事长杨强教授提出了「联邦学习」的研究方向。

所谓联邦学习，是多个数据方之间组成一个联盟，共同参与到全局建模的建设中，各方之间在保护数据隐私和模型参数基础上，仅共享模型加密后的参数，让共享模型达到更优的效果。而在昨天的活动中，杨强又介绍了 AutoML 和联邦迁移学习。

「人工智能的这一轮浪潮已经开始几年了，学界还不断在有新的算法出现，」杨强表示。「过去，机器学习算法中的参数需要人工调整。而今天的 AutoML、模型搜索等技术已经可以部分自动化算法的设计和算法的配置了。」

今天的人工智能仍然大量依赖于人类专家的工作，但就像传统工业最后会向自动化发展一样，人工智能的新方向 AutoML 希望通过自动化的机器学习将调参、特征工程等工作由机器来完成。

「从数学的角度看来，AutoML 是让目标函数学习机器学习参数，从配置里学习最佳参数，」杨强介绍道。「在定义中参数的量是巨大的，维度可能高达上亿，在其中要寻找最佳的点由人来做非常困难，本身就应该由机器来完成。在找出不同的函数之后，不同的函数也要做对比和评估，评估的过程也可以自动化。」

如何自动化地进行模型优化？目前看来，很多地方都可以进行 AutoML，首先是配置空间，其次是数据的预处理，另外还有特征的抽取和处理，最后是模型的训练。

迁移学习是在多个不同领域之间训练的，其中的迁移过程往往是由人类专家来设计的。在学术上有很多的研究，这种迁移是不是也可以自动化？我们可以把它定义成路径优化的问题。在这一方面，第四范式最近还提出了可以保护隐私的自动迁移学习方法 AutoPTL。

在自动机器学习方向之外，另一个前沿领域是减少对于数据的依赖。目前深度网络的知识迁移，其做法通常是通过预训练——我们可以识别出哪一层模型可以原封不动地迁移到需要的模型中，另一部分则需要通过新数据的训练让它适应新任务。

这种迁移学习方法被应用在了不同场景，如银行大额贷款等场景中。而在面临数据割裂的情况下，我们还需要让几种数据建立一个共享的模型，但在建立的过程中不交换数据，只是交换加密保护的模型参数。「这种做法的效果就像是融合了多种数据的训练，这就是联邦学习。同时我们也要考虑到，数据的交叉非常小，这一点上我们可以使用迁移学习，结合起来我们就叫联邦迁移学习。」

联邦迁移学习不仅提高了效率，也可以保护数据，让各个企业的自有数据不出本地，模型效果与直接合并训练一样。对于银行、电商、零售机构非常友好，让他们的数据可以聚合，通过隐私保护的方法来实现更高程度的自动化。

在杨强教授的愿景中，联邦迁移学习最终的目的是形成一个生态，包括互联网的数据，以及场景中的数据，不同行业和不同的用户行为数据进行有机的结合。

打破神经网络、GPU 和 TensorFlow 的垄断

「现在我们每天都在谈论深度学习，这种方法取得了巨大成功。但它到底是什么？我们完全可以从工程上去解释它。」ACM、AAAI、IEEE Fellow, 南京大学计算机系主任、人工智能学院院长，欧洲科学院外籍院士周志华在主题为「新型深度学习的探索」的演讲中说道，他的分享获得了最多的掌声。

我们今天谈论的深度神经网络有很多层，我们经常看到几千层的模型——这是一种庞大的计算系统。我们要训练模型，就是在调整训练参数。

「人们今天总结认为 AI 的快速发展是由大数据，强大的网络和算力，以及算法的改进引起的。有一个错误的观点认为有强大的算力，把老算法放在新机器上就可以成功了，」周志华说道。「事实上，训练深层神经网络的算力在 20 世纪 90 年代就已经具备。但我们使用反向传播方法训练神经网络需要做梯度优化，否则就会出现梯度消失问题。直到 2006 年，Geoffrey Hinton 才通过逐层训练的方法解决了这个问题。」

今天的深度神经网络虽然很成功，但还是有很多问题需要研究。我们为什么要做的深？直到今天学术界都没有一个公认的解释。

南京大学的学者们人为，从模型复杂度上看，我们建立的模型需要有泛化能力，它和模型的容量有联系，因而我们需要提高复杂度。因此，把神经网络变得更宽、更深就可以让它更加有效。变宽就是增加了函数的个数，变深不仅增加了个数，还增加了嵌套迭代的数量。今天，我们利用大数据训练将过拟合的风险大大降低，而强大的算力和新的算法、训练技巧也在别的方面解决了很多挑战——我们可以使用高复杂度的模型了，而深度神经网络就是一个高复杂度模型。

「但这仍然没有解释为什么深的就是好的，浅的就是不好的。为什么有了这三个条件浅的不好，深的就是好的呢？」周志华说道。「现在的理论不能回答这个问题。再深入下去，深度神经网络最重要的作用是什么？我们认为最重要的是表示学习。今天有了深度学习之后，特征完全是机器自己学出来的，我们认为表示学习很重要。」

周志华等人认为，深度神经网络的关键是逐层加工处理、内置特征变化、高度的模型复杂度。做到这三点，我们就能做到一个好的深度神经网络。

而更重要的结论是：「这三点猜测没有说非要神经网络不可，我们可以研究神经网络之外的模型。」

周志华等人提出的深度森林就是这样的模型。深度神经网络有很多的缺陷，从应用的角度来看，也有很多理由来研究神经网络之外的模型。

「机器学习早就知道，没有任何一个模型可以包打天下。」周志华表示。

深度森林自提出以后就获得了 Hinton 等众多著名学者的关注，并已经在应用上取得了一定成功。「我们最近和一家国内互联网金融巨头合作，研究了算法检测非法套现的方法，」周志华介绍道。「在其平台上，训练数据达到了 1 亿 3000 万次真实交易，测试数据则是 5200 万次真实交易。为此，这家公司还实现了大规模分布式版本。在这个任务上，深度森林获得了最好的结果，这验证了前面的猜想，这个任务中有大量符号化的内容。在这种混合建模、非数值建模上，森林模型确实找到了它的用途。」

我们现在还不知道森林模型能走多远，在未来出现更为合适的硬件之后，深度森林才可以变得更深。但周志华等人的研究验证了设计神经网络之外的深度模型是完全有可能的。

「今天，深度森林在实验中做到 21 层就做不下去了，其中很大一部分原因在于没有找到适合加速的硬件，」周志华表示。「我们发现英特尔的 KNL 芯片，它虽然频率不高，但十分适合深度森林的计算。现代的智能应用需要框架和特殊硬件，从另一个角度来看，打破神经网络、GPU、TensorFlow 等硬件和技术的垄断也可以降低智能化时代『缺芯少魂』的风险。」

数学方法重塑 Transformer

深度学习今天绝大部分成功似乎都是应用上的成功，在理论上还存在着大量的空白。北京大学信息学院教授王立威向我们介绍了使用全新方法探索算法和模型结构的思路。

今天常见的深度学习优化算法 Adam、AdaGrad 等都属于一阶优化方法。我们能不能通过理论研究找到更好更快的算法呢？王立威介绍了北京大学最近的研究方向。

深度神经网络的训练本质上是一个非凸优化问题。一阶优化方法很容易找到局部最优，而不是全局最优点。然而，今天的训练方法经常可以避开局部最优，这是一个非常反直觉的情况。「我们在数学上，通过两条假设（每一层神经元的数量足够大，随机初始化参数服从高斯分布）可以从理论上严格地证明，一阶优化就可以很高几率地找到全局最优点。」

通过数学的方式，我们就可以得出全新的结论：过去我们一直认为深度学习是非凸优化问题，在两条假设下，实际上网络的输出对于网络的参数是非常接近线性的。这就大大简化了神经网络训练的方向。

因此，我们可以找到更好的，训练神经网络的方法——在网络足够宽的情况下，我们可以引入很多二阶优化方法来完成工作。王立威认为，有一类算法：高斯牛顿法对于这种情形非常合适。这种方法比现在的方法效率更高，准确性也更高，是未来值得探索的方向。

「既不同于人类手动设计，也不同于 AutoML 和自动搜索，我们把网络设计引申为数学问题，」王立威说道。「我们可以把网络的结构和微分方程的数值解紧密地联系起来。这种观点最早是由北京大学的学者们提出的。在去年的 AI 顶会 NeurIPS 上，最佳论文也颁发给了神经网络和微分方程联系的研究。」

王立威昨天分享的新成果是从微分方程的角度来研究 Transformer，这一算法在今天的自然语言处理领域中已是性能最好的结构。

从微分方程数值解的角度来看待这种结构，我们可以找到唯一一个与之对应的方法。对于 ResNet 我们找到了欧拉法。对于 Transformer，研究者们找到了对流扩散方程。

它和 Transformer 着有非常紧密的关系——Transformer 对应了对流扩散方程中一种非常基本的方法 Lie-Trotter splitting。「然而，在微分方程数值解中没有人会去使用 Lie-Trotter splitting 方法，因为它是次优的，」王立威表示。「在数学上我们有更好的方法： Strang-Marchuk splitting。由此观之，反推回去是否就可以找到更好的 Transformer 结构？我们用新的微分方程数值解，的确找到了更好的结构。」

通过数学方法，北京大学的研究者们对 Transformer 进行了简单的结构调整，并获得了非常显著的性能提升。

新算法的落地

在演讲过后，OpenML 创始人 Joaquin Vanschoren、Data lab 负责人 Xia "Ben" Hu、墨西哥 INAOE 教授 Hugo Jair Escalante、早稻田大学教授 Tetsuya Ogata 等人共同就 AI 算法的未来方向展开了讨论。

而在以新算法应用落地为主题的 Panel 环节中，地平线机器人创始人余凯、第四范式创始人戴文渊、思必驰联合创始人俞凯、新思科技全球资深副总裁 Chekib Akrout 和科技部原副司长蔡文沁分享了各自的观点。

对于业界来说，现在最重要的事情或许不是寻求算法的突破，而是为算法寻求价值。「卷积神经网络实际上在 1987 年就已经被发明出来了，反向传播算法则是在 1986 年出现的，」余凯说道。「算法的理论研究在 30 多年来并没有翻天覆地的变化，但另一方面，摩尔定律是不会减缓的。」

「在 2015 年，每 1000 美元能买到的算力和一只老鼠大脑的算力是一样的。我们知道，老鼠和人类大脑算力的差别约为 1000 倍。根据摩尔定律，到 2025 年的时候，1000 美元买到的算力就会相当于人类的大脑水平。这样，自动驾驶等问题或许就可以得到解决了。在未来十年里，很多技术的发展都会超出我们的想象。」余凯表示。

「理论上，每一件事情都有可能被人工智能化，」戴文渊表示。「现在也有很多已被 AI 解决的问题，比如能源企业设备运维、金融行业的反欺诈。今天请科学家做三五个月研发的成本可能是几百万，但其带来的收益会是成本的数倍。在人工智能开发门槛降低之后，我们会看到更多的工作将会被 AI 辅助。」