《深度学习的集体智能：近期发展综述》谷歌2022最新16页论文

2022 年 11 月 8 日 专知

在过去的十年里，我们见证了深度学习的崛起，在人工智能领域占据主导地位。人工神经网络的进步以及具有大内存容量的硬件加速器的相应进步，再加上大型数据集的可用性，使从业者能够训练和部署复杂的神经网络模型，在跨越计算机视觉、自然语言处理和强化学习等多个领域的任务上取得最先进的性能。然而，随着这些神经网络变得更大、更复杂、应用更广泛，当前深度学习模型的基本问题变得更加明显。众所周知，最先进的深度学习模型存在各种问题，包括鲁棒性差、无法适应新的任务设置，以及需要僵化和不灵活的配置假设。通常在自然界观察到的集体行为，往往会产生稳健、适应性强、对环境配置的假设不那么僵硬的系统。集体智能，作为一个领域，研究从许多个体的互动中产生的群体智能。在这个领域中，诸如自组织、突发行为、蜂群优化和元自动机等思想被开发出来，以模拟和解释复杂系统。因此，看到这些思想被纳入到较新的深度学习方法中是很自然的。在这篇综述中，我们将提供一个神经网络研究涉及复杂系统的历史背景，并强调现代深度学习研究中几个活跃的领域，这些领域结合了集体智能的原则来推进其能力。我们希望这篇综述可以作为复杂系统和深度学习社区之间的桥梁。

深度学习（DL）是一类机器学习方法，使用多层（"深度"）神经网络进行表征学习。虽然用反向传播算法训练的人工神经网络最早出现在20世纪80年代（Schmidhuber，2014），但深度神经网络直到2012年才受到广泛关注，当时在GPU上训练的深度人工神经网络解决方案（Krizhevsky等人，2012）在年度图像识别比赛（Deng等人，2009）中以明显优势战胜非DL亚军方法。这一成功表明，当DL与快速的硬件加速实现和大型数据集的可用性相结合时，能够在非琐碎的任务中取得比传统方法更好的结果。实践者们很快就将DL纳入了其他几个领域，以解决长期存在的问题。在计算机视觉（CV）中，深度学习模型被用于图像识别（Simonyan和Zisserman，2014；He等人，2016；Radford等人，2021）和图像生成（Wang等人，2021；Jabbar等人，2021）。在自然语言处理（NLP）中，深度语言模型可以生成文本（Radford等人，2018，2019；Brown等人，2020）并进行机器翻译（Stahlberg，2020）。深度学习也被纳入强化学习（RL），以解决基于视觉的计算机游戏，如Doom（Ha和Schmidhuber，2018）和Atari（Mnih等人，2015），以及玩具有大型搜索空间的游戏，如Go（Silver等人，2016）和Starcraft（Vinyals等人， 2019）。深度学习模型也被部署在移动应用中，如语音识别（Alam等人，2020年）和语音合成（Tan等人，2021年），显示出其广泛的适用性。

图 1. AlexNet (Krizhevsky et al. 2012) 的神经网络架构，2012 年 ImageNet 竞赛的获胜者。

然而，DL不是没有副作用的灵丹妙药。虽然我们见证了许多成功的案例，并且越来越多地采用深度神经网络，但随着我们的模型和训练算法变得更大、更复杂，DL的基本问题也越来越明显地暴露出来。DL模型在某些情况下并不稳健。例如，现在大家都知道，只要修改视频游戏屏幕上的几个像素（这种修改对人类来说根本无法察觉），用未修改的屏幕训练出来的原本超越人类性能的代理就可能失败（Qu等人，2020）。另外，在没有特殊处理的情况下训练的CV模型可能无法识别旋转的或类似变换的例子，换句话说，我们目前的模型和训练方法不适合推广到新的任务设置。最后但同样重要的是，大多数DL模型不适应变化。他们对输入进行假设，并期望环境的刚性配置和静止性，即统计学家认为的数据生成过程。例如，他们可能期望有固定数量的输入，在一个确定的顺序中。我们不能期望代理人有能力超越他们在训练期间学到的技能，但是一旦这些刚性配置被违反，模型就不会有好的表现，除非我们重新训练他们或者手动处理输入，使之与他们最初的训练配置的期望相一致。

此外，随着所有这些进展，深度学习中令人印象深刻的壮举涉及复杂的工程努力。例如，著名的AlexNet（Krizhevsky等人，2012）（见图1），在2012年赢得ImageNet之后，使深度学习成为计算机视觉界的焦点，它提出了一个精心设计的网络架构和一个精心校准的训练程序。现代神经网络通常更加复杂，需要一个横跨网络架构和精细训练方案的管道。像许多工程项目一样，在产生每一个结果时都要付出很多劳动和微调。

我们认为，深度学习的许多限制和副作用源于目前深度学习的实践类似于工程实践。我们建造现代神经网络系统的方式类似于我们建造桥梁和建筑的方式，而这些设计是不具有适应性的。引用《控制论的大脑》（Pickering, 2010）一书作者Pickering的话说。"我所想到的大多数工程实例都不是适应性的。桥梁和建筑，车床和动力机，汽车，电视，电脑，都被设计成对环境漠不关心，承受波动，而不是适应它们。最好的桥梁是无论天气如何，都能站在那里。

在自然系统中，集体智慧发挥了很大的作用，我们看到由于自组织而出现的适应性设计，这种设计对周围世界的变化非常敏感，反应迅速。自然系统适应并成为其环境的一部分（见图2的比喻）。

正如军蚁集体形成一座适应环境的桥梁的例子，自然界中常见的集体行为往往会产生适应性强、坚固的系统，并且对环境配置的假设不那么僵硬。集体智慧，作为一个领域，研究从许多个体的互动（如合作、集体努力和竞争）中产生的共享智慧。在这个领域中，诸如自组织、突发行为、蜂群优化和细胞自动机等思想被开发出来，以模拟和解释复杂系统。因此，看到这些思想被纳入到较新的深度学习方法中是很自然的。

图 2. 左图：阿尔坎塔拉的图拉真桥，由罗马人于公元 106 年建造（维基百科，2022 年）。右图：军蚁组成一座桥梁（Jenal，2011）。

我们不认为深度学习模型必须按照桥梁的思路来构建。正如我们将在后面讨论的那样，它不一定要这样。深度学习领域之所以走上这条道路，可能只是历史上一个偶然的结果。事实上，最近有几项工作通过将深度学习与集体智慧的思想相结合来解决深度学习的局限性，从将细胞自动机应用于基于神经网络的图像处理模型（Mordvintsev等人，2020；Randazzo等人，2020）到重新定义如何使用自组织代理来处理强化学习中的问题（Pathak等人，2019；Huang等人，2020；Tang和Ha，2021）。随着我们见证了并行计算硬件（自然适合模拟集体行为，见图3的例子）的不断技术进步，我们可以期待更多的作品将集体智能纳入传统上用深度学习处理的问题。