Google 联合DeepMind发布EvoNorms，改进归一化激活层，性能几乎全面提升

2020 年 5 月 4 日 AI科技评论

作者 | 科雨

编辑 | 丛末

针对深度卷积网络任务中的稳定优化性和通用泛化性，正则化层和激活函数一直都占有至关重要的位置。在各种前沿的研究中，这两个成分经常会彼此并置。大量研究人员对这两个成分的研究有着很广泛的研究，但他们常常是将两者独立开来，分别讨论。学界中，基本的假设就是正则化层和激活函数一定要分别独立设计，并且先后运行（如BatchNorm—RELU），这一举措很可能不是最优的。

论文地址：https://arxiv.org/pdf/2004.02967.pdf

改进方案

1、整体介绍

本篇文章则通过将正则化层和激活层公式化为一个单独的构建模块，来研究他们的协同设计。

2、困难性

由于多种原因，搜索该统一层具有很大的挑战性。比如，首先，该模型要避开那些单独考虑下的历史设计结果，而较少的先验知识会导致更大的搜索空间，但是，这一搜索空间所包含的有意义的层设置少之又少；与此同时，一个有用的层设计必须有好的泛化性能，可以在多个模型和新任务中使用，而可以达到这一目标的例子就是BatchNorm—RELU，这个模型是研究者大量的努力和广泛的探索才得到的，想要超越该模型并不容易。

3、设计思路

本文主要使用自动的方法来解决上述挑战。

（1）为了保证能尽量少的使用到先验知识，研究者将每个层都表示为由许多基础算法模块（如加法，惩罚和交叉维度聚合等）组成的张量计算图。

（2）接着，他们使用在模型自动进化过程中使用了拒绝机制（rejection mechanism），以此来保证在巨大稀疏空间中搜索的高效性。

（3）为了保证搜索层涵盖了独立设计的结果，本文将单个候选层与多种结构进行配对和评估，并将这一要求明确作为模型进化目标。

使用层搜索方法，本文可以发现新颖的结构集合，这个集合被称为EvoNorms，它的性能可以超过现有的设计模式。在这个集合中，研究者展示了依赖于batch的EvoNorm-B和只依赖于个体样本的EvoNorm-S，并在一系列图像分类任务的结构上检验了这些层的性能，实验结果证明其可以极大提高分类准确度。同时，研究者还在图像实物分割任务和图像生成任务上对此层结构进行了评估，结果证明本文提出的方法也可以很好的提升这两个任务的性能。

下图展示了EvoNorm-S0在ResNet-50上的运行结果：

4、主要贡献

（1）本文证明了网络架构可以从最原始的成分出发，来重新构造网络层结构，而不是只能依赖于已有的设计。

（2）本文提出了一种寻找通用模块的层搜索（Layer Search）方法。相对于专注于特定网络的结构搜索方法，本模型可以优化泛化性和一般性。

（3）本文发现，基于层搜索算法找到的新层结构，在图像分类领域，相比已有的经典算法（包括ResNets，mobileNetV2，MnasNet，EfficientNets等），可以提升各个不同任务的分类准确性。

（4）最后，作者证明了这些层在新的任务上的可迁移性，如实物检测和分割领域和图像合成领域。

相关工作

研究者在单独设计激活层或正则化层方向上做了许多努力，他们或使用手动设计方法（He et al., 2015; Clevert et al., 2016），或使用自动设计方法（Ramachandran et al., 2018）。Singh&Krishnan在2019年手动同时设计了两种层结构，不过，他们的设计将这两个层视为分离开的两个部分。

与之前的研究不同的是，通过将正则化层和激活层结合起来，并视作一个统一的部分，本文取消了正则化层和激活层设计的界限。与此同时，在搜索空间方面，相对现有自动方法，本文也面临着更大的挑战性。

模型架构

1、搜索空间

（1）层表示

本文将正则化-激活层表示为计算图，该计算图将输入的张量转化为具有相同形状的输出张量，每个中间节点代表一个一元或者二元操作的结果。这些运算符经过设计，可以保持输入张量的维度不变，这样就可以保证图中的节点的维度兼容。图中有四种初始节点：输入节点，常量0节点，以及两种可训练的

和

节点，这两种节点被初始化为0和1。

下图就是一个依赖于batch的EvoNorm-S0模型的计算图例子：

本文使用了顺序生成随机计算图的方法。从初始节点出发，作者随机采样原始运算符，并使用这些运算符，对输入节点进行随机操作，来生成新的节点。这个过程持续多次，知道生成最后一个节点，这个节点就被视为计算图的输出。同时，未使用的节点也被保留下来，从而可供之后的生成过程挑选。

（2）原始成分

下表展示了搜索空间中的原始成分，这些成分被分为两类：（1）按元素操作，适用于每个张量中的每个元素（2）可以在张量的不同维度进行的聚合操作

2、层搜索方法

本文的搜索方法的关键如下：

通过将每一层与多个结构配对的结果模型在轻量代理级的任务上运行，本文评估了每一层设计的效果。
使用进化算法，可以优化多目标边界，同时，作者使用高效的筛选掉不需要的层的拒绝机制（rejection mechanism）来实现对这一过程的增强。

下图展示了层搜索方法的整体工作流程：

（1）层评估

很多人期望有用的层设计可以适用于很多结构，比如BatchNorm-RELU。然而，下图显示，这个层设计只能在单一结构上表现出优异的效果，而在转化到其他任务的情况下，该设计并不能达到预期。

为了提高模型的泛化性能，本文将搜索过程处理为多目标优化问题，将每个候选层在一系列K个（K > 1)锚点结构的运行结果作为泛化性评估参考。

(2) 代理任务和锚点结构

为实现快速反馈，一个理想的代理任务应该是足够轻量级。同时，锚点结构必须足够有挑战性，来保证从优化的角度对层设计进行压力测试。基于以上两点，本文作者产生了设计小型任务和深度结构的想法。

作者将代理任务设置为在CIFAR-10上的图像分类任务，并使用了将三个具有代表性（足够深）的ImageNet结构，这三个结构分别是预激活的ResNet50，MobileNetV2以及EfficientNet-B0。

下图从左到右分别是ResNet-CIFAR, MobileNetV2-CIFAR 以及EfficientNet-CIFAR 。

（3）进化

本文的进化算法是锦标赛选择算法（tournament selection)的变体。在每一步中，作者基于全部层的随机子集构建锦标赛。锦标赛的胜利者则可以产生变化后的进化版本，这个新版本在评估之后会被加入到候选层种。随着这一过程的不断迭代，候选层的整体质量会逐步提升。同时，通过保持候选层最近使用部分的滑动窗口，研究人员实现了进化过程的正则化。

选择标准

由于每个层设计都有多个分数，选择锦标赛获胜者的标准并不惟一。下面是两个选择标准：

平均值：具有最高平均准确度的层成为获胜者（如下图中的B）
帕累托（Pareto）：在帕累托边界的随机层设计成为获胜者（下图中的A，B和C都有同样的概率获胜）

上图中的每个点都代表一种候选层设计。

获胜者的变化

本文作者使用三个步骤来改变计算图：

Step1: 随机均匀选择一个中间节点

Step2: 随机均匀的将当前操作替换为原始成分表中的新操作。

Step3: 随机均匀的选择该节点新的子节点。

（4）拒绝机制

质量

研究者选择丢弃在任意三个锚点结构进行100次迭代后验证准确率低于20%的层设计。这一举措可以保证计算资源能集中在候选层里一小部分子集的完整训练过程中。

稳定性

除了质量之外，研究人员还拒绝了数值不稳定的层设计。进行这一操作的基本原则是，向着梯度范数最大的方向对抗式调整卷积权重

，从而对候选层进行压力测试。

实验

使用ImageNet数据集，研究人员将搜索到的层设计和普遍使用的归一化激活层进行了比较，如下表所示：

此结果显示了不同的层设计在ImageNet上的测试准确率，其中蓝字标注了需要移动平均的项。使用同样的训练设置，使用相同的代码库在相同的架构上会得到一样的结果。

下图展示了在另外一个搜索过程实验中EvoNorms在样本层设计上的性能表现。（这些样本层没有使用batch聚合操作）。

同时，本文还进行了具有超大batch规格的学习动态过程的可视化。在训练设置相同的情况下，相比BN-RELU和ResNet-50，虽然训练损失较大，但是，EvoNorm-B0展现了更好的泛化性能。在其他所有的情况下，EvoNorm同时实现了优化性能和泛化性能的提升。

为了探索本文的层设计是否可以使用在实体分割任务上，本文将该模型和Mask R-CNN和ResNet-FPN在目标检测和实体分割任务（COCO）上表现的性能做了对比，结果如下表所示：

结果显示，相对于BN-RELU和GN-RELU，EvoNorm-B0和EvoNorm-S0都有更好的性能表现，同时绝大情况下EvoNorm-B0表现最好。

接着，研究者进一步测试了EvoNorm在训练GAN时的可行性。使用BigGAN的训练步骤进行操作后，研究人员在下表中给出了最佳结果：

下图是使用EvoNorm-B0的BigGAN-deep生成的部分样本图像：

基于代理任务，下图对比了进化和随机搜索以及BN—RELU的搜索过程。结果显示，这三种方法在优化搜索目标的采样效率上存在很大差异。

结论

通过将正则层和归一层视为由低层次原始成分组成的统一计算图，本文实现了搜索过程。这一独特的搜索方法，带领研究团队发现了新颖设计的候选层集合——EvoNorms，并在图像分类任务，实体分割任务和GAN任务上显示了明显的性能提升。相对于利用结构搜索在特定网络上搜寻的前人研究方法，本文的方法展示了利用层搜索的AutoML在探索广泛网络结构设计的使用价值和潜力。