AAAI 2020 | 滴滴&东北大学提出自动剪枝压缩算法框架，性能提升120倍

2020 年 1 月 22 日 新智元

新智元专栏

作者：马晓龙，刘宁，王言治

【新智元导读】滴滴和东北大学联合提出自动化剪枝框架AutoCompress，采用混合型结构化剪枝维度，利用ADMM算法和启发式搜索，在精度提升的同时，压缩性能最多提高120倍，相关论文已被AAAI 2020接收。戳右边链接上新智元小程序了解更多！

近年来，随着深度神经网络模型性能不断刷新，模型的骨干网络参数量愈发庞大，存储和计算代价不断提高，从而导致难以部署在资源受限的嵌入式平台上。滴滴AI Labs与美国东北大学王言治教授研究组合作，联合提出了一种基于AutoML思想的自动结构化剪枝的算法框架AutoCompress，能自动化的去寻找深度模型剪枝中的超参数，去除模型中不同层的参数冗余，替代人工设计的过程并实现了超高的压缩倍率。从而满足嵌入式端上运行深度模型的实时性能需求。

相关工作也被写入论文《AutoCompress: An Automatic DNN Structured Pruning Framework forUltra-High Compression Rates》（基于AutoML思想的自动结构化剪枝压缩算法框架）被AAAI2020接收。

相较之前方法的局限性，该方法提出三点创新性设计：

提出混合型的结构化剪枝维度。
采用高效强大的神经网络剪枝算法ADMM（交替乘子优化算法）对训练过程中的正则项进行动态更新。
利用了增强型引导启发式搜索的方式进行行为抽样。在CIFAR和ImageNet数据集的大量测试表明AutoCompress的效果显著超过各种神经网络压缩方法与框架。在相同准确率下，实际参数量的压缩相对之前方法最大可以提高超120倍。

（论文全文：https://arxiv.org/abs/1907.03141 ）

自动化设置深度模型剪枝中的超参数

深度神经网络模型压缩技术成为解决上述问题不可或缺的关键。其中具有代表性的方法 -- 模型权重剪枝（weight pruning）技术可以有效地将大模型压缩，进而高效地进行推理加速。其中，结构化剪枝（structured pruning）作为能够真正在平台层面解决硬件执行效率低，内存访问效率差，计算平行度不高问题的合理有效的剪枝维度，受到了学术界与工业界的重视。

然而，权重剪枝在算法实现过程中涉及到到大量的超参数设置-- 例如如何确定模型的压缩维度，或者如何确定模型中每层的压缩比例等等。由于设计空间巨大且需要专业知识指导，人工设计这些超参数的过程冗长且复杂，并且在很大程度上依靠相关人员的参数调节经验。因此，作为一种更加激进的剪枝模式，结构化剪枝技术在算法实现层面面临着更大的挑战。

为解决结构化剪枝中超参数的决策问题，将超参数的设置转变为一种自动化过程将大大提高模型权重剪枝的算法实现效率。在近期的研究中，比如AMC等利用了深度增强学习（Deep Reinforcement Learning （DRL））的方法去决策每层的剪枝比例，

然而，这种自动化的剪枝方法存在三方面的局限性：（1）只采用了单一的输出通道（filter）剪枝维度；（2）为了得到稀疏化模型，其所采用的剪枝方法仅仅是在模型训练过程中引入一个静态的正则项；（3）更深层次的局限性在于其所采用的基于DRL框架的剪枝方法本质上与剪枝问题难以兼容。但由于DRL框架并不适合解决模型权重剪枝的超参数设置问题，AMC研究的结果也佐证了这一观点，其结果中最高压缩率只有非结构化（non-structured）的5倍压缩倍率。

图1. 自动化超参数决策框架的通用流程，以及性能提升来源

为了改进以上的不足，我们提出了神经网络权重剪枝问题超参数设置自动化过程的通用流程（generic flow），如图1所示。整个自动化通用流程主要可以分为4步。

步骤1为行为抽样，步骤2为快速评估，步骤3为确定决策，步骤4为剪枝操作。由于超参数的巨大搜索空间，步骤1和步骤2应该快速进行，因此无法进行再训练（re-training）后去评估其效果。因此根据量级最小的一部分权重直接进行剪枝评估。

步骤3根据工作抽样和评估的集合对超参数进行决策。步骤4利用剪枝核心算法对模型进行结构化剪枝并生成结果。基于上述通用流程，并针对之前方法的局限性，进一步提出如下三点创新性设计，通过综合现有的深度神经网络与机器学习框架首次实现了目前最高效的深度神经网络自动化结构化剪枝的通用框架AutoCompress。该框架在滴滴已经得到了实际有效应用。

基于神经网络自动化结构化剪枝框架

三点创新性设计为：（1）提出混合型的结构化剪枝维度；（2）采用高效强大的神经网络剪枝算法ADMM（交替乘子优化算法）对训练过程中的正则项进行动态更新；（3）利用了增强型引导启发式搜索的方式进行行为抽样。

图2. 不同的结构化剪枝策略: 基于卷积核的角度和通用矩阵乘算法（GEMM）的角度

首先，结构化剪枝包含三种剪枝维度，输出通道剪枝（filter pruning），输入通道剪枝（channel pruning）和输出通道形状剪枝（filter shape/column pruning），如图2上所示。

输出通道剪枝即直接删除一个卷积核。输入通道剪枝为删除每个卷积核对应的输入通道。输出通道形状剪枝为删除每个卷积核上相同位置的权重。下半部分展示了推理过程中卷积层展开的通用矩阵乘法（GEMM）矩阵。其中每行代表一个卷积核（对应filter pruning），每列对应的是每个卷积核上相同位置的权重（对应filter shape pruning）。一段连续列则代表一个输入通道（对应channel pruning）。通过结合了输出通道形状剪枝（filter shape/column pruning）和输入通道剪枝（filter pruning）两种结构化剪枝维度，剪枝后的模型仍然可以维持一个完整的矩阵，从而可以最大限度地利用硬件结构实现加速。

其次，采用ADMM算法，将剪枝问题转化为数学优化问题，在剪枝的同时训练剩余权重。ADMM可以将原始剪枝问题分解为两个子问题，用传统梯度下降法求解子问题一，并引入一个二次项迭代求解子问题二。在不同量级的神经网络下，ADMM均取得非常好的训练效果（高精度），同时保持了较高的训练效率（快速收敛）。

最后，采用有效的启发式搜索的方式解决DRL框架的局限性。考虑到基于人类经验的启发式搜索可以执行导向搜索（guided search），这是采用启发式搜索的另一个优势。

图3. AutoCompress框架示意图

基于上述三点创新性设计，我们搭建了AutoCompress框架，如图3所示。通过基于启发式搜索算法的自动化代理模块的指导，AutoCompress框架进行模型自动化剪枝主要分为两个步骤：

步骤1：通过基于ADMM算法的结构化剪枝，得到权重分布结构性稀疏化的模型；
步骤2：通过网络结构净化（Purification）操作，将ADMM过程中无法完全删除的一小部分冗余权重找到并删除。值得注意的是，这两个步骤都是基于相同的启发式搜索机制。

启发式搜索机制

针对AutoCompress中最核心的搜索算法设计，我们利用了搜索算法中的模拟退火算法为搜索算法的核心。举例来讲，给定一个原始模型，我们会设置两种目标函数-- 根据权重数量设置或根据运算量（FLOPs）设置。搜索过程进行若干轮，比如第一轮目标为压缩两倍权重数量，第二轮为压缩四倍权重数量。

在每一轮搜索过程中，首先初始化一个行为（超参数），然后每次对行为进行一个扰动（超参数的小幅变化）生成新的行为，根据模拟退火算法原理，评估两个行为，如果新的行为评估结果优于原结果则接受该行为，如果新的行为评估结果劣于原结果则以一定概率接受该行为。每一轮算法中的温度参数T会下降，直到T下降到某个阈值后即停止搜索，该结果即为图1中的步骤3输出。最后，根据搜索得到的超参数，对神经网络进行结构化剪枝操作。

表1. 在VGG-16上基于CIFAR-10数据集的权重剪枝对比结果

表2. 在ResNet-18 (NISP和AMC结果为ResNet-50) 上基于CIFAR-10数据集的权重剪枝对比结果

表3. 在VGG-16上基于ImageNet数据集的结构化权重剪枝

表4. 在ResNet-18/50上基于ImageNet数据集的结构化权重剪枝对比结果

表5. 在ResNet-50上基于ImageNet数据集的非结构化权重剪枝对比结果。

表1，2，3，4，5展示了AutoCompress框架在代表性的深度神经网络和数据集上的剪枝效果。

可以看到，AutoCompress框架对深度模型压缩效果极为显著，例如VGG-16在CIFAR-10数据集上，结构化剪枝压缩率高达52.2倍，无精度损失，在Samsung Galaxy S10智能手机上测试（使用代码生成优化版编译器），其运行速度为2.7ms。ResNet-18在CIFAR-10数据集上更是达到了54.2倍结构化剪枝压缩率无精度损失。

相比之前的方法，如果考虑到ResNet-18与ResNet-50本身的大小差距（我们使用更小的ResNet-18），可以在准确率有所上升的情况下比之前的方法减小120倍权重参数。在ImageNet数据集上，VGG-16达到了6.4倍结构化压缩率，精度损失仅为0.6%，ResNet-18达到了3.3倍的结构化压缩率，无精度损失；

最后，值得指出的是，AutoCompress框架也可以应用于非结构化剪枝，其压缩结果使ResNet-50在ImageNet数据集上可以做到9.2倍无精度损失的压缩，更能达到17.4倍的压缩率，仅损失0.7%的精度。与其他方法相比，AutoCompress的效果超过各种神经网络压缩方法与框架。这一研究使得高效率，高精度地获取深度神经网络高压缩率模型成为可能，并且得到的高效神经网络模型可以在嵌入式移动系统中实现实时推理运算。

论文链接：

https://arxiv.org/abs/1907.03141

2020，新智元继续与您一起探索🐹于你的AI新天地！AI技术干货，B站风格直播，就在新智元We站小程序！AI🐹你，新智元祝您2020新春快乐！🐹🐹