This paper presents a novel differentiable method for unstructured weight pruning of deep neural networks. Our learned-threshold pruning (LTP) method learns per-layer thresholds via gradient descent, unlike conventional methods where they are set as input. Making thresholds trainable also makes LTP computationally efficient, hence scalable to deeper networks. For example, it takes $30$ epochs for LTP to prune ResNet50 on ImageNet by a factor of $9.1$. This is in contrast to other methods that search for per-layer thresholds via a computationally intensive iterative pruning and fine-tuning process. Additionally, with a novel differentiable $L_0$ regularization, LTP is able to operate effectively on architectures with batch-normalization. This is important since $L_1$ and $L_2$ penalties lose their regularizing effect in networks with batch-normalization. Finally, LTP generates a trail of progressively sparser networks from which the desired pruned network can be picked based on sparsity and performance requirements. These features allow LTP to achieve competitive compression rates on ImageNet networks such as AlexNet ($26.4\times$ compression with $79.1\%$ Top-5 accuracy) and ResNet50 ($9.1\times$ compression with $92.0\%$ Top-5 accuracy). We also show that LTP effectively prunes modern \textit{compact} architectures, such as EfficientNet, MobileNetV2 and MixNet.
翻译:本文为深神经网络的不结构重量调整提供了一种新颖的不同方法。 我们所学的超值调整法(LTP)通过渐渐下降来学习每层的阈值, 不同于通常设定为输入的常规方法。 使阈值可训练也使LTP具有计算效率, 因而可扩至更深网络。 例如, LTP需要30美元, 才能在图像网络上将ResNet50 压缩成一个9.1美元的系数。 这与通过计算密集的迭接运行和微调程序来搜索每层阈值的其他方法不同。 此外, 与新颖的 $L_0 正规化方法不同, LTP 能够在结构上以批次正常化的方式有效操作LTP。 这很重要, 因为$1美元和$2美元罚款在批次规范化的网络上失去了正常化效果。 最后, LTP 生成了一个逐渐稀薄的网络线索, 从中可以根据微调和性能要求选取所需的纯度网络。 这些特征使得LTP能够达到具有竞争力的IMT$, 在图像网络上,例如 AS- IML1 IML1 IMU AS AS AS AS 和 AS AS AS AS IMULIS AS AS AS AS AS IM AS IM IM IM AS AS AS AS AS AS AS IM AS AS AS AS AS AS AS AS AS AS AS AS AS AS AS IS AS AS AS IM IM IM IM IM IS IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM IM