「彩票假说」要修正？王言治团队：神经网络要「中奖」，秘密在于学习率！｜ICML 2021

会员服务 ·

「彩票假说」要修正？王言治团队：神经网络要「中奖」，秘密在于学习率！｜ICML 2021

2021 年 10 月 26 日 新智元

新智元报道

作者：刘宁

编辑：好困

【新智元导读】「彩票假说」指出神经网络可能存在准确率和原始网络相近的子网络。然而，这种中奖特性在许多情况中很难被观测到。最近，王言治教团队发现并揭示了中奖特性的潜在条件和基本原理。

在深度模型压缩领域中，「彩票假说」（Lottery Tickets Hypothesis）指出一个原始神经网络可能存在中奖彩票的子网络（Winning ticket），该子网络可以达到和原始网络相近的准确率。

然而，这种中奖特性（Winning property）在许多情况中很难被观测到。例如，在训练网络过程中，当使用有利于训练的相对较大的学习率时，就很难发现中奖彩票。

近期，由美国东北大学王言治教授研究组与合作组通过对「彩票假说」工作的研究，发现并揭示了中奖特性的潜在条件和基本原理。

论文链接：https://arxiv.org/pdf/2102.11068.pdf

会议论文链接：http://proceedings.mlr.press/v139/liu21aa.html

该研究发现其本质原因，即当学习率不够大时，初始化权重和最终训练权重之间存在相关性。

因此，中奖特性的存在与神经网络（Deep neural network，DNN）预训练不足有关，并且该特性不太可能发生在训练良好的神经网络中。

为了克服这个限制，该研究提出了「剪枝与微调」的方案，其在相同的剪枝算法和训练时长下始终优于中奖彩票训练的精度。

该研究对不同数据集上的多个深度模型（VGG、ResNet、MobileNet-v2）进行了广泛的实验，以证明所提出方案的有效性。目前，该文章已经被ICML 2021会议收录。

研究背景

神经网络的权重剪枝技术已经被广泛研究和使用，权重剪枝可以有效地去除过度参数化的神经网络中的冗余权重，同时保持网络准确率。

典型的剪枝流程有三个主要阶段。

训练一个拥有过度参数的原始DNN；
剪枝掉原始DNN中不重要的权重；
微调剪枝后的DNN从而恢复准确率。

目前，很多工作都在研究权重剪枝领域的原理与方法。其中有代表性的「彩票假说」[1]工作中表明，在一个使用随机初始化权重的密集网络中，存在一个小的稀疏子网络，当使用与原始密集网络相同的初始权重单独训练这个稀疏子网络时，可以达到与密集网络相似的性能。

这样一个具有初始权重的稀疏子网络被称为中奖网络（Winning ticket）。中奖网络拥有如下特性：

训练相同随机初始化稀疏子网络 T轮(或更少)将达到与密集预训练网络相似的准确率。
训练相同随机初始化稀疏子网络T轮和训练重新随机初始化稀疏子网络之间应该有明显的准确率差距，前者应更高。

在彩票假说工作中发现，在低学习率的情况下可以通过迭代剪枝算法（Iterative pruning）观察到中奖特性，但在较高的初始学习率下，特别是在较深的神经网络中，很难观察到。例如，在初始学习率低至0.0001情况下，「彩票假说」工作在CIFAR-10数据集上的CONV-2/4/6架构确定了中奖网络。

对于CIFAR-10上的ResNet-20和VGG-19等更深的网络，只有在低学习率的情况下才能识别出中奖网络。在较高的学习率下，需要额外的预热训练(Warm up epochs)来找到中奖网络。

在Liu等人的工作「Rethinking the value of pruning」[2]中，它重新审视了「彩票假说」工作，发现在广泛采用的学习率下，中奖彩票与随机重新初始化相比，并没有准确率优势。这就对中奖特性的第二个方面提出了质疑，即训练

和训练

之间的精度差距。

此外，接下来Frankle等人的工作「Stabilizing the lottery ticket hypothesis」[3]提出了迭代剪枝与回倒的方式从而稳定识别中奖网络。

在本工作中，作者研究了中奖特性背后的基本条件和原理。并在各种代表性的神经网络和数据集上进行大量实验，重新审视了「彩票假说」工作，证实了只有在低学习率下才存在中奖特性。事实上，这样的「低学习率」已经明显偏离了标准学习率，并导致预训练的DNN的准确率明显下降。

通过引入提出的相关性指标进行定量分析，作者发现，当学习率不够大时，潜在的原因主要归因于初始化权重和最终训练的权重之间的相关性。

图1 不同训练阶段的表示方法示意图：包括预训练、剪枝（剪枝掩码生成）、稀疏训练以及「剪枝与微调」

神经网络权重相关性角度的分析

本工作在各种DNN架构和CIFAR-10和CIFAR-100数据集上重新审视了「彩票假说」工作的实验，包括VGG-11、ResNet-20和MobileNet-V2。作者的目的是研究中奖特性存在的精确条件。

图2 CIFAR-10数据集上的ResNet-20网络在学习率为0.01和0.1时的随机重新初始化和「中奖网络」的展示

以ResNet-20的CIFAR-10数据集上为例，在初始学习率为0.01的情况下，预训练的DNN的准确率为89.62%。在不同的稀疏率下，「中奖网络」的表现持续优于随机重初始化。在稀疏率为62%时，它达到了最高的准确率90.04%（高于预训练的DNN）。这与「彩票假说」工作在同一网络和数据集上发现的观察结果相似。

另一方面，在初始学习率为0.1的情况下，预训练的DNN的准确率为91.7%。在这种情况下，「中奖网络」的准确率与随机重新初始化相似，在有意义的稀疏率下（例如50%或以上），无法达到接近预训练的DNN的准确率。因此，没有满足中奖特性。

从这些实验来看，在低学习率的情况下，中奖特性存在，但在相对较高的学习率下很难发现，这在「Rethinking the value of pruning」[2]工作中也观察到类似现象。

然而，需要指出的是，相对较高的学习率0.1（实际上是这些数据集的标准学习率）导致预训练的DNN的准确率明显高于低学习率（91.7%对89.6%）。

在「彩票假说」的设置中，在学习率为0.1的情况下，其稀疏训练的结果（「中奖网络」，随机重新初始化）也是相对较高。这一点在之前的相关讨论中是缺失的。

现在的关键问题是：上述两个观察结果是相关的吗？如果答案是肯定的，这意味着中奖特性对DNN来说并不普遍，也不是DNN本身或者相关应用的自然特性。相反，它表明当学习率不够大时，原始的预训练DNN没有得到很好的训练。

作者的假设是上述观察结果是相关的，这主要归因于当学习率不够大时，初始化的权重和最终训练的权重之间存在相关性。在验证假设之前，作者将引入一个相关性指标（correlation indicator，CI）进行定量分析。

图3 CIFAR-10上的ResNet-20在学习率为0.01和0.1时的随机重新初始化和「中奖网络」的说明

定义相关性指标用来量化两组权重

和

之间的最大幅值的部分权重的位置的重叠度。具体公式如下：

权重的相关性意味着如果一个权重的幅值在初始化时就大，那么它在训练后也是大的。

产生这种相关性的原因是学习率太低，权重更新太慢。这种权重的相关性对于神经网络训练来说是不可取的，通常会导致较低的准确率，在一个良好训练的神经网络中，权重的幅值应该更多地取决于这些权重的位置而不是初始化。

因此当权重的相关性很强时，神经网络的准确率将会变低，也就是说，没有经过良好的训练。

图4 在学习率为0.01和0.1时，初始权重和预训练权重之间的重叠率（当p=10%、20%、30%、40%和50%时）

为了验证上述说法，作者进行了实验，以不同的初始学习率得出神经网络预训练的相关性指标

。

以CIFAR-10数据集上的ResNet-20为例进行说明。图4展示了在学习率分别为0.01和0.1时，初始权重

和来自神经网络预训练的权重的相关指标。与学习率为0.1的情况相比，学习率为0.01时相关性指标明显较高。

这一观察表明，在学习率为0.01的情况下，

的较大幅值的权重没有被完全更新，说明预训练的神经网络没有被很好地训练更新。

在学习率为0.1的情况下，权重被充分更新，因此在很大程度上不依赖于初始权重（

，其中p = 10%, 20%, 30%, 40%, 50%），表明神经网络得到良好的充分训练。

图5 (a)，(b)：在不同的稀疏率下，「剪枝与微调」

通过迭代剪枝算法产生的掩码的准确度。(c)，(d)：p =0.2时，在0.3、0.5、0.7稀疏度比下，「中奖网络」的权重

和「剪枝与微调」的权重

，以及重新随机初始化权重

和「剪枝与微调」的权重

之间的权重相关性（重叠率）比较。

中奖特性的原因和条件

当学习率较低时，训练「中奖网络」和随机重新初始化网络的准确率不同，作者试图从这点出发，从而揭示出中奖属性的原因和条件。作者通过研究权重的相关性来实现这一目标。

作者尝试了「剪枝与微调」的方式，即对来自原始预训练网络的权重应用掩码，然后对其进行T轮微调。最终的权重表示成

。以CIFAR-10上的ResNet-20为例进行说明。从图5(a)和5(b)可以看到，

实现了相对较高的准确率，接近或高于相同学习率下的预训练DNN的准确率。

作者还研究了

，

和

之间的相关性，以便对中奖特性的原因有所了解。从图5(c)和5(d)可以观察到，在低学习率下，

和

之间存在较强相关性，这时存在中奖特性。在其他情况下，这种相关性很小或是没有。

结论是，中奖特性的一个关键条件是

和

之间的相关性。

剪枝与微调——在稀疏情况下恢复准确率的更好方式

图6 「剪枝与微调」的精度表现与两种稀疏训练方案的比较（「中奖网络」和随机重新初始化）

图6展示了使用三种剪枝算法生成掩码：（a）迭代剪枝，（b）基于ADMM的剪枝，以及（c）一次性剪枝。

为了更好地克服「彩票假说」工作中稀疏训练的不足，作者提出「剪枝与微调」的方式。作者以CIFAR-10数据集上的ResNet-20为例进行说明。这里使用理想的学习率0.1。

从图6可以清楚地观察到「剪枝与微调」与两个稀疏训练方案之间的精度差距。事实上，「剪枝与微调」方案可以持续超越预训练的原始密集神经网络，其稀疏率可高达70%。同样，两个稀疏训练方案之间没有准确率差异。

图7 在三种剪枝算法（迭代剪枝、基于ADMM的剪枝和一次性剪枝）进行掩码生成下，「剪枝与微调」以及稀疏训练（「中奖网络」方案）的准确率表现。

图7结合了上述结果，展示了三种剪枝算法下的「剪枝与微调」以及稀疏训练（「中奖网络」方案）的准确率。可以观察到准确率的大小顺序：基于ADMM的剪枝最高，迭代剪枝在中间，一次性剪枝在最低。这个顺序对于「剪枝与微调」以及稀疏训练也是一样的。

在这里剪枝算法仅用来生成掩码。因此，相对准确率差异归因于生成不同的掩码的质量。可以得出结论，剪枝算法的选择在生成稀疏子网络中至关重要，因为生成的掩码的质量在这里起着关键作用。

结语

在这项工作中，作者研究了彩票假说中中奖特性背后的基本条件和原理。引入了一个相关指标进行定量分析。在不同的数据集上对多个深度模型进行了广泛的实验，证明了中奖特性的存在与神经网络预训练不足有关，对于充分训练的神经网络来说不太可能发生。

同时，「彩票假说」工作中的稀疏训练设置很难恢复预训练的密集神经网络的准确率。为了克服这一局限性，作者提出了「剪枝与微调」的方式，该方式在相同的剪枝算法和总的训练时长下，在不同的数据集上对不同的神经网络均优于「彩票假说」工作设置的稀疏训练。

作者简介

论文第一作者刘宁，博士毕业于美国东北大学计算机工程系，博士生导师为王言治教授。现任职美的资深研究员。

袁赓，美国东北大学计算机工程系博士在读生，导师为王言治教授。

参考资料：

[1] Frankle, J. and Carbin, M. The lottery ticket hypothesis: Finding sparse, trainable neural networks.

[2] Liu, Z., Sun, M., Zhou, T., Huang, G., and Darrell, T. Rethinking the value of network pruning.

[3] Frankle, J., Dziugaite, G. K., Roy, D. M., and Carbin, M. Stabilizing the lottery ticket hypothesis.

登录查看更多

相关内容

学习率

关注 0

ICML'21：一种计算用户嵌入表示的新型协同过滤方法

专知会员服务

15+阅读 · 2021年12月31日

NeurIPS 2021 | 华为诺亚Oral论文：基于频域的二值神经网络训练方法

专知会员服务

16+阅读 · 2021年12月16日

基于粗粒度数据流架构的稀疏卷积神经网络加速

专知会员服务

23+阅读 · 2021年7月15日

[WWW2021]图结构估计神经网络

专知会员服务

43+阅读 · 2021年3月29日

神经网络不work？看下这份《训练神经网络实用技巧》，3页pdf

专知会员服务

56+阅读 · 2020年12月29日

【ICML2020】最小化验证损失代理来搜索最佳神经网络结构

专知会员服务

24+阅读 · 2020年7月13日

[ICML-Google]先宽后窄:对深度薄网络的有效训练

专知会员服务

36+阅读 · 2020年7月5日

【ICML 2020 】小样本学习即领域迁移

专知会员服务

78+阅读 · 2020年6月26日

AAAI 2020 | 滴滴&东北大学提出自动结构化剪枝压缩算法框架，性能提升高达120倍

专知会员服务

30+阅读 · 2020年2月26日

【ICCV 2019】基于元学习的自动化神经网络通道 MetaPruning: Meta Learning for Automatic Neural Network Channel Pruning

专知会员服务

17+阅读 · 2019年11月17日

最孤独的神经网络：只有一个神经元，但会「影分身」

极市平台

0+阅读 · 2022年3月22日

ICLR 2022 | 提高子网络「中奖」准确率，美国东北大学、Meta等提出对偶彩票假说

机器之心

0+阅读 · 2022年3月19日

ICLR 2022 | 对偶彩票假说！美国东北大学等提出DLTH：将随机子网络变换得到中奖彩票

极市平台

0+阅读 · 2022年3月17日

ICLR 2022 | 对偶彩票假说！美国东北大学/圣克拉拉大学/Meta提出DLTH：随机子网络变换得到中奖彩票

CVer

0+阅读 · 2022年3月17日

NeurIPS 2021 Spotlight | 准确、快速、内存经济，新框架MEST实现边缘设备友好的稀疏训练

机器之心

0+阅读 · 2022年1月1日

ICML 2021 | AlphaNet：基于α-散度的超网络训练方法

PaperWeekly

0+阅读 · 2021年12月28日

NeurIPS 2021 | 华为诺亚Oral论文：基于频域的二值神经网络训练方法

机器之心

0+阅读 · 2021年12月15日

图神经网络适合做推荐系统吗?

机器学习与推荐算法

1+阅读 · 2021年12月15日

ResNet假说被推翻？Reddit小哥灵魂拷问：这么多年都没人搞懂Ta的工作原理！

新智元

0+阅读 · 2021年10月18日

图神经网络的对抗标签翻转攻击与防御

专知

0+阅读 · 2021年3月28日

压缩感知中正交匹配追踪算法的理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

非凸非光滑优化的神经网络设计及其关键问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

信号稀疏表示与重构的神经网络算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

连续时间神经网络的动态复杂性问题研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于非整数阶梯度的稀疏信号重构方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于稀疏编码模型的深层学习神经网络

国家自然科学基金

7+阅读 · 2012年12月31日

非对称Ising类神经网络模型重构的理论研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于链接权重化的链接预测研究

国家自然科学基金

1+阅读 · 2011年12月31日

基于压缩感知理论的图像/视频编解码技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

听觉中枢神经元以时间编码声音频率特性的原理

国家自然科学基金

0+阅读 · 2009年12月31日

Breaching the 2-Approximation Barrier for the Forest Augmentation Problem

Arxiv

0+阅读 · 2022年4月20日

Model-free Neural Counterfactual Regret Minimization with Bootstrap Learning

Arxiv

0+阅读 · 2022年4月19日

Bodyless Block Propagation: TPS Fully Scalable Blockchain with Pre-Validation

Arxiv

0+阅读 · 2022年4月19日

Deep Equilibrium Optical Flow Estimation

Arxiv

0+阅读 · 2022年4月18日

INSTA-BNN: Binary Neural Network with INSTAnce-aware Threshold

Arxiv

0+阅读 · 2022年4月18日

Optimal Subsampling for High-dimensional Ridge Regression

Arxiv

0+阅读 · 2022年4月18日

Robust Stability of Neural-Network Controlled Nonlinear Systems with Parametric Variability

Arxiv

0+阅读 · 2022年4月17日

Alternating Channel Estimation and Prediction for Cell-Free mMIMO with Channel Aging: A Deep Learning Based Scheme

Arxiv

0+阅读 · 2022年4月16日

Efficient Attribute Unlearning: Towards Selective Removal of Input Attributes from Feature Representations

Arxiv

0+阅读 · 2022年4月16日

Learning Embedding Adaptation for Few-Shot Learning

Arxiv

17+阅读 · 2018年12月10日

VIP会员