「彩票假说」要修正?王言治团队:神经网络要「中奖」,秘密在于学习率!|ICML 2021

2021 年 10 月 26 日 新智元



  新智元报道  

作者:刘宁

编辑:好困

【新智元导读】「彩票假说」指出神经网络可能存在准确率和原始网络相近的子网络。然而,这种中奖特性在许多情况中很难被观测到。最近,王言治教团队发现并揭示了中奖特性的潜在条件和基本原理


在深度模型压缩领域中,「彩票假说」(Lottery Tickets Hypothesis)指出一个原始神经网络可能存在中奖彩票的子网络(Winning ticket),该子网络可以达到和原始网络相近的准确率。


然而,这种中奖特性(Winning property)在许多情况中很难被观测到。例如,在训练网络过程中,当使用有利于训练的相对较大的学习率时,就很难发现中奖彩票。


近期,由美国东北大学王言治教授研究组与合作组通过对「彩票假说」工作的研究,发现并揭示了中奖特性的潜在条件和基本原理。


论文链接:https://arxiv.org/pdf/2102.11068.pdf

会议论文链接:http://proceedings.mlr.press/v139/liu21aa.html


该研究发现其本质原因,即当学习率不够大时,初始化权重和最终训练权重之间存在相关性。


因此,中奖特性的存在与神经网络(Deep neural network,DNN)预训练不足有关,并且该特性不太可能发生在训练良好的神经网络中。


为了克服这个限制,该研究提出了「剪枝与微调」的方案,其在相同的剪枝算法和训练时长下始终优于中奖彩票训练的精度。


该研究对不同数据集上的多个深度模型(VGG、ResNet、MobileNet-v2)进行了广泛的实验,以证明所提出方案的有效性。目前,该文章已经被ICML 2021会议收录。


研究背景


神经网络的权重剪枝技术已经被广泛研究和使用,权重剪枝可以有效地去除过度参数化的神经网络中的冗余权重,同时保持网络准确率。


典型的剪枝流程有三个主要阶段。

  1. 训练一个拥有过度参数的原始DNN;

  2. 剪枝掉原始DNN中不重要的权重;

  3. 微调剪枝后的DNN从而恢复准确率。


目前,很多工作都在研究权重剪枝领域的原理与方法。其中有代表性的「彩票假说」[1]工作中表明,在一个使用随机初始化权重的密集网络中,存在一个小的稀疏子网络,当使用与原始密集网络相同的初始权重单独训练这个稀疏子网络时,可以达到与密集网络相似的性能。


这样一个具有初始权重的稀疏子网络被称为中奖网络(Winning ticket)。中奖网络拥有如下特性:


  1. 训练相同随机初始化稀疏子网络 T轮(或更少)将达到与密集预训练网络相似的准确率。

  2. 训练相同随机初始化稀疏子网络T轮和训练重新随机初始化稀疏子网络之间应该有明显的准确率差距,前者应更高。


在彩票假说工作中发现,在低学习率的情况下可以通过迭代剪枝算法(Iterative pruning)观察到中奖特性,但在较高的初始学习率下,特别是在较深的神经网络中,很难观察到。 例如,在初始学习率低至0.0001情况下,「彩票假说」工作在CIFAR-10数据集上的CONV-2/4/6架构确定了中奖网络。

对于CIFAR-10上的ResNet-20和VGG-19等更深的网络,只有在低学习率的情况下才能识别出中奖网络。在较高的学习率下,需要额外的预热训练(Warm up epochs)来找到中奖网络。

在Liu等人的工作「Rethinking the value of pruning」[2]中,它重新审视了「彩票假说」工作,发现在广泛采用的学习率下,中奖彩票与随机重新初始化相比,并没有准确率优势。这就对中奖特性的第二个方面提出了质疑,即训练和训练 之间的精度差距。

此外,接下来Frankle等人的工作「Stabilizing the lottery ticket hypothesis」[3]提出了迭代剪枝与回倒的方式从而稳定识别中奖网络。

在本工作中,作者研究了中奖特性背后的基本条件和原理。并在各种代表性的神经网络和数据集上进行大量实验,重新审视了「彩票假说」工作,证实了 只有在低学习率下才存在中奖特性。 事实上,这样的「低学习率」已经明显偏离了标准学习率,并导致预训练的DNN的准确率明显下降。

通过引入提出的相关性指标进行定量分析,作者发现,当学习率不够大时,潜在的原因主要归因于初始化权重和最终训练的权重之间的相关性。

图1 不同训练阶段的表示方法示意图:包括预训练、剪枝(剪枝掩码生成)、稀疏训练以及「剪枝与微调」

神经网络权重相关性角度的分析


本工作在各种DNN架构和CIFAR-10和CIFAR-100数据集上重新审视了「彩票假说」工作的实验,包括VGG-11、ResNet-20和MobileNet-V2。作者的目的是研究中奖特性存在的精确条件。

图2 CIFAR-10数据集上的ResNet-20网络在学习率为0.01和0.1时的随机重新初始化和「中奖网络」的展示

以ResNet-20的CIFAR-10数据集上为例,在初始学习率为0.01的情况下,预训练的DNN的准确率为89.62%。在不同的稀疏率下,「中奖网络」的表现持续优于随机重初始化。在稀疏率为62%时,它达到了最高的准确率90.04%(高于预训练的DNN)。 这与「彩票假说」工作在同一网络和数据集上发现的观察结果相似。

另一方面,在初始学习率为0.1的情况下,预训练的DNN的准确率为91.7%。在这种情况下,「中奖网络」的准确率与随机重新初始化相似,在有意义的稀疏率下(例如50%或以上),无法达到接近预训练的DNN的准确率。因此,没有满足中奖特性。

从这些实验来看,在低学习率的情况下,中奖特性存在,但在相对较高的学习率下很难发现,这在「Rethinking the value of pruning」[2]工作中也观察到类似现象。

然而,需要指出的是,相对较高的学习率0.1(实际上是这些数据集的标准学习率)导致预训练的DNN的准确率明显高于低学习率(91.7%对89.6%)。

在「彩票假说」的设置中,在学习率为0.1的情况下,其稀疏训练的结果(「中奖网络」,随机重新初始化)也是相对较高。 这一点在之前的相关讨论中是缺失的。

现在的关键问题是:上述两个观察结果是相关的吗?如果答案是肯定的,这意味着中奖特性对DNN来说并不普遍,也不是DNN本身或者相关应用的自然特性。相反,它表明当学习率不够大时,原始的预训练DNN没有得到很好的训练。

作者的假设是上述观察结果是相关的,这主要归因于当学习率不够大时,初始化的权重和最终训练的权重之间存在相关性。在验证假设之前,作者将引入一个相关性指标(correlation indicator,CI)进行定量分析。

图3 CIFAR-10上的ResNet-20在学习率为0.01和0.1时的随机重新初始化和「中奖网络」的说明

定义相关性指标用来量化两组权重 之间的最大幅值的部分权重的位置的重叠度。具体公式如下:

权重的相关性意味着如果一个权重的幅值在初始化时就大,那么它在训练后也是大的。

产生这种相关性的原因是学习率太低,权重更新太慢。这种权重的相关性对于神经网络训练来说是不可取的,通常会导致较低的准确率,在一个良好训练的神经网络中,权重的幅值应该更多地取决于这些权重的位置而不是初始化。

因此当权重的相关性很强时,神经网络的准确率将会变低,也就是说,没有经过良好的训练。

图4 在学习率为0.01和0.1时,初始权重和预训练权重之间的重叠率(当p=10%、20%、30%、40%和50%时)

为了验证上述说法,作者进行了实验,以不同的初始学习率得出神经网络预训练的相关性指标

以CIFAR-10数据集上的ResNet-20为例进行说明。图4展示了在学习率分别为0.01和0.1时,初始权重 和来自神经网络预训练的权重的相关指标。与学习率为0.1的情况相比,学习率为0.01时相关性指标明显较高。

这一观察表明,在学习率为0.01的情况下,的较大幅值的权重没有被完全更新,说明预训练的神经网络没有被很好地训练更新。

在学习率为0.1的情况下,权重被充分更新,因此在很大程度上不依赖于初始权重( ,其中p = 10%, 20%, 30%, 40%, 50%),表明神经网络得到良好的充分训练。

图5 (a),(b):在不同的稀疏率下,「剪枝与微调」 通过迭代剪枝算法产生的掩码的准确度。(c),(d):p =0.2时,在0.3、0.5、0.7稀疏度比下,「中奖网络」的权重 和「剪枝与微调」的权重 ,以及重新随机初始化权重 和「剪枝与微调」的权重 之间的权重相关性(重叠率)比较。

中奖特性的原因和条件


当学习率较低时,训练「中奖网络」和随机重新初始化网络的准确率不同,作者试图从这点出发,从而揭示出中奖属性的原因和条件。作者通过研究权重的相关性来实现这一目标。

作者尝试了「剪枝与微调」的方式,即对来自原始预训练网络的权重应用掩码,然后对其进行T轮微调。最终的权重表示成。以CIFAR-10上的ResNet-20为例进行说明。从图5(a)和5(b)可以看到,实现了相对较高的准确率,接近或高于相同学习率下的预训练DNN的准确率。

作者还研究了之间的相关性,以便对中奖特性的原因有所了解。从图5(c)和5(d)可以观察到,在低学习率下,之间存在较强相关性,这时存在中奖特性。在其他情况下,这种相关性很小或是没有。

结论是,中奖特性的一个关键条件是 之间的相关性。

剪枝与微调——在稀疏情况下恢复准确率的更好方式


图6 「剪枝与微调」的精度表现与两种稀疏训练方案的比较(「中奖网络」和随机重新初始化)

图6展示了使用三种剪枝算法生成掩码:(a)迭代剪枝,(b)基于ADMM的剪枝,以及(c)一次性剪枝。

为了更好地克服「彩票假说」工作中稀疏训练的不足,作者提出「剪枝与微调」的方式。 作者以CIFAR-10数据集上的ResNet-20为例进行说明。这里使用理想的学习率0.1。

从图6可以清楚地观察到「剪枝与微调」与两个稀疏训练方案之间的精度差距。 事实上,「剪枝与微调」方案可以持续超越预训练的原始密集神经网络,其稀疏率可高达70%。同样,两个稀疏训练方案之间没有准确率差异。

图7 在三种剪枝算法(迭代剪枝、基于ADMM的剪枝和一次性剪枝)进行掩码生成下,「剪枝与微调」以及稀疏训练(「中奖网络」方案)的准确率表现。

图7结合了上述结果,展示了三种剪枝算法下的「剪枝与微调」以及稀疏训练(「中奖网络」方案)的准确率。可以观察到准确率的大小顺序:基于ADMM的剪枝最高,迭代剪枝在中间,一次性剪枝在最低。这个顺序对于「剪枝与微调」以及稀疏训练也是一样的。

在这里剪枝算法仅用来生成掩码。因此,相对准确率差异归因于生成不同的掩码的质量。可以得出结论,剪枝算法的选择在生成稀疏子网络中至关重要,因为生成的掩码的质量在这里起着关键作用。

结语


在这项工作中,作者研究了彩票假说中中奖特性背后的基本条件和原理。引入了一个相关指标进行定量分析。在不同的数据集上对多个深度模型进行了广泛的实验,证明了中奖特性的存在与神经网络预训练不足有关,对于充分训练的神经网络来说不太可能发生。

同时,「彩票假说」工作中的稀疏训练设置很难恢复预训练的密集神经网络的准确率。为了克服这一局限性,作者提出了「剪枝与微调」的方式,该方式在相同的剪枝算法和总的训练时长下,在不同的数据集上对不同的神经网络均优于「彩票假说」工作设置的稀疏训练。

作者简介


论文第一作者刘宁,博士毕业于美国东北大学计算机工程系,博士生导师为王言治教授。现任职美的资深研究员。

袁赓,美国东北大学计算机工程系博士在读生,导师为王言治教授。

参考资料:

[1] Frankle, J. and Carbin, M. The lottery ticket hypothesis: Finding sparse, trainable neural networks. 

[2] Liu, Z., Sun, M., Zhou, T., Huang, G., and Darrell, T. Rethinking the value of network pruning. 

[3] Frankle, J., Dziugaite, G. K., Roy, D. M., and Carbin, M. Stabilizing the lottery ticket hypothesis.



登录查看更多
0

相关内容

ICML'21:一种计算用户嵌入表示的新型协同过滤方法
专知会员服务
14+阅读 · 2021年12月31日
专知会员服务
22+阅读 · 2021年7月15日
[WWW2021]图结构估计神经网络
专知会员服务
42+阅读 · 2021年3月29日
[ICML-Google]先宽后窄:对深度薄网络的有效训练
专知会员服务
34+阅读 · 2020年7月5日
【ICML 2020 】小样本学习即领域迁移
专知会员服务
77+阅读 · 2020年6月26日
ICML 2021 | AlphaNet:基于α-散度的超网络训练方法
PaperWeekly
0+阅读 · 2021年12月28日
图神经网络适合做推荐系统吗?
机器学习与推荐算法
1+阅读 · 2021年12月15日
图神经网络的对抗标签翻转攻击与防御
专知
0+阅读 · 2021年3月28日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月18日
Learning Embedding Adaptation for Few-Shot Learning
Arxiv
16+阅读 · 2018年12月10日
VIP会员
相关VIP内容
ICML'21:一种计算用户嵌入表示的新型协同过滤方法
专知会员服务
14+阅读 · 2021年12月31日
专知会员服务
22+阅读 · 2021年7月15日
[WWW2021]图结构估计神经网络
专知会员服务
42+阅读 · 2021年3月29日
[ICML-Google]先宽后窄:对深度薄网络的有效训练
专知会员服务
34+阅读 · 2020年7月5日
【ICML 2020 】小样本学习即领域迁移
专知会员服务
77+阅读 · 2020年6月26日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
7+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员