收录会议:
论文链接:
代码链接:
▲偏差-方差均衡 (bias-variance tradeoff) 曲线
▲双下降曲线 [2]
通过实验,我们惊讶地发现,网络中所谓"冗余"的参数其实并不完全冗余。当参数量逐渐减少,稀疏度逐渐上升时,即使模型训练准确率尚未受到影响,其测试准确率可能已经开始明显下降。这时,模型越来越严重地过拟合噪声。
如果进一步的增加模型稀疏度,可以发现当经过某个拐点后,模型的训练准确率开始快速下降,测试准确率开始上升,此时模型对噪声的鲁棒性逐步提高。至于当测试准确率达到最高点后,若继续减少模型的参数,则会影响模型的学习能力。此时,模型的训练与测试准确率同时下降,开始变得难以学习。
此外,我们还发现采用不同的标准来剪枝,得到的模型即使参数量相同,其模型容量/复杂度也不同。例如针对同一类拐点,采用基于权重的剪枝的模型稀疏度更高,而随机剪枝则对应着较低的稀疏度。说明随机剪枝对模型表达能力的破坏更大,想取得相同的效果只能剪更少的参数。
虽然我们的大部分实验都采用了彩票假说的 retrain 方式,但也尝试了其他几种不同的方法。有趣的是,即使是剪枝后微调(Finetuning)也可以观察到明显的双下降。可见稀疏双下降现象并不局限于从初始化训练一个稀疏网络,哪怕沿用剪枝前训练好的参数值也会有相似的结果。
我们还调整了标签噪声的比例,来观察双下降现象的变化。类似于 deep double descent,提高标签噪声的比例,会使得模型训练准确率下降的起始点,向更高模型容量方向移动(即更低的稀疏度)。而另一方面,标签噪声比例越高,为了取得对噪声的鲁棒性,越多的参数需要被剪去以避免过拟合。
▲不同标签噪声比例下的稀疏双下降现象。左:20%,中:40%,右:80%
在这里我们主要检验了两种可能的解释。其一是极小点平坦度假说(Minima Flatness Hypothesis)。一些文章指出,剪枝可以为模型增加扰动,这种扰动使得模型更易收敛到平坦的极小点 [5]。由于极小点越平坦,一般会具有更好的泛化能力,因此 [5] 认为剪枝通过影响极小点的平坦度影响着模型的泛化。
那么,极小点平坦度的变化可以解释稀疏双下降吗?我们对 loss 进行如图的可视化,间接比较了不同稀疏度下,模型极小点平坦度的大小。
▲一维loss可视化
遗憾的是,随着稀疏度提高,loss 曲线变得越来越陡峭(不平坦)。极小点平坦度与测试准确率之间并没有呈现出相关关系。
另一是学习距离假说(Learning Distance Hypothesis)。已有理论工作证明,深度学习模型的复杂度与参数到初始化的 l2 距离(学习距离)息息相关 [6]。学习距离越小,说明模型停留在离初始化越近的位置,好比早停时获得的模型参数,此时还没有足够的复杂度记忆噪声;反之,则说明模型在参数空间上的改变就越大,此时复杂度更高,容易过拟合。
那么,学习距离的变化可以反应双下降的趋势吗?
▲模型学习距离与测试准确率的变化曲线
如图可见,当准确率下降时,学习距离整体呈上升趋势,且最高点恰好对应准确率的最低点;而当准确率上升时,学习距离也相应下降。学习距离的变化与稀疏双下降的变化趋势基本吻合(尽管当测试准确率第二次下降时,由于可训练的参数过少,学习距离难以再次上升了)。
我们还进行了彩票假说中 winning ticket 与重新随机初始化的对比实验。有趣的是,在双下降情景下,彩票假说的初始化方式并不总是优于对网络重新初始化的效果。
在做这项研究的过程中,我们观察到了一些神奇的、反直觉的实验现象,并尝试进行了分析解释。然而,现有的理论工作还无法完全地解释这些现象存在的原因。比如说在训练准确率接近 100% 时,测试准确率会随着剪枝逐渐下降。为何此时模型没有遗忘数据中的复杂特征,反而对噪声更加严重的过拟合?
我们还观察到模型的学习距离会随着稀疏度增加先上升后下降,为何剪枝会导致模型学习距离发生这样的变化?以及深度学习模型的双下降现象往往需要对输入增加标签噪声才可以观察到 [2],决定双下降是否发生的背后机制是什么?
还有很多问题目前尚无答案。我们现在也在进行一个新的理论工作,以期能对其中的一个或几个问题进行解释。希望可以早日拨开迷雾,探明这一现象背后的本质原因。
参考链接
[1] Belkin, M., Hsu, D., Ma, S., & Mandal, S. (2018). Reconciling modern machine learning and the bias-variance trade-off.stat,1050, 28.
[2] Nakkiran, P., Kaplun, G., Bansal, Y., Yang, T., Barak, B., & Sutskever, I. Deep double descent: Where bigger models and more data hurt. ICLR 2020.
[3] Frankle J., & Carbin, M. The lottery ticket hypothesis: Finding sparse, trainable neural networks. ICLR 2019.
[4] Hoefler, T., Alistarh, D., Ben-Nun, T., Dryden, N., & Peste, A. Sparsity in deep learning: Pruning and growth for efficient inference and training in neural networks. arXiv preprint arXiv:2102.00554, 2021.
[5] Bartoldson, B., Morcos, A. S., Barbu, A., and Erlebacher, G. The generalization-stability tradeoff in neural network pruning. NIPS, 2020.
[6] Nagarajan, V. and Kolter, J. Z. Generalization in deep networks: The role of distance from initialization. arXiv preprint arXiv:1901.01672, 2019.
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧