Training deep neural networks with an $L_0$ regularization is one of the prominent approaches for network pruning or sparsification. The method prunes the network during training by encouraging weights to become exactly zero. However, recent work of Gale et al. reveals that although this method yields high compression rates on smaller datasets, it performs inconsistently on large-scale learning tasks, such as ResNet50 on ImageNet. We analyze this phenomenon through the lens of variational inference and find that it is likely due to the independent modeling of binary gates, the mean-field approximation, which is known in Bayesian statistics for its poor performance due to the crude approximation. To mitigate this deficiency, we propose a dependency modeling of binary gates, which can be modeled effectively as a multi-layer perceptron (MLP). We term our algorithm Dep-$L_0$ as it prunes networks via a dependency-enabled $L_0$ regularization. Extensive experiments on CIFAR10, CIFAR100 and ImageNet with VGG16, ResNet50, ResNet56 show that our Dep-$L_0$ outperforms the original $L_0$-HC algorithm of Louizos et al. by a significant margin, especially on ImageNet. Compared with the state-of-the-arts network sparsification algorithms, our dependency modeling makes the $L_0$-based sparsification once again very competitive on large-scale learning tasks. Our source code is available at https://github.com/leo-yangli/dep-l0.


翻译:以 $L_0美元 正规化的深度神经网络培训深度神经网络是网络运行或垃圾化的突出方法之一。 该方法在培训期间通过鼓励重量完全变为零而使网络在培训中变得零。 然而,Gale等人最近的工作表明,虽然该方法在较小的数据集上产生高压缩率,但在大规模学习任务上,例如图像网络上的ResNet50等,该方法的表现却不一致。我们从可变推论的角度分析这一现象,发现它很可能是由于双向门的独立模型,即平均场近似,在Bayesian的统计数据中,由于粗略的逼近,其表现不佳。为了减轻这一缺陷,我们建议对二元门进行依赖性模型化,该方法可以有效地作为多层透视器(MLP)进行模拟。我们称它为Dep-L_0美元,因为它是依靠依赖的 $L_0 正规化。 CiFAR10, CIFAR100 和 VG16 ResNet50 的图像源代码,ResNet56 显示我们的D-ral-alalalalal_alal_alisgistrational_ salislational_ sal_ sal_ sal_ salislational_ sal_ salationslationslationalational_ sal_ salationalationalationslational_legal_legal_ sal_legal_ex_legisional_ sal_ sal_ sal_ sal_ sal_ sal_ salisational_ sal_ sal_ sal_ sal_ sal_ sal_legational_ sal_ sal_ saliscalisalisal_xal_ salisgal_legal_legal_legal_ sal_ sal_ sal_ sal_ sal_ sal_ saliscalisalisalisalisalisalisal_legal_ salismal_ sal_legal_lemental_lemental_sal_lemental_lemental_lemental_lemental_exal_exal_ salisal_ sal_ sal_

0
下载
关闭预览

相关内容

神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
73+阅读 · 2020年8月2日
【Manning新书】现代Java实战,592页pdf
专知会员服务
100+阅读 · 2020年5月22日
【ICLR-2020】网络反卷积,NETWORK DECONVOLUTION
专知会员服务
39+阅读 · 2020年2月21日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
154+阅读 · 2019年10月12日
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Arxiv
3+阅读 · 2020年4月29日
Arxiv
6+阅读 · 2019年4月8日
CoCoNet: A Collaborative Convolutional Network
Arxiv
6+阅读 · 2019年1月28日
Arxiv
3+阅读 · 2017年12月14日
VIP会员
相关资讯
强化学习三篇论文 避免遗忘等
CreateAMind
19+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
Top
微信扫码咨询专知VIP会员