We study an approach to learning pruning masks by optimizing the expected loss of stochastic pruning masks, i.e., masks which zero out each weight independently with some weight-specific probability. We analyze the training dynamics of the induced stochastic predictor in the setting of linear regression, and observe a data-adaptive L1 regularization term, in contrast to the dataadaptive L2 regularization term known to underlie dropout in linear regression. We also observe a preference to prune weights that are less well-aligned with the data labels. We evaluate probabilistic fine-tuning for optimizing stochastic pruning masks for neural networks, starting from masks produced by several baselines. In each case, we see improvements in test error over baselines, even after we threshold fine-tuned stochastic pruning masks. Finally, since a stochastic pruning mask induces a stochastic neural network, we consider training the weights and/or pruning probabilities simultaneously to minimize a PAC-Bayes bound on generalization error. Using data-dependent priors, we obtain a selfbounded learning algorithm with strong performance and numerically tight bounds. In the linear model, we show that a PAC-Bayes generalization error bound is controlled by the magnitude of the change in feature alignment between the 'prior' and 'posterior' data.


翻译:我们研究一种方法来学习修剪面罩的修剪方法,优化预想的修剪面罩的损耗,即面罩,使每个重量以某种特定重量的概率独立地将每个重量除去;我们分析线性回归设置过程中导出随机预测器的培训动态,并观察一个数据适应性L1正规化术语,这与数据适应性L2正规化术语不同,该术语在线性回归中可以作为退缩的基础。我们还观察到一种偏向于与数据标签不相符的普鲁纳重量的偏好。我们从几个基线产生的口罩开始,对优化神经网络的透析性遮罩进行最佳调整。我们从若干基线产生的遮罩开始,我们从几个基开始,我们发现测试误差在基线上有所改进,即使在我们开始微调的经调整的L1调整形口罩之后,我们发现测试误差的L1个数据模拟和(或)正比值的模型,我们考虑同时培训重量和(或)正比值,以便最大限度地减少对神经网络的压误差。我们使用数据依赖前期,我们通过一个受控的内定的内定的自我测试,我们获得了一种受控的内定的数值的自我分析。

0
下载
关闭预览

相关内容

专知会员服务
28+阅读 · 2021年8月2日
剑桥大学《数据科学: 原理与实践》课程,附PPT下载
专知会员服务
49+阅读 · 2021年1月20日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
经典回顾 | Collaborative Metric Learning
机器学习与推荐算法
6+阅读 · 2020年9月18日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
神经网络训练tricks
极市平台
6+阅读 · 2019年4月15日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
10+阅读 · 2021年2月18日
Arxiv
11+阅读 · 2021年2月17日
Arxiv
5+阅读 · 2020年10月22日
VIP会员
相关资讯
经典回顾 | Collaborative Metric Learning
机器学习与推荐算法
6+阅读 · 2020年9月18日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
神经网络训练tricks
极市平台
6+阅读 · 2019年4月15日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员