Deep learning has been the engine powering many successes of data science. However, the deep neural network (DNN), as the basic model of deep learning, is often excessively over-parameterized, causing many difficulties in training, prediction and interpretation. We propose a frequentist-like method for learning sparse DNNs and justify its consistency under the Bayesian framework: the proposed method could learn a sparse DNN with at most $O(n/\log(n))$ connections and nice theoretical guarantees such as posterior consistency, variable selection consistency and asymptotically optimal generalization bounds. In particular, we establish posterior consistency for the sparse DNN with a mixture Gaussian prior, show that the structure of the sparse DNN can be consistently determined using a Laplace approximation-based marginal posterior inclusion probability approach, and use Bayesian evidence to elicit sparse DNNs learned by an optimization method such as stochastic gradient descent in multiple runs with different initializations. The proposed method is computationally more efficient than standard Bayesian methods for large-scale sparse DNNs. The numerical results indicate that the proposed method can perform very well for large-scale network compression and high-dimensional nonlinear variable selection, both advancing interpretable machine learning.


翻译:深度学习是数据科学许多成功动力的动力。然而,深神经网络(DNN)作为深深学习的基本模式,往往过于过度的参数化,在培训、预测和解释方面造成许多困难。我们提出了一种常见的学习稀有DNN的方法,在巴伊西亚框架下说明其一致性的理由:拟议方法可以学习稀疏的DNN,最多用美元(n/log(n))连接和良好的理论保障,如后传一致性、可变选择一致性和零星最佳一般化界限。特别是,我们为稀疏DNN建立后传一致性,并使用混合的Gaussian前版,表明稀散的DNNNN的结构可以使用拉普近似边缘后传概率方法持续确定,并使用Bayesian证据,通过优化方法,例如以不同初始化的多运行中随机梯度梯度梯度梯度梯度下降等,从而获得稀少的DNNN。拟议方法比大规模稀有的Bayesian方法效率更高。我们用混合的Gaussian 方法和高水平的机器选择方法都可以进行。数字和可变式的机器选择。

0
下载
关闭预览

相关内容

【图与几何深度学习】Graph and geometric deep learning,49页ppt
剑桥大学《数据科学: 原理与实践》课程,附PPT下载
专知会员服务
49+阅读 · 2021年1月20日
专知会员服务
50+阅读 · 2020年12月14日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
专知会员服务
44+阅读 · 2020年10月31日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【深度】可解释性与deep learning的发展
机器学习研究会
6+阅读 · 2017年10月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Recent advances in deep learning theory
Arxiv
50+阅读 · 2020年12月20日
Optimization for deep learning: theory and algorithms
Arxiv
104+阅读 · 2019年12月19日
Deep Learning
Arxiv
6+阅读 · 2018年8月3日
Stock Chart Pattern recognition with Deep Learning
Arxiv
6+阅读 · 2018年8月1日
Arxiv
8+阅读 · 2018年6月19日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
【深度】可解释性与deep learning的发展
机器学习研究会
6+阅读 · 2017年10月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Recent advances in deep learning theory
Arxiv
50+阅读 · 2020年12月20日
Optimization for deep learning: theory and algorithms
Arxiv
104+阅读 · 2019年12月19日
Deep Learning
Arxiv
6+阅读 · 2018年8月3日
Stock Chart Pattern recognition with Deep Learning
Arxiv
6+阅读 · 2018年8月1日
Arxiv
8+阅读 · 2018年6月19日
Top
微信扫码咨询专知VIP会员