In this paper, we develop an alternating direction method of multipliers (ADMM) for deep neural networks training with sigmoid-type activation functions (called \textit{sigmoid-ADMM pair}), mainly motivated by the gradient-free nature of ADMM in avoiding the saturation of sigmoid-type activations and the advantages of deep neural networks with sigmoid-type activations (called deep sigmoid nets) over their rectified linear unit (ReLU) counterparts (called deep ReLU nets) in terms of approximation. In particular, we prove that the approximation capability of deep sigmoid nets is not worse than that of deep ReLU nets by showing that ReLU activation function can be well approximated by deep sigmoid nets with two hidden layers and finitely many free parameters but not vice-verse. We also establish the global convergence of the proposed ADMM for the nonlinearly constrained formulation of the deep sigmoid nets training from arbitrary initial points to a Karush-Kuhn-Tucker (KKT) point at a rate of order ${\cal O}(1/k)$. Besides sigmoid activation, such a convergence theorem holds for a general class of smooth activations. Compared with the widely used stochastic gradient descent (SGD) algorithm for the deep ReLU nets training (called ReLU-SGD pair), the proposed sigmoid-ADMM pair is practically stable with respect to the algorithmic hyperparameters including the learning rate, initial schemes and the pro-processing of the input data. Moreover, we find that to approximate and learn simple but important functions the proposed sigmoid-ADMM pair numerically outperforms the ReLU-SGD pair.


翻译:在本文中,我们为深神经网络的培训开发了一个交替方向的倍数(ADMM)方法,该方法主要出于ADM的无梯度性质,以避免模拟类型激活的饱和性,以及深神经网络的优点,即具有类类激活(所谓的深类网),而不是经纠正的线性单元(RELU)(所谓的深重ReLU网),在近似方面。特别是,我们证明深类网络的近距离能力并不比深类网络更差(称为\ textit{sigmod-AD 配对对),其动机主要是由于ADMD的无梯度性质,而避免了Sigmod型激活的渐渐变性,我们还建立了拟议的ADMU网络的全球性趋同性组合,从任意的初始点到Karush-Kuhn-Tuck(KTral-ral-ral-ral-ral-rational-ral-ral-ral-ral-ral-ral-ral-ral-ral-ral-ral-ral-lation slation-ral-ral-ral-lation slation slation-lation-lation-lation-lation-lational-lational-lational-lational-leval-lational-l),我们证明,我们证明, 和Sl-sal-sal-sal-leval-leval-lation-lation-lation-lation-lation-lation-lation-lation-lational-ld-ld-de-ldal-ld-ldal-ld-ld-ld-ldal-ld-ldal-ld-ld-ld-ld-ldal-ldal-ldal-ld-ldal-ldal-ldal-ld-ld-ld-ldal-ld-ld-ldal-ld-ld-ld-ld-ld-ld-ld-ld-ldal-ld-ld-l化,用于G)

0
下载
关闭预览

相关内容

两人亲密社交应用,官网: trypair.com/
专知会员服务
31+阅读 · 2021年7月15日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
65+阅读 · 2021年6月18日
Arxiv
49+阅读 · 2021年5月9日
Arxiv
7+阅读 · 2020年12月10日
Deep Learning
Arxiv
6+阅读 · 2018年8月3日
VIP会员
相关资讯
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Top
微信扫码咨询专知VIP会员