Using second-order optimization methods for training deep neural networks (DNNs) has attracted many researchers. A recently proposed method, Eigenvalue-corrected Kronecker Factorization (EKFAC) (George et al., 2018), proposes an interpretation of viewing natural gradient update as a diagonal method, and corrects the inaccurate re-scaling factor in the Kronecker-factored eigenbasis. Gao et al. (2020) considers a new approximation to the natural gradient, which approximates the Fisher information matrix (FIM) to a constant multiplied by the Kronecker product of two matrices and keeps the trace equal before and after the approximation. In this work, we combine the ideas of these two methods and propose Trace-restricted Eigenvalue-corrected Kronecker Factorization (TEKFAC). The proposed method not only corrects the inexact re-scaling factor under the Kronecker-factored eigenbasis, but also considers the new approximation method and the effective damping technique proposed in Gao et al. (2020). We also discuss the differences and relationships among the Kronecker-factored approximations. Empirically, our method outperforms SGD with momentum, Adam, EKFAC and TKFAC on several DNNs.


翻译:利用第二阶优化方法培训深神经网络吸引了许多研究人员。最近提出的一种方法,即Eigenvalue-校正Kronecker Pricalization (EKFAC) (George等人,2018年),建议将自然梯度更新作为一种对角法加以解释,纠正Kronecker-因果性乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型乙型

0
下载
关闭预览

相关内容

最新《Transformers模型》教程,64页ppt
专知会员服务
309+阅读 · 2020年11月26日
【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年1月16日
Arxiv
0+阅读 · 2021年1月14日
Arxiv
5+阅读 · 2017年12月14日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
RL 真经
CreateAMind
5+阅读 · 2018年12月28日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【推荐】SVM实例教程
机器学习研究会
17+阅读 · 2017年8月26日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员