Despite the predominant use of first-order methods for training deep learning models, second-order methods, and in particular, natural gradient methods, remain of interest because of their potential for accelerating training through the use of curvature information. Several methods with non-diagonal preconditioning matrices, including KFAC, Shampoo, and K-BFGS, have been proposed and shown to be effective. Based on the so-called tensor normal (TN) distribution, we propose and analyze a brand new approximate natural gradient method, Tensor Normal Training (TNT), which like Shampoo, only requires knowledge of the shape of the training parameters. By approximating the probabilistically based Fisher matrix, as opposed to the empirical Fisher matrix, our method uses the block-wise covariance of the sampling based gradient as the pre-conditioning matrix. Moreover, the assumption that the sampling-based (tensor) gradient follows a TN distribution, ensures that its covariance has a Kronecker separable structure, which leads to a tractable approximation to the Fisher matrix. Consequently, TNT's memory requirements and per-iteration computational costs are only slightly higher than those for first-order methods. In our experiments, TNT exhibited superior optimization performance to state-of-the-art first-order methods, and comparable optimization performance to the state-of-the-art second-order methods KFAC and Shampoo. Moreover, TNT demonstrated its ability to generalize as well as first-order methods, while using fewer epochs.


翻译:尽管在培训深层次学习模型方面主要使用一级方法,但二阶方法,特别是自然梯度方法,仍然令人感兴趣,因为它们有可能通过使用弯曲信息加快培训速度。一些使用非直角先决条件矩阵的方法,包括KFAC、Shampoo和K-BFGS,已经提出并证明是有效的。根据所谓的高端正常(TN)分布,我们提议并分析一种品牌新的近似自然梯度法,Tensor正常培训(TNT),这与Shampoo一样,只需要了解培训参数的形状。因此,相对于实证的渔业矩阵,我们的方法采用以概率为基础的渔业矩阵基质矩阵,我们的方法采用基于取样梯度的轮廓轮廓轮廓轮廓轮廓轮廓轮廓轮廓轮廓轮廓轮廓轮廓轮廓轮转,其第二个变式结构比Kronecker separble(TNT)更小,这只导致与渔业矩阵的轮廓相近。因此,TNT-NT的记忆和机序级平级平级平级平级计算方法仅以其平级平级平级平整的平整。这些方法,其平级平级平级平级的平级的平级的平级计算方法,其平比我们的平级计算方法,其平级平级平级的平级的平级的平级平级计算方法仅是。

0
下载
关闭预览

相关内容

Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
4+阅读 · 2020年3月19日
Optimization for deep learning: theory and algorithms
Arxiv
104+阅读 · 2019年12月19日
Arxiv
17+阅读 · 2019年3月28日
Arxiv
8+阅读 · 2018年6月19日
Arxiv
9+阅读 · 2018年3月28日
Arxiv
3+阅读 · 2018年2月24日
Arxiv
6+阅读 · 2018年2月24日
VIP会员
相关VIP内容
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
152+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Arxiv
4+阅读 · 2020年3月19日
Optimization for deep learning: theory and algorithms
Arxiv
104+阅读 · 2019年12月19日
Arxiv
17+阅读 · 2019年3月28日
Arxiv
8+阅读 · 2018年6月19日
Arxiv
9+阅读 · 2018年3月28日
Arxiv
3+阅读 · 2018年2月24日
Arxiv
6+阅读 · 2018年2月24日
Top
微信扫码咨询专知VIP会员