Curvature in form of the Hessian or its generalized Gauss-Newton (GGN) approximation is valuable for algorithms that rely on a local model for the loss to train, compress, or explain deep networks. Existing methods based on implicit multiplication via automatic differentiation or Kronecker-factored block diagonal approximations do not consider noise in the mini-batch. We present ViViT, a curvature model that leverages the GGN's low-rank structure without further approximations. It allows for efficient computation of eigenvalues, eigenvectors, as well as per-sample first- and second-order directional derivatives. The representation is computed in parallel with gradients in one backward pass and offers a fine-grained cost-accuracy trade-off, which allows it to scale. As examples for ViViT's usefulness, we investigate the directional gradients and curvatures during training, and how noise information can be used to improve the stability of second-order methods.


翻译:Hessian 或其通用的 Gaus- Newton (GGN) 近似曲线形式下的曲线对于依赖当地损失模型的算法进行训练、压缩或解释深层次网络是有价值的。基于通过自动区分或Kronecker- faciled block diagon countal coupilation的隐含乘法的现有方法并不考虑微型批量中的噪音。 我们介绍了ViViVT, 这是一种利用GGGN低级结构而无需进一步接近的曲线模型。 它使得能够有效地计算egenvals、 eigenvectors 和 per sample 一阶和二阶一阶方向衍生物。 表示方式与一个后端通道的梯度平行计算, 并提供细度成本- 准确性交易, 从而可以进行缩放。 作为 ViviT 的有用性示例, 我们在培训期间调查方向梯度和曲度结构, 以及如何使用噪音信息来提高二阶方法的稳定性。

0
下载
关闭预览

相关内容

专知会员服务
44+阅读 · 2020年10月31日
神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
31+阅读 · 2020年4月15日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
49+阅读 · 2020年2月26日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
“CVPR 2020 接受论文列表 1470篇论文都在这了
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
已删除
将门创投
8+阅读 · 2018年10月31日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年7月28日
Arxiv
0+阅读 · 2021年7月26日
Arxiv
0+阅读 · 2021年7月26日
Pointer Graph Networks
Arxiv
7+阅读 · 2020年6月11日
Arxiv
8+阅读 · 2018年5月21日
VIP会员
相关资讯
“CVPR 2020 接受论文列表 1470篇论文都在这了
分布式并行架构Ray介绍
CreateAMind
9+阅读 · 2019年8月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
TCN v2 + 3Dconv 运动信息
CreateAMind
4+阅读 · 2019年1月8日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
已删除
将门创投
8+阅读 · 2018年10月31日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员