Efficiently approximating local curvature information of the loss function is a key tool for optimization and compression of deep neural networks. Yet, most existing methods to approximate second-order information have high computational or storage costs, which can limit their practicality. In this work, we investigate matrix-free, linear-time approaches for estimating Inverse-Hessian Vector Products (IHVPs) for the case when the Hessian can be approximated as a sum of rank-one matrices, as in the classic approximation of the Hessian by the empirical Fisher matrix. We propose two new algorithms as part of a framework called M-FAC: the first algorithm is tailored towards network compression and can compute the IHVP for dimension $d$, if the Hessian is given as a sum of $m$ rank-one matrices, using $O(dm^2)$ precomputation, $O(dm)$ cost for computing the IHVP, and query cost $O(m)$ for any single element of the inverse Hessian. The second algorithm targets an optimization setting, where we wish to compute the product between the inverse Hessian, estimated over a sliding window of optimization steps, and a given gradient direction, as required for preconditioned SGD. We give an algorithm with cost $O(dm + m^2)$ for computing the IHVP and $O(dm + m^3)$ for adding or removing any gradient from the sliding window. These two algorithms yield state-of-the-art results for network pruning and optimization with lower computational overhead relative to existing second-order methods. Implementations are available at [9] and [17].


翻译:高效地接近损失函数的本地曲线信息是优化和压缩深层神经网络的关键工具。 然而,大多数现有的近似二阶信息的方法都具有高计算或存储成本,这可能会限制其实用性。 在这项工作中,我们调查了用于估算反赫西西亚矢量产品(IHVP)的无矩阵、线性时间方法,当赫西安人可以被比作一级矩阵的总和时,就像经验化渔业矩阵对赫西亚人的典型快速缩略图一样。我们建议了两个新的算法,作为称为M-FAC的框架的一部分:第一个算法是针对网络压缩的,并且可以按维特价计算IHVP的平价,如果赫西安人以一级矩阵总和美元计算,那么计算IHVP的第二位成本,然后用我们所希望的任何单元素在 Heseria-rorma 的平流成本。

0
下载
关闭预览

相关内容

【硬核书】矩阵代数基础,248页pdf
专知会员服务
85+阅读 · 2021年12月9日
专知会员服务
27+阅读 · 2021年7月3日
【图神经网络导论】Intro to Graph Neural Networks,176页ppt
专知会员服务
125+阅读 · 2021年6月4日
【硬核书】群论,Group Theory,135页pdf
专知会员服务
126+阅读 · 2020年6月25日
【斯坦福】凸优化圣经- Convex Optimization (附730pdf下载)
专知会员服务
222+阅读 · 2020年6月5日
强化学习最新教程,17页pdf
专知会员服务
176+阅读 · 2019年10月11日
已删除
将门创投
3+阅读 · 2019年9月4日
Graph Neural Network(GNN)最全资源整理分享
深度学习与NLP
339+阅读 · 2019年7月9日
目标检测中的Consistent Optimization
极市平台
6+阅读 · 2019年4月23日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
54+阅读 · 2022年1月1日
Arxiv
9+阅读 · 2021年6月21日
Arxiv
3+阅读 · 2017年12月1日
VIP会员
相关资讯
已删除
将门创投
3+阅读 · 2019年9月4日
Graph Neural Network(GNN)最全资源整理分享
深度学习与NLP
339+阅读 · 2019年7月9日
目标检测中的Consistent Optimization
极市平台
6+阅读 · 2019年4月23日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员