Efficient gradient computation of the Jacobian determinant term is a core problem in many machine learning settings, and especially so in the normalizing flow framework. Most proposed flow models therefore either restrict to a function class with easy evaluation of the Jacobian determinant, or an efficient estimator thereof. However, these restrictions limit the performance of such density models, frequently requiring significant depth to reach desired performance levels. In this work, we propose Self Normalizing Flows, a flexible framework for training normalizing flows by replacing expensive terms in the gradient by learned approximate inverses at each layer. This reduces the computational complexity of each layer's exact update from $\mathcal{O}(D^3)$ to $\mathcal{O}(D^2)$, allowing for the training of flow architectures which were otherwise computationally infeasible, while also providing efficient sampling. We show experimentally that such models are remarkably stable and optimize to similar data likelihood values as their exact gradient counterparts, while training more quickly and surpassing the performance of functionally constrained counterparts.


翻译:雅各克决定性词的有效梯度计算是许多机器学习环境中的一个核心问题,特别是在正常流程框架中尤其如此。 因此,大多数拟议的流程模型要么局限于功能类,容易评估雅各决定因素,要么有效估算。 但是,这些限制限制了这种密度模型的性能,往往要求深度相当,才能达到预期的性能水平。 在这项工作中,我们提议“自我标准化流程”是一个灵活的框架,通过在每一层学习到的近似反差来取代梯度中昂贵的流量来培训正常流。这降低了每个层精确更新的计算复杂性,从$\mathcal{O}(D3)美元到$\mathcal{O}(D2)美元,从而允许对原本计算不可行的流动结构进行培训,同时提供高效的抽样。 我们实验性地表明,这些模型非常稳定,最优化地与精确的梯度对应方相似的数据概率值相近,同时培训得更快并超过功能受制约的对应方的对应方的性能。

0
下载
关闭预览

相关内容

【干货书】机器学习速查手册,135页pdf
专知会员服务
125+阅读 · 2020年11月20日
专知会员服务
44+阅读 · 2020年10月31日
最新《序列预测问题导论》教程,212页ppt
专知会员服务
84+阅读 · 2020年8月22日
Python计算导论,560页pdf,Introduction to Computing Using Python
专知会员服务
72+阅读 · 2020年5月5日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
用霍夫变换&SCNN码一个车道追踪器
全球人工智能
4+阅读 · 2019年2月10日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年8月4日
Arxiv
9+阅读 · 2021年4月8日
Learning to Importance Sample in Primary Sample Space
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
用霍夫变换&SCNN码一个车道追踪器
全球人工智能
4+阅读 · 2019年2月10日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
MoCoGAN 分解运动和内容的视频生成
CreateAMind
18+阅读 · 2017年10月21日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员