Training Restricted Boltzmann Machines (RBMs) has been challenging for a long time due to the difficulty of computing precisely the log-likelihood gradient. Over the past decades, many works have proposed more or less successful training recipes but without studying the crucial quantity of the problem: the mixing time i.e. the number of Monte Carlo iterations needed to sample new configurations from a model. In this work, we show that this mixing time plays a crucial role in the dynamics and stability of the trained model, and that RBMs operate in two well-defined regimes, namely equilibrium and out-of-equilibrium, depending on the interplay between this mixing time of the model and the number of steps, $k$, used to approximate the gradient. We further show empirically that this mixing time increases with the learning, which often implies a transition from one regime to another as soon as $k$ becomes smaller than this time. In particular, we show that using the popular $k$ (persistent) contrastive divergence approaches, with $k$ small, the dynamics of the learned model are extremely slow and often dominated by strong out-of-equilibrium effects. On the contrary, RBMs trained in equilibrium display faster dynamics, and a smooth convergence to dataset-like configurations during the sampling. Finally we discuss how to exploit in practice both regimes depending on the task one aims to fulfill: (i) short $k$s can be used to generate convincing samples in short times, (ii) large $k$ (or increasingly large) must be used to learn the correct equilibrium distribution of the RBM.


翻译:培训限制的 Boltzmann 机器( RBMS) 长期以来一直具有挑战性, 原因是很难精确计算日志相似度梯度。 在过去几十年里, 许多工程都提出了多少或更少的成功培训配方, 但没有研究问题的关键数量: 混合时间, 即从模型中抽取新配置样本所需的蒙特卡洛迭代次数。 在这项工作中, 我们显示, 这种混合时间在经过培训的模式的动态和稳定性中发挥着关键作用, 并且成果管理制在两种定义明确的制度下运作, 即平衡和不均匀, 取决于模型的平衡分配时间和用于接近梯度的步骤数量之间的相互作用。 我们从经验上进一步表明, 混合时间会随着学习时间的混合而增加, 这往往意味着当美元比这个模式小的时候, 混合时间会在经过培训的短期美元( 可见的) 对比性差异化方法, 也就是低价廉, 学习的模型的动态必须非常缓慢, 并且往往以强烈的超正比的汇率方法为主 。 在经过培训的大幅的汇率上,, 快速地, 快速地, 学习 。

0
下载
关闭预览

相关内容

【UBC】高级机器学习课程,Advanced Machine Learning
专知会员服务
23+阅读 · 2021年1月26日
专知会员服务
112+阅读 · 2019年12月24日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Machine Learning:十大机器学习算法
开源中国
19+阅读 · 2018年3月1日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年7月16日
Arxiv
6+阅读 · 2019年12月30日
Arxiv
22+阅读 · 2019年11月24日
Learning to Importance Sample in Primary Sample Space
VIP会员
相关VIP内容
【UBC】高级机器学习课程,Advanced Machine Learning
专知会员服务
23+阅读 · 2021年1月26日
专知会员服务
112+阅读 · 2019年12月24日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
144+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
167+阅读 · 2019年10月11日
相关资讯
Multi-Task Learning的几篇综述文章
深度学习自然语言处理
15+阅读 · 2020年6月15日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Machine Learning:十大机器学习算法
开源中国
19+阅读 · 2018年3月1日
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员