Understanding capabilities and limitations of different network architectures is of fundamental importance to machine learning. Bayesian inference on Gaussian processes has proven to be a viable approach for studying recurrent and deep networks in the limit of infinite layer width, $n\to\infty$. Here we present a unified and systematic derivation of the mean-field theory for both architectures that starts from first principles by employing established methods from statistical physics of disordered systems. The theory elucidates that while the mean-field equations are different with regard to their temporal structure, they yet yield identical Gaussian kernels when readouts are taken at a single time point or layer, respectively. Bayesian inference applied to classification then predicts identical performance and capabilities for the two architectures. Numerically, we find that convergence towards the mean-field theory is typically slower for recurrent networks than for deep networks and the convergence speed depends non-trivially on the parameters of the weight prior as well as the depth or number of time steps, respectively. Our method exposes that Gaussian processes are but the lowest order of a systematic expansion in $1/n$. The formalism thus paves the way to investigate the fundamental differences between recurrent and deep architectures at finite widths $n$.


翻译:理解不同网络结构的能力和局限性对于机器学习至关重要。 贝叶斯对高山进程的推论已证明是研究无限层宽度范围内的重复式和深层网络的可行方法。 在这里,我们提出对这两种结构的中位理论的统一和系统推导,这种推论从最初原则开始,采用来自混乱系统统计物理学的既定方法,从最初原则开始,采用混乱系统的统计物理方法; 理论说明,虽然平均场方程与其时间结构不同,但是在一次时间点或一层分别进行读出时,却产生相同的高斯内核。 用于分类的贝叶斯推论预测了两种结构的相同性能和能力。 从数字上看,我们发现,对于常态网络而言,与深层网络相比,与中位理论的趋同通常慢,而趋同速度取决于前重的参数以及深度或时间步骤的数量。 我们的方法显示,在一次时间点或层分别进行读取时空进程时,高斯内核内核内核的内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内核内

0
下载
关闭预览

相关内容

Networking:IFIP International Conferences on Networking。 Explanation:国际网络会议。 Publisher:IFIP。 SIT: http://dblp.uni-trier.de/db/conf/networking/index.html
专知会员服务
51+阅读 · 2021年5月30日
【干货书】机器学习速查手册,135页pdf
专知会员服务
123+阅读 · 2020年11月20日
神经网络的拓扑结构,TOPOLOGY OF DEEP NEURAL NETWORKS
专知会员服务
31+阅读 · 2020年4月15日
IJCAI 2020丨近期必读七篇【深度强化学习】论文
学术头条
4+阅读 · 2020年9月28日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
【深度学习基础】4. Recurrent Neural Networks
微信AI
16+阅读 · 2017年7月19日
Arxiv
9+阅读 · 2021年10月5日
Arxiv
37+阅读 · 2021年2月10日
Memory-Gated Recurrent Networks
Arxiv
12+阅读 · 2020年12月24日
Recent advances in deep learning theory
Arxiv
50+阅读 · 2020年12月20日
Arxiv
3+阅读 · 2018年10月25日
Relational recurrent neural networks
Arxiv
8+阅读 · 2018年6月28日
VIP会员
相关资讯
IJCAI 2020丨近期必读七篇【深度强化学习】论文
学术头条
4+阅读 · 2020年9月28日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
计算机视觉近一年进展综述
机器学习研究会
8+阅读 · 2017年11月25日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
【深度学习基础】4. Recurrent Neural Networks
微信AI
16+阅读 · 2017年7月19日
相关论文
Arxiv
9+阅读 · 2021年10月5日
Arxiv
37+阅读 · 2021年2月10日
Memory-Gated Recurrent Networks
Arxiv
12+阅读 · 2020年12月24日
Recent advances in deep learning theory
Arxiv
50+阅读 · 2020年12月20日
Arxiv
3+阅读 · 2018年10月25日
Relational recurrent neural networks
Arxiv
8+阅读 · 2018年6月28日
Top
微信扫码咨询专知VIP会员