Deep neural networks (DNNs) in the infinite width/channel limit have received much attention recently, as they provide a clear analytical window to deep learning via mappings to Gaussian Processes (GPs). Despite its theoretical appeal, this viewpoint lacks a crucial ingredient of deep learning in finite DNNs, laying at the heart of their success -- feature learning. Here we consider DNNs trained with noisy gradient descent on a large training set and derive a self consistent Gaussian Process theory accounting for strong finite-DNN and feature learning effects. Applying this to a toy model of a two-layer linear convolutional neural network (CNN) shows good agreement with experiments. We further identify, both analytical and numerically, a sharp transition between a feature learning regime and a lazy learning regime in this model. Strong finite-DNN effects are also derived for a non-linear two-layer fully connected network. Our self consistent theory provides a rich and versatile analytical framework for studying feature learning and other non-lazy effects in finite DNNs.


翻译:无限宽度/通道限制的深神经网络(DNNs)最近受到极大关注,因为它们为通过绘制高斯进程图进行深层次学习提供了一个清晰的分析窗口。尽管这种观点具有理论吸引力,但它缺乏在有限的DNS深层学习的关键内容,处于其成功的核心 -- -- 特征学习。在这里,我们认为在大型培训组中接受过高斯过程理论培训的音频梯度下降的DNNs在大型培训组上得到了大量培训,并得出了一种自相一致的高斯过程理论,其中考虑到强大的有限DNN和特征学习效果。将这一理论应用到两层线线线性神经网络(CNN)的玩具模型中,显示了与实验的良好一致。我们进一步从分析上和数字上确定,特性学习制度与这一模型中的懒惰学习制度之间有着深刻的转变。强势的有限-DNNN效应还衍生出一个非线性双层网络。我们的自我一致理论为研究有限DNPS的特征学习和其他非锁效应提供了丰富和多功能分析框架。

0
下载
关闭预览

相关内容

在机器学习中,表征学习或表示学习是允许系统从原始数据中自动发现特征检测或分类所需的表示的一组技术。这取代了手动特征工程,并允许机器学习特征并使用它们执行特定任务。在有监督的表征学习中,使用标记的输入数据来学习特征,包括监督神经网络,多层感知器和(监督)字典学习。在无监督表征学习中,特征是与未标记的输入数据一起学习的,包括字典学习,独立成分分析,自动编码器,矩阵分解和各种形式的聚类。
【经典书】主动学习理论,226页pdf,Theory of Active Learning
专知会员服务
124+阅读 · 2021年7月14日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
58+阅读 · 2019年10月17日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
30+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
LibRec 精选:基于参数共享的CNN-RNN混合模型
LibRec智能推荐
6+阅读 · 2019年3月7日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】深度学习时序处理文献列表
机器学习研究会
7+阅读 · 2017年11月29日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2021年8月3日
Arxiv
0+阅读 · 2021年7月31日
Arxiv
11+阅读 · 2021年3月25日
Arxiv
18+阅读 · 2021年3月16日
Do RNN and LSTM have Long Memory?
Arxiv
19+阅读 · 2020年6月10日
VIP会员
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
LibRec 精选:基于参数共享的CNN-RNN混合模型
LibRec智能推荐
6+阅读 · 2019年3月7日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】深度学习时序处理文献列表
机器学习研究会
7+阅读 · 2017年11月29日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员