Recent works have demonstrated that increasing model capacity through width in over-parameterized neural networks leads to a decrease in test risk. For neural networks, however, model capacity can also be increased through depth, yet understanding the impact of increasing depth on test risk remains an open question. In this work, we demonstrate that the test risk of over-parameterized convolutional networks is a U-shaped curve (i.e. monotonically decreasing, then increasing) with increasing depth. We first provide empirical evidence for this phenomenon via image classification experiments using both ResNets and the convolutional neural tangent kernel (CNTK). We then present a novel linear regression framework for characterizing the impact of depth on test risk, and show that increasing depth leads to a U-shaped test risk for the linear CNTK. In particular, we prove that the linear CNTK corresponds to a depth-dependent linear transformation on the original space and characterize properties of this transformation. We then analyze over-parameterized linear regression under arbitrary linear transformations and, in simplified settings, provably identify the depths which minimize each of the bias and variance terms of the test risk.


翻译:最近的工程表明,通过超参数神经网络的宽度而增加模型能力会导致测试风险的减少。然而,对于神经网络来说,模型能力也可以通过深度而提高,但了解深度越深对测试风险的影响仍然是一个未决问题。在这项工作中,我们证明,超参数化的卷变网络的试验风险是一个U形曲线(即单体缩小,然后增加),其深度越来越大。我们首先通过图像分类实验,利用ResNets(ResNets)和Culvical神经红心内核(CNTK),为这一现象提供经验证据。然后,我们提出了一个新的线性回归框架,说明深度对测试风险的影响,并表明深度的提高导致线性CNTK(CNTK)的U形测试风险。特别是,我们证明线性CNTK(C)与原始空间的深度依赖线性线变一致,并描述这种变的特性。我们随后在任意线性变换和简化环境中分析过分的线性反差线性回归深度,并准确地确定将试验风险的深度最小化。

0
下载
关闭预览

相关内容

专知会员服务
50+阅读 · 2020年12月14日
神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
72+阅读 · 2020年8月2日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
78+阅读 · 2020年7月26日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
PyTorch 学习笔记(七):PyTorch的十个优化器
极市平台
8+阅读 · 2019年5月19日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
误差反向传播——RNN
统计学习与视觉计算组
18+阅读 · 2018年9月6日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Deep Neural Networks and PIDE discretizations
Arxiv
0+阅读 · 2021年8月5日
Arxiv
23+阅读 · 2018年10月1日
Arxiv
3+阅读 · 2018年8月17日
Arxiv
5+阅读 · 2017年12月14日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
PyTorch 学习笔记(七):PyTorch的十个优化器
极市平台
8+阅读 · 2019年5月19日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
误差反向传播——RNN
统计学习与视觉计算组
18+阅读 · 2018年9月6日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【推荐】决策树/随机森林深入解析
机器学习研究会
5+阅读 · 2017年9月21日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Top
微信扫码咨询专知VIP会员