We study the theory of neural network (NN) from the lens of classical nonparametric regression problems with a focus on NN's ability to adaptively estimate functions with heterogeneous smoothness -- a property of functions in Besov or Bounded Variation (BV) classes. Existing work on this problem requires tuning the NN architecture based on the function spaces and sample sizes. We consider a "Parallel NN" variant of deep ReLU networks and show that the standard weight decay is equivalent to promoting the $\ell_p$-sparsity ($0<p<1$) of the coefficient vector of an end-to-end learned function bases, i.e., a dictionary. Using this equivalence, we further establish that by tuning only the weight decay, such Parallel NN achieves an estimation error arbitrarily close to the minimax rates for both the Besov and BV classes. Notably, it gets exponentially closer to minimax optimal as the NN gets deeper. Our research sheds new lights on why depth matters and how NNs are more powerful than kernel methods.


翻译:我们从古典非参数回归问题的角度研究神经网络理论(NN),重点是NN是否有能力适应性地以不一的平滑度估计功能 -- -- 这是Besov或Bounded变异(BV)类函数的属性。关于该问题的现有工作需要根据功能空间和样本大小对NN结构进行调整。我们考虑深RELU网络的“Parallel NN”变体,并表明标准重量衰减相当于促进美元/ell_p$-parity(0<p <1美元)的终端至端学习函数基的系数矢量(即字典)的能力。我们利用这一等值进一步确定,通过只调整重量衰减,这种平行NNN将实现一个任意接近Besov和BV类微型负鼠标率的估计误差。值得注意的是,随着NNN越深,其指数性越接近于最小负峰值的最佳值。我们的研究为NN提供了新的灯光,说明为什么NNN的深度和如何比核心方法更强大。

0
下载
关闭预览

相关内容

【干货书】机器学习速查手册,135页pdf
专知会员服务
127+阅读 · 2020年11月20日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
43+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Arxiv
13+阅读 · 2021年5月25日
Arxiv
13+阅读 · 2019年11月14日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员