We prove a precise geometric description of all one layer ReLU networks $z(x;\theta)$ with a single linear unit and input/output dimensions equal to one that interpolate a given dataset $\mathcal D=\{(x_i,f(x_i))\}$ and, among all such interpolants, minimize the $\ell_2$-norm of the neuron weights. Such networks can intuitively be thought of as those that minimize the mean-squared error over $\mathcal D$ plus an infinitesimal weight decay penalty. We therefore refer to them as ridgeless ReLU interpolants. Our description proves that, to extrapolate values $z(x;\theta)$ for inputs $x\in (x_i,x_{i+1})$ lying between two consecutive datapoints, a ridgeless ReLU interpolant simply compares the signs of the discrete estimates for the curvature of $f$ at $x_i$ and $x_{i+1}$ derived from the dataset $\mathcal D$. If the curvature estimates at $x_i$ and $x_{i+1}$ have different signs, then $z(x;\theta)$ must be linear on $(x_i,x_{i+1})$. If in contrast the curvature estimates at $x_i$ and $x_{i+1}$ are both positive (resp. negative), then $z(x;\theta)$ is convex (resp. concave) on $(x_i,x_{i+1})$. Our results show that ridgeless ReLU interpolants achieve the best possible generalization for learning $1d$ Lipschitz functions, up to universal constants.


翻译:我们证明了所有一层ReLU 网络的精确几何描述 $z( x;\theta) $1 美元( mathal D$ ) 和 无限重量腐蚀罚款。 因此,我们把它们称为无脊椎 ReLU 内部估计值。 我们的说明证明,对于输入的外推值$z( x_ i, f( x_ i)) $( x) 美元( x) 和在所有这些内推体中, 将神经重量的值最小化$( ell_ 2美元- norm) 。 这些网络可以直观地认为是那些将平均差差差差值降到$( mathal) D$( max) 和 $( $x) 内推值( 美元) 内算值( 美元) 和 美元内推值( 美元) 内推值( 美元) 内推值( 美元) 内推值( 美元) 内推值( 美元) 内算为 美元内算 美元内算 美元内算 美元 美元 。

0
下载
关闭预览

相关内容

神经常微分方程教程,50页ppt,A brief tutorial on Neural ODEs
专知会员服务
71+阅读 · 2020年8月2日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
39+阅读 · 2019年10月9日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【LeetCode 136】 关关的刷题日记32 Single Number
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Arxiv
0+阅读 · 2021年11月18日
Arxiv
0+阅读 · 2021年11月18日
Sequential Community Mode Estimation
Arxiv
0+阅读 · 2021年11月16日
Arxiv
0+阅读 · 2021年11月16日
Arxiv
0+阅读 · 2021年11月15日
Arxiv
0+阅读 · 2021年11月15日
VIP会员
相关资讯
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
【NIPS2018】接收论文列表
专知
5+阅读 · 2018年9月10日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【LeetCode 136】 关关的刷题日记32 Single Number
【学习】Hierarchical Softmax
机器学习研究会
4+阅读 · 2017年8月6日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Arxiv
0+阅读 · 2021年11月18日
Arxiv
0+阅读 · 2021年11月18日
Sequential Community Mode Estimation
Arxiv
0+阅读 · 2021年11月16日
Arxiv
0+阅读 · 2021年11月16日
Arxiv
0+阅读 · 2021年11月15日
Arxiv
0+阅读 · 2021年11月15日
Top
微信扫码咨询专知VIP会员