残差网络(ResNets)在模式识别方面显示了令人印象深刻的结果,最近,由于与神经常微分方程(neural ODEs)的感知联系,获得了相当大的理论兴趣。随着层数的增加,这条链路依赖于网络权值的收敛到平滑的函数。我们通过详细的数值实验研究了随机梯度下降训练权值的性质,以及它们随网络深度的变换。我们观察到有明显不同于神经ODE文献中假设的标度区存在。根据网络结构的某些特征,如激活函数的光滑性,人们可以得到另一个ODE极限,一个随机微分方程或两者都不能。这些发现对神经ODE模型作为深度ResNets的充分渐近描述的有效性提出了质疑,并指出了另一类微分方程作为深度网络极限的更好描述。
https://www.zhuanzhi.ai/paper/74bb9f3249e109282560f46658d244eb