The loss landscapes of neural networks contain minima and saddle points that may be connected in flat regions or appear in isolation. We identify and characterize a special structure in the loss landscape: channels along which the loss decreases extremely slowly, while the output weights of at least two neurons, $a_i$ and $a_j$, diverge to $\pm$infinity, and their input weight vectors, $\mathbf{w_i}$ and $\mathbf{w_j}$, become equal to each other. At convergence, the two neurons implement a gated linear unit: $a_i\sigma(\mathbf{w_i} \cdot \mathbf{x}) + a_j\sigma(\mathbf{w_j} \cdot \mathbf{x}) \rightarrow \sigma(\mathbf{w} \cdot \mathbf{x}) + (\mathbf{v} \cdot \mathbf{x}) \sigma'(\mathbf{w} \cdot \mathbf{x})$. Geometrically, these channels to infinity are asymptotically parallel to symmetry-induced lines of critical points. Gradient flow solvers, and related optimization methods like SGD or ADAM, reach the channels with high probability in diverse regression settings, but without careful inspection they look like flat local minima with finite parameter values. Our characterization provides a comprehensive picture of these quasi-flat regions in terms of gradient dynamics, geometry, and functional interpretation. The emergence of gated linear units at the end of the channels highlights a surprising aspect of the computational capabilities of fully connected layers.


翻译:神经网络的损失景观包含可通过平坦区域相连或孤立存在的极小值与鞍点。我们识别并刻画了损失景观中的一种特殊结构:沿着这些通道,损失下降极为缓慢,同时至少两个神经元的输出权重 $a_i$ 和 $a_j$ 发散至 $\pm$ 无穷大,而它们的输入权重向量 $\mathbf{w_i}$ 和 $\mathbf{w_j}$ 趋于彼此相等。在收敛时,这两个神经元实现了一个门控线性单元:$a_i\sigma(\mathbf{w_i} \cdot \mathbf{x}) + a_j\sigma(\mathbf{w_j} \cdot \mathbf{x}) \rightarrow \sigma(\mathbf{w} \cdot \mathbf{x}) + (\mathbf{v} \cdot \mathbf{x}) \sigma'(\mathbf{w} \cdot \mathbf{x})$。从几何角度看,这些通向无穷的通道渐近平行于对称性诱导的临界点线。梯度流求解器及相关优化方法(如 SGD 或 ADAM)在多种回归设定下以高概率抵达这些通道,但若不仔细检查,它们看起来像是具有有限参数值的平坦局部极小值。我们的刻画从梯度动力学、几何结构与功能解释的角度,为这些准平坦区域提供了完整的图景。通道末端门控线性单元的出现,突显了全连接层计算能力的一个令人惊讶的方面。

0
下载
关闭预览

相关内容

【AAAI2023】图序注意力网络
专知会员服务
46+阅读 · 2022年11月24日
【ICLR2022】GNN-LM基于全局信息的图神经网络语义理解模型
专知会员服务
24+阅读 · 2020年9月15日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
495+阅读 · 2023年3月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员