A recent numerical study observed that neural network classifiers enjoy a large degree of symmetry in the penultimate layer. Namely, if $h(x) = Af(x) +b$ where $A$ is a linear map and $f$ is the output of the penultimate layer of the network (after activation), then all data points $x_{i, 1}, \dots, x_{i, N_i}$ in a class $C_i$ are mapped to a single point $y_i$ by $f$ and the points $y_i$ are located at the vertices of a regular $k-1$-dimensional standard simplex in a high-dimensional Euclidean space. We explain this observation analytically in toy models for highly expressive deep neural networks. In complementary examples, we demonstrate rigorously that even the final output of the classifier $h$ is not uniform over data samples from a class $C_i$ if $h$ is a shallow network (or if the deeper layers do not bring the data samples into a convenient geometric configuration).
翻译:最近的一项数字研究发现,在倒数第二层中,神经网络分类者享有很大程度的对称性。 也就是说, 如果$h(x) = Af(x) +b$, 其中美元为线性地图, 美元是网络倒数第二层的输出( 激活后), 那么所有数据点 $x ⁇ i, 1}, \ dots, x ⁇ i, N_i} 美元, 美元为美元, 美元为美元, 美元为美元 = 美元, 美元 = 美元 = + 美元, 美元是位于一个普通的 $- 1 标准平面的悬浮点, 在高维的 Euclidean 空间中, 美元为美元 。 我们用热度深度神经网络的铁模型来分析这一观测结果。 在补充的例子中, 我们严格地证明, 即使是分类的最后输出值$hh$( $_ i) 也与从一个 lex $ ( $ $ 美元为浅网络的数据样本不统一 (或者如果深层不将数据样品纳入一个方便的地理结构)。