在这篇论文中,我展示了从训练初期开始,典型的计算机视觉神经网络就包含了能够单独训练以达到与原始未剪枝网络相同准确度的子网络。这些子网络——我通过在训练后剪枝并将权重回溯到训练早期的值来追溯地找到——与训练后最先进剪枝技术产生的子网络大小相同。它们依赖于结构和初始化的组合:如果修改了其中任何一个(通过重新初始化网络或改变每层剪枝的权重),准确度会下降。 在小规模设置中,我展示了这些子网络从初始化时就存在;在大规模设置中,我展示了它们在训练早期(< 训练进程的5%)就存在。一般而言,我发现这些子网络在优化它们的结果变得对用于训练它们的随机梯度下降(SGD)噪声的样本稳健时出现;也就是说,当它们不管数据顺序如何都训练到损失景观的相同凸区域时。这在小规模设置中在初始化时发生,在大规模设置中在训练早期发生。 这些发现的含义是,可能可以在训练早期对神经网络进行剪枝,这将创造一个从那时起大幅减少训练成本的机会。为了实现这一目标,我建立了一个框架,说明解决这个问题的成功会是什么样子,并调查了在初始化和训练早期剪枝神经网络的现有技术。我发现,在初始化时的幅度剪枝与该任务的最先进性能相匹配。此外,现有技术提取的唯一信息是剪枝网络的每层比例;在幅度剪枝的情况下,这意味着实现最先进结果所需的唯一信号是方差缩放初始化技术所使用的每层宽度。