最近的研究表明,神经网络学习的许多重要方面都发生在训练的最早阶段。例如,稀疏的、可训练的子网络出现(Frankle et al., 2019),梯度下降移动到一个小的子空间(guri - ari et al., 2018),网络经历一个关键时期(Achille et al., 2019)。在这里,我们检查了深层神经网络在早期训练阶段所经历的变化。在这些早期的训练迭代中,我们对网络状态进行了广泛的测量,并利用Frankle等人(2019)的框架来定量探测权重分布及其对数据集各个方面的依赖。我们发现,在这个框架中,深度网络在保持符号的同时,对随机权值的重新初始化不够健壮,并且即使经过几百次迭代,权值的分布仍然是非独立的。尽管存在这种行为,使用模糊输入或辅助自监督任务的预训练可以近似监督网络中的变化,这表明这些变化并不是固有的标签依赖,尽管标签显著地加速了这一过程。综上所述,这些结果有助于阐明在学习的关键初始阶段所发生的网络变化。

成为VIP会员查看完整内容
17

相关内容

【牛津大学&DeepMind】自监督学习教程,141页ppt
专知会员服务
177+阅读 · 2020年5月29日
【Google】监督对比学习,Supervised Contrastive Learning
专知会员服务
72+阅读 · 2020年4月24日
专知会员服务
44+阅读 · 2020年3月6日
真正的神经网络,敢于不学习权重
机器之心
6+阅读 · 2019年6月13日
MorphNet:致力打造规模更小、速度更快的神经网络
谷歌开发者
6+阅读 · 2019年5月6日
Google:数据并行对神经网络训练用时的影响
DeepMind:用PopArt进行多任务深度强化学习
论智
26+阅读 · 2018年9月14日
当前训练神经网络最快的方式:AdamW优化算法+超级收敛
中国人工智能学会
6+阅读 · 2018年7月4日
已删除
将门创投
10+阅读 · 2018年5月2日
入门 | 一文了解神经网络中的梯度爆炸
机器之心
8+阅读 · 2017年12月22日
Arxiv
6+阅读 · 2019年3月19日
Generalization and Regularization in DQN
Arxiv
6+阅读 · 2019年1月30日
Arxiv
6+阅读 · 2018年3月29日
Arxiv
8+阅读 · 2018年1月19日
VIP会员
相关VIP内容
【牛津大学&DeepMind】自监督学习教程,141页ppt
专知会员服务
177+阅读 · 2020年5月29日
【Google】监督对比学习,Supervised Contrastive Learning
专知会员服务
72+阅读 · 2020年4月24日
专知会员服务
44+阅读 · 2020年3月6日
相关资讯
真正的神经网络,敢于不学习权重
机器之心
6+阅读 · 2019年6月13日
MorphNet:致力打造规模更小、速度更快的神经网络
谷歌开发者
6+阅读 · 2019年5月6日
Google:数据并行对神经网络训练用时的影响
DeepMind:用PopArt进行多任务深度强化学习
论智
26+阅读 · 2018年9月14日
当前训练神经网络最快的方式:AdamW优化算法+超级收敛
中国人工智能学会
6+阅读 · 2018年7月4日
已删除
将门创投
10+阅读 · 2018年5月2日
入门 | 一文了解神经网络中的梯度爆炸
机器之心
8+阅读 · 2017年12月22日
微信扫码咨询专知VIP会员