【Facebook AI-ICLR2020】神经网络训练早期阶段探究，Early Phase of NN Training - 专知VIP

会员服务 ·

0

Facebook AI Research · ICLR · 人工神经网络 · 训练 ·

2020 年 3 月 3 日

【Facebook AI-ICLR2020】神经网络训练早期阶段探究，Early Phase of NN Training

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

最近的研究表明，神经网络学习的许多重要方面都发生在训练的最早阶段。例如，稀疏的、可训练的子网络出现(Frankle et al.， 2019)，梯度下降移动到一个小的子空间(guri - ari et al.， 2018)，网络经历一个关键时期(Achille et al.， 2019)。在这里，我们检查了深层神经网络在早期训练阶段所经历的变化。在这些早期的训练迭代中，我们对网络状态进行了广泛的测量，并利用Frankle等人(2019)的框架来定量探测权重分布及其对数据集各个方面的依赖。我们发现，在这个框架中，深度网络在保持符号的同时，对随机权值的重新初始化不够健壮，并且即使经过几百次迭代，权值的分布仍然是非独立的。尽管存在这种行为，使用模糊输入或辅助自监督任务的预训练可以近似监督网络中的变化，这表明这些变化并不是固有的标签依赖，尽管标签显著地加速了这一过程。综上所述，这些结果有助于阐明在学习的关键初始阶段所发生的网络变化。

成为VIP会员查看完整内容

18

相关内容

Facebook AI Research

Facebook AI Research

Facebook AI Research

【ICML2020】深度神经网络置信感知学习，Conﬁdence-Aware Learning for Deep Neural Networks

【ICML2020】深度神经网络置信感知学习，Conﬁdence-Aware Learning for Deep Neural Networks

专知会员服务

74+阅读 · 2020年7月6日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【牛津大学&DeepMind】自监督学习教程，141页ppt

【牛津大学&DeepMind】自监督学习教程，141页ppt

专知会员服务

181+阅读 · 2020年5月29日

【CMU博士论文】用动态超参数优化改进深度学习训练和推理，Improving Deep Learning Training and Inference with Dynamic Hyperparameter Optimization

【CMU博士论文】用动态超参数优化改进深度学习训练和推理，Improving Deep Learning Training and Inference with Dynamic Hyperparameter Optimization

专知会员服务

55+阅读 · 2020年5月26日

【Google】监督对比学习，Supervised Contrastive Learning

【Google】监督对比学习，Supervised Contrastive Learning

专知会员服务

75+阅读 · 2020年4月24日

【ICLR2020】用实对二进制卷积训练二进制神经网络，Training Binary Neural Networks with Real-to-Binary Convolutions

【ICLR2020】用实对二进制卷积训练二进制神经网络，Training Binary Neural Networks with Real-to-Binary Convolutions

专知会员服务

26+阅读 · 2020年3月26日

【ICML2020投稿论文-DeepMind】时序差分学习的推理与泛化，Temporal Difference Learning

专知会员服务

26+阅读 · 2020年3月16日

【伯克利】通过增大模型加速Transformer训练和推理

专知会员服务

45+阅读 · 2020年3月6日

【ICLR2020】深度神经网络优化轨迹的平衡点，The Break-Even Point on Optimization Trajectories of Deep Neural Networks

【ICLR2020】深度神经网络优化轨迹的平衡点，The Break-Even Point on Optimization Trajectories of Deep Neural Networks

专知会员服务

34+阅读 · 2020年2月27日

论深度学习的信息瓶颈理论（On the information bottleneck theory of deep learning）

论深度学习的信息瓶颈理论（On the information bottleneck theory of deep learning）

专知会员服务

66+阅读 · 2019年12月20日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

学界 | 神经网络的气宗与剑宗之争：先验强大的网络甚至不需要训练

学界 | 神经网络的气宗与剑宗之争：先验强大的网络甚至不需要训练

AI研习社

6+阅读 · 2019年6月15日

真正的神经网络，敢于不学习权重

真正的神经网络，敢于不学习权重

机器之心

6+阅读 · 2019年6月13日

MorphNet：致力打造规模更小、速度更快的神经网络

MorphNet：致力打造规模更小、速度更快的神经网络

谷歌开发者

6+阅读 · 2019年5月6日

Google：数据并行对神经网络训练用时的影响

Google：数据并行对神经网络训练用时的影响

论智

4+阅读 · 2018年11月27日

DeepMind：用PopArt进行多任务深度强化学习

DeepMind：用PopArt进行多任务深度强化学习

论智

29+阅读 · 2018年9月14日

当前训练神经网络最快的方式：AdamW优化算法+超级收敛

当前训练神经网络最快的方式：AdamW优化算法+超级收敛

中国人工智能学会

6+阅读 · 2018年7月4日

已删除

将门创投

10+阅读 · 2018年5月2日

训练深度神经网络失败的罪魁祸首不是梯度消失，而是退化

训练深度神经网络失败的罪魁祸首不是梯度消失，而是退化

机器之心

4+阅读 · 2018年1月7日

入门 | 一文了解神经网络中的梯度爆炸

入门 | 一文了解神经网络中的梯度爆炸

机器之心

8+阅读 · 2017年12月22日

Action Segmentation with Joint Self-Supervised Temporal Domain Adaptation

Arxiv

6+阅读 · 2020年3月18日

A Simple Framework for Contrastive Learning of Visual Representations

Arxiv

21+阅读 · 2020年2月13日

Weakly-Supervised Deep Learning for Domain Invariant Sentiment Classification

Arxiv

4+阅读 · 2019年10月29日

Cloze-driven Pretraining of Self-attention Networks

Arxiv

6+阅读 · 2019年3月19日

Generalization and Regularization in DQN

Generalization and Regularization in DQN

Arxiv

6+阅读 · 2019年1月30日

Phrase-Based & Neural Unsupervised Machine Translation

Arxiv

4+阅读 · 2018年4月20日

Learning a Robust Society of Tracking Parts using Co-occurrence Constraints

Arxiv

4+阅读 · 2018年4月5日

MaskRNN: Instance Level Video Object Segmentation

Arxiv

6+阅读 · 2018年3月29日

Unsupervised Cross-dataset Person Re-identification by Transfer Learning of Spatial-Temporal Patterns

Arxiv

7+阅读 · 2018年3月20日

What Does a TextCNN Learn?

Arxiv

8+阅读 · 2018年1月19日

VIP会员

相关主题

Facebook AI Research

人工神经网络

相关VIP内容

【ICML2020】深度神经网络置信感知学习，Conﬁdence-Aware Learning for Deep Neural Networks

【ICML2020】深度神经网络置信感知学习，Conﬁdence-Aware Learning for Deep Neural Networks

专知会员服务

74+阅读 · 2020年7月6日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【牛津大学&DeepMind】自监督学习教程，141页ppt

【牛津大学&DeepMind】自监督学习教程，141页ppt

专知会员服务

181+阅读 · 2020年5月29日

【CMU博士论文】用动态超参数优化改进深度学习训练和推理，Improving Deep Learning Training and Inference with Dynamic Hyperparameter Optimization

【CMU博士论文】用动态超参数优化改进深度学习训练和推理，Improving Deep Learning Training and Inference with Dynamic Hyperparameter Optimization

专知会员服务

55+阅读 · 2020年5月26日

【Google】监督对比学习，Supervised Contrastive Learning

【Google】监督对比学习，Supervised Contrastive Learning

专知会员服务

75+阅读 · 2020年4月24日

【ICLR2020】用实对二进制卷积训练二进制神经网络，Training Binary Neural Networks with Real-to-Binary Convolutions

【ICLR2020】用实对二进制卷积训练二进制神经网络，Training Binary Neural Networks with Real-to-Binary Convolutions

专知会员服务

26+阅读 · 2020年3月26日

【ICML2020投稿论文-DeepMind】时序差分学习的推理与泛化，Temporal Difference Learning

专知会员服务

26+阅读 · 2020年3月16日

【伯克利】通过增大模型加速Transformer训练和推理

专知会员服务

45+阅读 · 2020年3月6日

【ICLR2020】深度神经网络优化轨迹的平衡点，The Break-Even Point on Optimization Trajectories of Deep Neural Networks

【ICLR2020】深度神经网络优化轨迹的平衡点，The Break-Even Point on Optimization Trajectories of Deep Neural Networks

专知会员服务

34+阅读 · 2020年2月27日

论深度学习的信息瓶颈理论（On the information bottleneck theory of deep learning）

论深度学习的信息瓶颈理论（On the information bottleneck theory of deep learning）

专知会员服务

66+阅读 · 2019年12月20日

热门VIP内容

开通专知VIP会员享更多权益服务

《步兵小单元山地严寒作战指南》美军最新条令200页

《联合作战概念的发展》最新报告

俄制无人机弹药

《复杂场景下自主着陆的模型预测控制技术》92页

相关资讯

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

学界 | 神经网络的气宗与剑宗之争：先验强大的网络甚至不需要训练

学界 | 神经网络的气宗与剑宗之争：先验强大的网络甚至不需要训练

AI研习社

6+阅读 · 2019年6月15日

真正的神经网络，敢于不学习权重

真正的神经网络，敢于不学习权重

机器之心

6+阅读 · 2019年6月13日

MorphNet：致力打造规模更小、速度更快的神经网络

MorphNet：致力打造规模更小、速度更快的神经网络

谷歌开发者

6+阅读 · 2019年5月6日

Google：数据并行对神经网络训练用时的影响

Google：数据并行对神经网络训练用时的影响

论智

4+阅读 · 2018年11月27日

DeepMind：用PopArt进行多任务深度强化学习

DeepMind：用PopArt进行多任务深度强化学习

论智

29+阅读 · 2018年9月14日

当前训练神经网络最快的方式：AdamW优化算法+超级收敛

当前训练神经网络最快的方式：AdamW优化算法+超级收敛

中国人工智能学会

6+阅读 · 2018年7月4日

已删除

将门创投

10+阅读 · 2018年5月2日

训练深度神经网络失败的罪魁祸首不是梯度消失，而是退化

训练深度神经网络失败的罪魁祸首不是梯度消失，而是退化

机器之心

4+阅读 · 2018年1月7日

入门 | 一文了解神经网络中的梯度爆炸

入门 | 一文了解神经网络中的梯度爆炸

机器之心

8+阅读 · 2017年12月22日

相关论文

Action Segmentation with Joint Self-Supervised Temporal Domain Adaptation

Arxiv

6+阅读 · 2020年3月18日

A Simple Framework for Contrastive Learning of Visual Representations

Arxiv

21+阅读 · 2020年2月13日

Weakly-Supervised Deep Learning for Domain Invariant Sentiment Classification

Arxiv

4+阅读 · 2019年10月29日

Cloze-driven Pretraining of Self-attention Networks

Arxiv

6+阅读 · 2019年3月19日

Generalization and Regularization in DQN

Generalization and Regularization in DQN

Arxiv

6+阅读 · 2019年1月30日

Phrase-Based & Neural Unsupervised Machine Translation

Arxiv

4+阅读 · 2018年4月20日

Learning a Robust Society of Tracking Parts using Co-occurrence Constraints

Arxiv

4+阅读 · 2018年4月5日

MaskRNN: Instance Level Video Object Segmentation

Arxiv

6+阅读 · 2018年3月29日

Unsupervised Cross-dataset Person Re-identification by Transfer Learning of Spatial-Temporal Patterns

Arxiv

7+阅读 · 2018年3月20日

What Does a TextCNN Learn?

Arxiv

8+阅读 · 2018年1月19日

微信扫码咨询专知VIP会员