【Facebook AI-ICLR2020】神经网络训练早期阶段探究，Early Phase of NN Training - 专知

会员服务 ·

0

【Facebook AI-ICLR2020】神经网络训练早期阶段探究，Early Phase of NN Training

2020 年 3 月 3 日 专知

地址：https://arxiv.org/abs/2002.10365

最近的研究表明，神经网络学习的许多重要方面都发生在训练的最早阶段。例如，稀疏的、可训练的子网络出现(Frankle et al.， 2019)，梯度下降移动到一个小的子空间(guri - ari et al.， 2018)，网络经历一个关键时期(Achille et al.， 2019)。在这里，我们检查了深层神经网络在早期训练阶段所经历的变化。在这些早期的训练迭代中，我们对网络状态进行了广泛的测量，并利用Frankle等人(2019)的框架来定量探测权重分布及其对数据集各个方面的依赖。我们发现，在这个框架中，深度网络在保持符号的同时，对随机权值的重新初始化不够健壮，并且即使经过几百次迭代，权值的分布仍然是非独立的。尽管存在这种行为，使用模糊输入或辅助自监督任务的预训练可以近似监督网络中的变化，这表明这些变化并不是固有的标签依赖，尽管标签显著地加速了这一过程。综上所述，这些结果有助于阐明在学习的关键初始阶段所发生的网络变化。

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“NNT” 就可以获取《【Facebook AI-ICLR2020】神经网络训练早期阶段探究，Early Phase of NN Training》专知下载链接

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

3

相关内容

ICLR2020

【ICML2020-浙江大学】对抗性互信息的文本生成

【ICML2020-浙江大学】对抗性互信息的文本生成

专知会员服务

44+阅读 · 2020年7月4日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【牛津大学&DeepMind】自监督学习教程，141页ppt

【牛津大学&DeepMind】自监督学习教程，141页ppt

专知会员服务

181+阅读 · 2020年5月29日

【CMU博士论文】用动态超参数优化改进深度学习训练和推理，Improving Deep Learning Training and Inference with Dynamic Hyperparameter Optimization

【CMU博士论文】用动态超参数优化改进深度学习训练和推理，Improving Deep Learning Training and Inference with Dynamic Hyperparameter Optimization

专知会员服务

55+阅读 · 2020年5月26日

【Google】监督对比学习，Supervised Contrastive Learning

【Google】监督对比学习，Supervised Contrastive Learning

专知会员服务

75+阅读 · 2020年4月24日

【Facebook AI】低资源机器翻译，74页ppt

【Facebook AI】低资源机器翻译，74页ppt

专知会员服务

30+阅读 · 2020年4月8日

【CVPR2020-Facebook AI】单样本自适应域脸生成，One-Shot Domain Adaptation

【CVPR2020-Facebook AI】单样本自适应域脸生成，One-Shot Domain Adaptation

专知会员服务

29+阅读 · 2020年4月6日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知会员服务

56+阅读 · 2020年3月12日

【伯克利】通过增大模型加速Transformer训练和推理

专知会员服务

45+阅读 · 2020年3月6日

【ICLR2020】深度神经网络优化轨迹的平衡点，The Break-Even Point on Optimization Trajectories of Deep Neural Networks

【ICLR2020】深度神经网络优化轨迹的平衡点，The Break-Even Point on Optimization Trajectories of Deep Neural Networks

专知会员服务

34+阅读 · 2020年2月27日

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

专知

48+阅读 · 2020年3月30日

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

专知

41+阅读 · 2020年3月25日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

深度学习算法与架构回顾

深度学习算法与架构回顾

专知

7+阅读 · 2019年5月5日

多模态多任务学习新论文

多模态多任务学习新论文

专知

46+阅读 · 2019年2月9日

【NLP】Facebook推出最新跨语言预训练模型，刷新多项跨语言任务记录

【NLP】Facebook推出最新跨语言预训练模型，刷新多项跨语言任务记录

专知

8+阅读 · 2019年1月24日

新任务&数据集：视觉常识推理(VCR)

新任务&数据集：视觉常识推理(VCR)

专知

50+阅读 · 2018年12月1日

Network Embedding 指南

Network Embedding 指南

专知

21+阅读 · 2018年8月13日

【干货】ACL 2018 鲁棒、无偏的NLP训练方法

【干货】ACL 2018 鲁棒、无偏的NLP训练方法

专知

4+阅读 · 2018年7月25日

Unsupervised Domain Clusters in Pretrained Language Models

Arxiv

11+阅读 · 2020年4月5日

Action Segmentation with Joint Self-Supervised Temporal Domain Adaptation

Arxiv

6+阅读 · 2020年3月18日

Weakly-Supervised Deep Learning for Domain Invariant Sentiment Classification

Arxiv

4+阅读 · 2019年10月29日

Fine-grained Sentiment Analysis with Faithful Attention

Fine-grained Sentiment Analysis with Faithful Attention

Arxiv

5+阅读 · 2019年8月19日

How to Fine-Tune BERT for Text Classification?

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

Pre-trained Language Model Representations for Language Generation

Arxiv

5+阅读 · 2019年4月1日

Constrained-CNN losses forweakly supervised segmentation

Arxiv

5+阅读 · 2018年5月12日

MaskRNN: Instance Level Video Object Segmentation

Arxiv

6+阅读 · 2018年3月29日

Unsupervised Cross-dataset Person Re-identification by Transfer Learning of Spatial-Temporal Patterns

Arxiv

7+阅读 · 2018年3月20日

What Does a TextCNN Learn?

Arxiv

8+阅读 · 2018年1月19日

VIP会员

相关主题

神经网络训练

相关VIP内容

【ICML2020-浙江大学】对抗性互信息的文本生成

【ICML2020-浙江大学】对抗性互信息的文本生成

专知会员服务

44+阅读 · 2020年7月4日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

【牛津大学&DeepMind】自监督学习教程，141页ppt

【牛津大学&DeepMind】自监督学习教程，141页ppt

专知会员服务

181+阅读 · 2020年5月29日

【CMU博士论文】用动态超参数优化改进深度学习训练和推理，Improving Deep Learning Training and Inference with Dynamic Hyperparameter Optimization

【CMU博士论文】用动态超参数优化改进深度学习训练和推理，Improving Deep Learning Training and Inference with Dynamic Hyperparameter Optimization

专知会员服务

55+阅读 · 2020年5月26日

【Google】监督对比学习，Supervised Contrastive Learning

【Google】监督对比学习，Supervised Contrastive Learning

专知会员服务

75+阅读 · 2020年4月24日

【Facebook AI】低资源机器翻译，74页ppt

【Facebook AI】低资源机器翻译，74页ppt

专知会员服务

30+阅读 · 2020年4月8日

【CVPR2020-Facebook AI】单样本自适应域脸生成，One-Shot Domain Adaptation

【CVPR2020-Facebook AI】单样本自适应域脸生成，One-Shot Domain Adaptation

专知会员服务

29+阅读 · 2020年4月6日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知会员服务

56+阅读 · 2020年3月12日

【伯克利】通过增大模型加速Transformer训练和推理

专知会员服务

45+阅读 · 2020年3月6日

【ICLR2020】深度神经网络优化轨迹的平衡点，The Break-Even Point on Optimization Trajectories of Deep Neural Networks

【ICLR2020】深度神经网络优化轨迹的平衡点，The Break-Even Point on Optimization Trajectories of Deep Neural Networks

专知会员服务

34+阅读 · 2020年2月27日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】低维与高维空间中潜在表征的分析、建模与变换

《生态建模密码破译：建模与编程实践》美陆军最新报告

大模型解决方案白皮书：社交陪伴场景全流程落地指南

面向具身操作的视觉-语言-动作模型综述

相关资讯

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

专知

48+阅读 · 2020年3月30日

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

专知

41+阅读 · 2020年3月25日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

深度学习算法与架构回顾

深度学习算法与架构回顾

专知

7+阅读 · 2019年5月5日

多模态多任务学习新论文

多模态多任务学习新论文

专知

46+阅读 · 2019年2月9日

【NLP】Facebook推出最新跨语言预训练模型，刷新多项跨语言任务记录

【NLP】Facebook推出最新跨语言预训练模型，刷新多项跨语言任务记录

专知

8+阅读 · 2019年1月24日

新任务&数据集：视觉常识推理(VCR)

新任务&数据集：视觉常识推理(VCR)

专知

50+阅读 · 2018年12月1日

Network Embedding 指南

Network Embedding 指南

专知

21+阅读 · 2018年8月13日

【干货】ACL 2018 鲁棒、无偏的NLP训练方法

【干货】ACL 2018 鲁棒、无偏的NLP训练方法

专知

4+阅读 · 2018年7月25日

相关论文

Unsupervised Domain Clusters in Pretrained Language Models

Arxiv

11+阅读 · 2020年4月5日

Action Segmentation with Joint Self-Supervised Temporal Domain Adaptation

Arxiv

6+阅读 · 2020年3月18日

Weakly-Supervised Deep Learning for Domain Invariant Sentiment Classification

Arxiv

4+阅读 · 2019年10月29日

Fine-grained Sentiment Analysis with Faithful Attention

Fine-grained Sentiment Analysis with Faithful Attention

Arxiv

5+阅读 · 2019年8月19日

How to Fine-Tune BERT for Text Classification?

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

Pre-trained Language Model Representations for Language Generation

Arxiv

5+阅读 · 2019年4月1日

Constrained-CNN losses forweakly supervised segmentation

Arxiv

5+阅读 · 2018年5月12日

MaskRNN: Instance Level Video Object Segmentation

Arxiv

6+阅读 · 2018年3月29日

Unsupervised Cross-dataset Person Re-identification by Transfer Learning of Spatial-Temporal Patterns

Arxiv

7+阅读 · 2018年3月20日

What Does a TextCNN Learn?

Arxiv

8+阅读 · 2018年1月19日

大家都在搜

国防科技创新

CMU博士论文

无人机集群

软件无线电

再见，TD-SCDMA！

微信扫码咨询专知VIP会员