[ICML-Google]先宽后窄:对深度薄网络的有效训练 - 专知VIP

会员服务 ·

3

ICML2020 · 深度学习 · 模型压缩 ·

2020 年 7 月 5 日

[ICML-Google]先宽后窄:对深度薄网络的有效训练

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

Go Wide, Then Narrow: Efficient Training of Deep Thin Networks

为了将深度学习模型部署到生产中，它需要准确和紧凑，以满足延迟和内存的限制。这通常会导致网络的深度(以确保性能)和瘦(以提高计算效率)。本文提出了一种在理论保证下训练深薄网络的有效方法。我们的方法是由模型压缩驱动的。它由三个阶段组成。在第一阶段，我们充分拓宽深薄网络，并训练它直到收敛。在第二阶段，我们使用这个训练良好的深宽网络来预热(或初始化)原始的深薄网络。这是通过让瘦网络从层到层模拟宽网络的直接输出来实现的。在最后一个阶段，我们进一步优化这个初始化良好的深薄网络。通过平均场分析，建立了理论保证，表明了分层模拟比传统的反向传播从头开始训练深薄网络的优越性。我们还进行了大规模的实证实验来验证我们的方法。通过使用我们的方法进行训练，ResNet50可以超过ResNet101, BERTBASE可以与BERTLARGE相媲美，后者的模型都是通过文献中的标准训练程序进行训练的。

成为VIP会员查看完整内容

36

相关内容

ICML2020

深度神经网络模型压缩综述

专知会员服务

116+阅读 · 2020年8月22日

【ICML2020】深度神经网络置信感知学习，Conﬁdence-Aware Learning for Deep Neural Networks

【ICML2020】深度神经网络置信感知学习，Conﬁdence-Aware Learning for Deep Neural Networks

专知会员服务

74+阅读 · 2020年7月6日

紧凑的神经网络模型设计研究综述

专知会员服务

74+阅读 · 2020年5月21日

【CVPR2020-CMU】无数据模型选择，一种深度框架潜力

【CVPR2020-CMU】无数据模型选择，一种深度框架潜力

专知会员服务

23+阅读 · 2020年4月12日

【Google-MIT-哥伦比亚-ICRA2020】先看后学:操作前的视觉训练，Visual Pre-training

【Google-MIT-哥伦比亚-ICRA2020】先看后学:操作前的视觉训练，Visual Pre-training

专知会员服务

15+阅读 · 2020年3月21日

【ICLR2020-】基于记忆的图网络，MEMORY-BASED GRAPH NETWORKS

【ICLR2020-】基于记忆的图网络，MEMORY-BASED GRAPH NETWORKS

专知会员服务

110+阅读 · 2020年2月22日

模型压缩究竟在做什么？我们真的需要模型压缩么？

模型压缩究竟在做什么？我们真的需要模型压缩么？

专知会员服务

28+阅读 · 2020年1月16日

【论文】深度卷积神经网络的ImageNet分类（ImageNet Classification with Deep Convolutional Neural Networks）

【论文】深度卷积神经网络的ImageNet分类（ImageNet Classification with Deep Convolutional Neural Networks）

专知会员服务

14+阅读 · 2020年1月1日

【AAAI2020论文】小样本网络压缩，Few Shot Network Compression via Cross Distillation (附pdf）

专知会员服务

26+阅读 · 2019年11月23日

深度神经网络模型压缩与加速综述

深度神经网络模型压缩与加速综述

专知会员服务

129+阅读 · 2019年10月12日

ICCV 2019 | 精确的端到端的弱监督目标检测网络

ICCV 2019 | 精确的端到端的弱监督目标检测网络

AI科技评论

11+阅读 · 2019年12月9日

田渊栋从数学上证明ICLR最佳论文“彩票假设”，强化学习和NLP也适用

田渊栋从数学上证明ICLR最佳论文“彩票假设”，强化学习和NLP也适用

新智元

8+阅读 · 2019年11月27日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

谷歌提出新型卷积网络EfficientNet：推理速度提升5.1倍，参数减少88%（附论文&代码）

谷歌提出新型卷积网络EfficientNet：推理速度提升5.1倍，参数减少88%（附论文&代码）

数据派THU

6+阅读 · 2019年6月8日

ICLR2019最佳论文！神经网络子网络压缩10倍，精确度保持不变 | MIT出品

ICLR2019最佳论文！神经网络子网络压缩10倍，精确度保持不变 | MIT出品

量子位

3+阅读 · 2019年5月7日

超越标准 GNN ！DeepMind、谷歌提出图匹配网络| ICML最新论文

超越标准 GNN ！DeepMind、谷歌提出图匹配网络| ICML最新论文

新智元

20+阅读 · 2019年5月6日

CVPR 2019 | 用异构卷积训练深度CNN：提升效率而不损准确度

CVPR 2019 | 用异构卷积训练深度CNN：提升效率而不损准确度

计算机视觉life

6+阅读 · 2019年3月25日

【学界】CVPR 2019 | 用异构卷积训练深度CNN：提升效率而不损准确度

【学界】CVPR 2019 | 用异构卷积训练深度CNN：提升效率而不损准确度

GAN生成式对抗网络

8+阅读 · 2019年3月18日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

学界 | 阿里 NIPS 2017 Workshop论文：基于 TensorFlow 的深度模型训练 GPU 显存优化

学界 | 阿里 NIPS 2017 Workshop论文：基于 TensorFlow 的深度模型训练 GPU 显存优化

AI科技评论

4+阅读 · 2017年12月17日

Attentive Graph Neural Networks for Few-Shot Learning

Attentive Graph Neural Networks for Few-Shot Learning

Arxiv

40+阅读 · 2020年7月14日

Position-aware Graph Neural Networks

Position-aware Graph Neural Networks

Arxiv

15+阅读 · 2019年6月11日

How to Fine-Tune BERT for Text Classification?

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

Graph2Seq: Graph to Sequence Learning with Attention-based Neural Networks

Graph2Seq: Graph to Sequence Learning with Attention-based Neural Networks

Arxiv

7+阅读 · 2018年12月3日

Online Deep Metric Learning

Arxiv

8+阅读 · 2018年5月15日

Accelerated Reinforcement Learning

Arxiv

6+阅读 · 2018年4月24日

Dialogue Learning with Human Teaching and Feedback in End-to-End Trainable Task-Oriented Dialogue Systems

Arxiv

6+阅读 · 2018年4月18日

Optimizing Slate Recommendations via Slate-CVAE

Arxiv

4+阅读 · 2018年4月9日

Generative Adversarial Autoencoder Networks

Arxiv

11+阅读 · 2018年3月23日

Deep Reinforcement Learning for List-wise Recommendations

Arxiv

13+阅读 · 2018年1月5日

VIP会员

相关主题

相关VIP内容

深度神经网络模型压缩综述

专知会员服务

116+阅读 · 2020年8月22日

【ICML2020】深度神经网络置信感知学习，Conﬁdence-Aware Learning for Deep Neural Networks

【ICML2020】深度神经网络置信感知学习，Conﬁdence-Aware Learning for Deep Neural Networks

专知会员服务

74+阅读 · 2020年7月6日

紧凑的神经网络模型设计研究综述

专知会员服务

74+阅读 · 2020年5月21日

【CVPR2020-CMU】无数据模型选择，一种深度框架潜力

【CVPR2020-CMU】无数据模型选择，一种深度框架潜力

专知会员服务

23+阅读 · 2020年4月12日

【Google-MIT-哥伦比亚-ICRA2020】先看后学:操作前的视觉训练，Visual Pre-training

【Google-MIT-哥伦比亚-ICRA2020】先看后学:操作前的视觉训练，Visual Pre-training

专知会员服务

15+阅读 · 2020年3月21日

【ICLR2020-】基于记忆的图网络，MEMORY-BASED GRAPH NETWORKS

【ICLR2020-】基于记忆的图网络，MEMORY-BASED GRAPH NETWORKS

专知会员服务

110+阅读 · 2020年2月22日

模型压缩究竟在做什么？我们真的需要模型压缩么？

模型压缩究竟在做什么？我们真的需要模型压缩么？

专知会员服务

28+阅读 · 2020年1月16日

【论文】深度卷积神经网络的ImageNet分类（ImageNet Classification with Deep Convolutional Neural Networks）

【论文】深度卷积神经网络的ImageNet分类（ImageNet Classification with Deep Convolutional Neural Networks）

专知会员服务

14+阅读 · 2020年1月1日

【AAAI2020论文】小样本网络压缩，Few Shot Network Compression via Cross Distillation (附pdf）

专知会员服务

26+阅读 · 2019年11月23日

深度神经网络模型压缩与加速综述

深度神经网络模型压缩与加速综述

专知会员服务

129+阅读 · 2019年10月12日

热门VIP内容

开通专知VIP会员享更多权益服务

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

《美国太空军系统全生命周期建模、仿真与分析效能提升方案》最新84页报告

【博士论文】推进数据高效的深度学习：非参数 Transformer、主动测试与上下文学习

自主人工智能：未来战争是否将是自主化的？

相关资讯

ICCV 2019 | 精确的端到端的弱监督目标检测网络

ICCV 2019 | 精确的端到端的弱监督目标检测网络

AI科技评论

11+阅读 · 2019年12月9日

田渊栋从数学上证明ICLR最佳论文“彩票假设”，强化学习和NLP也适用

田渊栋从数学上证明ICLR最佳论文“彩票假设”，强化学习和NLP也适用

新智元

8+阅读 · 2019年11月27日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

谷歌提出新型卷积网络EfficientNet：推理速度提升5.1倍，参数减少88%（附论文&代码）

谷歌提出新型卷积网络EfficientNet：推理速度提升5.1倍，参数减少88%（附论文&代码）

数据派THU

6+阅读 · 2019年6月8日

ICLR2019最佳论文！神经网络子网络压缩10倍，精确度保持不变 | MIT出品

ICLR2019最佳论文！神经网络子网络压缩10倍，精确度保持不变 | MIT出品

量子位

3+阅读 · 2019年5月7日

超越标准 GNN ！DeepMind、谷歌提出图匹配网络| ICML最新论文

超越标准 GNN ！DeepMind、谷歌提出图匹配网络| ICML最新论文

新智元

20+阅读 · 2019年5月6日

CVPR 2019 | 用异构卷积训练深度CNN：提升效率而不损准确度

CVPR 2019 | 用异构卷积训练深度CNN：提升效率而不损准确度

计算机视觉life

6+阅读 · 2019年3月25日

【学界】CVPR 2019 | 用异构卷积训练深度CNN：提升效率而不损准确度

【学界】CVPR 2019 | 用异构卷积训练深度CNN：提升效率而不损准确度

GAN生成式对抗网络

8+阅读 · 2019年3月18日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

学界 | 阿里 NIPS 2017 Workshop论文：基于 TensorFlow 的深度模型训练 GPU 显存优化

学界 | 阿里 NIPS 2017 Workshop论文：基于 TensorFlow 的深度模型训练 GPU 显存优化

AI科技评论

4+阅读 · 2017年12月17日

相关论文

Attentive Graph Neural Networks for Few-Shot Learning

Attentive Graph Neural Networks for Few-Shot Learning

Arxiv

40+阅读 · 2020年7月14日

Position-aware Graph Neural Networks

Position-aware Graph Neural Networks

Arxiv

15+阅读 · 2019年6月11日

How to Fine-Tune BERT for Text Classification?

How to Fine-Tune BERT for Text Classification?

Arxiv

13+阅读 · 2019年5月14日

Graph2Seq: Graph to Sequence Learning with Attention-based Neural Networks

Graph2Seq: Graph to Sequence Learning with Attention-based Neural Networks

Arxiv

7+阅读 · 2018年12月3日

Online Deep Metric Learning

Arxiv

8+阅读 · 2018年5月15日

Accelerated Reinforcement Learning

Arxiv

6+阅读 · 2018年4月24日

Dialogue Learning with Human Teaching and Feedback in End-to-End Trainable Task-Oriented Dialogue Systems

Arxiv

6+阅读 · 2018年4月18日

Optimizing Slate Recommendations via Slate-CVAE

Arxiv

4+阅读 · 2018年4月9日

Generative Adversarial Autoencoder Networks

Arxiv

11+阅读 · 2018年3月23日

Deep Reinforcement Learning for List-wise Recommendations

Arxiv

13+阅读 · 2018年1月5日

微信扫码咨询专知VIP会员